使用Python将PDF转换为文档的方法实现
所需模块
在深入研究代码之前,请确保你已在 Python 环境中安装了这些必需的模块。
pip install pdf2docx
使用 Python 将 PDF 转换为文档
pdf2docx 模块使用 PyMuPDF 从 PDF 中提取信息,包括文本、图片和插图。它可以通过调整边距、部分和列来生成新的布局。它提供文本方向、方向和字体属性等功能。Microsoft Word、PDF、RTF、ODT 和 TXT 等文档文件对于学术界、商业、研究和出版等各个领域至关重要。PDF 文件灵活、跨平台兼容,并且可以在多种操作系统上查看。
使用“pdf2docx”库将 PDF 转换为文档
该代码片段使用“pdf2docx”库将 PDF 文件转换为 DOCX 文件,并使用“Converter”函数初始化转换过程。在“cv”对象上调用“convert()”方法,并调用“close()”方法来终止转换。
# 导入所需模块 from pdf2docx import Converter # 将PDF的位置保存在一个单独的变量中 pdf_file = r"C:\Users\DELL\Desktop\INTERNSHIP\DSA GEEEKSFORGEEKS.pdf" # 在单独的变量中维护文档的路径 docx_file = r"C:\Users\DELL\Desktop\INTERNSHIP\DSA GEEEKSFORGEEKS.docx" # 使用内置函数,通过将PDF文件保存在变量中,将其转换为文档文件。 cv = Converter(pdf_file) # 将文档存储在变量的初始化路径中 cv.convert(docx_file) # 通过函数close()转换闭包 cv.close()
输出:
使用文件路径导入 Parse
该代码使用pdf2docx库中的extract函数将PDF文件转换为DOCX文件,将其转换为所需的格式并将其存储在指定位置。
from pdf2docx import parse pdf_file = r"C:\Users\DELL\Desktop\INTERNSHIP\DSA GEEEKSFORGEEKS.pdf" docx_file = r"C:\Users\DELL\Desktop\INTERNSHIP\DSA GEEEKSFORGEEKS.docx" # 将pdf转换为docx parse(pdf_file, docx_file)
输出:
到此这篇关于使用Python将PDF转换为文档的方法实现的文章就介绍到这了,更多相关Python将PDF转换为文档内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!
相关文章
pytorch中Tensor.to(device)和model.to(device)的区别及说明
这篇文章主要介绍了pytorch中Tensor.to(device)和model.to(device)的区别及说明,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教2022-07-07pyodps中的apply用法及groupby取分组排序第一条数据
这篇文章主要介绍了pyodps中的apply用法及groupby取分组排序第一条数据,问绽放围绕主题展开详细的内容介绍,具有一定的参考价值需要的小伙伴可以参考一下2022-05-05
最新评论