python 使用pdfminer3k 读取PDF文档的例子

更新时间：2019年08月27日 11:23:42 作者：彭世瑜

今天小编就为大家分享一篇python 使用pdfminer3k 读取PDF文档的例子，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

1、安装 pdfminer3k

通过pip安装: pip install pdfminer3k

下载安装：在网页 https://pypi.org/project/pdfminer3k/1.3.1/#files 进行下载，解压。然后cmd命令进入到当前文件夹：

可以直接在资源管理器的路径栏直接输入cmd进入到当前目录。然后执行 python setup.py install 等待安装完成

2.读取pdf中的TXT代码示例：

from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice

# 可以使用此方法获取网络上的pdf
from urllib.request import urlopen
fp = urlopen("https://******/articles/800348152163.pdf")

#获取文档对象
#fp = open("****.pdf", "rb")

#创建一个一个与文档关联的解释器
parser = PDFParser(fp)

#PDF文档的对象
doc = PDFDocument()

#连接解释器和文档对象
parser.set_document(doc)
doc.set_parser(parser)

#初始化文档,当前文档没有密码，设为空字符串
doc.initialize("")

#创建PDF资源管理器
resource = PDFResourceManager()

#参数分析器
laparam = LAParams()

#创建一个聚合器
device = PDFPageAggregator(resource, laparams=laparam)

#创建PDF页面解释器
interpreter = PDFPageInterpreter(resource, device)

#使用文档对象得到页面的集合
for page in doc.get_pages():
 # 使用页面解释器读取
 interpreter.process_page(page)

 # 使用聚合器来获得内容
 layout = device.get_result()

 for out in layout:
  if hasattr(out, "get_text"):
   print(out.get_text())

以上这篇python 使用pdfminer3k 读取PDF文档的例子就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

Python 批量验证和添加手机号码为企业微信联系人
你是否也有过需要添加很多微信好友的时候，一个个输入添加太麻烦了，本篇文章手把手教你用Python替我们完成这繁琐的操作,大家可以在过程中查缺补漏，看看自己掌握程度怎么样
2021-10-10
MySQL适配器PyMySQL详解
这篇文章主要为大家详细介绍了MySQL适配器PyMySQL的相关资料，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2017-09-09
Python使用Redis实现作业调度系统(超简单)
Redis作为内存数据库的一个典型代表，已经在很多应用场景中被使用，这里仅就Redis的pub/sub功能来说说怎样通过此功能来实现一个简单的作业调度系统。这里只是想展现一个简单的想法，所以还是有很多需要考虑的东西没有包括在这个例子中，比如错误处理，持久化等
2016-03-03
详解python持久化文件读写
这篇文章主要介绍了python持久化文件读写，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-04-04
python实现dijkstra最短路由算法
这篇文章主要为大家详细介绍了python实现dijkstra最短路由算法，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2019-01-01
python实现矩阵打印
这篇文章主要为大家详细介绍了python实现矩阵打印的相关代码，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2019-03-03
Python中几种属性访问的区别与用法详解
这篇文章主要给大家介绍了关于Python中几种属性访问的区别和用法的相关资料，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2018-10-10
用Python代码来绘制彭罗斯点阵的教程
这篇文章主要介绍了用Python代码来绘制彭罗斯点阵的教程,核心代码主要就是一行简单的lambda匿名函数,需要的朋友可以参考下
2015-04-04
python pandas 数据排序的几种常用方法
这篇文章主要介绍了python pandas数据排序的几种常用方法，文章围绕主题展开详细的内容介绍，具有一定的参考价值，需要的小伙伴可以参考一下
2022-09-09
Python实现FM算法解析
这篇文章主要介绍了Python实现FM算法解析，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-06-06

python 使用pdfminer3k 读取PDF文档的例子

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具