python 使用pdfminer3k 读取PDF文档的例子

 更新时间:2019年08月27日 11:23:42   作者:彭世瑜  
今天小编就为大家分享一篇python 使用pdfminer3k 读取PDF文档的例子,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

1、安装 pdfminer3k

通过pip安装: pip install pdfminer3k

下载安装:在网页 https://pypi.org/project/pdfminer3k/1.3.1/#files 进行下载,解压。然后cmd命令进入到当前文件夹:

可以直接在资源管理器的路径栏直接输入cmd进入到当前目录。然后执行 python setup.py install 等待安装完成


2.读取pdf中的TXT代码示例:

from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice

# 可以使用此方法获取网络上的pdf
from urllib.request import urlopen
fp = urlopen("https://******/articles/800348152163.pdf")

#获取文档对象
#fp = open("****.pdf", "rb")

#创建一个一个与文档关联的解释器
parser = PDFParser(fp)

#PDF文档的对象
doc = PDFDocument()

#连接解释器和文档对象
parser.set_document(doc)
doc.set_parser(parser)

#初始化文档,当前文档没有密码,设为空字符串
doc.initialize("")

#创建PDF资源管理器
resource = PDFResourceManager()

#参数分析器
laparam = LAParams()

#创建一个聚合器
device = PDFPageAggregator(resource, laparams=laparam)

#创建PDF页面解释器
interpreter = PDFPageInterpreter(resource, device)

#使用文档对象得到页面的集合
for page in doc.get_pages():
 # 使用页面解释器读取
 interpreter.process_page(page)

 # 使用聚合器来获得内容
 layout = device.get_result()

 for out in layout:
  if hasattr(out, "get_text"):
   print(out.get_text())

以上这篇python 使用pdfminer3k 读取PDF文档的例子就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Python 批量验证和添加手机号码为企业微信联系人

    Python 批量验证和添加手机号码为企业微信联系人

    你是否也有过需要添加很多微信好友的时候,一个个输入添加太麻烦了,本篇文章手把手教你用Python替我们完成这繁琐的操作,大家可以在过程中查缺补漏,看看自己掌握程度怎么样
    2021-10-10
  • MySQL适配器PyMySQL详解

    MySQL适配器PyMySQL详解

    这篇文章主要为大家详细介绍了MySQL适配器PyMySQL的相关资料,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-09-09
  • Python使用Redis实现作业调度系统(超简单)

    Python使用Redis实现作业调度系统(超简单)

    Redis作为内存数据库的一个典型代表,已经在很多应用场景中被使用,这里仅就Redis的pub/sub功能来说说怎样通过此功能来实现一个简单的作业调度系统。这里只是想展现一个简单的想法,所以还是有很多需要考虑的东西没有包括在这个例子中,比如错误处理,持久化等
    2016-03-03
  • 详解python持久化文件读写

    详解python持久化文件读写

    这篇文章主要介绍了python持久化文件读写,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-04-04
  • python实现dijkstra最短路由算法

    python实现dijkstra最短路由算法

    这篇文章主要为大家详细介绍了python实现dijkstra最短路由算法,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-01-01
  • python实现矩阵打印

    python实现矩阵打印

    这篇文章主要为大家详细介绍了python实现矩阵打印的相关代码,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-03-03
  • Python中几种属性访问的区别与用法详解

    Python中几种属性访问的区别与用法详解

    这篇文章主要给大家介绍了关于Python中几种属性访问的区别和用法的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2018-10-10
  • 用Python代码来绘制彭罗斯点阵的教程

    用Python代码来绘制彭罗斯点阵的教程

    这篇文章主要介绍了用Python代码来绘制彭罗斯点阵的教程,核心代码主要就是一行简单的lambda匿名函数,需要的朋友可以参考下
    2015-04-04
  • python pandas 数据排序的几种常用方法

    python pandas 数据排序的几种常用方法

    这篇文章主要介绍了python pandas数据排序的几种常用方法,文章围绕主题展开详细的内容介绍,具有一定的参考价值,需要的小伙伴可以参考一下
    2022-09-09
  • Python实现FM算法解析

    Python实现FM算法解析

    这篇文章主要介绍了Python实现FM算法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-06-06

最新评论