python基于pdfminer库提取pdf文字代码实例

 更新时间:2019年08月15日 14:52:32   作者:jokerBi  
这篇文章主要介绍了python 提取pdf文字代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

安装pdfminer 库

windows 下安装pdfminer3k

pip install pdfminer3k

Liunx 下安装pdfminer

pip install pdfminer

代码

from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams, LTTextBoxHorizontal
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed, PDFResourceManager, PDFPageInterpreter
def pdfParse(path):
"""
pdf文字提取
:param path:文件路径
:return: 每页结果列表
"""
fp = open(path, 'rb') # 以二进制读模式打开
# 用文件对象来创建一个pdf文档分析器
praser = PDFParser(fp)
# 创建一个PDF文档
doc = PDFDocument()
# 连接分析器 与文档对象
praser.set_document(doc)
doc.set_parser(praser)
# 提供初始化密码
# 如果没有密码 就创建一个空的字符串
doc.initialize()
# 检测文档是否提供txt转换,不提供就忽略
if not doc.is_extractable:
 raise PDFTextExtractionNotAllowed
else:
 # 创建PDf 资源管理器 来管理共享资源
 rsrcmgr = PDFResourceManager()
 # 创建一个PDF设备对象
 laparams = LAParams()
 device = PDFPageAggregator(rsrcmgr, laparams=laparams)
 # 创建一个PDF解释器对象
 interpreter = PDFPageInterpreter(rsrcmgr, device)
 #每页文字内容
 results = []
 # 循环遍历列表,每次处理一个page的内容
 for page in doc.get_pages(): # doc.get_pages() 获取page列表
  interpreter.process_page(page)
  # 接受该页面的LTPage对象
  layout = device.get_result()
  # 这里layout是一个LTPage对象 里面存放着 这个page解析出的各种对象 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等 想要获取文本就获得对象的text属性,
  for x in layout:
   if isinstance(x, LTTextBoxHorizontal):
    results.append(x.get_text())
 return results

该库是根据 迭代pdf每一页 进行文字提取, 也可以识别判断页码的功能

另外还有一个pypdf2 库也可以识别但是感觉不如这个准确

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • Python中断点调试pdb包的用法详解

    Python中断点调试pdb包的用法详解

    pdb(python debugger) 是 python 中的一个命令行调试包,为 python 程序提供了一种交互的源代码调试功能,下面就跟随小编一起学习一下它的具体使用吧
    2024-01-01
  • python中sample函数的介绍与使用

    python中sample函数的介绍与使用

    sample()函数常用来随机获取dataFrame中数据,可以用于快速查看,下面这篇文章主要给大家介绍了关于python中sample函数的介绍与使用的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2022-09-09
  • python加密打包程序详解

    python加密打包程序详解

    这篇文章主要介绍了python加密打包程序,还给大家介绍了Python实现文件简单加解密的方法,本文通过示例代码给大家介绍的非常详细,需要的朋友可以参考下
    2023-04-04
  • Python自定义函数的创建、调用和函数的参数详解

    Python自定义函数的创建、调用和函数的参数详解

    这篇文章主要介绍了Python自定义函数的创建、调用和函数的参数、变量作用域等常见问题,需要的朋友可以参考下
    2014-03-03
  • python 比较2张图片的相似度的方法示例

    python 比较2张图片的相似度的方法示例

    这篇文章主要介绍了python 比较2张图片的相似度的方法示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-12-12
  • Python实现双进程防止单点故障实例深度探究

    Python实现双进程防止单点故障实例深度探究

    在分布式系统中,确保系统的高可用性是至关重要的,本文将深入探讨如何使用Python实现双进程自我保护机制,以应对单点故障,确保系统稳定运行,将通过详实的示例代码,介绍双进程自我保护的原理、实现步骤以及可能遇到的挑战
    2024-01-01
  • Python用Try语句捕获异常的实例方法

    Python用Try语句捕获异常的实例方法

    在本篇文章中小编给大家整理了关于Python用Try语句如何捕获异常的相关知识点内容,需要的朋友们参考下。
    2019-06-06
  • 基于Python实现微信自动回复功能

    基于Python实现微信自动回复功能

    这篇文章主要为大家详细介绍了Python如何通过WechatPCAPI来实现微信自动回复的功能,文中的示例代码讲解详细,快跟随小编一起动手尝试一下
    2022-06-06
  • Django如何与Ajax交互

    Django如何与Ajax交互

    Django前端模板向后端发送POST请求主要有两种方式:form表单和ajax请求。本文将详细介绍Django与Ajax的交互方式,如何通过csrftoken认证,并提供了两个具体示例。
    2021-04-04
  • python 实现Requests发送带cookies的请求

    python 实现Requests发送带cookies的请求

    这篇文章主要介绍了python 实现Requests发送带cookies请求的方法,帮助大家更好的理解和使用python,感兴趣的朋友可以了解下
    2021-02-02

最新评论