python解析PDF程序代码

 更新时间:2021年06月19日 11:24:14   作者:酸奶面包  
python解析pdf信息,目前还是不能做到很完善,每个方法都会有它的弊端,都需要结合自己的业务场景来和其它方法一块进行使用,从而达到一个相对满意的目标,接下来给大家介绍python解析PDF的程序代码,一起看看吧

说在前面

和word的文本相比PDF更类似于一张张图片,图上放着一个个文字。对其的解析是将图片上的文字提取到text文件中,方便之后的分析。

添加依赖

在python的环境中安装PDFminer3k,不要装错了,一开始我装的是PDFminer,结果有几个包不能用
pip install pdfminer3k

源程序代码

#!/usr/bin/env python3
# -*- coding:utf-8 -*-
# pip3 install pdfminer3k

import os
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams, LTTextBoxHorizontal
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter, PDFTextExtractionNotAllowed
from pdfminer.pdfdevice import PDFDevice


def read_pdf(pdf_name, result_name):
    # 以二进制读模式打开
    fp = open(pdf_name, 'rb')
    # 用文件对象来创建一个pdf文档分析器
    parser = PDFParser(fp)
    # 创建一个pdf文档
    doc = PDFDocument()
    # 连接分析器 与文档对象
    parser.set_document(doc)
    doc.set_parser(parser)
    # 提供初始密码,如果没有密码 就创建一个空的字符串
    doc.initialize('')
    # 检测文档是否提供txt转换,不提供就抛出异常
    if not doc.is_extractable:
        raise PDFTextExtractionNotAllowed
    # 创建PDf 资源管理器 来管理共享资源
    rsrcmgr = PDFResourceManager()
    # 创建一个PDF设备对象
    laparams = LAParams()
    device = PDFPageAggregator(rsrcmgr, laparams=laparams)
    # 创建一个PDF解释器对象
    interpreter = PDFPageInterpreter(rsrcmgr, device)

    with open(result_name, "w", encoding="u8") as fd_out:
        # 循环遍历列表,每次处理一个page的内容
        for i, page in enumerate(doc.get_pages(), 1):
            index = "===========《第{}页》===========".format(i)
            print(index)
            fd_out.write(index + "\n")
            interpreter.process_page(page)
            # 接受该页面的LTPage对象
            layout = device.get_result()
            for x in layout:
                # 这里layout是一个LTPage对象 里面存放着 这个page解析出的各种对象 一般包括LTTextBox,
                # LTFigure, LTImage, LTTextBoxHorizontal 等等 想要获取文本就获得对象的text属性
                if not isinstance(x, LTTextBoxHorizontal):
                    continue
                results = x.get_text()
                print(results)
                fd_out.write(results)

if __name__ == '__main__':

    # 获取读取文件夹
    filePath = '../PDFfile'
    #遍历文件夹
    for i,j,k in os.walk(filePath):
        for m in k:
            # 格式化输出的名称和地址
            result = '../TextFile/' + m[:-4] + '.txt'
            # 格式化源文件路径
            fileName = i + '/' + m
            # 调用函数解析
            read_pdf(fileName, result)

参考以下代码内容:python 读取pdf文本内容

#!/usr/bin/env python3
#-*- coding:utf-8 -*-
# pip3 install pdfminer3k
  
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams, LTTextBoxHorizontal
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter, PDFTextExtractionNotAllowed
from pdfminer.pdfdevice import PDFDevice
 
def read_pdf(pdf_name, result_name):
    # 以二进制读模式打开
    fp = open(pdf_name, 'rb')
    # 用文件对象来创建一个pdf文档分析器
    parser = PDFParser(fp)
    # 创建一个pdf文档
    doc = PDFDocument()
    # 连接分析器 与文档对象
    parser.set_document(doc)
    doc.set_parser(parser)
    # 提供初始密码,如果没有密码 就创建一个空的字符串
    doc.initialize('')
    # 检测文档是否提供txt转换,不提供就抛出异常
    if not doc.is_extractable:
        raise PDFTextExtractionNotAllowed
    # 创建PDf 资源管理器 来管理共享资源
    rsrcmgr = PDFResourceManager()
    # 创建一个PDF设备对象
    laparams = LAParams()
    device = PDFPageAggregator(rsrcmgr, laparams=laparams)
    # 创建一个PDF解释器对象
    interpreter = PDFPageInterpreter(rsrcmgr, device)
     
    with open(result_name,"w",encoding="u8") as fd_out:
        # 循环遍历列表,每次处理一个page的内容
        for i,page in enumerate(doc.get_pages(),1):
            index = "===========《第{}页》===========".format(i)
            print(index)
            fd_out.write(index + "\n")
            interpreter.process_page(page)
            # 接受该页面的LTPage对象
            layout = device.get_result()
            for x in layout:
                # 这里layout是一个LTPage对象 里面存放着 这个page解析出的各种对象 一般包括LTTextBox,
                # LTFigure, LTImage, LTTextBoxHorizontal 等等 想要获取文本就获得对象的text属性
                if not isinstance(x, LTTextBoxHorizontal):
                    continue
                results = x.get_text()
                print(results)
                fd_out.write(results)   
                       
if __name__ == '__main__':
    pdf_name = 'test.pdf'
    result = 'test.txt'
    read_pdf(pdf_name, result)

以上就是python解析PDF的详细内容,更多关于python解析PDF的资料请关注脚本之家其它相关文章!

相关文章

  • 使用Matplotlib创建基本图表的详细指南

    使用Matplotlib创建基本图表的详细指南

    Matplotlib 是一个功能强大的 Python 库,用于创建各种类型的图表和可视化,在本文中,我们将提供一个完整的指南,介绍如何使用 Matplotlib 创建基本的图表,包括折线图、散点图、柱状图和饼图,感兴趣的小伙伴跟着小编一起来看看吧
    2024-05-05
  • Python使用py2exe打包程序介绍

    Python使用py2exe打包程序介绍

    这篇文章主要介绍了Python使用py2exe打包程序介绍,本文讲解了py2exe简介、安装、用法、指定额外文件等内容,需要的朋友可以参考下
    2014-11-11
  • Python中关于元组 集合 字符串 函数 异常处理的全面详解

    Python中关于元组 集合 字符串 函数 异常处理的全面详解

    本篇文章介绍了我在学习python过程中对元组、集合、字符串、函数、异常处理的总结,通读本篇对大家的学习或工作具有一定的价值,需要的朋友可以参考下
    2021-10-10
  • Python 移动光标位置的方法

    Python 移动光标位置的方法

    今天小编就为大家分享一篇Python 移动光标位置的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-01-01
  • Python-pip配置国内镜像源快速下载包的方法详解

    Python-pip配置国内镜像源快速下载包的方法详解

    pip如果不配置国内镜像源的话,下载包的速度非常慢,毕竟默认的源在国外呢,这篇文章主要介绍了Python-pip配置国内镜像源快速下载包的方法详解,需要的朋友可以参考下
    2024-01-01
  • Python dateutil库简化日期时间处理利器使用场景实践

    Python dateutil库简化日期时间处理利器使用场景实践

    在Python中,处理日期和时间是常见的任务之一,dateutil库是Python标准库中datetime模块的扩展,提供了许多方便的工具和函数,简化了日期和时间的操作
    2023-12-12
  • Python最小二乘法矩阵

    Python最小二乘法矩阵

    今天小编就为大家分享一篇关于Python最小二乘法矩阵,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
    2019-01-01
  • python Pandas库基础分析之时间序列的处理详解

    python Pandas库基础分析之时间序列的处理详解

    这篇文章主要介绍了python Pandas库基础分析之时间序列的处理详解,Pandas作为Python环境下的数据分析库,更是提供了强大的日期数据处理的功能,是处理时间序列的利器,需要的朋友可以参考下
    2019-07-07
  • Python 内置变量和函数的查看及说明介绍

    Python 内置变量和函数的查看及说明介绍

    今天小编就为大家分享一篇Python 内置变量和函数的查看及说明介绍,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-12-12
  • 基于Python共轭梯度法与最速下降法之间的对比

    基于Python共轭梯度法与最速下降法之间的对比

    这篇文章主要介绍了基于Python共轭梯度法与最速下降法之间的对比,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-04-04

最新评论