一文教会你用Python读取PDF文件

更新时间：2022年08月09日 11:16:23 作者：梦想橡皮擦

Python 工程师在日常的工作中，经常会碰到解析和处理PDF文件的情况。本文将pdfplumber进行PDF文件的读取操作，感兴趣的可以了解一下

实战场景

Python 工程师在日常的工作中，经常会碰到解析和处理PDF文件的情况，实战中需求主要分为如下情况：

提取 PDF 中的文字
将 PDF 中每页转换为图片
word 转换为PDF
PDF生成，编辑，导入导出
PDF在线渲染

除了最后一项需要前端配合以外，其余内容都可以直接在 python 端进行实现。

本次实战选择 pdfplumber 库进行学习，可以提前安装该库，不过有一点需要注意，该库主要用于读取 PDF 进行操作，写入和编辑无法实现，即本文学习一款专注于 PDF 内容提取的库。

> pip install pdfplumber -i https://pypi.tuna.tsinghua.edu.cn/simple

pdfplumber 库具备如下特点：

可以访问PDF对象中的任意元素详细信息；
可以提取文本和表格，而且用法简单；
集成了可视化调试。

Python PDF 实战编码

下面可以编写 PDF 操作的基础代码。

import pdfplumber

with pdfplumber.open('./dddd.pdf') as pdf:
    for page in pdf.pages:
        print(page.extract_text())

        # 每页打印一分页分隔
        print('---------- 分页分隔 ----------')

导入 pdfplumber 模块之后，使用 pdfplumber.open('./dddd.pdf') 打开本地 pdf 文件，然后通过 pdf.pages 遍历所有页，在通过页对象的 .extract_text() 方法，提取文本信息。

pdfplumber.open() 方法的签名如下所示：

pdfplumber.open("文件名", password = "密码", laparams = { "line_overlap": 0.7 })

其中各参数描述如下：

file_name：文件名，必选参数；
password：PDF的密码；
laparams：布局参数。

除此之外，如果希望读取 PDF，还可以使用 load() 方法，该方法也会返回 pdfplumber.PDF 类的实例。

pdfplumber.PDF 对象实例，主要有两个重要属性：

.metadata：从PDF的Info中获取元数据键 /值对字典。通常包括“ CreationDate”，“ ModDate”，“ Producer”等；
.pages：包含 pdfplumber.Page 实例的列表，每一个实例代表PDF每一页的信息。

上文提及的 pdfplumber.Page 实例是 pdfplumber 的核心，后续对 PDF 的操作大量围绕该类的属性和方法实施，其重要属性如下所示：

page_number：页码顺序，第一页的序号是 1；
witdh：宽度；
height：高度；
.objects/.chars/.lines/.rects/.curves/.figures/.images：获取PDF页中的重要数据。

核心方法如下所示：

extract_text()：提取页中的文本；
extract_words()：提取所有单词及其相关信息；
extract_tables()：提取页面的表格。

extract_text() 呈现结果

extract_words() 呈现结果

extract_tables() 呈现效果，由于 PDF 中无表格，所有每页得到的都是空！

补充

当然Python除了读取PDF文件，还有一些其他功能，例如加密PDF，旋转和叠加页面等，下面是实现的示例代码

旋转和叠加页面

import PyPDF2

from PyPDF2.pdf import PageObject

# 创建一个读PDF文件的Reader对象

reader = PyPDF2.PdfFileReader('resources/XGBoost.pdf')

# 创建一个写PDF文件的Writer对象

writer = PyPDF2.PdfFileWriter()

# 对PDF文件所有页进行循环遍历

for page_num in range(reader.numPages):

      # 获取指定页码的Page对象

      current_page = reader.getPage(page_num) # type: PageObject

      if page_num % 2 == 0:

         # 奇数页顺时针旋转90度

         current_page.rotateClockwise(90)

      else:

# 偶数页反时针旋转90度

             current_page.rotateCounterClockwise(90)

      writer.addPage(current_page)

# 最后添加一个空白页并旋转90度

page = writer.addBlankPage() # type: PageObject

page.rotateClockwise(90)

# 通过Writer对象的write方法将PDF写入文件

with open('resources/XGBoost-modified.pdf', 'wb') as file:

    writer.write(file)

加密PDF文件

import PyPDF2

reader = PyPDF2.PdfFileReader('resources/XGBoost.pdf')
writer = PyPDF2.PdfFileWriter()

for page_num in range(reader.numPages):
     writer.addPage(reader.getPage(page_num))

# 通过encrypt方法加密PDF文件，方法的参数就是rre

#设置的密码
writer.encrypt('foobared')

with open('resources/XGBoost-encrypted.pdf', 'wb') as file:

       writer.write(file)

批量添加水印

import PyPDF2

from PyPDF2.pdf import PageObject

reader1 = PyPDF2.PdfFileReader('resources/XGBoost.pdf') reader2 = PyPDF2.PdfFileReader('resources/watermark.pdf')
writer = PyPDF2.PdfFileWriter()

# 获取水印页
watermark_page = reader2.getPage(0)

for page_num in range(reader1.numPages):

     current_page = reader1.getPage(page_num) # type: PageObject                                           current_page.mergePage(watermark_page)

     # 将原始页和水印页进行合并
     writer.addPage(current_page) 

# 将PDF写入文件
with open('resources/XGBoost-watermarked.pdf', 'wb') as file:

       writer.write(file)

到此这篇关于一文教会你用Python读取PDF文件的文章就介绍到这了,更多相关Python读取PDF文件内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

django解决跨域请求的问题
这篇文章主要介绍了django解决跨域请求的问题，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2018-11-11
详细聊聊为什么Python中0.2+0.1不等于0.3
最近在学习过程中发现在计算机JS时发现了一个非常有意思事,0.1+0.2的结果不是0.3,而是0.30000000000000004,下面这篇文章主要给大家介绍了关于为什么Python中0.2+0.1不等于0.3的相关资料,需要的朋友可以参考下
2022-12-12
python库h5py入门详解
本文只是简单的对h5py库的基本创建文件，数据集和读取数据的方式进行介绍，文中通过示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2022-03-03
Python动态规划实现虚拟机部署的算法思想
这篇文章主要介绍了Python动态规划实现虚拟机部署的算法思想，本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
2021-07-07
python程序运行添加命令行参数argparse模块具体用法详解
这篇文章主要给大家介绍了关于python程序运行添加命令行参数argparse模块具体用法的相关资料,argparse是Python内置的一个用于命令项选项与参数解析的模块,通过在程序中定义好我们需要的参数,需要的朋友可以参考下
2024-01-01
Python Tornado核心及相关原理详解
这篇文章主要介绍了Python Tornado核心及相关原理详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-06-06
python实现将JSON文件中的数据格式化处理
JSON是一种轻量级的数据交换格式,常用于Web服务间的数据传输,Python内置了json模块,能够方便地进行JSON数据的解析与格式化,本文将通过具体的Python代码实例,深入探讨如何将JSON文件中的数据进行格式化处理,需要的朋友可以参考下
2024-03-03
使用Python中的线程进行网络编程的入门教程
这篇文章主要介绍了使用Python中的线程进行网络编程的入门教程,本文来自于IBM官方网站技术文档,需要的朋友可以参考下
2015-04-04
Numpy如何检查数组全为零的几种方法
本文主要介绍了Numpy如何检查数组全为零的几种方法，文中通过示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2021-10-10
python 多进程共享全局变量之Manager()详解
这篇文章主要介绍了python 多进程共享全局变量之Manager()详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-08-08

一文教会你用Python读取PDF文件

目录

实战场景

Python PDF 实战编码

补充

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具