Python利用PyPDF2库实现轻松提取PDF文本

更新时间：2023年09月17日 08:57:27 作者：Python数据开发

ython中的PyPDF2库是一个非常有用的工具,无论您是需要分析PDF文档中的内容还是需要在文档中搜索特定的信息,PyPDF2都可以帮助您轻松实现这些任务,下面我们就来学习一下如何利用PyPDF2提取PDF文本吧

安装PyPDF2库

首先，您需要安装PyPDF2库。您可以使用pip来安装它：

pip install PyPDF2

打开PDF文件，并读取内容

让我们从一个简单的示例开始。假设我们有一个名为"sample.pdf"的PDF文件，并且我们想要提取其中的文本内容。

import PyPDF2
# 打开PDF文件
pdf_file = open('YOLOv1.pdf', 'rb')
# 创建一个PDF对象
pdf_reader = PyPDF2.PdfReader(pdf_file)
# 获取PDF文件中的页面数量
num_pages = len(pdf_reader.pages)
# 创建一个空字符串，用于存储提取的文本
text = ""
# 循环遍历每一页并提取文本
for page_num in range(num_pages):
    page = pdf_reader.pages[page_num]
    text += page.extract_text()
# 关闭PDF文件
pdf_file.close()
# 打印提取的文本
print(text)

以上代码将打开名为"YOLOv1.pdf"的PDF文件，遍历每一页并将文本内容提取到一个字符串中。最后，它会打印提取的文本。

提取结果

高级用法

除了基本的文本提取，PyPDF2还提供了其他功能，例如合并多个PDF文件、旋转页面、添加书签等。让我们详细讨论一些高级用法，并提供相应的代码示例。

合并多个PDF文件

有时，您可能需要将多个PDF文件合并成一个文件。PyPDF2允许您执行此操作。

from PyPDF2 import PdfWriter
merger = PdfWriter()
for pdf in ["M:\YOLOv1.pdf", "M:\YOLOv2.pdf"]:
    merger.append(pdf)
merger.write("M:\merged.pdf")
merger.close()

以上代码将打开名为’YOLOv1.pdf’和’YOLOv1.pdf’的两个PDF文件，将它们的内容合并到一个新的PDF文件’merged.pdf’中。

旋转页面

有时，PDF文件中的页面可能需要旋转。使用PyPDF2，您可以旋转页面以适应您的需求。

import PyPDF2
# 打开PDF文件
pdf_file = open('M:\YOLOv1.pdf', 'rb')
# 创建PDF对象
pdf_reader = PyPDF2.PdfReader(pdf_file)
# 创建一个新的PDF对象
pdf_writer = PyPDF2.PdfWriter()
# 旋转第一页90度
page = pdf_reader.pages[0]
page.rotate(90)
pdf_writer.add_page(page)
# 将未旋转的页面添加到新文件中
for page_num in range(1, len(pdf_reader.pages)):
    page = pdf_reader.pages[page_num]
    pdf_writer.add_page(page)
# 创建一个新的PDF文件并保存旋转后的内容
output_pdf = open('M:\YOLOv1-rd.pdf', 'wb')
pdf_writer.write(output_pdf)
# 关闭所有打开的文件
pdf_file.close()
output_pdf.close()

以上代码将打开名为’YOLOv1.pdf’的PDF文件，旋转第一页90度，并将旋转后的页面保存到新的PDF文件’YOLOv1-rd.pdf’中。

添加书签

您还可以使用PyPDF2在PDF文件中添加书签，以便更轻松地导航和查找内容。

以上代码将打开名为’YOLOv1.pdf’的PDF文件，将其内容复制到新的PDF文件’YOLOv1-copy.pdf’中，并在第一页和第六页添加了两个书签。

import PyPDF2
# 打开PDF文件
pdf_file = open('M:\YOLOv1.pdf', 'rb')
# 创建PDF对象
pdf_reader = PyPDF2.PdfReader(pdf_file)
# 创建一个新的PDF对象
pdf_writer = PyPDF2.PdfWriter()
# 循环遍历每一页并将页面添加到新文件中
for page_num in range(len(pdf_reader.pages)):
    page = pdf_reader.pages[page_num]
    pdf_writer.add_page(page)
# 添加书签
pdf_writer.add_bookmark('Chapter 1', 0)  # 在第一页添加一个名为"Chapter 1"的书签
pdf_writer.add_bookmark('Chapter 2', 5)  # 在第六页添加一个名为"Chapter 2"的书签
# 创建一个新的PDF文件并保存带有书签的内容
output_pdf = open('M:\YOLOv1-copy.pdf', 'wb')
pdf_writer.write(output_pdf)
# 关闭所有打开的文件
pdf_file.close()
output_pdf.close()

结论

使用PyPDF2库，您可以轻松地从PDF文件中提取文本，这对于数据分析、信息检索和自动化任务非常有用。希望这篇文章和示例代码有助于您开始使用PyPDF2进行PDF文本提取。如若需要其他高级用法，例如比例调整、放缩等操作，可以访问PyPDF2的官方网站查看其他示例。

以上就是Python利用PyPDF2库实现轻松提取PDF文本的详细内容，更多关于Python PyPDF2提取PDF文本的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

在langchain中对大模型的输出进行格式化实现
这篇文章主要为大家介绍了在langchain中对大模型的输出进行格式化实现示例详解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2023-11-11
python:目标检测模型预测准确度计算方式(基于IoU)
今天小编就为大家分享一篇python:目标检测模型预测准确度计算方式(基于IoU)，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-01-01
Python计数器collections.Counter用法详解
本文主要介绍了Python计数器collections.Counter用法详解，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2023-03-03
python中的字典使用分享
Python 中的字典是Python中一个键值映射的数据结构,下面介绍一下如何操作字典,希望大家能够喜欢
2016-07-07
python中isdigit() isalpha()用于判断字符串的类型问题
这篇文章主要介绍了python中isdigit() isalpha()用于判断字符串的类型问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2022-11-11
LangChain简化ChatGPT工程复杂度使用详解
这篇文章主要为大家介绍了LangChain简化ChatGPT工程复杂度使用详解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2023-03-03
利用python做数据拟合详情
这篇文章主要介绍了利用python做数据拟合，下面文章围绕如何让利用python做数据拟合的相关资料展开详细内容,需要的朋友可以参考一下，希望对大家有所帮助
2021-11-11
Python实现xml格式转txt格式的示例代码
VOC 的标注是xml格式的，而YOLO是.txt格式，所以要实现VOC数据集转YOLO数据集，只能利用代码实现。所以本文为大家介绍了Python中xml转txt的示例代码，需要的可以参考一下
2022-03-03
Python keras.metrics源代码分析
最近在用keras写模型的时候，参考别人代码时，经常能看到各种不同的metrics，因此会产生几个问题，下面主要介绍了Python keras.metrics源代码分析
2022-11-11
Pycharm2020.1安装中文语言插件的详细教程(不需要汉化)
这篇文章主要介绍了Pycharm2020.1安装中文语言插件的详细教程,不需要汉化,本文给大家分享三种方法，在这小编推荐使用方法二，具体内容详情大家跟随小编一起看看吧
2020-08-08