Python实现将pdf文档保存成图片格式

更新时间：2024年10月31日 09:09:02 作者：IT小瓯

有时候我们会碰到只支持图片上传的场景,如何编程快速将pdf转成图片呢？可以使用 Python 的 pdf2image 库仅10行代码就能将 PDF 文档保存为图片格式,所以本文给大家介绍了如何使用Python实现将pdf文档保存成图片格式,需要的朋友可以参考下

步骤：

安装所需的库：

可以使用以下命令来安装：

pdf2image: 用于将 PDF 转换为图片。
poppler-utils（非 Python 包，需要系统安装）：用于支持 PDF 的渲染，pdf2image 依赖它。

pip install pdf2image

Poppler 安装（根据系统不同）：

在 Windows 上，你可以下载 Poppler for Windows 并将其路径添加到系统环境变量中。
在 Linux 上，通常可以通过包管理器安装：

sudo apt-get install poppler-utils

Python 代码：
- 下面的代码示例可以将多页的 PDF 保存为多张图片，每页生成一个独立的 PNG 文件。

from pdf2image import convert_from_path

# PDF 文件路径
pdf_path = 'your_pdf_file_path.pdf'

# 将 PDF 转换为图片
images = convert_from_path(pdf_path, dpi=150)

# 保存每一页为单独的图片
for i, image in enumerate(images):
    output_path = f'page_{i + 1}.png'
    image.save(output_path, 'PNG')

    print(f'Saved: {output_path}')

代码解析：

from pdf2image import convert_from_path：
- 从 pdf2image 库中导入 convert_from_path 函数，用于将 PDF 文件转换为图片。
images = convert_from_path(pdf_path, dpi=150)：
- 将 PDF 文件转换为图片对象列表。dpi 参数用于设置图片的质量（DPI 越高，质量越好）。
- 每一页的图片都会被存储在 images 列表中。
for i, image in enumerate(images)：
- 遍历 images 列表，逐页保存。
- 使用 image.save(output_path, 'PNG') 保存每页为 PNG 格式。文件名由 output_path 指定，例如 page_1.png，page_2.png 等。

示例输出：

如果 PDF 文档有 5 页，代码会生成 5 张图片：
- page_1.png
- page_2.png
- page_3.png
- page_4.png
- page_5.png

这样可以实现将 PDF 中的每一页保存为单独的图片，非常适合需要将 PDF 分割成多张图片的场景。

如上轻松生成了我想要的图片，把convert_pdf_to_image.py文件保留下来，这样就多了一个可以把pdf转成图片的工具了，编程就是如此快乐~

常见错误1：ImportError

ImportError: cannot import name 'convert_from_path' from partially initialized module 'pdf2image' (most likely due to a circular import) (C:\workspace\python\pdf2image\pdf2image.py)

这个错误通常是因为文件命名冲突引起的。如果你的脚本或者工作目录中有文件名叫 pdf2image.py，它会导致 Python 误认为你在导入的模块是你自己的文件，而不是实际的库模块。为了解决这个问题，可以按以下步骤进行修复：

解决步骤：

重命名本地文件：
- 确保你没有将你的脚本或工作目录中的任何文件命名为 pdf2image.py。
- 比如，将你的文件重命名为 convert_pdf_to_image.py 或者其他不包含 pdf2image 的名字。
检查.pyc 文件：
- 重命名后，也需要删除由 Python 生成的编译文件（.pyc 文件），这些文件可能仍在指向错误的模块版本。
- 删除 __pycache__ 文件夹，或者直接删除目录中的 .pyc 文件。
重新运行代码：
- 重命名文件后，重新运行代码。

示例：

如果你的文件原名是 pdf2image.py，请将其更改为其他名字，例如 convert_pdf_images.py。
删除当前目录下的 __pycache__ 文件夹：
- 在 Windows 上，你可以手动删除文件夹。
- 在 Linux 或 macOS 上，运行：

rm -rf __pycache__

修复后的代码：

确认文件重命名和缓存清除后，可以重新运行以下代码：

from pdf2image import convert_from_path

# PDF 文件路径
pdf_path = 'your_pdf_file_path.pdf'

# 将 PDF 转换为图片
images = convert_from_path(pdf_path, dpi=150)

# 保存每一页为单独的图片
for i, image in enumerate(images):
    output_path = f'page_{i + 1}.png'
    image.save(output_path, 'PNG')
    print(f'Saved: {output_path}')

额外建议：

如果仍然遇到问题，可以尝试创建一个全新的 Python 虚拟环境来确保没有命名冲突，方法如下：

python -m venv new_env

然后激活虚拟环境，并安装依赖：

new_env\Scripts\activate  # Windows
source new_env/bin/activate  # Linux/macOS

pip install pdf2image

这应该可以解决 ImportError，避免模块命名冲突的问题。

常见错误2：pdf2image.exceptions.

pdf2image.exceptions.PDFInfoNotInstalledError: Unable to get page count. Is poppler installed and in PATH?

这个错误是因为 pdf2image 依赖于 Poppler，而 Poppler 没有安装或没有被正确添加到系统的 PATH 环境变量中。Poppler 是一个 PDF 渲染工具，pdf2image 使用它来处理 PDF 转换。下面是如何安装和配置 Poppler 的步骤：

在不同系统上安装 Poppler

1. Windows

你需要下载 Poppler 的 Windows 版本并将其路径添加到系统环境变量中。
下载地址：Poppler for Windows
下载 ZIP 文件并解压到某个目录（例如：C:\poppler）。
将解压目录的 bin 文件夹路径添加到系统的 PATH 环境变量中：
- 按 Win + R，输入 sysdm.cpl，进入 系统属性。
- 在高级选项卡中，点击 环境变量。
- 在系统变量中找到 Path，点击编辑。
- 添加 Poppler 的 bin 文件夹路径（例如：C:\poppler\bin）。
验证 Poppler 是否安装成功：
- 打开命令提示符，输入以下命令：

pdfinfo

- 如果成功安装，你会看到 pdfinfo 的相关信息输出。

2. Linux

大多数 Linux 发行版可以通过包管理器安装 Poppler：

sudo apt-get install poppler-utils

或者在基于 Fedora 的系统上：

sudo dnf install poppler-utils

3. macOS

你可以使用 Homebrew 来安装 Poppler：

添加 Poppler 到 PATH

如果在安装之后还是遇到错误，需要确保 Poppler 的可执行文件在系统的 PATH 环境变量中，具体步骤如下：
- 在 Windows 上，确保 Poppler 安装目录的 bin 文件夹路径（如 C:\poppler\bin）已添加到环境变量中。
- 在 Linux/macOS 上，安装时通常会自动添加到 PATH 中。

验证安装

在终端中运行以下命令，确保 Poppler 工具可以被找到：

pdfinfo --version

- 如果 Poppler 安装正确并且在 PATH 中，你将看到 Poppler 的版本信息。

再次运行代码

完成 Poppler 的安装和环境变量配置之后，可以重新运行你的 Python 代码：

from pdf2image import convert_from_path

# PDF 文件路径
pdf_path = 'your_pdf_file_path.pdf'

# 将 PDF 转换为图片
images = convert_from_path(pdf_path, dpi=150)

# 保存每一页为单独的图片
for i, image in enumerate(images):
    output_path = f'page_{i + 1}.png'
    image.save(output_path, 'PNG')
    print(f'Saved: {output_path}')

这个过程应该可以解决 PDFInfoNotInstalledError，确保 pdf2image 可以正常调用 Poppler 进行 PDF 转换。

以上就是Python实现将pdf文档保存成图片格式的详细内容，更多关于Python pdf保存成图片的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

Python常见库matplotlib学习笔记之画图中各个模块的含义及修改方法
matplotlib是python最著名的绘图库,它提供了一整套和matlab相似的命令API,十分适合交互式地进行制图,下面这篇文章主要给大家介绍了关于Python常见库matplotlib学习笔记之画图中各个模块的含义及修改方法的相关资料,需要的朋友可以参考下
2023-05-05
Python爬虫之网络请求
这篇文章主要介绍了Python爬虫之网络请求，文章基于Python展开对网络请求的相关介绍，需要的小伙伴可以参考一下
2022-04-04
使用Python和PySpark进行数据分析的实战教程
数据分析是当今信息时代中至关重要的技能之一,Python和PySpark作为强大的工具,提供了丰富的库和功能,使得数据分析变得更加高效和灵活,在这篇文章中,我们将深入探讨如何使用Python和PySpark进行数据分析,需要的朋友可以参考下
2024-01-01
python属于解释型语言么
在本篇文章里小编给大家整理了关于python是否属于解释型语言的相关知识点内容，需要的朋友们可以学习下。
2020-06-06
Python利用glob库实现轻松应对文件和目录管理
Python提供了glob库，它允许我们根据特定模式匹配文件和目录，本文将详细介绍glob库的用法，并通过实例演示它的各种功能，需要的可以了解一下
2023-07-07
python必学知识之文件操作（建议收藏）
python中对文件、文件夹（文件操作函数）的操作需要涉及到os模块和shutil模块。下面这篇文章主要给大家介绍了关于python必学知识之文件操作的相关资料,需要的朋友可以参考下
2021-05-05
Python的Django REST框架中的序列化及请求和返回
这篇文章主要介绍了Python的Django REST框架中的序列化及请求和返回,使用Django REST来实现RESTful web service非常方便和强大,需要的朋友可以参考下
2016-04-04
python binascii 进制转换实例
今天小编就为大家分享一篇python binascii 进制转换实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-06-06
python pyg2plot的原理知识点总结
在本篇文章里小编给大家整理的是一篇关于python pyg2plot的原理知识点总结内容，有兴趣的朋友们可以参考下。
2021-02-02
Python用selenium实现自动登录和下单的项目实战
本文主要介绍了Python用selenium实现自动登录和下单的项目实战，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2023-02-02