使用Python将PDF表格提取到文本,CSV和Excel文件中

更新时间：2024年11月03日 09:02:13 作者：Eiceblue

本文将介绍如何使用简单的Python代码从PDF文档中提取表格数据并将其写入文本、CSV和Excel文件,从而轻松实现PDF表格的自动化提取,有需要的可以参考下

从PDF文档中提取表格并将其转换为更易于处理的格式（如文本、CSV和Excel文件），是数据分析和信息管理中的常见需求。此过程可显著简化表格数据的处理，使数据的操作、分析和与其他数据集的集成更加便捷。无论是财务报表、研究论文，还是包含结构化信息的其他文档，掌握这些表格准确转换的方法对于充分发挥数据潜力至关重要。

本文将介绍如何使用简单的Python代码从PDF文档中提取表格数据并将其写入文本、CSV和Excel文件，从而轻松实现PDF表格的自动化提取。

本文所需的库为Spire.PDF for Python。可通过PyPI安装：pip install spire.pdf。

用于操作的示例PDF

如何使用Python提取PDF表格数据

库中的PdfTableExtractor类用于处理PDF文档的表格提取。可以通过PdfTableExtractor.ExtractTable(pageIndex: int)方法从PDF页面中提取表格，并以Utilities_PdfTable对象的集合形式返回表格数据。接着，可通过遍历表格并使用Utilities_PdfTable.GetCellText(rowIndex: int, columnIndex: int)方法获取每个单元格中的数据。

提取PDF表格数据的一般步骤如下：

创建一个PdfDocument实例并使用PdfDocument.LoadFromFile()方法加载PDF文档。
使用该文档创建PdfTableExtractor实例。
使用PdfTableExtractor.ExtractTable(pageIndex: int)方法提取文档中每页的表格。
遍历每个表格并使用Utilities_PdfTable.GetCellText(rowIndex: int, columnIndex: int)方法获取单元格值。
将提取的表格数据写入其他文件。

注意：当使用提取的表格数据构建字符串时，如果单元格文本中包含换行符，最终生成的文本文件中可能会多出额外的换行符。为了避免造成混淆，应将这些换行符去除或替换为空格。

用Python将PDF表格数据提取为文本文件

提取PDF文档中的表格数据后，可直接将每个表格的数据写入字符串并保存到文本文件中，从而实现将PDF表格数据导出为文本文件。

具体步骤如下：

1.导入所需模块：PdfDocument和PdfTableExtractor。

2.创建PdfDocument实例并使用PdfDocument.LoadFromFile()方法加载PDF文档。

3.使用该文档创建PdfTableExtractor实例。

4.使用PdfTableExtractor.ExtractTable(pageIndex: int)方法提取每页中的表格。

5.遍历提取的表格：

创建一个str对象以存储表格数据。
使用Utilities_PdfTable.GetCellText(rowIndex: int, columnIndex: int)方法获取单元格值。
将单元格值追加到str对象中。
将str对象写入文件。

6.释放资源

代码示例

from spire.pdf import PdfDocument, PdfTableExtractor

# 创建一个 PdfDocument 对象
pdf = PdfDocument()
# 加载一个 PDF 文档
pdf.LoadFromFile("Sample.pdf")

# 创建一个 PdfTableExtractor 对象
extractor = PdfTableExtractor(pdf)

# 遍历所有页面
for pageIndex in range(pdf.Pages.Count):
    # 从每个 PDF 页面中提取表格
    tables = extractor.ExtractTable(pageIndex)
    # 如果存在多个表格，则遍历这些表格
    if tables is not None:
        for tableIndex in range(len(tables)):
            # 获取一个表格
            table = tables[tableIndex]
            # 创建一个字符串对象来存储表格数据
            tableData = ""
            # 遍历表格的行和列
            for rowIndex in range(table.GetRowCount()):
                for colIndex in range(table.GetColumnCount()):
                    # 获取单元格文本
                    text = table.GetText(rowIndex, colIndex)
                    text = text.replace("\n", " ")
                    # 将单元格文本添加到表格数据中
                    tableData += text
                    if colIndex < table.GetColumnCount() - 1:
                        tableData += "\t"
                tableData += "\n"
            # 将表格数据写入文本文件
            with open(f"output/Tables/Page{pageIndex+1}-Table{tableIndex+1}.txt", "w", encoding="utf-8") as f:
                f.write(tableData)

# 释放资源
pdf.Dispose()

输出结果

用Python将PDF表格数据提取为CSV文件

同样，可以使用类似方法从PDF文档中提取表格数据，并利用Python标准库中的CSV模块将每个表格写入CSV文件。在此过程中也需注意去除或替换换行符，以改善CSV文件的结果。具体步骤如下：

1.导入所需模块：PdfDocument、PdfTableExtractor和CSV。

2.创建PdfDocument实例并使用PdfDocument.LoadFromFile()方法加载PDF文档。

3.使用该文档创建PdfTableExtractor实例。

4.使用PdfTableExtractor.ExtractTable(pageIndex: int)方法提取每页中的表格。

5.遍历提取的表格：

创建CSV文件。
遍历表格中的行并创建列表以存储行数据。
使用Utilities_PdfTable.GetCellText(rowIndex: int, columnIndex: int)方法获取每行的单元格值并追加到列表中。
使用csv.writer().writerow()方法将每行写入CSV文件。

6.释放资源。

代码示例

from spire.pdf import PdfDocument, PdfTableExtractor
import csv

# 创建一个 PdfDocument 对象
pdf = PdfDocument()
# 加载一个 PDF 文档
pdf.LoadFromFile("Sample.pdf")

# 创建一个 PdfTableExtractor 对象
extractor = PdfTableExtractor(pdf)

# 遍历所有页面
for pageIndex in range(pdf.Pages.Count):
    # 从每个 PDF 页面中提取表格
    tables = extractor.ExtractTable(pageIndex)
    # 如果存在多个表格，则遍历这些表格
    if tables is not None:
        for tableIndex in range(len(tables)):
            # 获取一个表格
            table = tables[tableIndex]
            # 创建一个 CSV 文件
            with open("output/Tables/Page" + str(pageIndex+1) + "-Table" + str(tableIndex+1) + ".csv", "w", newline='', encoding='utf-8') as csvFile:
                writer = csv.writer(csvFile)
                # 遍历表格的行和列
                for rowIndex in range(table.GetRowCount()):
                    row = []
                    for colIndex in range(table.GetColumnCount()):
                        # 获取单元格文本
                        text = table.GetText(rowIndex, colIndex)
                        text = text.replace('\n', ' ')
                        row.append(text)
                    writer.writerow(row)

# 释放资源
pdf.Dispose()

输出结果

用Python将PDF表格数据提取到Excel工作表

可使用另一库Spire.XLS for Python将提取的PDF表格数据写入Excel工作表。通过PyPI获取Spire.PDF for Python：pip install spire.xls。

具体步骤如下：

1.导入所需模块：PdfDocument、PdfTableExtractor、Workbook和spire.xls.FileFormat。

2.创建PdfDocument实例并使用PdfDocument.LoadFromFile()方法加载PDF文档。

3.创建Workbook实例用于存储表格，并使用Workbook.Worksheets.Clear()方法清除默认工作表。

4.使用该文档创建PdfTableExtractor实例。

5.使用PdfTableExtractor.ExtractTable(pageIndex: int)方法提取每页中的表格。

6.遍历提取的表格：

使用Workbook.Worksheets.Add(sheetName: str)方法为每个表格添加工作表。
使用Utilities_PdfTable.GetCellText(rowIndex: int, columnIndex: int)方法获取表格的单元格值。
通过Worksheet.Range[rowIndex + 1, colIndex + 1].Text属性将单元格值写入相应的工作表单元格。

7.使用Workbook.SaveToFile()方法保存工作簿。

8.释放资源。

代码示例

from spire.pdf import PdfDocument, PdfTableExtractor
from spire.xls import Workbook, FileFormat, HorizontalAlignType

# 创建一个 PdfDocument 对象
pdf = PdfDocument()
# 加载一个 PDF 文档
pdf.LoadFromFile("Sample.pdf")

# 创建一个 Workbook 对象
workbook = Workbook()
# 清除默认的工作表
workbook.Worksheets.Clear()

# 创建一个 PdfTableExtractor 对象
extractor = PdfTableExtractor(pdf)

# 从每个 PDF 页面中提取表格
for pageIndex in range(pdf.Pages.Count):
    tables = extractor.ExtractTable(pageIndex)
    # 如果存在多个表格，则遍历这些表格
    if tables is not None:
        for tableIndex in range(len(tables)):
            # 获取一个表格
            table = tables[tableIndex]
            # 为表格创建一个工作表
            sheet = workbook.Worksheets.Add(f"Page{pageIndex + 1}-Table{tableIndex + 1}")
            # 遍历表格的行和列
            for rowIndex in range(table.GetRowCount()):
                for colIndex in range(table.GetColumnCount()):
                    # 获取单元格值
                    text = table.GetText(rowIndex, colIndex)
                    cellText = text.replace("\n", "")
                    # 将单元格值写入工作表的相应单元格
                    sheet.Range[rowIndex + 1, colIndex + 1].Text = cellText

            # 可选：自定义表格的外观
            # 设置标题行样式
            sheet.Rows.get_Item(0).Style.Font.FontName = "Yu Gothic UI"
            sheet.Rows.get_Item(0).Style.Font.Size = 12
            sheet.Rows.get_Item(0).Style.Font.IsBold = True
            sheet.Rows.get_Item(0).Style.HorizontalAlignment = HorizontalAlignType.Center
            # 设置数据行样式
            for i in range(1, sheet.Rows.Count):
                sheet.Rows.get_Item(i).Style.Font.FontName = "Yu Gothic UI"
                sheet.Rows.get_Item(i).Style.Font.Size = 12
                sheet.Rows.get_Item(i).Style.HorizontalAlignment = HorizontalAlignType.Left
            # 自动调整列宽
            for j in range(1, sheet.Columns.Count):
                sheet.AutoFitColumn(j)

# 保存工作簿
workbook.SaveToFile("output/PDFTableToExcel.xlsx", FileFormat.Version2016)
# 释放资源
workbook.Dispose()
pdf.Close()

输出结果

使用Python直接将PDF转换为Excel文件

还可以使用PdfDocument.SaveToFile(fileName: str, FileFormat.XLSX)方法将PDF文档直接转换为Excel文件。此方法适用于以表格为主的PDF文档，有助于尽可能保留表格的原始外观。

为减少转换后Excel表格中的空白，可以在转换前去除PDF文档的边距。参考以下文章：

Python删除PDF文档页面的页边距

直接将PDF文档转换为Excel文件的具体步骤如下：

1.导入所需模块：PdfDocument和FileFormat。

2.创建一个PdfDocument实例。

3.使用PdfDocument.LoadFromFile()方法加载PDF文档。

4.将文档转换为Excel文件并使用PdfDocument.SaveToFile(fileName: str, FileFormat.XLSX)方法保存。

5.释放资源。

代码示例

from spire.pdf import PdfDocument, FileFormat

# 创建一个 PdfDocument 实例
pdf = PdfDocument()

# 加载一个 PDF 文档
pdf.LoadFromFile("Sample.pdf")

# 将 PDF 文档转换为 Excel 文件
pdf.SaveToFile("output/PDFToExcel.xlsx", FileFormat.XLSX)

# 关闭 PDF 文档
pdf.Close()

输出结果

到此这篇关于使用Python将PDF表格提取到文本,CSV和Excel文件中的文章就介绍到这了,更多相关Python PDF表格提取内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Python
PDF

Python编程super应用场景及示例解析
最近有粉丝向我咨询super相关的问题，说网上搜索到的教程不够通俗易懂，看了之后还是不太理解。所以在这里基于我自己的理解来讲解一下super
2021-10-10
Python使用openpyxl复制整张sheet
这篇文章主要介绍了Python使用openpyxl复制整张sheet，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2021-03-03
使用python实现kNN分类算法
这篇文章主要为大家详细介绍了使用python实现kNN分类算法，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2019-10-10
python使用BeautifulSoup分页网页中超链接的方法
这篇文章主要介绍了python使用BeautifulSoup分页网页中超链接的方法,涉及Python使用BeautifulSoup模块操作网页链接的技巧,需要的朋友可以参考下
2015-04-04
Python加密与解密模块hashlib与hmac
这篇文章介绍了Python中的加密与解密模块hashlib与hmac，文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2022-06-06
解决Python 命令行执行脚本时,提示导入的包找不到的问题
今天小编就为大家分享一篇解决Python 命令行执行脚本时,提示导入的包找不到的问题，具有很好的参考价值，希望对大家有所帮助，一起跟随小编过来看看吧
2019-01-01
简单谈谈python中的多进程
multiprocessing模块是python库中最高级和功能最强大的模块之一。本文就来给大家简单讲讲multiprocessing一般性技巧
2016-11-11
python 平衡二叉树实现代码示例
这篇文章主要介绍了python 平衡二叉树实现代码示例，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2018-07-07
Python+OpenCV之直方图均衡化详解
直方图均衡化是一种增强图像对比度的方法，其主要思想是将一副图像的直方图分布变成近似均匀分布，从而增强图像的对比度。本文将通过示例为大家讲讲直方图均衡化的原理与实现，感兴趣的可以了解一下
2022-09-09
详解Python sys.argv使用方法
在本文中我们给大家详细讲解了关于Python sys.argv使用方法以及注意事项，有此需要的读者们跟着学习下。
2019-05-05