Python利用pdfplumber库提取pdf中表格数据

 更新时间:2023年05月29日 10:04:59   作者:空空star  
pdfplumber是一个用于从PDF文档中提取文本和表格数据的Python库,它可以帮助用户轻松地从PDF文件中提取有用的信息,例如表格、文本、元数据等,本文介绍了如何通过Python的pdfplumber库提取pdf中表格数据,感兴趣的同学可以参考一下

一、pdfplumber库是什么?

pdfplumber是一个用于从PDF文档中提取文本和表格数据的Python库。它可以帮助用户轻松地从PDF文件中提取有用的信息,例如表格、文本、元数据等。pdfplumber库的特点包括:简单易用、速度快、支持多种PDF文件格式、支持从多个页面中提取数据等。pdfplumber库还提供了一些方便的方法来处理提取的数据,例如排序、过滤和格式化等。它是一个非常有用的工具,特别是在需要从大量PDF文件中提取数据时。

二、安装pdfplumber库

pip install pdfplumber

三、查看pdfplumber库版本

pip show pdfplumber

Name: pdfplumber
Version: 0.9.0
Summary: Plumb a PDF for detailed information about each char, rectangle, and line.
Home-page: https://github.com/jsvine/pdfplumber
Author: Jeremy Singer-Vine
Author-email: jsvine@gmail.com
License:
Requires: pdfminer.six, Pillow, Wand
Required-by:

四、提取pdf中表格数据

1.引入库

import pdfplumber

2.定义pdf文件路径

local = '/Users/kkstar/Downloads/'

3.打开pdf文件

with pdfplumber.open(local+"demo_table.pdf") as pdf:

4.获取pdf文件中的页数

num_pages = len(pdf.pages)

5.遍历每一页

for page_num in range(num_pages):

6.获取当前页内容

page = pdf.pages[page_num]

7.提取表格数据

        table = page.extract_table(table_settings={
            "vertical_strategy": "lines",
            "horizontal_strategy": "lines",
            "intersection_x_tolerance": 15,
            "intersection_y_tolerance": 15
        })

8.输出表格数据

        for row in table:
            print(row)

9.效果

['username', 'nickname', 'article']
['weixin_38093452', '空空 star', '130889268']
['weixin_38093452', '空空 star', '130852811']
['weixin_38093452', '空空 star', '130815851']
Process finished with exit code 0

到此这篇关于Python利用pdfplumber库提取pdf中表格数据的文章就介绍到这了,更多相关Python提取pdf表格数据内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python爬虫+tkinter界面实现历史天气查询的思路详解

    Python爬虫+tkinter界面实现历史天气查询的思路详解

    这篇文章主要介绍了Python爬虫+tkinter界面实现历史天气查询的思路详解,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-02-02
  • Python word2vec训练词向量实例分析讲解

    Python word2vec训练词向量实例分析讲解

    这篇文章主要介绍了Python word2vec训练词向量实例分析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习吧
    2022-12-12
  • django 外键创建注意事项说明

    django 外键创建注意事项说明

    这篇文章主要介绍了django 外键创建注意事项说明,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-05-05
  • 简单了解django处理跨域请求最佳解决方案

    简单了解django处理跨域请求最佳解决方案

    这篇文章主要介绍了简单了解django处理跨域请求最佳解决方案,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-03-03
  • Python中不同类之间调用方法的四种方式小结

    Python中不同类之间调用方法的四种方式小结

    类是一种面向对象的编程范式,它允许我们将数据和功能封装在一个实体中,本文主要介绍了Python中不同类之间调用方法的四种方式小结,具有一定的参考价值,感兴趣的可以了解一下
    2024-02-02
  • Django的models模型的具体使用

    Django的models模型的具体使用

    这篇文章主要介绍了Django的models模型的具体使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-07-07
  • 浅谈scrapy 的基本命令介绍

    浅谈scrapy 的基本命令介绍

    下面小编就为大家带来一篇浅谈scrapy 的基本命令介绍。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-06-06
  • python创建子类的方法分析

    python创建子类的方法分析

    这篇文章主要介绍了python创建子类的方法,结合实例形式分析了Python子类的具体定义与使用方法,需要的朋友可以参考下
    2019-11-11
  • yolov5 win10 CPU与GPU环境搭建过程

    yolov5 win10 CPU与GPU环境搭建过程

    这篇文章主要介绍了yolov5 win10 CPU与GPU环境搭建过程,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-04-04
  • Selenium 三种等待方式(强制等待、隐式等待、显示等待)

    Selenium 三种等待方式(强制等待、隐式等待、显示等待)

    这篇文章主要介绍了Selenium 三种等待方式(强制等待、隐式等待、显示等待),文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-02-02

最新评论