9行Python3代码实现批量提取PDF文件的指定内容

更新时间：2022年12月09日 08:39:11 作者：Carl_奕然

这篇文章主要为大家详细介绍了如何通过9行Python3代码实现批量提取PDF文件的指定内容，文中的示例代码讲解详细，感兴趣的小伙伴可以尝试一下

1、引言

小丝：鱼哥，你有没有什么办法，提取PDF文档的内容。

小鱼：这个还问我？？

小丝：哎呀，这个不是被难住了嘛。

小鱼：有啥难得？提示你一下，

小丝：嗯，可以可以。

小鱼：去我的博文找，没记错的话，有两种方法提取pdf的文字。

小丝：好嘞，我这就去…找找…

小丝：鱼哥，鱼哥~

小鱼：怎么样，你的这个需求，解决了吧。

小丝：没呢，我想批量提取指定PDF文档的内容…

小鱼：批…量…

小丝：对啊，是批量，

小鱼：这…还挺…

小丝：挺费劲吗？

小鱼：挺好的，不费劲，一口气，上7楼…

小丝：打住… 说正事！！

小鱼：好嘞…

想到提取PDF文件的内容，我们第一反应就是pypdf，

因为pypdf这个库我在很多篇文章都介绍过，还蛮好用的。

但是，今天，我们不使用pypdf，而是使用另一个库，即：pdfminer。

2、代码实战

2.1 介绍

pdfminer我相信很多同学都没听说过，除非，你经常提取/解析PDF文件的内容，否则，你对ta，只能是陌生。

其实，提取PDF文件内容解决方案，截止到现在，只有pypdf 和pdfminer这两种。
所以，如果你厌倦了， pypdf，那只能选择pdfminer了。

那什么是pdfminer 呢，或者 pdfminer有什么神奇之处呢？

定义

PDFMiner是用于从PDF文档提取信息的工具；

与其他PDF相关工具不同，它完全专注于获取和分析文本数据；

功能

PDFMiner允许获取页面中文本的确切位置以及其他信息，例如字体或线条；

它包括一个PDF转换器，可以将PDF文件转换为其他文本格式（例如HTML)；

2.2 安装

由于pdfminer是python 的第三方库，所以，需要安装，

老规矩，直接pip 安装

安装

pip install pdfminer

安装完成：

因为我们需要用到 pdfminer的high_level 方法，所以

这里必须要在安装pdfminer.six模块，否则会报错：

安装

pip install pdfminer.six

安装完成：

其它安装方式，直接看这两篇:

《Python3，选择Python自动安装第三方库，从此跟pip说拜拜！！》

《Python3：我低调的只用一行代码，就导入Python所有库！》

2.3 实例

安装完成，我们就来写上代码，

我们先来捋顺一下思路，主要分3步：

1、遍历pdf文件

注：如果文件夹的文件多个，需要单独提取目标pdf文件，否则都会轮巡匹配，费事费力费资源；

2、提取pdf文档内容

3、根据正则匹配，提取需要的文档信息

我们就根据这个思路，来提取"企业基本情况"，代码如下：

代码示例

# -*- coding:utf-8 -*-
# @Time   : 2022-11-30
# @Author : Carl_DJ


from pdfminer import high_level
import re,os

#pdf文件路径
#root：文件夹路径，dirs:文件夹下子目录名，files：文件夹下的文件
for root,dirs,files in os.walk('./data/'):
    #遍历pdf文件
    for f in files:
        file_name = os.path.join(root,f)
        if file_name.endswith('.pdf'):
            #提取整个 pdf 文本信息
            text = high_level.extract_text(file_name)
            #提取 pdf文档中 "企业进本情况:" 后面的信息，利用正则进行匹配
            regex = r'企业基本情况-(.*?)\n'
            qy_base = re.findall(regex,text)
            print(f'输出信息：{qy_base}')

pdf文件

运行结果

3、总结

看到这里，今天的分享，差不多就该结束了。

解析PDF是一件非常耗时和耗内存的工作，因此，pdfminer使用一种称作Lazy Parsing的策略，减少内耗…

小丝：怪不得，提到批量提取pdf的文档内容，你会犹豫了…

小鱼：对啊，因为我们的的测试文档内容很少，所以对内存的消耗相对来说没那么验证，当PDF文档的内容很多时，就不得不使用pdfminer了。

到此这篇关于9行Python3代码实现批量提取PDF文件的指定内容的文章就介绍到这了,更多相关Python提取PDF指定内容内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Python学习之time模块的基本使用
这篇文章主要给大家介绍了关于Python学习之time模块基本使用的相关资料，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2021-01-01
Python多版本开发环境管理工具介绍
这篇文章主要介绍了Python多版本开发环境管理工具介绍的相关资料，在Python开发中，有些情况下，我们可能面临在一台机器上同时安装多版本Python的需求,需要的朋友可以参考下
2019-07-07
Python基础语言学习笔记总结（精华）
给大家分享一篇关于Python基础学习内容的学习笔记整理总结篇，里面汇集了学习Python基础语言的难点和技巧，分享给大家。
2017-11-11
Python匿名函数/排序函数/过滤函数/映射函数/递归/二分法
这篇文章主要介绍了Python匿名函数/排序函数/过滤函数/映射函数/递归/二分法 ,本文通过实例代码给大家介绍的非常详细，具有一定的参考借鉴价值，需要的朋友可以参考下
2019-06-06
Python shapely库的具体使用
本文主要介绍了Python shapely库的具体使用，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2023-06-06
详解python中的defaultdict 默认值
这篇文章主要介绍了defaultdict 默认值,defaultdict是python内建dict类的一个字类，功能与dict相同，但它带有一个默认的值，若key值不存在时返回一个默认的值，本文通过实例代码给大家介绍的非常详细，需要的朋友可以参考下
2023-04-04
无需压缩软件，用python帮你操作压缩包
这篇文章主要介绍了如何用python帮你操作压缩包，帮助大家更好的理解和学习python，感兴趣的朋友可以了解下
2020-08-08
跟老齐学Python之开始真正编程
通过对四则运算的学习，已经初步接触了Python中内容，但是到目前为止，还不能算编程，只能算会用一些指令（或者叫做命令）来做点简单的工作。列位稍安勿躁，下面我们就学习如何编写一个真正的程序。
2014-09-09
opencv python 傅里叶变换的使用
这篇文章主要介绍了opencv python 傅里叶变换的使用，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2018-07-07
说说如何遍历Python列表的方法示例
这篇文章主要介绍了如何遍历Python列表的方法示例，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-02-02