Python使用paddleOCR批量识别pdf的方法

 更新时间:2024年03月03日 09:55:40   作者:Python斗罗  
PaddleOCR可以在图像、文本、表格等多种场景下进行文字识别,本文主要介绍了Python使用paddleOCR批量识别pdf的方法,具有一定的参考价值,感兴趣的可以了解一下

PaddleOCR是一个基于PaddlePaddle深度学习框架的OCR(Optical Character Recognition,光学字符识别)系统,可以在图像、文本、表格等多种场景下进行文字识别,具有高速、高精度、高可定制性等特点。在应用中,可以使用PaddleOCR进行pdf文件的批量识别。

注意,本文章所述方法仅适用于单栏文本,无表格等复杂场景的情况。

以下是使用PaddleOCR批量识别pdf的步骤:

1、安装PaddleOCR
首先需要安装PaddleOCR,可以参考官方文档进行安装。
按照文档来非常的简单。无需害怕。https://github.com/PaddlePaddle/PaddleOCR

2、准备pdf文件
将需要识别的pdf文件准备好,可以使用一个扫描版进行测试。

3、使用PaddleOCR进行识别
paddleocr识别pdf的过程是先将pdf变为图片,再识别图片,最终再拼接出答案。
所以我们在此将过程分为两个函数。

如下:

import datetime
import os
import fitz  # fitz就是pip install PyMuPDF

def pdf2png(pdfPath, baseImagePath):
    imagePath=os.path.join(baseImagePath,os.path.basename(pdfPath).split('.')[0])
    startTime_pdf2img = datetime.datetime.now()  # 开始时间
    print("imagePath=" + imagePath)
    if not os.path.exists(imagePath):
        os.makedirs(imagePath)
    pdfDoc = fitz.open(pdfPath)
    totalPage=pdfDoc.pageCount
    for pg in range(totalPage):
        page = pdfDoc[pg]
        rotate = int(0)
        zoom_x = 2
        zoom_y = 2
        mat = fitz.Matrix(zoom_x, zoom_y).prerotate(rotate)
        pix = page.get_pixmap(matrix=mat, alpha=False)
        print(f'正在保存{pdfPath}的第{pg+1}页,共{totalPage}页')
        pix.save(imagePath + '/' + f'images_{pg+1}.png')
    endTime_pdf2img = datetime.datetime.now()
    print(f'{pdfDoc}-pdf2img-花费时间={(endTime_pdf2img - startTime_pdf2img).seconds}秒')

if __name__ == "__main__":
    pdfPath = r'./demo-scan.pdf'
    baseImagePath = './imgs'
    pdf2png(pdfPath, baseImagePath)
import os
import cv2
from paddleocr import PPStructure,save_structure_res
from paddleocr.ppstructure.recovery.recovery_to_doc import sorted_layout_boxes, convert_info_docx
from copy import deepcopy
# 中文测试图
table_engine = PPStructure(recovery=True,lang='ch')

image_path = './imgs/demo-scan'
save_folder = './txt'
def img2docx(img_path):
    text=[]
    imgs=os.listdir(img_path)
    for img_name in imgs:
        print(os.path.join(img_path,img_name))
        img = cv2.imread(os.path.join(img_path,img_name))
        result = table_engine(img)

        save_structure_res(result, save_folder, os.path.basename(img_path).split('.')[0])

        h, w, _ = img.shape
        res = sorted_layout_boxes(result, w)
        convert_info_docx(img, res, save_folder, os.path.basename(img_path).split('.')[0])

        for line in res:
            line.pop('img')
            print(line)
            for pra in line['res']:
                text.append(pra['text'])
            text.append('\n')
        with open('txt/res.txt', 'w', encoding='utf-8') as f:
            f.write('\n'.join(text))
img2docx(image_path)

以上代码将会读取指定目录下的pdf文件,并将其转换为图像列表,然后使用PaddleOCR进行识别,最后将识别结果保存在指定目录下的文本文件中。

需要注意的是,使用PaddleOCR进行pdf识别时,由于pdf文件通常包含多页,需要将每一页的内容分别识别,并将其合并成完整的文本内容。

另外,由于PaddleOCR的识别结果可能存在误识别的情况,需要对识别结果进行校验和修正。

到此这篇关于Python使用paddleOCR批量识别pdf的方法的文章就介绍到这了,更多相关Python批量识别pdf内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python中Django的路由配置详解

    Python中Django的路由配置详解

    这篇文章主要介绍了Python中Django的路由配置详解,Python下有许多款不同的 Web 框架,Django是重量级选手中最有代表性的一位,许多成功的网站和APP都基于Django,需要的朋友可以参考下
    2023-07-07
  • 理解python中装饰器的作用

    理解python中装饰器的作用

    python装饰器就是用于拓展原来函数功能的一种函数,这个函数的特殊之处在于它的返回值也是一个函数,使用python装饰器的好处就是在不用更改原函数的代码前提下给函数增加新的功能
    2021-07-07
  • 利用Python第三方库xlrd读取Excel中数据实例代码

    利用Python第三方库xlrd读取Excel中数据实例代码

    python操作excel主要用到xlrd和xlwt这两个库,即xlrd是读excel,xlwt是写excel的库,下面这篇文章主要给大家介绍了关于利用Python第三方库xlrd读取Excel中数据的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2022-07-07
  • python pandas库的安装和创建

    python pandas库的安装和创建

    这篇文章主要介绍了python pandas库的安装和创建,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2019-01-01
  • Python办公自动化Word转Excel文件批量处理

    Python办公自动化Word转Excel文件批量处理

    这篇文章主要为大家介绍了Python办公自动化Word转Excel文件批量处理示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-06-06
  • python 统计列表中不同元素的数量方法

    python 统计列表中不同元素的数量方法

    今天小编就为大家分享一篇python 统计列表中不同元素的数量方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-06-06
  • 利用pipenv和pyenv管理多个相互独立的Python虚拟开发环境

    利用pipenv和pyenv管理多个相互独立的Python虚拟开发环境

    这篇文章主要介绍了利用pipenv和pyenv管理多个相互独立的Python虚拟开发环境,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-11-11
  • 导入tensorflow时报错:cannot import name ''abs''的解决

    导入tensorflow时报错:cannot import name ''abs''的解决

    这篇文章主要介绍了导入tensorflow时报错:cannot import name 'abs'的解决,文中介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-10-10
  • Python实现CET查分的方法

    Python实现CET查分的方法

    这篇文章主要介绍了Python实现CET查分的方法,实例分析了Python操作链接查询的技巧,需要的朋友可以参考下
    2015-03-03
  • Python中的localtime()方法使用详解

    Python中的localtime()方法使用详解

    这篇文章主要介绍了Python中的localtime()方法使用详解,是Python入门学习的基础知识,需要的朋友可以参考下
    2015-05-05

最新评论