python获取word文档总页数的两种方法

 更新时间:2024年03月25日 11:43:33   作者:一缕82年的清风  
这篇文章主要介绍了python获取word文档的总页数的两种方法,文中给出了两种解决方案,两种方案也都各有优缺点,可能也不一定是完全准确的,需要的朋友可以参考下

最近在搞AI. 遇到了一个问题,就是要进行doc文档的解析。并且需要展示每个文档的总页数。

利用AI. 分别尝试了chatGPT, 文心一言, github copilot,Kimi 等工具,给出来的答案都不尽如人意。

给的最多的查询方式就是下面这种。

这个给大家避雷一下。使用python-docx的方式,是没有办法获取文档总页数的。 如果想获取,也只能是获取一个近似值,大体就是根据每个页面平均有多少个段落,或者平均有多少行的方式,近似的得到一个结果。完全是不准确的。

那么如果想要获取总页数,应该怎么办呢? 经过一番调研这里给出两种解决方案,两种方案也都各有优缺点。可能也不一定是完全准确的,但是相比于上面的方式还是要好出很多。

一、使用langchain

langchain是什么,这里就不详细介绍了,是AI领域当前非常流行的一套框架。 langchain中提供了很多开箱即用的功能,比如文档解析、文档拆分, 向量比较、摘要提取等。 在文档解析中,就有对于word文档解析的方法,这在个方法中,我们可以间接获取文档页数。

地址:https://www.langchain.com.cn/modules/indexes/document_loaders/examples/word_document

方法:

word_path = '/xxx/xxx.docx'
loader = UnstructuredWordDocumentLoader(word_path, mode="paged")
docs = loader.load_and_split(texts_splitter)
for doc in docs:
    print(doc)

这里的mode可以选择paged,也可以使用elements 一个是按照页进行分割,一个是按照元素做分割。那么怎么获取页数呢,在返回的元素中,就可以找到page_number这样一个字段。

所以无论我们使用paged还是使用elements,都可以从返回结果(集合)中通过获取page_number的最大值,来得到该文档的总页数。

局限性: 这种方法也不是没有任何缺点,但是整理来说还是相对准确的。确定就是有的时候,文档明明是三页。但是解析出来的结果可能是两页。 我出现过一次,主要是我自己做了测试,第二页空白比较多的时候,又添加了第三页。这个时候,第三页的内容出现在第二页的解析结果中了。 导致最终识别的结果为2.

二、没啥好办法,word2pdf

的确,没啥好的办法了,只能先把word转换为pdf, 然后获取pdf的页数。 pdf的页数获取还是很简单的,很多pdf相关工具,都有这个功能,也就一行代码的事。给一个例子吧:

from fitz import fitz

doc = fitz.open(pdf_path)
print(doc.page_count)

问题主要在于word如何转为pdf, 我这里使用的是libreOffice. 不同的平台有不同平台的安装包。 具体的使用,这里就不详细介绍了。

局限性 主要局限性就是平台限制, 比如我们的文档通常是在windows上, 而部署平台一般是在linux上,相当于libreOffice要装在linux上,这个时候,由于平台不同,转换出来的pdf页数可能也会有一些差距,都一页少一页这类的。 有没有好的方案呢。 两种,一种是用windows系统做部署服务器。 一种是使用wps+docker desktop的方式。

两种方式,都有点小缺陷, 但是误差不大,可接受的就用这两种方法把,接受不了的,可以按照给的思路,自己去折腾折腾。

到此这篇关于python获取word文档的总页数的两种方法的文章就介绍到这了,更多相关python获取word文档总页数内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python实现查找excel里某一列重复数据并且剔除后打印的方法

    python实现查找excel里某一列重复数据并且剔除后打印的方法

    这篇文章主要介绍了python实现查找excel里某一列重复数据并且剔除后打印的方法,涉及Python使用xlrd模块操作Excel的相关技巧,需要的朋友可以参考下
    2015-05-05
  • Python查看已安装包的版本号的多种方法

    Python查看已安装包的版本号的多种方法

    很多朋友一直使用pip list来查询,但如果想知道单个,应该怎么使用呢,在Python中,可以使用多种方法来查看已安装包的版本号,本文给大家详细介绍了Python查看已安装包的版本号的多种方法,需要的朋友可以参考下
    2024-02-02
  • 通过python调用adb命令对App进行性能测试方式

    通过python调用adb命令对App进行性能测试方式

    这篇文章主要介绍了通过python调用adb命令对App进行性能测试方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-04-04
  • Python多版本安装与Jupyter Lab使用方式

    Python多版本安装与Jupyter Lab使用方式

    这篇文章主要介绍了Python多版本安装与Jupyter Lab使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-01-01
  • Flask框架单例模式实现方法详解

    Flask框架单例模式实现方法详解

    这篇文章主要介绍了Flask框架单例模式实现方法,结合实例形式分析了flask框架单例模式的4种实现方式与相关操作技巧,需要的朋友可以参考下
    2019-07-07
  • 深入理解Python虚拟机中魔术方法的使用

    深入理解Python虚拟机中魔术方法的使用

    这篇文章主要给大家介绍在 cpython 当中一些比较花里胡哨的魔术方法,以帮助我们自己实现比较花哨的功能,当然这其中也包含一些也非常实用的魔术方法,需要的可以参考下
    2023-05-05
  • Python使用win32com实现的模拟浏览器功能示例

    Python使用win32com实现的模拟浏览器功能示例

    这篇文章主要介绍了Python使用win32com实现的模拟浏览器功能,结合实例形式分析了Python基于win32com模块实现网页的打开、登陆、加载等功能相关技巧,需要的朋友可以参考下
    2017-07-07
  • Python序列之list和tuple常用方法以及注意事项

    Python序列之list和tuple常用方法以及注意事项

    这篇文章主要介绍了Python序列之list和tuple常用方法以及注意事项,sequence(序列)是一组有顺序的对象的集合,序列可以包含一个或多个元素,也可以没有任何元素,序列有两种:list (表) 和 tuple(元组),需要的朋友可以参考下
    2015-01-01
  • Python+Pygame实战之诗词填空游戏的实现

    Python+Pygame实战之诗词填空游戏的实现

    成语接龙大家都玩过,但诗词填空大家玩过吗?把成语接龙变成填空题。难度可上涨了不止一个档次呢!本文就来用Python和Pygame实现诗词填空游戏,需要的可以参考一下
    2022-12-12
  • Python多线程编程之threading模块详解

    Python多线程编程之threading模块详解

    这篇文章主要介绍了Python多线程编程之threading模块详解,文中有非常详细的代码示例,对正在学习python的小伙伴们有非常好的帮助,需要的朋友可以参考下
    2021-04-04

最新评论