python 将html转换为pdf的几种方法

 更新时间:2020年12月29日 09:05:10   作者:州的先生  
这篇文章主要介绍了python 将html转换为pdf的几种方法,帮助大家更好的理解和使用python,感兴趣的朋友可以了解下

将 HTML 网页转换为 PDF 是很多人常见的一个需求,在浏览器上,我们可以通过浏览器的“打印”功能直接将网页打印输出为 PDF。

但是如果有多个网页就不好办了。

二进制软件

网络上存在很多将 HTML 转换为 PDF 的软件和工具。比较著名的有 Carelib、wkhtmltopdf。

whtmltopdf

wkhtmltopdf 真是一个优秀的 HTML 转换 PDF 工具。其借助 Qt 的 WebKit 渲染引擎,将 HTML 文档渲染导出为 PDF 文档或图像。

功能十分完善,但是由于使用的渲染引擎是 Qt 的 WebKit,其没法对 ES6 的 JavaScript 代码提供支持,导致一些采用 ES6 编写的 HTML 页面渲染不出实际的效果来,导致州的先生最终放弃了它。

Carelib

Carelib 是一个电子书管理软件,其中提供了各类文档的转换工具,所以可以借助其电子书转换工具来实现 HTMl 到 PDF 的转换。

这些都是用于桌面环境的二进制软件,如果要在 Python 中使用,要么使用 Popen() 方法调用这些二进制软件的命令,要么使用一些第三方的封装模块,比如:pdfkit、pypandoc 等,这些第三方模块通过集成调用上述二进制软件,封装了一些方便 Python 调用的接口。

纯 Python 库实现

上面介绍的那些 Python 第三方模块虽然可以很好的进行 HTML 到 PDF 的转换工作,但是都需要额外在计算机上安装其他的二进制软件,很多小伙伴并不喜欢这种调用方式。

不依赖于二进制软件的实现,有如下的方案:

xhtml2pdf

这是一个基于 ReportLab、html5lib、PyPDF2 等 Python 模块构建的 HTML 到 PDF 转换模块。能够很好的支持 HTML5 、CSS2.1 和部分 CSS3 语法。

因为是基于 Report Lab 模块进行的开发,其对中文的支持在某些环境下会有问题。而且由于开发人员的变更,模块的功能出现了一些断层。但是仍然是一个非常棒的 HTML 转 PDF 模块。

weasyprint

这是一个用于 HTML 和 CSS 的可视化渲染引擎,可以将 HTML 文档导出为打印标准的 PDF 文件。

xhtml2pdf 模块也曾推荐使用这个模块来进行 HTML 转换 PDF 的工作。

这个模块功能很强大、效果很出色,但是,模块的依赖项太多了:

州的先生至今没有在 Windows 电脑上安装成功过!

浏览器方案

在上述两种方案中,二进制程序的可控制性稍有不足,而纯 Python 实现的渲染解析则在功能上和依赖上不是有友好。

处理上述两种方案,我们还能采用第三种方式进行 HTMl 到 PDF 的转换。那就是借助 Web 自动化测试的浏览器内核和 Qt for Python 的 Web 引擎 来实现。

Web 自动化的浏览器内核

使用 Python 的小伙伴经常会使用 Selenium、pyppeteer 这两个 Web 自动化测试的模块来进行数据采集和 Web 自动化测试工作。

这两个模块都是用来驱动一个真实的浏览器来进行网页的操作。正是基于此,我们可以调用浏览器中打印相关的 API 接口,来实现 HTML 转 PDF 的功能。

例如,在 pyppeteer 中可以按照下面示例的方式,打开一个 HTML 文档,然后将其转换为 PDF 文档:

Qt 的 Web 引擎

在 Qt5 中,Qt 使用新的 Chromium 内核代替了老旧的 WebKit 作为 Web 的渲染引擎。使得在 Qt 中进行可以现代化的浏览器开发。

借助于 Qt 的 Python 实现(PyQt5 系列 和 PySide2 系列),我们可以直接调用 Qt 中的 Web 引擎相关的接口。

其中 QtWebEngineWidgets 子模块中的 QWebEngineView() 类提供了 printToPdf 方法供我们将网页打印为 PDF 文档,所以基于此,我们也可以使用 PyQt5 或 PySide2 进行 HTML 转换 PDF,示例如下所示:

最后

在上面,州的先生介绍了 3 种在 Python 中转换 HTML 文档为 PDF 文档的方案,每种方案都有各自的优势和不足,正确地评估自己的需求然后选择合适的方案,也能弥补其不足。

以上就是python 将html转换为pdf的几种方法的详细内容,更多关于python 将html转换为pdf的资料请关注脚本之家其它相关文章!

相关文章

  • python中的annotate函数使用

    python中的annotate函数使用

    这篇文章主要介绍了python中的annotate函数使用方式,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-05-05
  • python多线程与多进程及其区别详解

    python多线程与多进程及其区别详解

    这篇文章主要介绍了python多线程与多进程及其区别详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-08-08
  • 记一次python 爬虫爬取深圳租房信息的过程及遇到的问题

    记一次python 爬虫爬取深圳租房信息的过程及遇到的问题

    这篇文章主要介绍了记一次python 爬虫爬取深圳租房信息的过程,帮助大家更好的理解和学习python爬虫,感兴趣的朋友可以了解下
    2020-11-11
  • 关于Python两个列表进行全组合操作的三种方式

    关于Python两个列表进行全组合操作的三种方式

    这篇文章主要介绍了关于Python两个列表进行全组合操作的三种方式,两个元组 (a, b)(c, d),则它们的组合有 a,c a,d b,c b,d,这就叫全组合,需要的朋友可以参考下
    2023-04-04
  • Windows下Python3.6安装第三方模块的方法

    Windows下Python3.6安装第三方模块的方法

    这篇文章主要介绍了Windows下Python3.6安装第三方模块的方法,需要的朋友可以参考下
    2018-11-11
  • 关于python中不同函数读取图片格式的区别浅析

    关于python中不同函数读取图片格式的区别浅析

    这篇文章主要给大家介绍了关于python中不同函数读取图片格式的区别,文中通过实例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2022-03-03
  • 解决Python调用df.to_csv()出现中文乱码的问题

    解决Python调用df.to_csv()出现中文乱码的问题

    在Python使用df.to_csv()时,若出现中文乱码,可通过加入参数encoding="utf_8_sig"解决,"utf-8"编码不包含BOM,直接处理文件时会将BOM误读为内容;而"utf_8_sig"会识别并处理BOM,避免乱码,此方法为实践经验,供参考
    2024-09-09
  • python tkinter GUI绘制,以及点击更新显示图片代码

    python tkinter GUI绘制,以及点击更新显示图片代码

    这篇文章主要介绍了python tkinter GUI绘制,以及点击更新显示图片代码,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-03-03
  • opencv+python实现图像矫正

    opencv+python实现图像矫正

    这篇文章主要为大家详细介绍了opencv+python实现图像矫正,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-08-08
  • Python爬虫基本库request的基本使用

    Python爬虫基本库request的基本使用

    这篇文章主要介绍了Python爬虫基本库request的基本使用,urllib库使用繁琐,比如处理网页验证和Cookies时,需要编写Opener和Handler来处理。为了更加方便的实现这些操作,就有了更为强大的requests库,需要的朋友可以参考下
    2023-07-07

最新评论