Python在字符串中处理html和xml的方法

更新时间：2020年07月31日 11:43:06 作者：David Beazley

这篇文章主要介绍了Python在字符串中处理html和xml的方法，文中讲解非常细致，代码帮助大家更好的理解和学习，感兴趣的朋友可以了解下

问题

你想将HTML或者XML实体如 &entity; 或 &#code; 替换为对应的文本。再者，你需要转换文本中特定的字符(比如<, >, 或 &)。

解决方案

如果你想替换文本字符串中的 ‘<' 或者 ‘>' ，使用 html.escape() 函数可以很容易的完成。比如：

>>> s = 'Elements are written as "<tag>text</tag>".'
>>> import html
>>> print(s)
Elements are written as "<tag>text</tag>".
>>> print(html.escape(s))
Elements are written as &quot;&lt;tag&gt;text&lt;/tag&gt;&quot;.

>>> # Disable escaping of quotes
>>> print(html.escape(s, quote=False))
Elements are written as "&lt;tag&gt;text&lt;/tag&gt;".
>>>

如果你正在处理的是ASCII文本，并且想将非ASCII文本对应的编码实体嵌入进去，可以给某些I/O函数传递参数 errors='xmlcharrefreplace' 来达到这个目。比如：

>>> s = 'Spicy Jalapeño'
>>> s.encode('ascii', errors='xmlcharrefreplace')
b'Spicy Jalape&#241;o'
>>>

为了替换文本中的编码实体，你需要使用另外一种方法。如果你正在处理HTML或者XML文本，试着先使用一个合适的HTML或者XML解析器。通常情况下，这些工具会自动替换这些编码值，你无需担心。

有时候，如果你接收到了一些含有编码值的原始文本，需要手动去做替换，通常你只需要使用HTML或者XML解析器的一些相关工具函数/方法即可。比如：

>>> s = 'Spicy &quot;Jalape&#241;o&quot.'
>>> from html.parser import HTMLParser
>>> p = HTMLParser()
>>> p.unescape(s)
'Spicy "Jalapeño".'
>>>
>>> t = 'The prompt is &gt;&gt;&gt;'
>>> from xml.sax.saxutils import unescape
>>> unescape(t)
'The prompt is >>>'
>>>

讨论

在生成HTML或者XML文本的时候，如果正确的转换特殊标记字符是一个很容易被忽视的细节。特别是当你使用 print() 函数或者其他字符串格式化来产生输出的时候。使用像 html.escape() 的工具函数可以很容易的解决这类问题。

如果你想以其他方式处理文本，还有一些其他的工具函数比如 xml.sax.saxutils.unescapge() 可以帮助你。然而，你应该先调研清楚怎样使用一个合适的解析器。比如，如果你在处理HTML或XML文本，使用某个解析模块比如 html.parse 或 xml.etree.ElementTree 已经帮你自动处理了相关的替换细节。

以上就是Python在字符串中处理html和xml的方法的详细内容，更多关于Python在字符串中处理html和xml的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

python调用api实例讲解
在本篇内容里小编给大家分享的是一篇关于python调用api实例讲解内容，有兴趣的朋友们可以参考下。
2021-04-04
python爬虫实战项目之爬取pixiv图片
最近决定写个P站的爬虫,实际操作起来确实遇到了些新问题,通过解决也有所收获,下面这篇文章主要给大家介绍了关于python爬虫实战项目之爬取pixiv图片的相关资料,需要的朋友可以参考下
2022-07-07
使用OpenCV对运动员的姿势进行检测功能实现
2022年奥林匹克运动会如期举行，以不正确的方式进行运动风险在增加，人体姿势估计是计算机视觉领域的重要问题，接下来通过本文给大家介绍下使用OpenCV对运动员的姿势进行检测功能，感兴趣的朋友一起看看吧
2022-02-02
Python画笔的属性及用法详解
在本篇文章里小编给大家分享的是一篇关于Python画笔的属性及用法内容，有需要的朋友们可以学习下。
2021-03-03
python扫描proxy并获取可用代理ip的实例
下面小编就为大家带来一篇python扫描proxy并获取可用代理ip的实例。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2017-08-08
Python unittest discover批量执行代码实例
这篇文章主要介绍了Python unittest discover批量执行代码实例,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-09-09
关于jieba.cut与jieba.lcut的区别及说明
这篇文章主要介绍了关于jieba.cut与jieba.lcut的区别及说明，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2023-05-05
使用Python实现检测并删除离群值
离群值是一个数据项/对象,它明显偏离其余的（所谓的正常）对象,本文主要为大家详细介绍了如何使用Python实现检测并删除离群值,感兴趣的小伙伴可以了解下
2024-01-01
python IP地址转整数
这篇文章主要介绍了python 如何将IP 地址转整数，帮助大家了解转换的原理与收益，更好的理解python，感兴趣的朋友可以了解下
2020-11-11
Python函数基础（定义函数、函数参数、匿名函数）
这篇文章介绍了Python函数的基础用法，文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2022-05-05

Python在字符串中处理html和xml的方法

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具