python lxml中etree的简单应用

更新时间：2019年05月10日 15:25:42 作者：锅炉房刘大爷

这篇文章主要介绍了python lxml中etree的简单应用，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

我一般都是通过xpath解析DOM树的时候会使用lxml的etree，可以很方便的从html源码中得到自己想要的内容。

这里主要介绍一下我常用到的两个方法，分别是etree.HTML()和etree.tostrint()。

1.etree.HTML()

etree.HTML()可以用来解析字符串格式的HTML文档对象，将传进去的字符串转变成_Element对象。作为_Element对象，可以方便的使用getparent()、remove()、xpath()等方法。

如果想通过xpath获取html源码中的内容，就要先将html源码转换成_Element对象，然后再使用xpath()方法进行解析。例如，这里有一段最简单的html源码："<html><body><h1>This is a test</h1></body></html>"，现在想要得到h1标签中的文本，可以这样实现：

# encoding=utf8
 
from lxml import etree
 
html = '<html><body><h1>This is a test</h1></body></html>'
# 将html转换成_Element对象
_element = etree.HTML(html)
# 通过xpath表达式获取h1标签中的文本
text = _element.xpath('//h1/text()')
print 'result is: ', text

结果：

result is: ['This is a test']

通过结果可以知道，xpath()方法放回的结果是一个列表，所以通常在取xpath()方法结果的时候，只取列表中的第一个元素。

2.etree.tostring()

etree.tostring()方法用来将_Element对象转换成字符串。一般通过简单的xpath表达式无法得到想要的内容的时候我就会用该方法。例如，将上面的html小改动一下："<html><body><h1>This <a>is a </a>test</h1></body></html>"，这时候如果想要得到h1中的文本该怎么办呢？使用“//h1/text()”试试（将上面的html保存并用火狐浏览器打开，然后在FirePath中输入该xpath表达式）：

通过截图左下角的提示可以知道，使用xpath表达式“//h1/text()”只能得到h1标签中文本的“This”和“test”，用代码实现看看：

# encoding=utf8
 
from lxml import etree
 
html = '<html><body><h1>This <a>is a </a>test</h1></body></html>'
_element = etree.HTML(html)
text = _element.xpath('//h1/text()')
print 'result is: ', text

运行结果：

result is: ['This ', 'test']

确实，使用xpath()方法，只能得到h1中部分文本内容，我们再试试使用“//h1//text()”看看：

然后通过代码实现看看：

# encoding=utf8
 
from lxml import etree
 
html = '<html><body><h1>This <a>is a </a>test</h1></body></html>'
_element = etree.HTML(html)
text = _element.xpath('//h1//text()')
print 'result is: ', text

运行结果：

result is: ['This ', 'is a ', 'test']

通过“//h1//text()”表达式确实可以得到想要的内容，但是得到的是一个列表，还需要将列表中的所有元素“拼”起来才行，是不是有点麻烦。这时候，就可以考虑使用etree.tostring()方法了，etree.tostring()方法可以传递多个参数，包括element_or_tree、encoding、method等，其中method参数为text的时候，表示返回_Element对象中的所有文本，所以可以这样：

# encoding=utf8
 
from lxml import etree
 
html = '<html><body><h1>This <a>is a </a>test</h1></body></html>'
_element = etree.HTML(html)
# 先找到h1对象，然后通过etree.tostring方法找到h1对象中的所有文本
_h = _element.xpath('//h1')
# 注意，xpath方法返回的是一个列表，我们需要的是列表中的第一个元素：代表h1标签的_Element对象
result = etree.tostring(_h[0], method='text')
print 'result is: ', result

运行结果：

result is: This is a test

这时候使用etree.tostring()方法是不是很容易的就解决问题了。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

python进阶教程之循环对象
这篇文章主要介绍了python进阶教程之循环对象,循环对象是这样一个对象，它包含有一个next()方法,这个方法的目的是进行到下一个结果,需要的朋友可以参考下
2014-08-08
Python制作简单的网页爬虫
自己写的一个爬虫，模仿了python核心编程书里的程序，有详细的注释。是我一个理解学习的过程吧。有需要的小伙伴可以参考下
2015-11-11
python使用pandas实现数据分割实例代码
这篇文章主要介绍了python使用pandas实现数据分割实例代码，介绍了使用pandas实现对dataframe格式的数据分割成时间跨度相等的数据块，分享了相关代码示例，小编觉得还是挺不错的，具有一定借鉴价值，需要的朋友可以参考下
2018-01-01
python3发送request请求及查看返回结果实例
这篇文章主要介绍了python3发送request请求及查看返回结果实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-04-04
Python实现将mp3音频格式转换为wav格式
这篇文章主要介绍了利用python写了这个小工具，可以批量进行mp3音频格式转换为wav格式，文中的示例代码讲解详细，感兴趣的可以学习一下
2022-01-01
浅谈python元素如何去重,去重后如何保持原来元素的顺序不变
这篇文章主要介绍了浅谈python元素如何去重,去重后如何保持原来元素的顺序不变？具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-02-02
Python工厂函数用法实例分析
这篇文章主要介绍了Python工厂函数用法,结合实例形式分析了Python工厂函数的概念、功能、使用方法及相关注意事项,需要的朋友可以参考下
2018-05-05
python 标准差计算的实现（std）
这篇文章主要介绍了python 标准差计算的实现（std），文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-07-07
python常用排序算法的实现代码
这篇文章主要介绍了python常用排序算法的实现代码,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-11-11
详解Python中神奇的字符串驻留机制
字符串驻留机制是Python针对字符串对象采取的一种内存优化技术。其目标是减少内存使用并提高程序的性能。这篇文章主要介绍了字符串驻留机制的简单应用，需要的可以参考一下
2023-04-04

python lxml中etree的简单应用

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具