Python操作lxml库之基础使用篇

 更新时间:2022年12月23日 11:14:13   作者:醉蕤  
lxml库是python的第三方库,安装方式也是十分简单,下面这篇文章主要给大家介绍了关于Python操作lxml库之基础使用篇的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考下

一、lxml库概述

1、lxml库介绍

lxml是XML和HTML的解析器,其主要功能是解析和提取XML和HTML中的数据;lxml和正则一样,也是用C语言实现的,是一款高性能的python HTML、XML解析器,也可以利用XPath语法,来定位特定的元素及节点信息。

2、lxml库特点

HTML是超文本标记语言,主要用于显示数据,他的焦点是数据的外观

XML是可扩展标记语言,主要用于传输和存储数据,他的焦点是数据的内容

3、lxml库的安装

windows系统下,在cmd命令提示框中,输入如下命令

pip install lxml

在cmd命令行验证是否安装成功。若引入模块,不返回错误则说明安装成功。 

二、基本使用

1、lxml.etree

在爬虫代码采集过程中,通过etree.HTML直接将字符串实例转化为element对象。

import requests
from lxml import etree
 
res = requests.get("http://www.jsons.cn/zt/")
 
html = res.text
 
root_element = etree.HTML(html)
 
print(root_element)
print(root_element.tag)

2、解析HTML网页

#解析HTML字符串
from lxml import etree
text = '''
<html><body>
    <div class="key">
        <div class="name">无羡</div>
        <div class="age">20</div>
        <div class="address">四川</div>
    </div>
</body></html>
'''
# 开始初始化
html = etree.HTML(text)  # 这里需要传入一个html形式的字符串
print(html)
print(type)
# 将字符串序列化为html字符串
result = etree.tostring(html).decode('utf-8')
print(result)
print(type(result))

3、读取并解析HTML文件

from lxml import etree
 
# 将html文件进行读取
html = etree.parse('1.html')
 
# 将html内容序列化
result = etree.tostring(html).decode('utf-8')
print(result)
print(type(result))
html = etree.HTML(result)  # 这里需要传入一个html形式的字符串
print(html)
print(type)

三、lxml使用流程

1、 导入模块

from lxml import etree

2、创建解析对象

调用 etree 模块的 HTML() 方法来创建 HTML 解析对象。

parse_html = etree.HTML(html)

HTML() 方法能够将 HTML 标签字符串解析为 HTML 文件,该方法可以自动修正 HTML 文本。

from lxml import etree
html_str = '''
<div>
    <ul>
         <li class="item1"><a href="link1.html">Python</a></li>
         <li class="item2"><a href="link2.html">Java</a></li>
         <li class="site1"><a href="c.biancheng.net">C语言中文网</a>
         <li class="site2"><a href="www.baidu.com">百度</a></li>
         <li class="site3"><a href="www.jd.com">京东</a></li>
     </ul>
</div>
'''
html = etree.HTML(html_str)
 
result = etree.tostring(html)
print(result.decode('utf-8'))

四、lxml库数据提取

1、提取所有a标签内的文本信息

from lxml import etree
# 创建解析对象
parse_html=etree.HTML(html)
# 书写xpath表达式,提取文本最终使用text()
xpath_bds='//a/text()'
# 提取文本数据,以列表形式输出
r_list=parse_html.xpath(xpath_bds)
# 打印数据列表
print(r_list)

2、获取所有href的属性值

from lxml import etree
# 创建解析对象
parse_html=etree.HTML(html)
# 书写xpath表达式,提取文本最终使用text()
xpath_bds='//a/@href'
# 提取文本数据,以列表形式输出
r_list=parse_html.xpath(xpath_bds)
# 打印数据列表
print(r_list)

3、不匹配href=" www.biancheng.net/priduct"

from lxml import etree
# 创建解析对象
parse_html=etree.HTML(html)
# 书写xpath表达式,提取文本最终使用text()
xpath_bds='//a/@href'
# 提取文本数据,以列表形式输出
xpath_bds='//ul[@id="sitename"]/li/a/@href'
# 打印数据列表
print(r_list)

总结

到此这篇关于Python操作lxml库之基础使用篇的文章就介绍到这了,更多相关Python操作lxml库内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python批量合成bilibili的m4s缓存文件为MP4格式 ver2.5

    python批量合成bilibili的m4s缓存文件为MP4格式 ver2.5

    这篇文章主要介绍了python批量合成bilibili的m4s缓存文件为MP4格式 ver2.5的相关知识,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-12-12
  • python冒泡排序算法的实现代码

    python冒泡排序算法的实现代码

    这篇文章主要介绍了python冒泡排序算法的实现代码,大家参考使用
    2013-11-11
  • 循环神经网络TextRNN实现情感短文本分类任务

    循环神经网络TextRNN实现情感短文本分类任务

    这篇文章主要为大家介绍了循环神经网络TextRNN实现情感短文本分类任务详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-04-04
  • 浅谈Python中的可变对象和不可变对象

    浅谈Python中的可变对象和不可变对象

    下面小编就为大家带来一篇浅谈Python中的可变对象和不可变对象。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-07-07
  • 如何在Python 中使用 join() 函数把列表拼接成一个字符串

    如何在Python 中使用 join() 函数把列表拼接成一个字符串

    这篇文章主要介绍了如何在Python 中使用 join() 函数把列表拼接成一个字符串,文章围绕 join() 函数的相关资料展开详细内容,需要的小伙伴可以参考一下,希望对你有帮助
    2022-03-03
  • 解决python3 urllib 链接中有中文的问题

    解决python3 urllib 链接中有中文的问题

    今天小编就为大家分享一篇解决python3 urllib 链接中有中文的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-07-07
  • Python @property原理解析和用法实例

    Python @property原理解析和用法实例

    这篇文章主要介绍了Python @property原理解析和用法实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-02-02
  • 详解Python中数据类型的转换

    详解Python中数据类型的转换

    这篇文章主要为大家详细介绍了Python中数据类型转换的相关资料,文中的示例代码讲解详细,具有一定的参考价值,感兴趣的小伙伴可以了解一下
    2023-03-03
  • python 布尔操作实现代码

    python 布尔操作实现代码

    python布尔操作也是我们经常写代码需要用到的,首先我们需要明白在python里面,哪些被解释器当做真,哪些当做假
    2013-03-03
  • python实现简单的文字识别

    python实现简单的文字识别

    这篇文章主要为大家详细介绍了基于百度云文字识别API,python实现的简单文字识别,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-11-11

最新评论