Python爬虫基于lxml解决数据编码乱码问题

 更新时间:2020年07月31日 08:30:58   作者:This_is_Y  
这篇文章主要介绍了Python爬虫基于lxml解决数据编码乱码问题,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

lxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高

XPath,全称XML Path Language,即XML路径语言,它是一门在XML文档中查找信息的语言,它最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索

XPath的选择功能十分强大,它提供了非常简明的路径选择表达式,另外,它还提供了超过100个内建函数,用于字符串、数值、时间的匹配以及节点、序列的处理等,几乎所有我们想要定位的节点,都可以用XPath来选择

XPath于1999年11月16日成为W3C标准,它被设计为供XSLT、XPointer以及其他XML解析软件使用,更多的文档可以访问其官方网站:https://www.w3.org/TR/xpath/

问题状况:

response = requests.get(url=url, headers=headers).text
html = etree.HTML(response)
name = html.xpath("/html/body/div[2]/ul/li[1]/a/p/text()")[0]
print(name)

可以正常获取数据,但是结果是

已验证 安全 盾牌

这样子的乱码

解决方法:

name = html.xpath("/html/body/div[2]/ul/li[1]/a/p/text()")[0].encode('ISO-8859-1').decode('UTF-8')

这边的UTF-8根据网页编码情况而定

看网页编码情况

F12

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • python Opencv将图片转为字符画

    python Opencv将图片转为字符画

    这篇文章主要为大家详细介绍了python Opencv将图片转为字符画的方法,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-03-03
  • PyQt5 对图片进行缩放的实例

    PyQt5 对图片进行缩放的实例

    今天小编就为大家分享一篇PyQt5 对图片进行缩放的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-06-06
  • python 网络编程要点总结

    python 网络编程要点总结

    Python 提供了两个级别访问的网络服务:低级别的网络服务支持基本的 Socket,它提供了标准的 BSD Sockets API,可以访问底层操作系统 Socket 接口的全部方法。高级别的网络服务模块SocketServer, 它提供了服务器中心类,可以简化网络服务器的开发。下面看下该如何使用
    2021-06-06
  • Python多线程采集二手房源数据信息流程详解

    Python多线程采集二手房源数据信息流程详解

    这篇文章主要介绍了Python多线程采集二手房源数据信息流程,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习吧
    2023-05-05
  • Pycharm pyuic5实现将ui文件转为py文件,让UI界面成功显示

    Pycharm pyuic5实现将ui文件转为py文件,让UI界面成功显示

    这篇文章主要介绍了Pycharm pyuic5实现将ui文件转为py文件,让UI界面成功显示,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-04-04
  • python tkinter实现定时关机

    python tkinter实现定时关机

    这篇文章主要为大家详细介绍了python tkinter实现定时关机,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-04-04
  • Python实现五子棋联机对战小游戏

    Python实现五子棋联机对战小游戏

    本文主要介绍了通过Python实现简单的支持联机对战的游戏——支持局域网联机对战的五子棋小游戏。废话不多说,快来跟随小编一起学习吧
    2021-12-12
  • Python faker生成器生成虚拟数据代码实例

    Python faker生成器生成虚拟数据代码实例

    这篇文章主要介绍了Python faker生成器生成虚拟数据代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-07-07
  • 解决ImportError:cannot import name ‘Flatten‘ from ‘torch.nn‘问题

    解决ImportError:cannot import name ‘Flatten‘&nb

    这篇文章主要介绍了解决ImportError:cannot import name ‘Flatten‘ from ‘torch.nn‘问题,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-06-06
  • Python中的字典遍历备忘

    Python中的字典遍历备忘

    这篇文章主要介绍了Python中的字典遍历备忘,本文列举了多种字典遍历方法,适合初学者查看,并简单讲解了interitems和iterms区别,需要的朋友可以参考下
    2015-01-01

最新评论