python-xpath获取html文档的部分内容

 更新时间:2020年03月06日 09:49:21   作者:带鱼工作室  
这篇文章主要介绍了python-xpath获取html文档的部分内容,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

有些时候我在们需要的用正则提取出html中某一个部分的文字内容,如图:

获取dd部分的html文档,我们要通过它的一个属性去确定他的位置才可以拿到他这个部分我们可以看到他的这个属性class='row clearfix ',然后用xpath去获取到这部分:

name = tree.xpath("//dd[@class='row clearfix ']")
from lxml import html
import requests
url = 'http://navi.cnki.net/knavi/JournalDetail/GetArticleList?year=2018&issue=04&pykm=DZXU&pageIdx=0&pcode=CJFD'
res = requests.get(url)
tree = html.fromstring(res.text)
name = tree.xpath("//dd[@class='row clearfix ']")
print(name)

如果直接打印他是不能够出来的,

我们需要对Element进行处理,用到name1 = html.tostring(name[0]),代码如下:

from lxml import html
import requests
url = 'http://navi.cnki.net/knavi/JournalDetail/GetArticleList?year=2018&issue=04&pykm=DZXU&pageIdx=0&pcode=CJFD'
res = requests.get(url)
tree = html.fromstring(res.text)
name = tree.xpath("//dd[@class='row clearfix ']")
name1 = html.tostring(name[0])
print(name1)

打印截图:

但是大家可以看到里面的等内容并不是中文,原因是我们使用tostring方法输出的是修正后的HTML代码,但是结果是bytes类型,在python中bytes类型是不可以进行编码的,需要转换成字符串,使用代码name1.decode(),此时我们将bytes类型转换为str(字符串)类型。

那么此时我们关键是如何将$#26080;此类的符号转换成汉字!!!那么首先要搞清楚这是什么编码?这类符号是HTML、XML 等 SGML 类语言的转义序列。它们不是”编码“,也就是说我们不能使用utf-8、gbk等编码进行处理,需要使用HTMLParse进行处理,完整代码如下:

from lxml import html
import requests
from html.parser import HTMLParser #导入html解析库
url = 'http://navi.cnki.net/knavi/JournalDetail/GetArticleList?year=2018&issue=04&pykm=DZXU&pageIdx=0&pcode=CJFD'
res = requests.get(url)
tree = html.fromstring(res.text)
name = tree.xpath("//dd[@class='row clearfix ']")
name1 = html.tostring(name[0])
name2 = HTMLParser().unescape(name1.decode())
print(name2)

此时运行结果如下:

那么此时就已经大功告成了!!!

以上这篇python-xpath获取html文档的部分内容就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • 关于python多进程中的常用方法详解

    关于python多进程中的常用方法详解

    这篇文章主要介绍了关于python多进程中的常用方法详解,python中的多线程其实并不是真正的多线程,如果想要充分地使用多核CPU资源,在python中大部分情况需要使用多进程,需要的朋友可以参考下
    2023-07-07
  • Python面向对象特殊属性及方法解析

    Python面向对象特殊属性及方法解析

    这篇文章主要介绍了Python面向对象特殊属性及方法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-09-09
  • python 用opencv调用训练好的模型进行识别的方法

    python 用opencv调用训练好的模型进行识别的方法

    今天小编就为大家分享一篇python 用opencv调用训练好的模型进行识别的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-12-12
  • Python中if语句的基本格式实例代码

    Python中if语句的基本格式实例代码

    在Python中,if语句用于根据条件执行不同的代码块。本文详细介绍了Python中if语句的基本格式使用方法及实例代码,有需要的同学可以参考阅读
    2023-05-05
  • Python使用socket模块实现简单tcp通信

    Python使用socket模块实现简单tcp通信

    这篇文章主要介绍了Python使用socket模块实现简单tcp通信,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-08-08
  • python实现通过flask和前端进行数据收发

    python实现通过flask和前端进行数据收发

    今天小编就为大家分享一篇python实现通过flask和前端进行数据收发,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-08-08
  • Python的Flask框架的简介和安装方法

    Python的Flask框架的简介和安装方法

    这篇文章主要介绍了Python的Flask框架的简介和安装方法,Flask是一款高人气的非常简洁的web开发框架,需要的朋友可以参考下
    2015-11-11
  • Python操作MySQL简单实现方法

    Python操作MySQL简单实现方法

    这篇文章主要介绍了Python操作MySQL简单实现方法,通过一个简单的实例讲述了Python针对mysql数据库的增删改查技巧,需要的朋友可以参考下
    2015-01-01
  • Python使用functools模块中的partial函数生成偏函数

    Python使用functools模块中的partial函数生成偏函数

    所谓偏函数即是规定了固定参数的函数,在函数式编程中我们经常可以用到,这里我们就来看一下Python使用functools模块中的partial函数生成偏函数的方法
    2016-07-07
  • 一文掌握python中的__init__的意思及使用场景分析

    一文掌握python中的__init__的意思及使用场景分析

    __init__是构造方法,谁调用,表示谁(更直观的理解就是类的方法中,谁调用,表示谁,见下面第一个代码)!!并不是必选项,也就是说在类中,这个不是必须用的,那什么场景需要用到,什么场景不需要用到呢,感兴趣的朋友跟随小编一起看看吧
    2023-02-02

最新评论