Python 网页解析HTMLParse的实例详解

 更新时间:2017年08月10日 09:24:09   作者:qindongliang1922  
这篇文章主要介绍了Python 网页解析HTMLParse的实例详解的相关资料,python里提供了一个简单的解析模块HTMLParser类,使用起来也是比较简单的,解析语法没有用到XPath类似的简洁模式,需要的朋友可以参考下

Python 网页解析HTMLParse的实例详解

使用python将网页抓取下来之后,下一步我们就应该解析网页,提取我们所需要的内容了,在python里提供了一个简单的解析模块HTMLParser类,使用起来也是比较简单的,解析语法没有用到XPath类似的简洁模式,但新手用起来还是比较容易的,看下面的例子:

现在一个模拟的html文件:

<html> <title id='main' mouse='你好'>我是标题</title><body>我是内容</body>  </html> 

需求是,提取出标题的属性值,以及内容:

代码如下:

import html.parser as h 
 
 
 
class MyHTMLParser(h.HTMLParser): 
  a_t=False 
  def handle_starttag(self, tag, attrs): 
    #print("开始一个标签:",tag) 
    print() 
    if str(tag).startswith("title"): 
      print(tag) 
      self.a_t=True 
      for attr in attrs: 
        print("  属性值:",attr) 
 
  def handle_endtag(self, tag): 
    if tag == "title": 
      self.a_t=False 
      #print("结束一个标签:",tag) 
 
  def handle_data(self, data): 
    if self.a_t is True: 
      print("得到的数据: ",data) 
 
 
 
p=MyHTMLParser() 
 
p.feed("<html> <title id='main' mouse='你好'>我是标题</title><body>我是内容</body>  </html>") 
 
p.close() 

运行结果如下:

title 
  属性值: ('id', 'main') 
  属性值: ('mouse', '你好') 
得到的数据: 我是标题 

主要的技术就是继承了HTMLParser类,然后重写了里面的一些方法,来完成自己的业务,从上面的代码里,发现如果想获取某个标签的内容,还是比较麻烦的,当然这是python里面最简单的html解析方式,还有很多其他组件,scrapy等等,里面支持Xpath路径解析,使用起来非常简洁清爽。

解析代码学会之后,我们就可以将使用urllib包,抓取到的数据交给htmlparser解析,从而提取出我们所需要的内容。

以上就是Python 网页解析HTMLParse的实例详解,如有疑问请留言或者到本站社区交流讨论,感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!

相关文章

  • 解决pycharm修改代码后第一次运行不生效的问题

    解决pycharm修改代码后第一次运行不生效的问题

    这篇文章主要介绍了解决pycharm修改代码后第一次运行不生效的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-02-02
  • tensorboard显示空白的解决

    tensorboard显示空白的解决

    今天小编就为大家分享一篇tensorboard显示空白的解决,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-02-02
  • Python中encode()方法的使用简介

    Python中encode()方法的使用简介

    这篇文章主要介绍了Python中encode()方法的使用简介,是Python入门中的基础知识,需要的朋友可以参考下
    2015-05-05
  • python 一些常用的小脚本

    python 一些常用的小脚本

    本文主要介绍了python 一些常用的小脚本,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2007-10-10
  • python处理cookie详解

    python处理cookie详解

    Cookie用于服务器实现会话,用户登录及相关功能时进行状态管理,本文介绍了使用python处理cookie的方法,需要的朋友可以参考下
    2014-02-02
  • 关于pygame.surface.blit()方法4个参数的使用

    关于pygame.surface.blit()方法4个参数的使用

    这篇文章主要介绍了关于pygame.surface.blit()方法4个参数的使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-03-03
  • Django模板获取field的verbose_name实例

    Django模板获取field的verbose_name实例

    这篇文章主要介绍了Django模板获取field的verbose_name实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-05-05
  • 深度学习的MNIST手写数字数据集识别方式(准确率99%,附代码)

    深度学习的MNIST手写数字数据集识别方式(准确率99%,附代码)

    这篇文章主要介绍了深度学习的MNIST手写数字数据集识别方式(准确率99%,附代码),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-06-06
  • Python使用psutil库对系统数据进行采集监控的方法

    Python使用psutil库对系统数据进行采集监控的方法

    利用psutil库可以获取系统的一些信息,如cpu,内存等使用率,从而可以查看当前系统的使用情况,实时采集这些信息可以达到实时监控系统的目的。本文给大家介绍Python psutil系统监控的相关知识,感兴趣的朋友一起看看吧
    2021-08-08
  • python 视频下载神器(you-get)的具体使用

    python 视频下载神器(you-get)的具体使用

    这篇文章主要介绍了python 视频下载神器(you-get)的具体使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-01-01

最新评论