在Python中使用HTMLParser解析HTML的教程

 更新时间:2015年04月29日 09:38:01   作者:廖雪峰  
这篇文章主要介绍了在Python中使用HTMLParser解析HTML的教程,尤其是在用Python制作爬虫程序的时候经常可以用到,需要的朋友可以参考下

如果我们要编写一个搜索引擎,第一步是用爬虫把目标网站的页面抓下来,第二步就是解析该HTML页面,看看里面的内容到底是新闻、图片还是视频。

假设第一步已经完成了,第二步应该如何解析HTML呢?

HTML本质上是XML的子集,但是HTML的语法没有XML那么严格,所以不能用标准的DOM或SAX来解析HTML。

好在Python提供了HTMLParser来非常方便地解析HTML,只需简单几行代码:

from HTMLParser import HTMLParser
from htmlentitydefs import name2codepoint

class MyHTMLParser(HTMLParser):

  def handle_starttag(self, tag, attrs):
    print('<%s>' % tag)

  def handle_endtag(self, tag):
    print('</%s>' % tag)

  def handle_startendtag(self, tag, attrs):
    print('<%s/>' % tag)

  def handle_data(self, data):
    print('data')

  def handle_comment(self, data):
    print('<!-- -->')

  def handle_entityref(self, name):
    print('&%s;' % name)

  def handle_charref(self, name):
    print('&#%s;' % name)

parser = MyHTMLParser()
parser.feed('<html><head></head><body><p>Some <a href=\"#\">html</a> tutorial...<br>END</p></body></html>')

feed()方法可以多次调用,也就是不一定一次把整个HTML字符串都塞进去,可以一部分一部分塞进去。

特殊字符有两种,一种是英文表示的&nbsp;,一种是数字表示的&#1234;,这两种字符都可以通过Parser解析出来。
小结

找一个网页,例如https://www.python.org/events/python-events/,用浏览器查看源码并复制,然后尝试解析一下HTML,输出Python官网发布的会议时间、名称和地点。

相关文章

  • Python异常处理try语句应用技巧实例探究

    Python异常处理try语句应用技巧实例探究

    异常处理在Python中是至关重要的,try-except是用于捕获和处理异常的核心机制之一,本文就带大家深入了解如何使用try-except,处理各种异常情况
    2024-01-01
  • Python multiprocessing 进程间通信方式实现

    Python multiprocessing 进程间通信方式实现

    本文主要介绍了Python multiprocessing 进程间通信方式实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-02-02
  • PyTorch 如何自动计算梯度

    PyTorch 如何自动计算梯度

    这篇文章主要介绍了PyTorch 如何自动计算梯度的操作,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2021-05-05
  • Django修改app名称和数据表迁移方案实现

    Django修改app名称和数据表迁移方案实现

    这篇文章主要介绍了Django修改app名称和数据表迁移方案实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-09-09
  • 基于python图像处理API的使用示例

    基于python图像处理API的使用示例

    这篇文章主要介绍了基于python图像处理API的使用示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-04-04
  • python将MongoDB里的ObjectId转换为时间戳的方法

    python将MongoDB里的ObjectId转换为时间戳的方法

    这篇文章主要介绍了python将MongoDB里的ObjectId转换为时间戳的方法,涉及Python操作MongoDB及字符串转换的技巧,具有一定参考借鉴价值,需要的朋友可以参考下
    2015-03-03
  • python自带缓存lru_cache用法及扩展的使用

    python自带缓存lru_cache用法及扩展的使用

    本篇博客将结合python官方文档和源码详细讲述lru_cache缓存方法是怎么实现,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-08-08
  • python开发前景如何

    python开发前景如何

    在本篇文章中小编给大家整理了关于python开发前景的知识点及相关内容,有兴趣的朋友们可以跟着学习参考下。
    2020-06-06
  • Centos7 Python3下安装scrapy的详细步骤

    Centos7 Python3下安装scrapy的详细步骤

    这篇文章主要介绍了Centos7 Python3下安装scrapy的详细步骤,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-03-03
  • 解决Python复杂zip文件的解压问题

    解决Python复杂zip文件的解压问题

    这篇文章主要介绍了Python复杂zip文件的解压,通过配合 shutil 与 os 标准库中的相关功能,实现将指定任意 zip 压缩包,完好地解压到指定的目录中,需要的朋友可以参考下
    2021-12-12

最新评论