Python正则表达式匹配HTML页面编码

 更新时间:2015年04月08日 09:17:52   投稿:junjie  
这篇文章主要介绍了Python正则表达式匹配HTML页面编码,本文直接给出代码和匹配实例,需要的朋友可以参考下

html页面一般都会指定一个编码,如何获取到是处理html页面的第一步,因为错误的编码必然带来后面处理的问题。这里我用python的正则表达式写了个:

import re

a = ["<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />",
   '<meta http-equiv=Content-Type content="text/html;charset=gb2312">',
   '<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="content-type" content="text/html; charset=utf-8" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />'
   ]



b = "<meta[ ]+http-equiv=["']?content-type["']?[ ]+content=["']?text/html;[ ]*charset=([0-9-a-zA-Z]+)["']?"


B = re.compile(b, re.IGNORECASE)


for ax in a:
  r1 = B.search(ax)

  if r1:
    print r1.group()
    print r1.group(1), len(r1.group())
  else:
    print 'not match'

相关文章

  • Python之Scrapy爬虫框架安装及使用详解

    Python之Scrapy爬虫框架安装及使用详解

    这篇文章主要为大家详细介绍了Python Scrapy爬虫框架安装及简单使用,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-11-11
  • pytorch:实现简单的GAN示例(MNIST数据集)

    pytorch:实现简单的GAN示例(MNIST数据集)

    今天小编就为大家分享一篇pytorch:实现简单的GAN示例(MNIST数据集),具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-01-01
  • python中input()的用法及扩展

    python中input()的用法及扩展

    这篇文章主要介绍了python中input()的用法及扩展,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-05-05
  • Python面向对象特殊成员

    Python面向对象特殊成员

    这篇文章主要介绍了Python面向对象特殊成员的相关资料,需要的朋友可以参考下
    2017-04-04
  • 对python读写文件去重、RE、set的使用详解

    对python读写文件去重、RE、set的使用详解

    今天小编就为大家分享一篇对python读写文件去重、RE、set的使用详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-12-12
  • python机器学习基础决策树与随机森林概率论

    python机器学习基础决策树与随机森林概率论

    这篇文章主要为大家介绍了python机器学习基础决策树与随机森林概率论详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步
    2021-11-11
  • python顺序执行多个py文件的方法

    python顺序执行多个py文件的方法

    今天小编大家分享一篇python顺序执行多个py文件的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-06-06
  • Jupyter导入自定义模块及导入后TypeError错误问题及解决

    Jupyter导入自定义模块及导入后TypeError错误问题及解决

    这篇文章主要介绍了Jupyter导入自定义模块及导入后TypeError错误问题及解决,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-01-01
  • python 实现存储数据到txt和pdf文档及乱码问题的解决

    python 实现存储数据到txt和pdf文档及乱码问题的解决

    这篇文章主要介绍了python 实现存储数据到txt和pdf文档及乱码问题的解决,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-03-03
  • Python浅析匿名函数lambda的用法

    Python浅析匿名函数lambda的用法

    lambda所表示的匿名函数的内容应该是很简单的,如果复杂的话,干脆就重新定义一个函数了,使用lambda就有点过于执拗了。lambda就是用来定义一个匿名函数的,如果还要给他绑定一个名字的话,就会显得有点画蛇添足,通常是直接使用lambda函数
    2022-07-07

最新评论