Python正则表达式匹配HTML页面编码

更新时间：2015年04月08日 09:17:52 投稿：junjie

这篇文章主要介绍了Python正则表达式匹配HTML页面编码,本文直接给出代码和匹配实例,需要的朋友可以参考下

html页面一般都会指定一个编码，如何获取到是处理html页面的第一步，因为错误的编码必然带来后面处理的问题。这里我用python的正则表达式写了个：

import re

a = ["<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />",
   '<meta http-equiv=Content-Type content="text/html;charset=gb2312">',
   '<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="content-type" content="text/html; charset=utf-8" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />'
   ]



b = "<meta[ ]+http-equiv=["']?content-type["']?[ ]+content=["']?text/html;[ ]*charset=([0-9-a-zA-Z]+)["']?"


B = re.compile(b, re.IGNORECASE)


for ax in a:
  r1 = B.search(ax)

  if r1:
    print r1.group()
    print r1.group(1), len(r1.group())
  else:
    print 'not match'

您可能感兴趣的文章:

Python之Scrapy爬虫框架安装及使用详解
这篇文章主要为大家详细介绍了Python Scrapy爬虫框架安装及简单使用，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2017-11-11
pytorch:实现简单的GAN示例(MNIST数据集)
今天小编就为大家分享一篇pytorch:实现简单的GAN示例(MNIST数据集)，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-01-01
python中input()的用法及扩展
这篇文章主要介绍了python中input()的用法及扩展，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2022-05-05
Python面向对象特殊成员
这篇文章主要介绍了Python面向对象特殊成员的相关资料,需要的朋友可以参考下
2017-04-04
对python读写文件去重、RE、set的使用详解
今天小编就为大家分享一篇对python读写文件去重、RE、set的使用详解，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-12-12
python机器学习基础决策树与随机森林概率论
这篇文章主要为大家介绍了python机器学习基础决策树与随机森林概率论详解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步
2021-11-11
python顺序执行多个py文件的方法
今天小编大家分享一篇python顺序执行多个py文件的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-06-06
Jupyter导入自定义模块及导入后TypeError错误问题及解决
这篇文章主要介绍了Jupyter导入自定义模块及导入后TypeError错误问题及解决，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2023-01-01
python 实现存储数据到txt和pdf文档及乱码问题的解决
这篇文章主要介绍了python 实现存储数据到txt和pdf文档及乱码问题的解决，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2021-03-03
Python浅析匿名函数lambda的用法
lambda所表示的匿名函数的内容应该是很简单的，如果复杂的话，干脆就重新定义一个函数了，使用lambda就有点过于执拗了。lambda就是用来定义一个匿名函数的，如果还要给他绑定一个名字的话，就会显得有点画蛇添足，通常是直接使用lambda函数
2022-07-07

Python正则表达式匹配HTML页面编码

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具