python处理中文编码和判断编码示例

更新时间：2014年02月26日 11:22:03 作者：

在开发自用爬虫过程中，有的网页是utf-8，有的是gb2312,有的是gbk，如果不加处理，采集到的都是乱码，解决的方法是将html处理成统一的utf-8编码

下面所说的都是针对python2.7

#coding:utf-8
#chardet 需要下载安装

import chardet
#抓取网页html
line = "http://www.***.com"
html_1 = urllib2.urlopen(line,timeout=120).read()
#print html_1
encoding_dict = chardet.detect(html_1)
#print encoding
web_encoding = encoding_dict['encoding']
if web_encoding == 'utf-8' or web_encoding == 'UTF-8':

html = html_1
else :
html = html_1.decode('gbk','ignore').encode('utf-8')

#有以上处理，整个html就不会是乱码。

您可能感兴趣的文章:

Django应用程序中如何发送电子邮件详解
我们常常会用到一些发送邮件的功能，比如有人提交了应聘的表单，可以向HR的邮箱发邮件，这样，HR不看网站就可以知道有人在网站上提交了应聘信息。下面这篇文章就介绍了在Django应用程序中如何发送电子邮件的相关资料,需要的朋友可以参考借鉴。
2017-02-02
Python打包文件执行报错：ModuleNotFoundError: No module
这篇文章给大家介绍了Python打包文件执行报错：ModuleNotFoundError: No module named ‘pymssql‘的解决方法,如果有遇到相同问题的朋友可以参考阅读一下本文
2023-10-10
Python进阶学习修改闭包内使用的外部变量
这篇文章主要为大家介绍了Python进阶学习修改闭包内使用的外部变量实现示例，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2022-06-06
Python multiprocessing 进程间通信方式实现
本文主要介绍了Python multiprocessing 进程间通信方式实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2023-02-02
Python和Ruby中each循环引用变量问题（一个隐秘BUG?）
这篇文章主要介绍了Python和Ruby中each循环引用变量问题,类似PHP的foreach中使用引用变量的问题,需要的朋友可以参考下
2014-06-06
Python 函数list&read&seek详解
这篇文章主要介绍了Python 函数list&read&seek详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-08-08
python 教程之blinker 信号库
这篇文章主要介绍了python 教程之blinker 信号库，文章基于python的相关资料展开详细的内容说明。具有一定的参考价价值，需要的小伙伴可以参考一下
2022-05-05
python3使用腾讯企业邮箱发送邮件的实例
今天小编就为大家分享一篇python3使用腾讯企业邮箱发送邮件的实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-06-06
对pytorch的函数中的group参数的作用介绍
今天小编就为大家分享一篇对pytorch的函数中的group参数的作用介绍，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-02-02
django数据模型（Model）的字段类型解析
这篇文章主要介绍了django数据模型（Model）的字段类型,文中给大家提到了django数据模型on_delete, db_constraint的使用,需要的朋友可以参考下
2019-12-12