python字符串编码识别模块chardet简单应用

 更新时间:2015年06月15日 08:55:26   投稿:hebedich  
有时候需要先检测一个文件的编码,然后将其转化为另一种编码。这时候就会用到chardet(chardet是python的一个第三方库,是非常优秀的编码识别模块)

python的字符串编码识别模块(第三方库):

官方地址: http://pypi.python.org/pypi/chardet

 
import chardet
import urllib
 
# 可根据需要,选择不同的数据
TestData = urllib.urlopen('http://www.baidu.com/').read()
print chardet.detect(TestData)
 
# 运行结果:
# {'confidence': 0.99, 'encoding': 'GB2312'}
运行结果表示有99%的概率认为这段代码是GB2312编码方式。
 
import urllib
from chardet.universaldetector import UniversalDetector
usock = urllib.urlopen('http://www.baidu.com/')
# 创建一个检测对象
detector = UniversalDetector()
for line in usock.readlines():
# 分块进行测试,直到达到阈值
detector.feed(line)
if detector.done: break
# 关闭检测对象
detector.close()
usock.close()
# 输出检测结果
print detector.result
 
# 运行结果:
# {'confidence': 0.99, 'encoding': 'GB2312'}

应用背景,如果要对一个大文件进行编码识别,使用这种高级的方法,可以只读一部,去判别编码方式从而提高检测速度。如果希望使用一个检测对象检测多个数据,在每次检测完,一定要运行一下detector.reset()。清除之前的数据。

以上所述就是本文的全部内容了,希望大家能够喜欢。

相关文章

  • Python 数据处理库 pandas进阶教程

    Python 数据处理库 pandas进阶教程

    在前面一篇文章中,我们对pandas做了一些入门介绍。本文是它的进阶篇。在这篇文章中,我们会讲解一些更深入的知识
    2018-04-04
  • Python实现简单的文件操作合集

    Python实现简单的文件操作合集

    这篇文章主要为大家详细介绍了Python实现的一些简单的文件操作合集,例如:文件的打开,关闭;文件的写入等,感兴趣的小伙伴可以了解一下
    2022-09-09
  • python输出当前目录下index.html文件路径的方法

    python输出当前目录下index.html文件路径的方法

    这篇文章主要介绍了python输出当前目录下index.html文件路径的方法,涉及Python操作目录的相关技巧,需要的朋友可以参考下
    2015-04-04
  • Python程序包的构建和发布过程示例详解

    Python程序包的构建和发布过程示例详解

    Python程序包的构建和发布过程,本文通过示例代码给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友参考下吧
    2019-06-06
  • Python中的类学习笔记

    Python中的类学习笔记

    这篇文章主要介绍了Python中的类学习笔记,本文是个人学习总结,用实例讲解了类的定义、访问控制等内容,需要的朋友可以参考下
    2014-09-09
  • python安装requests库的实例代码

    python安装requests库的实例代码

    在本篇文章中小编给大家分享了关于python怎么安装requests库的知识点以及代码内容,有兴趣的朋友们学习下。
    2019-06-06
  • python使用 zip 同时迭代多个序列示例

    python使用 zip 同时迭代多个序列示例

    这篇文章主要介绍了python使用 zip 同时迭代多个序列,结合实例形式分析了Python使用zip遍历迭代长度相等与不等的序列相关操作技巧,需要的朋友可以参考下
    2019-07-07
  • Python TCP接收数据不全的问题解决

    Python TCP接收数据不全的问题解决

    本文主要介绍了Python TCP接收数据不全的问题解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-07-07
  • Appium自动化测试实现H5页面元素定位

    Appium自动化测试实现H5页面元素定位

    本文主要介绍了Appium自动化测试实现H5页面元素定位,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-02-02
  • 利用Python读取微信朋友圈的多种方法总结

    利用Python读取微信朋友圈的多种方法总结

    这篇文章主要给大家介绍了关于如何利用Python读取微信朋友圈的多种方法,对于一个新手来说如果单独的去爬取朋友圈的话,难度会非常大,可以借鉴这篇文章的内容,需要的朋友可以参考下
    2021-08-08

最新评论