解决Python网页爬虫之中文乱码问题

 更新时间:2018年05月11日 08:55:50   作者:ToringZZZ  
今天小编就为大家分享一篇解决Python网页爬虫之中文乱码问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

Python是个好工具,但是也有其固有的一些缺点。最近在学习网页爬虫时就遇到了这样一种问题,中文网站爬取下来的内容往往中文显示乱码。看过我之前博客的同学可能知道,之前爬取的一个学校网页就出现了这个问题,但是当时并没有解决,这着实成了我一个心病。这不,刚刚一解决就将这个方法公布与众,大家一同分享。

首先,我说一下Python中文乱码的原因,Python中文乱码是由于Python在解析网页时默认用Unicode去解析,而大多数网站是utf-8格式的,并且解析出来之后,python竟然再以Unicode字符格式输出,会与系统编码格式不同,导致中文输出乱码,知道原因后我们就好解决了。下面上代码,实验对象仍是被人上了无数遍的百度主页~

# -*- coding: utf-8 -*-

import urllib2
import re
import requests
import sys

import urllib
#设置编码
reload(sys)
sys.setdefaultencoding('utf-8')
#获得系统编码格式
type = sys.getfilesystemencoding()
r = urllib.urlopen("http://www.baidu.com")
#将网页以utf-8格式解析然后转换为系统默认格式
a = r.read().decode('utf-8').encode(type)
print a

最后输出效果,中文完美输出

以上这篇解决Python网页爬虫之中文乱码问题就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Python中splitlines()方法的使用简介

    Python中splitlines()方法的使用简介

    这篇文章主要介绍了Python中splitlines()方法的使用简介,是Python入门中的基础知识,需要的朋友可以参考下
    2015-05-05
  • selenium+unittest实现web自动化的示例代码

    selenium+unittest实现web自动化的示例代码

    本文主要介绍了selenium+unittest实现web自动化的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-03-03
  • 自制python包并通过pip上传pypi

    自制python包并通过pip上传pypi

    这篇文章主要为大家介绍了自己制作python包并通过pip上传pypi实现过程详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-09-09
  • Python Selenium无法打开Chrome浏览器处理自定义浏览器路径的问题及解决方法

    Python Selenium无法打开Chrome浏览器处理自定义浏览器路径的问题及解决方法

    Python Selenium控制Chrome浏览器的过程中,由于安装的Chrome浏览器的版本找不到对应版本的驱动chromedriver.exe文件,下载了小几个版本号的驱动软件都无法正常使用,下面通过本文介绍Python Selenium无法打开Chrome浏览器处理自定义浏览器路径的问题,需要的朋友可以参考下
    2024-08-08
  • Python字典操作得力助手Get()函数的使用

    Python字典操作得力助手Get()函数的使用

    在Python编程中,get()函数是字典(Dictionary)对象中非常有用的函数,本文将详细介绍get()函数的用法及示例代码,感兴趣的可以了解一下
    2023-11-11
  • python 爬虫如何实现百度翻译

    python 爬虫如何实现百度翻译

    这篇文章主要介绍了python 爬虫 简单实现百度翻译的示例,帮助大家更好的理解和使用python 爬虫,感兴趣的朋友可以了解下
    2020-11-11
  • Python语言描述连续子数组的最大和

    Python语言描述连续子数组的最大和

    这篇文章主要介绍了Python语言描述连续子数组的最大和,具有一定借鉴价值,需要的朋友可以参考下
    2018-01-01
  • Python tkinter和exe打包的方法

    Python tkinter和exe打包的方法

    这篇文章主要介绍了Python tkinter和exe打包的方法,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-02-02
  • PyOD进行异常值检测使用实例

    PyOD进行异常值检测使用实例

    异常值检测各个领域的关键任务之一,PyOD是Python Outlier Detection的缩写,可以简化多变量数据集中识别异常值的过程,在本文中,我们将介绍PyOD包,并通过实际给出详细的代码示例
    2024-02-02
  • pandas获取对应的行或者列方式

    pandas获取对应的行或者列方式

    这篇文章主要介绍了pandas获取对应的行或者列方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-02-02

最新评论