解决Python网页爬虫之中文乱码问题

更新时间：2018年05月11日 08:55:50 作者：ToringZZZ

今天小编就为大家分享一篇解决Python网页爬虫之中文乱码问题，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

Python是个好工具，但是也有其固有的一些缺点。最近在学习网页爬虫时就遇到了这样一种问题，中文网站爬取下来的内容往往中文显示乱码。看过我之前博客的同学可能知道，之前爬取的一个学校网页就出现了这个问题，但是当时并没有解决，这着实成了我一个心病。这不，刚刚一解决就将这个方法公布与众，大家一同分享。

首先，我说一下Python中文乱码的原因，Python中文乱码是由于Python在解析网页时默认用Unicode去解析，而大多数网站是utf-8格式的，并且解析出来之后，python竟然再以Unicode字符格式输出，会与系统编码格式不同，导致中文输出乱码，知道原因后我们就好解决了。下面上代码，实验对象仍是被人上了无数遍的百度主页~

# -*- coding: utf-8 -*-

import urllib2
import re
import requests
import sys

import urllib
#设置编码
reload(sys)
sys.setdefaultencoding('utf-8')
#获得系统编码格式
type = sys.getfilesystemencoding()
r = urllib.urlopen("http://www.baidu.com")
#将网页以utf-8格式解析然后转换为系统默认格式
a = r.read().decode('utf-8').encode(type)
print a

最后输出效果，中文完美输出

以上这篇解决Python网页爬虫之中文乱码问题就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

Python中splitlines()方法的使用简介
这篇文章主要介绍了Python中splitlines()方法的使用简介,是Python入门中的基础知识,需要的朋友可以参考下
2015-05-05
selenium+unittest实现web自动化的示例代码
本文主要介绍了selenium+unittest实现web自动化的示例代码，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2023-03-03
自制python包并通过pip上传pypi
这篇文章主要为大家介绍了自己制作python包并通过pip上传pypi实现过程详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
2023-09-09
Python Selenium无法打开Chrome浏览器处理自定义浏览器路径的问题及解决方法
Python Selenium控制Chrome浏览器的过程中,由于安装的Chrome浏览器的版本找不到对应版本的驱动chromedriver.exe文件,下载了小几个版本号的驱动软件都无法正常使用,下面通过本文介绍Python Selenium无法打开Chrome浏览器处理自定义浏览器路径的问题,需要的朋友可以参考下
2024-08-08
Python字典操作得力助手Get()函数的使用
在Python编程中，get()函数是字典（Dictionary）对象中非常有用的函数，本文将详细介绍get()函数的用法及示例代码，感兴趣的可以了解一下
2023-11-11
python 爬虫如何实现百度翻译
这篇文章主要介绍了python 爬虫简单实现百度翻译的示例，帮助大家更好的理解和使用python 爬虫，感兴趣的朋友可以了解下
2020-11-11
Python语言描述连续子数组的最大和
这篇文章主要介绍了Python语言描述连续子数组的最大和，具有一定借鉴价值,需要的朋友可以参考下
2018-01-01
Python tkinter和exe打包的方法
这篇文章主要介绍了Python tkinter和exe打包的方法，本文给大家介绍的非常详细，具有一定的参考借鉴价值,需要的朋友可以参考下
2020-02-02
PyOD进行异常值检测使用实例
异常值检测各个领域的关键任务之一,PyOD是Python Outlier Detection的缩写,可以简化多变量数据集中识别异常值的过程,在本文中,我们将介绍PyOD包,并通过实际给出详细的代码示例
2024-02-02
pandas获取对应的行或者列方式
这篇文章主要介绍了pandas获取对应的行或者列方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2024-02-02

解决Python网页爬虫之中文乱码问题

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具