python3中编码获取网页的实例方法
学了python后,之前一些我们常用的方法,也可以换一种思路用python中的知识来解决。相信操作出来后,能收获一大批小粉丝们。就像我们没学习编程之前,看到那种大神都是可望而不可即。今天我们就之前简单获取网页的这种操作用python中的编码来解决,大家可以自行体会一下两者的不同。
1. encoding和apparent_encoding
import scrapy url="https://www.xxx.net/html/gndy/dyzz/index.html" re=requests.get(url) #获取响应头Content-Type的charset值,有的网站没有charset字段,就可能使用默认的 ISO-8859-1 print(re.encoding) #apparent_encoding就是获取网站真实的编码 print(re.apparent_encoding)
2. 处理方案
直接用r.encoding = ‘xxx'
re.encoding='utf-8'
3. requests的text() 跟 content() 有什么区别
re.text返回的是处理过的Unicode型的数据,
而使用re.content返回的是bytes型的原始数据。
4. 爬虫拿到的HTML和浏览器中的源码不相同时
通过下载源码对比
import requests url = 'https://www.xxx.net/html/gndy/dyzz/index.html' r = requests.get(url) r.encoding = r.apparent_encoding html = r.text with open('test.html','w',encoding='utf8') as f: f.write(html)
到此这篇关于python3中编码获取网页的实例方法的文章就介绍到这了,更多相关python3中编码如何获取网页内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!
- Python 编码规范(Google Python Style Guide)
- python 编码规范整理
- Python 常用 PEP8 编码规范详解
- Python开发编码规范
- Python3 json模块之编码解码方法讲解
- 解决python3 中的np.load编码问题
- python源文件的字符编码知识点详解
- Python新建项目自动添加介绍和utf-8编码的方法
- 关于Python字符编码与二进制不得不说的一些事
- 详解Python中的编码问题(encoding与decode、str与bytes)
- Python2与Python3关于字符串编码处理的差别总结
- Python 忽略文件名编码的方法
- python基础之编码规范总结
相关文章
深度学习Tensorflow2.8实现GRU文本生成任务详解
这篇文章主要为大家介绍了深度学习Tensorflow 2.8 实现 GRU 文本生成任务示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪2023-01-01pandas如何将datetime64[ns]转为字符串日期
这篇文章主要介绍了pandas如何将datetime64[ns]转为字符串日期,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教2022-07-07使用 Python 的 pprint库格式化和输出列表和字典的方法
pprint是"pretty-print"的缩写,使用 Python 的标准库 pprint 模块,以干净的格式输出和显示列表和字典等对象,这篇文章主要介绍了如何使用 Python 的 pprint库格式化和输出列表和字典,需要的朋友可以参考下2023-05-05解决pycharm debug时界面下方不出现step等按钮及变量值的问题
这篇文章主要介绍了解决pycharm debug时界面下方不出现step等按钮及变量值的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧2020-06-06Tensorflow卷积实现原理+手写python代码实现卷积教程
这篇文章主要介绍了Tensorflow卷积实现原理+手写python代码实现卷积教程,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧2020-05-05
最新评论