python如何爬取网页中的文字
用Python进行爬取网页文字的代码:
#!/usr/bin/python # -*- coding: UTF-8 -*- import requests import re # 下载一个网页 url = 'https://www.biquge.tw/75_75273/3900155.html' # 模拟浏览器发送http请求 response = requests.get(url) # 编码方式 response.encoding='utf-8' # 目标小说主页的网页源码 html = response.text print(html)
1、编写爬虫思路:
确定下载目标,找到网页,找到网页中需要的内容。对数据进行处理。保存数据。
2、知识点说明:
1)确定网络中需要的信息,打开网页后使用F12打开开发者模式。
在Network中可以看到很多信息,我们在页面上看到的文字信息都保存在一个html文件中。点击文件后可以看到response,文字信息都包含在response中。
对于需要输入的信息,可以使用ctrl+f,进行搜索。查看信息前后包含哪些特定字段。
对于超链接的提取,可以使用最左边的箭头点击超链接,这时Elements会打开有该条超链接的信息,从中判断需要提取的信息。从下载小说来看,在目录页提取出小说的链接和章节名。
2)注意编码格式
输入字符集一定要设置成utf-8。页面大多为GBK字符集。不设置会乱码。
内容扩展:
接下来我们了解一下爬取网页信息的步骤。
想要获得我们所需的数据分三步
第一步:使用BeautifulSoup解析网页
Soup = BeautifulSoup(html,'lxml')
第二步:描述想要爬去信息的东西在哪里。
信息 = Soup.select('???')
要知道它叫什么名字,如何去定位。
第三步:从标签中获得你想要的信息
<p>Something</p>
从标签中获取我们需要的信息,去掉一些没有用的结构,并且把我们获取的信息按照一定格式装在数据容器中,方便我们去查询。
以上就是python如何爬取网页中的文字的详细内容,更多关于python爬取网页文字的资料请关注脚本之家其它相关文章!
相关文章
浅谈django不使用restframework自定义接口与使用的区别
这篇文章主要介绍了浅谈django不使用restframework自定义接口与使用的区别,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧2020-07-07Python基本数据结构与用法详解【列表、元组、集合、字典】
这篇文章主要介绍了Python基本数据结构与用法,结合实例形式分析了Python基本数据结构中的列表、元组、集合、字典相关概念、使用方法及推导式、遍历等相关使用技巧,需要的朋友可以参考下2019-03-03用Python删除本地目录下某一时间点之前创建的所有文件的实例
下面小编就为大家分享一篇用Python删除本地目录下某一时间点之前创建的所有文件的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧2017-12-12
最新评论