Python爬虫scrapy框架Cookie池(微博Cookie池)的使用
下载代码Cookie池(这里主要是微博登录,也可以自己配置置其他的站点网址)
下载代码GitHub:https://github.com/Python3WebSpider/CookiesPool
下载安装过后注意看网页下面的相关基础配置和操作!!!!!!!!!!!!!
自己的设置主要有下面几步:
1、配置其他设置
2、设置使用的浏览器
3、设置模拟登陆
源码cookies.py的修改(以下两处不修改可能会产生bug):
4、获取cookie
随机获取Cookies: http://localhost:5000/weibo/random(注意:cookie使用时是需要后期处理的!!)
简单的处理方式,如下代码(偶尔需要对获取的cookie处理):
def get_cookie(self): return requests.get('http://127.0.0.1:5000/weibo/random').text def stringToDict(self,cookie): itemDict = {} items = cookie.replace(':', '=').split(',') for item in items: key = item.split('=')[0].replace(' ', '').strip(' "') value = item.split('=')[1].strip(' "') itemDict[key] = value return itemDict
scrapy爬虫的使用示例(爬取微博):
middlewares.py中自定义请求中间件
def start_requests(self): ua = UserAgent() headers = { 'User-Agent': ua.random, } cookies = self.stringToDict(str(self.get_cookie().strip('{|}'))) yield scrapy.Request(url=self.start_urls[0], headers=headers, cookies=cookies, callback=self.parse) cookies = self.stringToDict(str(self.get_cookie().strip('{|}'))) yield scrapy.Request(url=self.start_urls[0], headers=headers, cookies=cookies, callback=self.parse)
settings.py 中的配置:
5、录入账号和密码:
格式规定(账号----密码)
6、验证:(注意:使用cmd)
7、使用时注意保持cmd打开运行!!
使用时一定要打开cmd,并运行如第6步。
得到Cookie是判断是否处理处理Cookie(几乎都需要!!)类比第4步!!!
到此这篇关于Python爬虫scrapy框架Cookie池(微博Cookie池)的使用的文章就介绍到这了,更多相关scrapy Cookie池内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!
相关文章
分享python中matplotlib指定绘图颜色的八种方式
这篇文章主要给大家分享的是python中matplotlib指定绘图颜色的八种方式,在使用matplotlib的pyplot库进行绘图时,经常会发现各种开源代码指定“color”的方式并不一致,下面就向大家展示8种指定color的方式,需要的朋友可以参考一下2022-03-03Python中识别图片/滑块验证码准确率极高的ddddocr库详解
验证码的种类有很多,它是常用的一种反爬手段,包括:图片验证码,滑块验证码,等一些常见的验证码场景。这里推荐一个简单实用的识别验证码的库 ddddocr (带带弟弟ocr)库,希望大家喜欢2023-02-02
最新评论