Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

 更新时间:2021年01月13日 09:46:53   作者:MXuDong  
这篇文章主要介绍了Python爬虫scrapy框架Cookie池(微博Cookie池)的使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

下载代码Cookie池(这里主要是微博登录,也可以自己配置置其他的站点网址)

下载代码GitHub:https://github.com/Python3WebSpider/CookiesPool

下载安装过后注意看网页下面的相关基础配置和操作!!!!!!!!!!!!!

自己的设置主要有下面几步:

1、配置其他设置

2、设置使用的浏览器

3、设置模拟登陆

源码cookies.py的修改(以下两处不修改可能会产生bug)

 

4、获取cookie

随机获取Cookies: http://localhost:5000/weibo/random(注意:cookie使用时是需要后期处理的!!)

简单的处理方式,如下代码(偶尔需要对获取的cookie处理):

def get_cookie(self):
    return requests.get('http://127.0.0.1:5000/weibo/random').text
 
  def stringToDict(self,cookie):
    itemDict = {}
    items = cookie.replace(':', '=').split(',')
    for item in items:
      key = item.split('=')[0].replace(' ', '').strip(' "')
      value = item.split('=')[1].strip(' "')
      itemDict[key] = value
    return itemDict

scrapy爬虫的使用示例(爬取微博):

middlewares.py中自定义请求中间件

def start_requests(self):
    ua = UserAgent()
    headers = {
      'User-Agent': ua.random,
      }
    cookies = self.stringToDict(str(self.get_cookie().strip('{|}')))
 
    yield scrapy.Request(url=self.start_urls[0], headers=headers,
               cookies=cookies, callback=self.parse)
cookies = self.stringToDict(str(self.get_cookie().strip('{|}')))

    yield scrapy.Request(url=self.start_urls[0], headers=headers,
               cookies=cookies, callback=self.parse)

settings.py 中的配置:

5、录入账号和密码:

格式规定(账号----密码)

6、验证:(注意:使用cmd)

7、使用时注意保持cmd打开运行!!

使用时一定要打开cmd,并运行如第6步。

得到Cookie是判断是否处理处理Cookie(几乎都需要!!)类比第4步!!!

到此这篇关于Python爬虫scrapy框架Cookie池(微博Cookie池)的使用的文章就介绍到这了,更多相关scrapy Cookie池内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python机器学习之KNN分类算法

    python机器学习之KNN分类算法

    这篇文章主要为大家详细介绍了python机器学习之KNN分类算法,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-08-08
  • Python实现简单的猜单词小游戏

    Python实现简单的猜单词小游戏

    这篇文章主要为大家详细介绍了Python实现简单的猜单词小游戏,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2020-10-10
  • Python统计序列和文件中元素的频度

    Python统计序列和文件中元素的频度

    这篇文章主要介绍了Python统计序列和文件中元素的频度,文章基于python的相关资料展开详细的内容介绍,具有一定的参考价值需要的小伙伴可以参考一下
    2022-04-04
  • 从0到1使用python开发一个半自动答题小程序的实现

    从0到1使用python开发一个半自动答题小程序的实现

    这篇文章主要介绍了从0到1使用python开发一个半自动答题小程序的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-05-05
  • Python3用tkinter和PIL实现看图工具

    Python3用tkinter和PIL实现看图工具

    这篇文章给大家分享了Python3用tkinter和PIL实现看图工具的详细实例代码,有兴趣的朋友参考学习下。
    2018-06-06
  • 分享python中matplotlib指定绘图颜色的八种方式

    分享python中matplotlib指定绘图颜色的八种方式

    这篇文章主要给大家分享的是python中matplotlib指定绘图颜色的八种方式,在使用matplotlib的pyplot库进行绘图时,经常会发现各种开源代码指定“color”的方式并不一致,下面就向大家展示8种指定color的方式,需要的朋友可以参考一下
    2022-03-03
  • 使用Python的time库格式化时间的方法

    使用Python的time库格式化时间的方法

    通过使用Python的time库,我们可以方便地进行时间处理、格式化、解析和计算等操作,本文介绍了time库的一些常见功能和使用方法,包括格式化时间、解析时间戳、获取当前时间、计算时间差等,感兴趣的朋友一起看看吧
    2023-11-11
  • python绘制箱型图

    python绘制箱型图

    这篇文章主要为大家详细介绍了python绘制箱型图,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-04-04
  • Python中识别图片/滑块验证码准确率极高的ddddocr库详解

    Python中识别图片/滑块验证码准确率极高的ddddocr库详解

    验证码的种类有很多,它是常用的一种反爬手段,包括:图片验证码,滑块验证码,等一些常见的验证码场景。这里推荐一个简单实用的识别验证码的库 ddddocr (带带弟弟ocr)库,希望大家喜欢
    2023-02-02
  • 浅谈Python的垃圾回收机制

    浅谈Python的垃圾回收机制

    本文虽然是转载的,但是是真的好的一篇非常透彻的对Python垃圾回收机制的讲解!!!这里推荐给大家
    2016-12-12

最新评论