Scrapy基于scrapy_redis实现分布式爬虫部署的示例

 更新时间:2020年09月29日 10:47:29   作者:mankvis  
这篇文章主要介绍了Scrapy基于scrapy_redis实现分布式爬虫部署的示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

Python客栈送红包、纸质书

准备工作

1.安装scrapy_redis包,打开cmd工具,执行命令pip install scrapy_redis


2.准备好一个没有BUG,没有报错的爬虫项目


3.准备好redis主服务器还有跟程序相关的mysql数据库

前提mysql数据库要打开允许远程连接,因为mysql安装后root用户默认只允许本地连接,详情请看此文章



部署过程

1.修改爬虫项目的settings文件

在下载的scrapy_redis包中,有一个scheduler.py文件,里面有一个Scheduler类,是用来调度url,还有一个dupefilter.py文件,里面有个类是RFPDupeFilter,是用来去重,所以要在settings任意位置文件中添加上它们


还有在scrapy_redis包中,有一个pipelines文件,里面的RedisPipeline类可以把爬虫的数据写入redis,更稳定安全,所以要在settings中启动pipelines的地方启动此pipeline


最后修改redis连接配置


2.修改spider爬虫文件

首先我们要引入一个scrapy_redis.spider文件中的一个RedisSpider类,然后把spider爬虫文件原来继承的scrapy.Spider类改为引入的RedisSpider这个类


接着把原来的start_urls这句代码注释掉,加入redis_key = '自定义key值',一般以爬虫名:urls命名

测试部署是否成功

直接运行我们的项目,


打开redis客户端在redis添加key为yunqi:start_urls的列表,值为地址


添加成功后,程序直接跑了起来


查看数据是否插入

分布式用到的代码应该是同一套代码
1) 先把项目配置为分布式
2) 把项目拷贝到多台服务器中
3) 把所有爬虫项目都跑起来
4) 在主redis-cli中lpush你的网址即可
5) 效果:所有爬虫都开始运行,并且数据还都不一样

到此这篇关于Scrapy基于scrapy_redis实现分布式爬虫部署的示例的文章就介绍到这了,更多相关Scrapy redis分布式爬虫 内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

蓄力AI

微信公众号搜索 “ 脚本之家 ” ,选择关注

程序猿的那些事、送书等活动等着你

原文链接:https://blog.csdn.net/baoshuowl/article/details/79701303

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权/违法违规/事实不符,请将相关资料发送至 reterry123@163.com 进行投诉反馈,一经查实,立即处理!

相关文章

  • Python 相对路径和绝对路径及写法演示

    Python 相对路径和绝对路径及写法演示

    这篇文章主要介绍了Python 相对路径绝对路径的相关知识,结合实例代码介绍了Python 相对路径、绝对路径的写法实例演示,需要的朋友可以参考下
    2023-02-02
  • Python异常模块traceback用法实例分析

    Python异常模块traceback用法实例分析

    这篇文章主要介绍了Python异常模块traceback用法,结合实例形式分析了Python异常模块traceback的基本功能、使用方法及相关操作注意事项,需要的朋友可以参考下
    2019-10-10
  • python数据库如何连接SQLite详解

    python数据库如何连接SQLite详解

    这篇文章主要介绍了Python实现连接SQLite数据库的方法,在Python数据库编程中有着广泛的应用,需要的朋友可以参考下,希望能给你带来帮助
    2021-08-08
  • python中字符串内置函数的用法总结

    python中字符串内置函数的用法总结

    这篇文章给大家总结了python中字符串内置函数的用法以及相关知识点内容,有兴趣的朋友学习下。
    2018-09-09
  • 详解Python 循环嵌套

    详解Python 循环嵌套

    这篇文章主要介绍了Python 循环嵌套的相关资料,文中示例代码非常详细,帮助大家更好的理解和学习,感兴趣的朋友可以了解下
    2020-07-07
  • python 包之 APScheduler 定时任务

    python 包之 APScheduler 定时任务

    这篇文章主要介绍了python 包之 APScheduler 定时任务,文章基于python的相关资料展开主题内容,具有一定的参考价值,需要的小伙伴可以参考一下
    2022-04-04
  • python利用platform模块获取系统信息

    python利用platform模块获取系统信息

    这篇文章主要介绍了python利用platform模块获取系统信息,帮助大家更好的理解和使用python,感兴趣的朋友可以了解下
    2020-10-10
  • Python 安装 virturalenv 虚拟环境的教程详解

    Python 安装 virturalenv 虚拟环境的教程详解

    这篇文章主要介绍了Python 安装 virturalenv 虚拟环境的教程,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-02-02
  • django 简单实现登录验证给你

    django 简单实现登录验证给你

    这篇文章主要介绍了django 简单实现登录验证给你,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-11-11
  • python检测文件夹变化,并拷贝有更新的文件到对应目录的方法

    python检测文件夹变化,并拷贝有更新的文件到对应目录的方法

    今天小编就为大家分享一篇python检测文件夹变化,并拷贝有更新的文件到对应目录的方法。具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-10-10

最新评论