scrapy中的spider传参实现增量的方法

 更新时间:2022年06月12日 10:13:34   作者:retime123  
有时候需要根据项目的实际需求向spider传递参数来控制spider的运行方式,本文主要介绍了scrapy中的spider传参实现增量的方法,具有一定的参考价值,感兴趣的可以了解一下

有时候需要根据项目的实际需求向spider传递参数来控制spider的运行方式。

比如说,1.根据用户提交的url来控制spider爬取的网站。2.根据需求增量爬取数据。

今天就写一个增量(augmenter)的方式:

Spider参数通过 crawl 命令的 -a 选项来传递,比如:

scrapy crawl xxx -a augmenter=xxxxxx

注:augmenter=不为空

1.首先在spider里添加

注:在网上也看了不少的博客,最后发现*args, **kwargs这两个必须加上,要不然会出现bug,不信的话可以试试哦!

如果想减少代码量的话,可以写到类里面去继承!那这样的话,spider里面就不要在写了!!!要不然就不起作用了!!!

还有

super(eval(self.__class__.__name__), self).__init__(*args, **kwargs)

这里的eval()获取的是类名,这样写必须是最后一个是你要的类名,中间有继承什么的,就会出错!或者直接把类名粘过来!

2.spider实现方式:

这样就实现了简单的增量!增量的方式有很多,常见的:时间、计数、爬取特定的几页!

选择自己需要的增量方式写在这个parse_augmenter()里面,

这样需要从头开始run和增量run就不受影响!

到此这篇关于scrapy中的spider传参实现增量的方法的文章就介绍到这了,更多相关scrapy spider传参增量内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • sklearn+python:线性回归案例

    sklearn+python:线性回归案例

    今天小编就为大家分享一篇sklearn+python:线性回归案例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-02-02
  • python3 字符串str和bytes相互转换

    python3 字符串str和bytes相互转换

    这篇文章主要介绍了python3 字符串str和bytes相互转换,在文件传输过程中,通常使用bytes格式的数据流,而代码中通常用str类型,因此str和bytes的相互转换就尤为重要,下文详细介绍需要的小伙伴可以参考一下
    2022-03-03
  • Python3内置模块之base64编解码方法详解

    Python3内置模块之base64编解码方法详解

    这篇文章主要介绍了Python3内置模块之base64编解码方法详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-07-07
  • Python模块MarkupPy与自定义html报告详解

    Python模块MarkupPy与自定义html报告详解

    MarkupPy是Python模块用于生成HTML和XML格式的字符串,它的主要作用是提供了一种比原生HTML/XML更加易读和易写的编写方式,通过Python代码来生成HTML或XML代码,这篇文章主要介绍了Python模块MarkupPy&自定义html报告的相关知识,需要的朋友可以参考下
    2023-07-07
  • numpy.linalg.eig() 计算矩阵特征向量方式

    numpy.linalg.eig() 计算矩阵特征向量方式

    今天小编就为大家分享一篇numpy.linalg.eig() 计算矩阵特征向量方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-11-11
  • 使用Tkinter制作信息提示框

    使用Tkinter制作信息提示框

    这篇文章主要介绍了使用Tkinter制作信息提示框的相关资料,需要的朋友可以参考下
    2020-02-02
  • python实现读取excel写入mysql的小工具详解

    python实现读取excel写入mysql的小工具详解

    EXCEL 和 MySQL 大体上来说都可以算是"数据库",MySQL貌似有EXCEL的接口,但是最近在自学Python,用Python实现了一下,下面这篇文章主要给大家介绍了关于利用python实现读取excel写入mysql的一个小工具,需要的朋友可以参考下。
    2017-11-11
  • Python timeit模块的使用实践

    Python timeit模块的使用实践

    timeit 模块是 Python 标准库中的模块,无需安装,直接导入就可以使用。这篇文章主要介绍了Python timeit模块的使用,需要的朋友可以参考下
    2020-01-01
  • pyspark操作MongoDB的方法步骤

    pyspark操作MongoDB的方法步骤

    这篇文章主要介绍了pyspark操作MongoDB的方法步骤,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2019-01-01
  • python中class类与方法的用法实例详解

    python中class类与方法的用法实例详解

    类(class)是python中很重要的一个概念,也是我们面象对象编程中最重要的概念主之一,这篇文章主要给大家介绍了关于python中class类与方法用法的相关资料,需要的朋友可以参考下
    2022-04-04

最新评论