详解向scrapy中的spider传递参数的几种方法(2种)

 更新时间:2020年09月28日 10:26:28   作者:bluespacezero  
这篇文章主要介绍了详解向scrapy中的spider传递参数的几种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

有时需要根据项目的实际需求向spider传递参数以控制spider的行为,比如说,根据用户提交的url来控制spider爬取的网站。在这种情况下,可以使用两种方法向spider传递参数。

第一种方法,在命令行用crawl控制spider爬取的时候,加上-a选项,例如:

scrapy crawl myspider -a category=electronics

然后在spider里这样写:

import scrapy

class MySpider(scrapy.Spider):
  name = 'myspider'

  def __init__(self, category=None, *args, **kwargs):
    super(MySpider, self).__init__(*args, **kwargs)
    self.start_urls = ['http://www.example.com/categories/%s' % category]
    # ...

也就是在spider的构造函数里加上带入的参数即可。

第二种方法,在用scrapyd控制spider的时候,可以向schedule.json发送-d选项加入参数,同样的,也需要在spider的构造函数里如上写法。例如:

$ curl http://localhost:6800/schedule.json -d project=myproject -d spider=somespider -d setting=DOWNLOAD_DELAY=2 -d arg1=val1

另外,如果需要在scrapy发出的request上加入参数,可以使用request的meta参数,然后就可以相应的在返回的respose对象中获得传入的参数。这在某些情况下相当有用,比如说需要确定这个url是哪个用户请求爬取的,可以先用上面两种方法之一将信息传递给spider,spider就可以把这个信息加入到request中,然后在相应的reponse中就可以将这个信息与从url的页面中获得的信息一起存入数据库。例如:

def parse_page1(self, response):
  item = MyItem()
  item['main_url'] = response.url
  request = scrapy.Request("http://www.example.com/some_page.html",
               callback=self.parse_page2)
  request.meta['item'] = item
  return request

def parse_page2(self, response):
  item = response.meta['item']
  item['other_url'] = response.url
  return item

到此这篇关于详解向scrapy中的spider传递参数的几种方法(2种)的文章就介绍到这了,更多相关scrapy spider传递参数内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python使用xlrd模块实现操作Excel读写的方法汇总

    Python使用xlrd模块实现操作Excel读写的方法汇总

    本文介绍Python中使用xlrd、xlwt、xlutils模块操作Excel文件的方法,xlrd用于读取Excel文件,但2.0.0版本后不支持.xlsx格式,xlwt用于创建和写入Excel文件,而xlutils主要用于复制和处理Excel文件,详细介绍了如何打开文件、获取工作表信息、操作行列数据和处理日期格式数据
    2024-10-10
  • Python中对数据库的操作详解

    Python中对数据库的操作详解

    今天简单说说MySQL,我们存储数据,直接用本地文件即可,但是,本地文件不利于存放海量数据,也不利于用程序对文件的数据进行查询与管理,我们可以使用数据库
    2023-02-02
  • Python设计模式之抽象工厂模式

    Python设计模式之抽象工厂模式

    这篇文章主要为大家详细介绍了Python设计模式之抽象工厂模式,感兴趣的小伙伴们可以参考一下
    2016-08-08
  • python 实现简易的记事本

    python 实现简易的记事本

    这篇文章主要介绍了python 实现简易的记事本的示例代码,帮助大家更好的理解和学习python,感兴趣的朋友可以了解下
    2020-11-11
  • python中resample函数实现重采样和降采样代码

    python中resample函数实现重采样和降采样代码

    今天小编就为大家分享一篇python中resample函数实现重采样和降采样代码,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-02-02
  • Django与FastAPI的选择区别深入剖析

    Django与FastAPI的选择区别深入剖析

    这篇文章主要为大家介绍了Django与FastAPI的选择区别深入剖析,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-12-12
  • python3 tcp的粘包现象和解决办法解析

    python3 tcp的粘包现象和解决办法解析

    这篇文章主要介绍了python3 tcp的粘包现象和解决办法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-12-12
  • 如何使用 Python Pandas 更新行和列

    如何使用 Python Pandas 更新行和列

    这篇文章主要介绍了使用 Python Pandas 更新行和列的方法,在整篇文章中,我们将使用我们现在要创建的数据框,这将使大家了解更新数据操作,在此之后,大家可以将这些方法应用于自己的数据,需要的朋友可以参考下
    2023-03-03
  • Python实现过滤单个Android程序日志脚本分享

    Python实现过滤单个Android程序日志脚本分享

    这篇文章主要介绍了Python实现过滤单个Android程序日志脚本分享,本文讲解了原理、实现代码、使用方法、最新代码等内容,需要的朋友可以参考下
    2015-01-01
  • 详解python中静态方法staticmethod用法

    详解python中静态方法staticmethod用法

    本文主要介绍了python中静态方法staticmethod用法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-07-07

最新评论