关于Python网络爬虫框架scrapy

 更新时间:2023年04月26日 10:19:11   作者:菜鸟小超  
这篇文章主要介绍了关于Python网络爬虫框架scrapy,爬虫框架是实现爬虫功能的一个软件结构和功能组件的集合,需要的朋友可以参考下

scrapy爬虫框架介绍

scrapy不是一个简单的函数功能库,而是一个爬虫框架

爬虫框架:

  • 爬虫框架是实现爬虫功能的一个软件结构和功能组件的集合。
  • 爬虫框架是一个半成品,能够帮助用户实现专业网络爬虫。

scrapy爬虫框架结构

“5+2”结构:

  • ENGINE :已有的,核心,控制所有模块之间的数据流,根据条件触发事件
  • SCHEDULER:已有的,对所有的爬虫请求进行调度管理
  • ITEM PIPELINES :框架出口,用户编写,以流水线方式处理Spider产生的爬取项,由一组操作顺序组成,类似流水线,每个操作是一个item pipline类型,可能操作包括:清理,检验和查重爬取项中的HTML数据,将数据存储到数据库
  • SPIDERS :框架入口,用户编写,解析downloader返回的响应,产生爬取项,以及额外的爬取请求
  • DOWNLOADER :已有的,根据请求下载网页
  • 2个MIDDLEWARE:Download Middleware:实施Engine,Scheduler和Downloader之间用户可配置的控制,即用户可以修改、丢弃、新增请求或响应。Spider Middleware,对spider的请求和爬取项的再处理。修改、丢弃、新增请求或爬取项。

requests库和scrapy库比较

相同点:两者都可以进行页面请求和爬取,Python爬虫的两个重要技术路线。 两者可用性好,文档丰富,入门简单。 两者都没有处理js、提交表单、应对验证码等功能(可扩展)

不同点:

requestsscrapy
页面级爬虫网站级爬虫
功能库框架
并发性考虑不足,性能较差并发性好,性能较高
重点在于页面下载重点在于爬虫结构
定制灵活一般定制灵活,深度定制困难
上手十分简单入门稍难

scrapy的常用命令

requestsscrapy
页面级爬虫网站级爬虫
功能库框架
并发性考虑不足,性能较差并发性好,性能较高
重点在于页面下载重点在于爬虫结构
定制灵活一般定制灵活,深度定制困难
上手十分简单入门稍难

到此这篇关于关于Python网络爬虫框架scrapy的文章就介绍到这了,更多相关Python爬虫框架scrapy内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python实现2014火车票查询代码分享

    python实现2014火车票查询代码分享

    学习习PYTHON开始,实现了一个火车票查询的小功能,希望能帮大家买到回家的票
    2014-01-01
  • Python数据结构之双向链表详解

    Python数据结构之双向链表详解

    单链表只有一个指向直接后继的指针来表示结点间的逻辑关系,可以方便的从任一结点开始查找其后继结点,但要找前驱结点则比较困难,双向链表是为了解决这一问题,使用两个指针表示结点间的逻辑关系。本文将重点为大家介绍双向链表的相关操作,需要的可以参考一下
    2022-01-01
  • tensorflow 输出权重到csv或txt的实例

    tensorflow 输出权重到csv或txt的实例

    今天小编就为大家分享一篇tensorflow 输出权重到csv或txt的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-06-06
  • 基于python实现上传文件到OSS代码实例

    基于python实现上传文件到OSS代码实例

    这篇文章主要介绍了基于python实现上传文件到OSS,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-05-05
  • Python集中化管理平台Ansible介绍与YAML简介

    Python集中化管理平台Ansible介绍与YAML简介

    这篇文章主要介绍了Python集中化管理平台Ansible介绍与YAML,简单说明了集中化管理平台Ansible的功能与YAML语言的基本语法与基本使用技巧,需要的朋友可以参考下
    2019-06-06
  • 基于Python实现简单的人脸识别系统

    基于Python实现简单的人脸识别系统

    这篇文章主要介绍了如何通过Python实现一个简单的人脸识别系统,文中的示例代码讲解详细,对我们学习Python有一定的帮助,感兴趣的可以跟随小编一起试一试
    2022-01-01
  • pycharm中多进程踩坑记录--Python

    pycharm中多进程踩坑记录--Python

    这篇文章主要介绍了pycharm中多进程踩坑记录,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-03-03
  • python dict 相同key 合并value的实例

    python dict 相同key 合并value的实例

    今天小编就为大家分享一篇python dict 相同key 合并value的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-01-01
  • 详解python路径拼接os.path.join()函数的用法

    详解python路径拼接os.path.join()函数的用法

    os.path.join()函数:连接两个或更多的路径名组件。这篇文章主要介绍了python路径拼接os.path.join()函数的用法,需要的朋友可以参考下
    2019-10-10
  • Tensorflow 实现将图像与标签数据转化为tfRecord文件

    Tensorflow 实现将图像与标签数据转化为tfRecord文件

    今天小编就为大家分享一篇Tensorflow 实现将图像与标签数据转化为tfRecord文件,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-02-02

最新评论