Python爬虫框架scrapy实现downloader_middleware设置proxy代理功能示例

更新时间：2018年08月04日 10:09:29 作者：Charles.L

这篇文章主要介绍了Python爬虫框架scrapy实现downloader_middleware设置proxy代理功能,结合实例形式分析了scrapy框架proxy代理设置技巧与相关问题注意事项,需要的朋友可以参考下

本文实例讲述了Python爬虫框架scrapy实现downloader_middleware设置proxy代理功能。分享给大家供大家参考，具体如下：

一、背景：

小编在爬虫的时候肯定会遇到被封杀的情况，昨天爬了一个网站，刚开始是可以了，在settings的设置DEFAULT_REQUEST_HEADERS伪装自己是chrome浏览器，刚开始是可以的，紧接着就被对方服务器封杀了。

代理：

代理，代理，一直觉得爬去网页把爬去速度放慢一点就能基本避免被封杀，虽然可以使用selenium，但是这个坎必须要过，scrapy的代理其实设置起来很简单。

注意，request.meta['proxy']=代理ip的API

middlewares.py

class HttpbinProxyMiddleware(object):
  def process_request(self, request, spider):
    pro_addr = requests.get('http://127.0.0.1:5000/get').text
    request.meta['proxy'] = 'http://' + pro_addr
    #request.meta['proxy'] = 'http://' + proxy_ip

设置启动上面我们写的这个代理

settings.py

DOWNLOADER_MIDDLEWARES = {
  'httpbin.middlewares.HttpbinProxyMiddleware': 543,
}

spiders

httpbin_test.py

import scrapy
class HttpbinTestSpider(scrapy.Spider):
  name = "httpbin_test"
  allowed_domains = ["httpbin.ort/get"]
  start_urls = ['http://httpbin.org/get']
  def parse(self, response):
    print(response.text)

origin的值其实就是本地的公网地址，但是因为我们用了代理，这里的ip是美国的一个ip

二、那么问题来了，现在有这么一个场景，如上所述的话，我每个请求都会使用代理池里面的代理IP地址，但是有些操作是不需要代理IP地址的，那么怎么才能让它请求超时的时候，再使用代理池的IP地址进行重新请求呢？

spider：

1、我们都知道scrapy的基本请求步骤是，首先执行父类里面（scrapy.Spider）里面的start_requests方法，

2、然后start_requests方法也是取拿我们设置的start_urls变量里面的url地址

3、最后才执行make_requests_from_url方法，并只传入一个url变量

那么，我们就可以重写make_requests_from_url方法，从而直接调用scrapy.Request()方法，我们简单的了解一下里面的几个参数：

1、url=url,其实就是最后start_requests()方法里面拿到的url地址

2、meta这里我们只设置了一个参数，download_timeout:10，作用就是当第一次发起请求的时候，等待10秒钟，如果没有请求成功的话，就会直接执行download_middleware里面的方法，我们下面介绍。

3、callback回调函数，其实就是本次的本次所有操作完成后执行的操作，注意，这里可不是说执行完上面所有操作后，再执行这个操作，比如说请求了一个url，并且成功了，下面就会执行这个方法。

4、dont_filter=False，这个很重要，有人说过不加的话默认就是False，但是亲测必须得加，作用就是scrapy默认有去重的方法，等于False的话就意味着不参加scrapy的去重操作。亲测，请求一个页面，拿到第一个页面后，抓取想要的操作后，第二页就不行了，只有加上它才可以。

import scrapy
class HttpbinTestSpider(scrapy.Spider):
  name = "httpbin_test"
  allowed_domains = ["httpbin.ort/get"]
  start_urls = ['http://httpbin.org/get']
  def make_requests_from_url(self,url):
    self.logger.debug('Try first time')
    return scrapy.Request(url=url,meta={'download_timeout':10},callback=self.parse,dont_filter=False)
  def parse(self, response):
    print(response.text)

middlewares.py

下面就是上面请求10秒后超时会执行的操作process_exception方法，心细的同学会发现，我们在spider文件里面输出log的时候，是直接输出的，那是因为scrapy早都在父类里面给你定义好了，直接应用就行，但是在middlewares里面需要自己定义一个类变量定义，才能使用引用。

class HttpbinProxyMiddleware(object):
  logger = logging.getLogger(__name__)
  # def process_request(self, request, spider):
  #   # pro_addr = requests.get('http://127.0.0.1:5000/get').text
  #   # request.meta['proxy'] = 'http://' + pro_addr
  #   pass
  #
  # def process_response(self, request, response, spider):
  #   # 可以拿到下载完的response内容，然后对下载完的内容进行修改（修改文本的编码格式等操作）
  #   pass
  def process_exception(self, request, response, spider):
    self.logger.debug('Try Exception time')
    self.logger.debug('Try second time')
    proxy_addr = requests.get('http://127.0.0.1:5000/get').text
    self.logger.debug(proxy_addr)
    request.meta['proxy'] = 'http://{0}'.format(proxy_addr)

settings.py

这里才是关键，我们需要执行middlewares里面的HttpbinProxyMiddleware类下面的方法，这里需要注意的是我取消了下载中间件的retry中间件，因为scrapy本身就有自动重试的方法，为了试验效果，这里取消了默认的重试中间件。

DOWNLOADER_MIDDLEWARES = {
  'httpbin.middlewares.HttpbinProxyMiddleware': 543,
  #设置不参与scrapy的自动重试的动作
  'scrapy.downloadermiddlewares.retry.RetryMiddleware':None
}

注意：

上面我访问的url是httpbin.org，这个网站不用代理也可以打开，这里你可以在不打开FQ工具的时候，访问google.com，因为我自己学习用的代理地址基本都是国内的地址，所以即使是google也是打不开的。

总结：

上面我们介绍了两种scrapy加代理的写法：

1、第一种是直接每次访问都使用代理IP发起请求

2、第二种是在不能正常获取请求结果的时候，再使用代理ip。

3、我们学习了scrapy中如何打印logging日志，从而简单判断问题和执行步骤。

小知识：

['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
 'httpbin.middlewares.HttpbinProxyMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2017-11-27 23:36:47 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']

这里我们可以再Terminal下面打印一下，简单介绍一下：

1、在scrapy中的中间件里面，对应的中间件后面的数字越小，执行优先级越高。

2、如果你想取消某个download_middlewares的话就直接如我上面写的，把它Copy出来，加个None，这样它就不执行了。

3、补充，如果你看过scrapy的基本执行流程图的话，就会知道scrapy除了下载中间件，还有个spider中间件，所以用的时候不要用错了。

D:\项目\小项目\scrapy_day6_httpbin\httpbin>scrapy settings --get=DOWNLOADER_MIDDLEWARES_BASE
{"scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware": 300, "scrapy.downloadermiddlewares.useragent.UserAgentMiddleware": 500, "scrapy.downloadermiddlewares.redirect.MetaRefres
hMiddleware": 580, "scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware": 900, "scrapy.downloadermiddlewares.redirect.RedirectMiddleware": 600, "scrapy.downloadermiddlewares.r
obotstxt.RobotsTxtMiddleware": 100, "scrapy.downloadermiddlewares.retry.RetryMiddleware": 550, "scrapy.downloadermiddlewares.cookies.CookiesMiddleware": 700, "scrapy.downloadermiddle
wares.defaultheaders.DefaultHeadersMiddleware": 400, "scrapy.downloadermiddlewares.stats.DownloaderStats": 850, "scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddlewar
e": 590, "scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware": 750, "scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware": 350, "scrapy.downloadermiddlewar
es.ajaxcrawl.AjaxCrawlMiddleware": 560}

更多关于Python相关内容可查看本站专题：《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

您可能感兴趣的文章:

python实现字符串和数字拼接
今天小编就为大家分享一篇python实现字符串和数字拼接，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-03-03
Python开发之射击闯关游戏的实现
这篇文章主要为大家详细介绍了如何利用Python实现射击闯关游戏，文中的示例代码讲解详细，对我们学习Python有一定的帮助，感兴趣的小伙伴可以了解一下
2023-01-01
python读取ini配置文件过程示范
这篇文章主要介绍了python读取ini配置文件过程示范,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-12-12
python操作XML格式文件的一些常见方法
最近有同学询问如何利用Python处理xml文件,特此整理一篇比较简洁的操作手册,下面这篇文章主要给大家介绍了关于python操作XML格式文件的一些常见方法,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
2022-07-07
python: 判断tuple、list、dict是否为空的方法
今天小编就为大家分享一篇python: 判断tuple、list、dict是否为空的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-10-10
python模块之subprocess模块级方法的使用
这篇文章主要介绍了python模块之subprocess模块级方法的使用，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2019-03-03
Python基础知识+结构+数据类型
这篇文章主要介绍了Python基础知识+结构+数据类型，文章基于python基础知识围绕主题展开详细内容介绍，具有一定的参考价值，需要的小伙伴可以参考一下
2022-05-05
Matplotlib绘图基础之画布详解
Matplotlib 库是一个用于数据可视化和绘图的 Python 库，这篇文章主要为大家介绍了下Matplotlib绘制的图形中的第一个重要的元素--画布，感兴趣的可以了解下
2023-07-07
tensorflow学习教程之文本分类详析
初学tensorflow，借鉴了很多别人的经验，参考博客对评论分类(感谢博主的一系列好文)，本人也尝试着实现了对文本数据的分类，下面这篇文章主要给大家介绍了关于tensorflow学习教程之文本分类的相关资料，需要的朋友可以参考下
2018-08-08
Python图片缩放cv2.resize()图文详解
这篇文章主要给大家介绍了关于Python图片缩放cv2.resize()的相关资料, resize是opencv库中的一个函数,主要起到对图片进行缩放的作用,文中通过代码介绍的非常详细,需要的朋友可以参考下
2023-10-10

Python爬虫框架scrapy实现downloader_middleware设置proxy代理功能示例

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具