Python使用scrapy采集时伪装成HTTP/1.1的方法
更新时间:2015年04月08日 10:18:35 作者:pythoner
这篇文章主要介绍了Python使用scrapy采集时伪装成HTTP/1.1的方法,实例分析了scrapy采集的使用技巧,非常具有实用价值,需要的朋友可以参考下
本文实例讲述了Python使用scrapy采集时伪装成HTTP/1.1的方法。分享给大家供大家参考。具体如下:
添加下面的代码到 settings.py 文件
复制代码 代码如下:
DOWNLOADER_HTTPCLIENTFACTORY = 'myproject.downloader.HTTPClientFactory'
保存以下代码到单独的.py文件
复制代码 代码如下:
from scrapy.core.downloader.webclient import ScrapyHTTPClientFactory, ScrapyHTTPPageGetter
class PageGetter(ScrapyHTTPPageGetter):
def sendCommand(self, command, path):
self.transport.write('%s %s HTTP/1.1\r\n' % (command, path))
class HTTPClientFactory(ScrapyHTTPClientFactory):
protocol = PageGetter
class PageGetter(ScrapyHTTPPageGetter):
def sendCommand(self, command, path):
self.transport.write('%s %s HTTP/1.1\r\n' % (command, path))
class HTTPClientFactory(ScrapyHTTPClientFactory):
protocol = PageGetter
希望本文所述对大家的Python程序设计有所帮助。
相关文章
详解numpy.ndarray.reshape()函数的参数问题
这篇文章主要介绍了详解numpy.ndarray.reshape()函数的参数问题,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧2020-10-10Python使用multiprocessing模块实现多进程并发处理大数据量的示例代码
这篇文章主要介绍了Python使用multiprocessing模块实现多进程并发处理大数据量的示例代码,本文通过示例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧2024-01-01
最新评论