python解决网站的反爬虫策略总结

更新时间：2016年10月26日 11:01:46 作者：tyomcat

网站做了很多反爬虫工作，爬起来有些艰难，本文详细介绍了python解决网站的反爬虫策略，有需要的小伙伴可以参考下。

本文详细介绍了网站的反爬虫策略，在这里把我写爬虫以来遇到的各种反爬虫策略和应对的方法总结一下。

从功能上来讲，爬虫一般分为数据采集，处理，储存三个部分。这里我们只讨论数据采集部分。

一般网站从三个方面反爬虫：用户请求的Headers，用户行为，网站目录和数据加载方式。前两种比较容易遇到，大多数网站都从这些角度来反爬虫。第三种一些应用ajax的网站会采用，这样增大了爬取的难度（防止静态爬虫使用ajax技术动态加载页面）。

1、从用户请求的Headers反爬虫是最常见的反爬虫策略。

伪装header。很多网站都会对Headers的User-Agent进行检测，还有一部分网站会对Referer进行检测（一些资源网站的防盗链就是检测Referer）。如果遇到了这类反爬虫机制，可以直接在爬虫中添加Headers，将浏览器的User-Agent复制到爬虫的Headers中；或者将Referer值修改为目标网站域名[评论：往往容易被忽略，通过对请求的抓包分析，确定referer，在程序中模拟访问请求头中添加]。对于检测Headers的反爬虫，在爬虫中修改或者添加Headers就能很好的绕过。

2、基于用户行为反爬虫

还有一部分网站是通过检测用户行为，例如同一IP短时间内多次访问同一页面，或者同一账户短时间内多次进行相同操作。[这种防爬，需要有足够多的ip来应对]

（1）、大多数网站都是前一种情况，对于这种情况，使用IP代理就可以解决。可以专门写一个爬虫，爬取网上公开的代理ip，检测后全部保存起来。有了大量代理ip后可以每请求几次更换一个ip，这在requests或者urllib中很容易做到，这样就能很容易的绕过第一种反爬虫。

编写爬虫代理：

步骤：

1.参数是一个字典{'类型'：'代理ip：端口号'}
　　proxy_support=urllib.request.ProxyHandler({})
2.定制、创建一个opener
　　opener=urllib.request.build_opener(proxy_support)
3a.安装opener
　　urllib.request.install_opener(opener)
3b.调用opener
　　opener.open(url)

用大量代理随机请求目标网站，应对反爬虫

#! /usr/bin/env python3.4
#-*- coding:utf-8 -*-
#__author__ == "tyomcat"


import urllib.request
import random
import re

url='http://www.whatismyip.com.tw'
iplist=['121.193.143.249:80','112.126.65.193:80','122.96.59.104:82','115.29.98.139:9999','117.131.216.214:80','116.226.243.166:8118','101.81.22.21:8118','122.96.59.107:843']

proxy_support = urllib.request.ProxyHandler({'http':random.choice(iplist)})
opener=urllib.request.build_opener(proxy_support)
opener.addheaders=[('User-Agent','Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.87 Safari/537.36')]
urllib.request.install_opener(opener)
response = urllib.request.urlopen(url)
html = response.read().decode('utf-8')

pattern = re.compile('<h1>(.*?)</h1>.*?<h2>(.*?)</h2>')
iterms=re.findall(pattern,html)
for item in iterms:
  print(item[0]+":"+item[1])

（2）、对于第二种情况，可以在每次请求后随机间隔几秒再进行下一次请求。有些有逻辑漏洞的网站，可以通过请求几次，退出登录，重新登录，继续请求来绕过同一账号短时间内不能多次进行相同请求的限制。[评论：对于账户做防爬限制，一般难以应对，随机几秒请求也往往可能被封，如果能有多个账户，切换使用，效果更佳]

3、动态页面的反爬虫

上述的几种情况大多都是出现在静态页面，还有一部分网站，我们需要爬取的数据是通过ajax请求得到，或者通过Java生成的。

解决方案：Selenium+PhantomJS

Selenium：自动化web测试解决方案，完全模拟真实的浏览器环境，完全模拟基本上所有的用户操作

PhantomJS ：一个没有图形界面的浏览器

获取淘宝妹妹的个人详情地址：

#! /usr/bin/env python
# -*- coding:utf-8 -*-
#__author__ == "tyomcat"

from selenium import webdriver
import time
import re

drive = webdriver.PhantomJS(executable_path='phantomjs-2.1.1-linux-x86_64/bin/phantomjs')
drive.get('https://mm.taobao.com/self/model_info.htm?user_id=189942305&is_coment=false')

time.sleep(5)

pattern = re.compile(r'<div.*?mm-p-domain-info">.*?class="mm-p-info-cell clearfix">.*?<li>.*?<label>(.*?)</label><span>(.*?)</span>',re.S)
html=drive.page_source.encode('utf-8','ignore')
items=re.findall(pattern,html)
for item in items:
  print item[0],'http:'+item[1]
drive.close()

感谢阅读，希望能帮助到大家，谢谢大家对本站的支持！

您可能感兴趣的文章:

详解Python做一个名片管理系统
这篇文章主要介绍了Python如何做一个名片管理系统，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-03-03
Python实现KNN（K-近邻）算法的示例代码
这篇文章主要介绍了Python实现KNN（K-近邻）算法的示例代码，它主要用于对事物进行分类。小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2019-03-03
python golang中grpc 使用示例代码详解
这篇文章主要介绍了python golang中grpc 使用,本文通过示例代码给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2020-06-06
Python基础之函数与控制语句
在调用函数的时候,如果没有按照形参传入指定的参数,就会报错,这时,我们可以为函数的参数设置默认的值,下面这篇文章主要给大家介绍了关于Python基础之函数与控制语句的相关资料,需要的朋友可以参考下
2022-04-04
Python sep参数使用方法详解
这篇文章主要介绍了Python sep参数使用方法详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-02-02
pandas 数据类型转换的实现
这篇文章主要介绍了pandas 数据类型转换的实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-12-12
Python帮你解决手机qq微信内存占用太多问题
你有没有发现以前16G内存也可以装几个游戏玩，现在128G的却日常使用都不够了？更不用说装什么游戏，这其实是软件内存占用过多导致的，今天我们用python来清理下
2022-02-02
Python发送http请求解析返回json的实例
下面小编就为大家分享一篇Python发送http请求解析返回json的实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-03-03
python编程开发时间序列calendar模块示例详解
这篇文章主要为大家介绍了python编程开发时间序列calendar模块示例详解，有需要的朋友可以借鉴参考下，希望能够有所帮助祝大家多多进步早日升职加薪
2021-11-11
FP-growth算法发现频繁项集——发现频繁项集
常见的挖掘频繁项集算法有两类，一类是Apriori算法，另一类是FP-growth。Apriori通过不断的构造候选集、筛选候选集挖掘出频繁项集，需要多次扫描原始数据，当原始数据较大时，磁盘I/O次数太多，效率比较低下
2021-06-06

python解决网站的反爬虫策略总结

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具