python 爬虫 批量获取代理ip的实例代码

 更新时间:2018年05月22日 15:14:30   作者:mzbqhbc12  
今天小编就为大家分享一篇python 爬虫 批量获取代理ip的实例代码,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

实例如下所示:

import urllib.request
import os, re,sys,time
try:
 from StringIO import StringIO
except ImportError:
 from io import StringIO
loca = re.compile(r"""ion":"\D+", "ti""")
#伪装成浏览器
header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36'}
class Getip():
 def __init__(self,diqu):
  self.ur ={"xicidaili国内普通代理 --1线":"http://www.xicidaili.com/nt/",
        
    "ip84国内普通代理 --2线":'http://www.ip84.com/dlpn-http/',
        
    'xicidaili国内高匿名代理 --1线':'http://www.xicidaili.com/nn/',
       
    'ip84国内高匿名代理 --2线':'http://www.ip84.com/dlgn-http/',
    
    'xicidaili国外高匿名代理 --1线':'http://www.xicidaili.com/wn/',
    
    'ip84国外高匿名代理 --2线':'http://www.ip84.com/gwgn-http/',
    'xicidaili国外普通代理 --1线':'http://www.xicidaili.com/wt/',
    'haodailiip国内混合代理 --3线':'http://www.haodailiip.com/guonei/',
    'haodailiip国外混合代理 --3线':'http://www.haodailiip.com/guoji/',
        }
  self.diqu = diqu
 
 def urlopen(self,url):
  global header
  try:
   req = urllib.request.Request(url, None, header)
   res=urllib.request.urlopen(req)
  
   return res
  except:
   pass
 def getip(self,ren):
  '''url = "http://proxy.ipcn.org/proxylist.html"#代理IP页面
  ip_proxy_re = re.compile(r"""\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}:\d{1,}""")# 直接匹配 xxx.xxx.xxx.xxx:xxxx'''
  
  url = self.ur[self.diqu]+str(ren)
  
  ip_proxy_re = re.compile(r'(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})\s*</td>\s*<td>\s*(\d{1,})\s*</td>\s*<[^\u4E00-\u9FA5]+>([\u4E00-\u9FA5]*\s*[\u4E00-\u9FA5]*\s*[\u4E00-\u9FA5]*)\s*<')
  #################################通用正则匹配的  格式 是  (IP,端口,地区) 地区有可能包含换行和空格
  try:
   data = self.urlopen(url).read().decode('utf-8')
  except:
   return None
  
  self.rel = []
  
  ip = ip_proxy_re.findall(data)
  ##########返回的IP 就是 正则匹配的结果(IP,端口,地区) 地区有可能包含换行和空格
  
  return ip
  
if __name__ == '__main__':
 g=Getip("xicidaili国内普通代理 --1线")
 import pprint
 for x in range(4):
  ips = g.getip(1)
  print('获取到ip地址一共:',len(ips))
  pprint.pprint(ips)

以上这篇python 爬虫 批量获取代理ip的实例代码就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Python新手在作用域方面经常容易碰到的问题

    Python新手在作用域方面经常容易碰到的问题

    这篇文章主要介绍了Python新手在作用域方面经常容易碰到的问题,全局变量和局部变量方面的知识在Python学习当中是基础中的基础,需要的朋友可以参考下
    2015-04-04
  • 只用Python就可以制作的简单词云

    只用Python就可以制作的简单词云

    今天教大家如何只用Python制作简单词云,文中有非常详细的介绍及代码示例,对正在学习python的小伙伴们很有帮助,需要的朋友可以参考下
    2021-06-06
  • 一文详细NumPy中np.zeros的使用

    一文详细NumPy中np.zeros的使用

    np.zeros是NumPy库中一个非常实用的函数,用于快速创建指定形状和大小的全零数组,本文主要介绍了NumPy中np.zeros的使用,感兴趣的可以了解一下
    2024-03-03
  • 如何使用Python逆向抓取APP数据

    如何使用Python逆向抓取APP数据

    今天给大伙分享一下 Python 爬虫的教程,这次主要涉及到的是关于某 APP 的逆向分析并抓取数据,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-05-05
  • python GUI框架pyqt5 对图片进行流式布局的方法(瀑布流flowlayout)

    python GUI框架pyqt5 对图片进行流式布局的方法(瀑布流flowlayout)

    这篇文章主要介绍了python GUI框架pyqt5 对图片进行流式布局的方法(瀑布流flowlayout),本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-03-03
  • Python实现音频提取的示例详解

    Python实现音频提取的示例详解

    在日常生活中,有好听的翻唱视频或音乐视频可以将其音频分离保存到网易云或QQ音乐中随时听,然而大部分的音频分离软件需要下载和安装,所以本文就来分享一种提取音频的简便方法吧
    2023-09-09
  • python批量提取word内信息

    python批量提取word内信息

    这里给大家分享的是php读取word并提取word内信息的方法,十分的简单实用,有需要的小伙伴可以参考下。
    2015-08-08
  • Python中调用其他程序的方式详解

    Python中调用其他程序的方式详解

    这篇文章主要介绍了Python中调用其他程序的方式详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-08-08
  • python实现堆栈与队列的方法

    python实现堆栈与队列的方法

    这篇文章主要介绍了python实现堆栈与队列的方法,包含了堆栈与队列的定义方法及常用操作,具有一定参考借鉴价值,需要的朋友可以参考下
    2015-01-01
  • python enumerate内置函数用法总结

    python enumerate内置函数用法总结

    这篇文章主要介绍了python enumerate内置函数用法总结,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-01-01

最新评论