Python实现采集网站ip代理并检测是否可用

 更新时间:2022年01月23日 10:03:04   作者:松鼠爱吃饼干  
这篇文章主要介绍了如何利用Python爬虫实现采集网站ip代理,并检测IP代理是否可用。文中的示例代码讲解详细,感兴趣的可以试一试

开发环境

Python 3.8

Pycharm

模块使用

requests >>> pip install requests

parsel >>> pip install parsel

代理ip结构

proxies_dict = {
    "http": "http://" + ip:端口,
    "https": "http://" + ip:端口,
}

代码实现步骤

1. 导入模块

# 导入数据请求模块
import requests  # 数据请求模块 第三方模块 pip install requests
# 导入 正则表达式模块
import re  # 内置模块
# 导入数据解析模块
import parsel  # 数据解析模块 第三方模块 pip install parsel  >>> 这个是scrapy框架核心组件

2. 发送请求

对于目标网址发送请求 https://www.kuaidaili.com/free/

url = f'https://www.kuaidaili.com/free/inha/{page}/'  # 确定请求url地址
# 用requests模块里面get 方法 对于url地址发送请求, 最后用response变量接收返回数据
response = requests.get(url)

3. 获取数据

获取服务器返回响应数据(网页源代码)

print(response.text)

4. 解析数据

提取我们想要的数据内容

解析数据方式方法:

  • 正则: 可以直接提取字符串数据内容
  • xpath: 根据标签节点 提取数据内容
  • css选择器: 根据标签属性提取数据内容

哪一种方面用那种, 那是喜欢用那种

正则表达式提取数据内容

正则提取数据 re.findall() 调用模块里面的方法

正则 遇事不决 .*? 可以匹配任意字符(除了换行符\n以外) re.S

ip_list = re.findall('<td data-title="IP">(.*?)</td>', response.text, re.S)
port_list = re.findall('<td data-title="PORT">(.*?)</td>', response.text, re.S)
print(ip_list)
print(port_list)

css选择器

css选择器提取数据 需要把获取下来html字符串数据(response.text) 进行转换

# #list > table > tbody > tr > td:nth-child(1)
# //*[@id="list"]/table/tbody/tr/td[1]
selector = parsel.Selector(response.text) # 把html 字符串数据转成 selector 对象
ip_list = selector.css('#list tbody tr td:nth-child(1)::text').getall()
port_list = selector.css('#list tbody tr td:nth-child(2)::text').getall()
print(ip_list)
print(port_list)

xpath 提取数据

selector = parsel.Selector(response.text) # 把html 字符串数据转成 selector 对象
ip_list = selector.xpath('//*[@id="list"]/table/tbody/tr/td[1]/text()').getall()
port_list = selector.xpath('//*[@id="list"]/table/tbody/tr/td[2]/text()').getall()

提取ip

for ip, port in zip(ip_list, port_list):
    # print(ip, port)
    proxy = ip + ':' + port
    proxies_dict = {
        "http": "http://" + proxy,
        "https": "http://" + proxy,
    }
    print(proxies_dict)

5. 检测ip质量

try:
    response = requests.get(url=url, proxies=proxies_dict, timeout=1)
    if response.status_code == 200:
        print('当前代理IP: ', proxies_dict,  '可以使用')
        lis_1.append(proxies_dict)
except:
    print('当前代理IP: ', proxies_dict,  '请求超时, 检测不合格')


print('获取的代理IP数量: ', len(lis))
print('获取可用的IP代理数量: ', len(lis_1))
print('获取可用的IP代理: ', lis_1)

总共爬取了150个,最后测试出只有一个是能用的,所以还是付费的好

到此这篇关于Python实现采集网站ip代理并检测是否可用的文章就介绍到这了,更多相关Python采集网站ip代理内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python学习教程之使用py2exe打包

    python学习教程之使用py2exe打包

    py2exe是一个将python脚本转换成windows上的可独立执行的可执行程序(*.exe)的工具,下面这篇文章主要给大家介绍了关于python学习教程之使用py2exe打包的相关资料,需要的朋友可以参考借鉴,下面随着小编来一起学习学习吧。
    2017-09-09
  • Python中的jquery PyQuery库使用小结

    Python中的jquery PyQuery库使用小结

    这篇文章主要介绍了Python中的jquery PyQuery库使用小结,需要的朋友可以参考下
    2014-05-05
  • Python logging模块异步线程写日志实现过程解析

    Python logging模块异步线程写日志实现过程解析

    这篇文章主要介绍了Python logging模块异步线程写日志实现过程解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-06-06
  • python爬取淘宝商品详情页数据

    python爬取淘宝商品详情页数据

    这篇文章主要为大家详细介绍了python爬取淘宝商品详情页数据的相关资料,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-02-02
  • Python实现字典按key或者value进行排序操作示例【sorted】

    Python实现字典按key或者value进行排序操作示例【sorted】

    这篇文章主要介绍了Python实现字典按key或者value进行排序操作,结合实例形式分析了Python针对字典按照key或者value进行排序的相关操作技巧,需要的朋友可以参考下
    2019-05-05
  • pycharm中选中一个单词替换所有重复单词的实现方法

    pycharm中选中一个单词替换所有重复单词的实现方法

    这篇文章主要介绍了pycharm中选中一个单词替换所有重复单词的实现方法,类似于sublime 里的ctrl+D功能,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧
    2020-11-11
  • Django框架安装及项目创建过程解析

    Django框架安装及项目创建过程解析

    这篇文章主要介绍了Django框架安装及项目创建过程解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-09-09
  • 基于python list对象中嵌套元组使用sort时的排序方法

    基于python list对象中嵌套元组使用sort时的排序方法

    下面小编就为大家分享一篇基于python list对象中嵌套元组使用sort时的排序方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-04-04
  • Python Pygame中精灵和碰撞检测详解

    Python Pygame中精灵和碰撞检测详解

    对于游戏中出现的每一样东西,比如砖块箱子水管地面,还有人物都可以看成是一个独立的物体,所以每个物体类都继承了pygame的精灵类pg.sprite.Sprite,这篇文章主要给大家介绍了关于Python Pygame中精灵和碰撞检测的相关资料,需要的朋友可以参考下
    2021-10-10
  • Python time模块详解(常用函数实例讲解,非常好)

    Python time模块详解(常用函数实例讲解,非常好)

    在平常的代码中,我们常常需要与时间打交道。在Python中,与时间处理有关的模块就包括:time,datetime以及calendar。这篇文章,主要讲解time模块。
    2014-04-04

最新评论