python使用aiohttp通过设置代理爬取基金数据简单示例

 更新时间:2023年06月26日 09:54:32   作者:小白学大数据  
这篇文章主要为大家介绍了python使用aiohttp通过设置代理爬取基金数据简单示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

python爬虫

说到python爬虫,我们就会想到它那强大的库,很多新手小白在选择框架的时候都会想到使用Scrapy,但是仅仅停留在会使用的阶段。在实际爬虫过程中遇到反爬机制是再常见不过的,今天为了增加对爬虫机制的理解,我们就通过手动实现多线程的爬虫过程,同时引入IP代理池进行基本的反爬操作。

这里我们就以天天基金数据为实际项目,该网站具有反爬机制,同时数量足够大,多线程效果较为明显。所以这里需要使用的到的技术路线有

  • IP代理池
  • 多线程
  • 爬虫与反爬

通过基础的分析天天基金网的一些数据。经过抓包分析,可知:./fundcode_search.js包含所有基金的数据,同时,该地址具有反爬机制,多次访问将会失败甚至封IP的情况。分析完天天基金网的数据后,我们选择使用搭建IP代理池,用于反爬作用。代理池直接通过代理厂家提供就可以,有太多的代理很多同学不知道怎么选择,经过多年爬虫经验和使用代理的经验这里推荐亿牛云代理,长期使用不管是代理质量还是售后服务都是优于其他代理长家的。

搭建完IP代理池后,我们开始着手多线程爬取数据的工作。一旦使用多线程,就需要考虑到一些爬取中会出现的问题。

python使用aiohttp通过设置代理IP获取数据过程

import asyncio
import aiohttp
from aiohttp_socks import ProxyConnector
from bs4 import BeautifulSoup
# 定义目标网站和代理服务器的参数
url = "http://fund.eastmoney.com/fund.html#os_0;isall_0;ft_;pt_1"
proxy = "socks5://16yun:16ip@www.16yun.cn:11111"
# 定义异步函数来发送GET请求,并使用代理服务器来连接目标网站
async def fetch(session, url):
    try:
        async with session.get(url) as response:
            # 检查响应状态码是否为200,否则抛出异常
            if response.status != 200:
                raise Exception(f"Bad status code: {response.status}")
            # 返回响应内容的文本格式
            return await response.text()
    except Exception as e:
        # 打印异常信息,并返回None
        print(e)
        return None
# 定义异步函数来处理响应结果,并解析HTML内容
async def parse(html):
    # 如果响应结果不为空,则进行解析操作
    if html is not None:
        # 使用bs4库来创建BeautifulSoup对象,并指定解析器为html.parser
        soup = BeautifulSoup(html, "html.parser")
        # 提取网页中的标题标签,并打印其文本内容
        title = soup.find("title")
        print(title.text)
    else:
        # 否则打印None表示无效结果
        print(None)
# 定义异步函数来统计成功次数,并打印结果
async def count(results):
    # 初始化成功次数为0
    success = 0
    # 遍历所有的结果,如果不为空,则增加成功次数,否则跳过
    for result in results:
        if result is not None:
            success += 1
    # 打印总共的请求数和成功次数    
    print(f"Total requests: {len(results)}")
    print(f"Success requests: {success}")
# 定义异步主函数来创建并运行多个协程任务,并控制并发数量和超时时间等参数    
async def main():
    # 创建一个aiohttp_socks.ProxyConnector对象,用来设置代理服务器的参数    
    connector = ProxyConnector.from_url(proxy)
    # 创建一个aiohttp.ClientSession对象,用来发送HTTP请求,并传入connector参数    
    async with aiohttp.ClientSession(connector=connector) as session:
        # 创建一个空列表,用来存储所有的协程任务        
        tasks = []
        # 循环10000次,每次创建一个fetch函数的协程任务,并添加到列表中        
        for i in range(10000):
            task = asyncio.create_task(fetch(session, url))
            tasks.append(task)
        # 使用asyncio.gather函数来收集并执行所有的协程任务,并返回一个包含所有结果的列表        
        results = await asyncio.gather(*tasks)
        # 创建一个空列表,用来存储所有的解析任务        
        parse_tasks = []
         for result in results:
             parse_task = asyncio.create_task(parse(result))
             parse_tasks.append(parse_task)
         await asyncio.gather(*parse_tasks)   
         await count(results)
# 在程序入口处调用异步主函数,并启动事件循环         
if __name__ == "__main__":
     asyncio.run(main())

以上就是python使用aiohttp通过设置代理爬取基金数据简单示例的详细内容,更多关于python aiohttp爬取基金数据的资料请关注脚本之家其它相关文章!

相关文章

  • python避免死锁方法实例分析

    python避免死锁方法实例分析

    这篇文章主要介绍了python避免死锁方法,较为详细的分析了死锁的成因与避免形成死锁的方法,需要的朋友可以参考下
    2015-06-06
  • 使用pyinstaller打包PySide2程序中遇到的问题

    使用pyinstaller打包PySide2程序中遇到的问题

    说到打包,我们就需要用到python程序的打包工具pyinstaller了,这个包安装简单,使用同样简单,下面这篇文章主要给大家介绍了关于使用pyinstaller打包PySide2程序中遇到的问题,需要的朋友可以参考下
    2023-05-05
  • pandas 获取季度,月度,年度首尾日期的方法

    pandas 获取季度,月度,年度首尾日期的方法

    下面小编就为大家分享一篇pandas 获取季度,月度,年度首尾日期的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-04-04
  • 在python 中实现运行多条shell命令

    在python 中实现运行多条shell命令

    今天小编就为大家分享一篇在python 中实现运行多条shell命令,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-01-01
  • 初识python的numpy模块

    初识python的numpy模块

    这篇文章主要介绍了初识python的numpy模块,Numpy基于更加现代化的编程语言--python,python凭借着开源、免费、灵活性、简单易学、工程特性好等特点风靡技术圈,已经成为机器学习、数据分析等领域的主流编程语言,需要的朋友可以参考下
    2022-05-05
  • Python中的单行、多行、中文注释方法

    Python中的单行、多行、中文注释方法

    今天小编就为大家分享一篇Python中的单行、多行、中文注释方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-07-07
  • pyecharts动态轨迹图的实现示例

    pyecharts动态轨迹图的实现示例

    这篇文章主要介绍了pyecharts动态轨迹图的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-04-04
  • python3图片转换二进制存入mysql

    python3图片转换二进制存入mysql

    MYSQL是支持把图片存入数据库的,也相应的有一个专门的字段BLOB (Binary Large Object),即较大的二进制对象字段,看下面代码
    2013-12-12
  • Python如何使用input函数获取输入

    Python如何使用input函数获取输入

    这篇文章主要介绍了Python如何使用input函数获取输入,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-08-08
  • 利用python3筛选excel中特定的行(行值满足某个条件/行值属于某个集合)

    利用python3筛选excel中特定的行(行值满足某个条件/行值属于某个集合)

    这篇文章主要给大家介绍了关于利用python3筛选excel中特定的行(行值满足某个条件/行值属于某个集合)的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-09-09

最新评论