Python解决asyncio文件描述符最大数量限制的问题

 更新时间:2024年06月27日 10:30:25   作者:IT.BOB  
这篇文章主要介绍了Python解决asyncio文件描述符最大数量限制的问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教

问题复现

Windows 平台下,Python 版本 3.5,使用异步框架 asyncio,有时候会出现 ValueError: too many file descriptors in select() 的报错信息,我们就来聊一下为什么会出现这种问题,以及问题的一些解决方法。

写一个小 dome 复现这个问题(环境:Windows 64 位、Python 3.7):

import aiohttp
import asyncio


num = 0


async def main(url):
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as response:
            global num
            num += 1
            print('%s ——> %s' % (str(num), response.status))


def tasks():
    url = 'https://www.baidu.com/s?ie=UTF-8&wd=%s'
    task = [main(url % i) for i in range(10000)]
    return task


loop = asyncio.get_event_loop()
loop.run_until_complete(asyncio.wait(tasks()))

在打印 500 次左右后就会出现以下报错:

问题分析

好像这个报错和 select 有关,那什么是 select 呢?要怎么解决呢?别急,我们首先来了解一下 asyncio 中的事件循环,即 EventLoop。

事件循环 EventLoop

事件循环是 asyncio 的核心,异步任务的运行、任务完成之后的回调、网络 I/O 操作、子进程的运行,都是通过事件循环完成的,通俗来讲,事件循环所做的就是等待事件发生,然后再将每个事件与我们已明确与所述事件类型匹配的函数进行匹配。

下图很好的展示了协程、事件循环之间的相互作用:

在 asyncio 中,主要提供了两种不同事件循环的实现方法:

  • SelectorEventLoop:基于 selectors 模块的事件循环,selectors 又是建立在底层的 I/O 复用模块 select 之上的,selectors 提供了高度封装和高效的 I/O 复用,也就是说 SelectorEventLoop 在底层就是使用了 select I/O 多路复用的机制。
  • ProactorEventLoop:使用 IOCP 专为 Windows 构建的事件循环,IOCP 全称 I/O Completion Port,即 I/O 完成端口。它是支持多个同时发生的异步 I/O 操作的应用程序编程接口,它充分利用内核对象的调度,只使用少量的几个线程来处理和客户端的所有通信,消除了无谓的线程上下文切换,是 Windows 下性能最好的 I/O 模型,有关 IOCP 的详细介绍可参考微软文档

那么这两种方法有什么区别呢?在 asyncio 中什么时候用什么方法呢?

我们不妨看一下 asyncio 的源码,在 Python 3.7 中,无论在 Windows 还是 Linux 中都可以看到其默认的设置是 SelectorEventLoop:

我们也可以分别在 Windows 平台和 Linux 平台打印一下 EventLoop 对象(Python 3.7),可以看到默认都是 SelectorEventLoop:

import asyncio

loop = asyncio.get_event_loop()
print(loop)
  • Windows:

  • Linux:

事实上,在 Python 3.7 以及之前的版本中, 所有平台默认使用的都是 SelectorEventLoop,在 Python 3.8 以及以后的版本中,Unix 平台默认使用的是 SelectorEventLoop,Windows 平台默认使用的是 ProactorEventLoop,这个差异可以在官方文档中看到。

说了这么多,这和 ValueError: too many file descriptors in select() 的报错问题有什么关系呢?select 到底是什么东西呢?

I/O 多路复用

要了解 select,我们还要了解一下什么是 I/O 多路复用(I/O multiplexing),服务器端编程经常需要构造高性能的 I/O 模型,常见的 I/O 模型有同步阻塞 I/O、同步非阻塞 I/O、I/O 多路复用等;当需要同时处理多个客户端接入请求时,可以利用多线程或者 I/O 多路复用技术进行处理,I/O 多路复用技术就是为了解决进程或线程阻塞到某个 I/O 系统调用而出现的技术,使进程不阻塞于某个特定的 I/O 系统调用。

select,poll,epoll 等都是 I/O 多路复用的一种机制,其中后两个在 Linux 中可用,Windows 仅支持 select,I/O 多路复用通过这种机制,可以监视多个描述符,一旦某个描述符就绪,一般是读就绪或者写就绪,就是在这个文件描述符进行读写操作之前,能够通知程序进行相应的读写操作。

select 的缺点

I/O 多路复用这个概念被提出来以后, select 是第一个实现这个概念的,select 被实现以后,很快就暴露出了很多问题,其中一个缺点就是 select 在 Windows 中限制了文件描述符数量为 512 个,在 Linux 中限制为 1024 个,那么在前面的 dome 中,使用的是 Python 3.5,这个版本的 asyncio 默认使用了 SelectorEventLoop,底层调用的是 select,受 select 缺点的影响,并发量过高,就出现了 ValueError: too many file descriptors in select() 的报错信息。

解决方法

1.更换事件循环选择器

如果你使用的是 Python 3.7 及以下的版本,那么在 Windows 平台,可以使用 ProactorEventLoop。在 Linux 平台可以使用 PollSelector。

注意:如果你使用了 ProactorEventLoop,那么你将无法使用代理!这是 asyncio 的 bug,早在 2020 年 1 月就有人提过 issue,目前仍然可以看到类似的 issue,官方貌似也还没办法解决,所以,如果您必须要使用代理,则可以参考后面的解决办法。

import selectors
import asyncio
import sys

if sys.platform == 'win32':
    loop = asyncio.ProactorEventLoop()
    asyncio.set_event_loop(loop)
else:
    selector = selectors.PollSelector()
    loop = asyncio.SelectorEventLoop(selector)
    asyncio.set_event_loop(loop)

2.限制并发量

可以使用方法 asyncio.Semaphore() 来限制并发量,Semaphore 就是信号量的意思,Semaphore 管理一个内部计数器,该计数器在每次调用 acquire() 方法时递减,每次调用 release() 方法时递增,计数器永远不会低于零,当方法 acquire() 发现它为零时,它会阻塞,等待其他线程调用 release() 方法。

通过限制并发量的方法来解决报错问题是个不错的选择。

import aiohttp
import asyncio


num = 0


async def main(url, semaphore):
    async with semaphore:
        async with aiohttp.ClientSession() as session:
            async with session.get(url) as response:
                global num
                num += 1
                print('%s ——> %s' % (str(num), response.status))


def tasks():
    semaphore = asyncio.Semaphore(300)                         # 限制并发量为 300
    url = 'https://www.baidu.com/s?ie=UTF-8&wd=%s'
    task = [main(url % i, semaphore) for i in range(10000)]    # #总共 10000 任务
    return task


loop = asyncio.get_event_loop()
loop.run_until_complete(asyncio.wait(tasks()))

3.修改最大文件描述符限制Windows

在 Windows 中,最大文件描述符限制在 C 语言的头文件 Winsock2.h 中使用变量 FD_SETSIZE 进行定义,如果要修改它,可以通过在包含 Winsock2.h 之前将 FD_SETSIZE 定义为另一个值来修改,如果我们使用的编程语言是 Python 的话,是不太好对这个值进行修改的,可以参考微软官方文档:https://docs.microsoft.com/en-us/windows/win32/api/winsock2/nf-winsock2-select

Linux

在 Linux 平台,可以使用 ulimit 命令来修改最大文件描述符限制:

  • 查看当前会话最大文件描述符限制(默认1024):ulimit -n
  • 临时修改限制,只对当前的会话有效:ulimit -SHn 65536
  • 永久修改限制,在 /etc/security/limits.conf 文件里新增以下内容:
* hard nofile 65536
* soft nofile 65536

ulimit 命令参考:

  • -S使用软 (soft) 资源限制
  • -H使用硬 (hard) 资源限制
  • -a所有当前限制都被报告
  • -b套接字缓存尺寸
  • -c创建的核文件的最大尺寸
  • -d一个进程的数据区的最大尺寸
  • -e最高的调度优先级 (nice)
  • -f有 shell 及其子进程可以写的最大文件尺寸
  • -i最多的可以挂起的信号数
  • -k分配给此进程的最大 kqueue 数量
  • -l一个进程可以锁定的最大内存尺寸
  • -m最大的内存进驻尺寸
  • -n最多的打开的文件描述符个数
  • -p管道缓冲区尺寸
  • -qPOSIX 信息队列的最大字节数
  • -r实时调度的最大优先级
  • -s最大栈尺寸
  • -t最大的CPU时间,以秒为单位
  • -u最大用户进程数
  • -v虚拟内存尺寸
  • -x最大的文件锁数量
  • -P最大伪终端数量
  • -T最大线程数量

总结

asyncio 事件循环选择器,在 Python 3.7 以及之前的版本中,所有平台默认使用的都是 SelectorEventLoop,在 Python 3.8 以及以后的版本中,Unix 平台默认使用的是 SelectorEventLoop,Windows 平台默认使用的是 ProactorEventLoop。

select 在 Windows 中限制了文件描述符最大数量为 512 个,在 Linux 中限制为 1024 个。

要解决 ValueError: too many file descriptors in select() 的报错问题,根据您的平台和业务要求选择合理的解决方法:

Windows

  • 通过 asyncio.Semaphore() 方法来限制并发量,通常设置在 300-500 比较合理,这是最优的做法;
  • 更换 asyncio 的事件循环选择器为 ProactorEventLoop,注意:这将导致无法使用代理!

Linux

  • 通过 asyncio.Semaphore() 方法来限制并发量,通常设置在 800-1000 比较合理;
  • 通过 ulimit 命令来修改最大文件描述符限制;
  • 更换 asyncio 的事件循环选择器为 PollSelector。

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Python脚本实现Web漏洞扫描工具

    Python脚本实现Web漏洞扫描工具

    这是去年毕设做的一个Web漏洞扫描小工具,主要针对简单的SQL注入漏洞、SQL盲注和XSS漏洞。下文给大家介绍了使用说明和源代码,一起看看吧
    2016-10-10
  • 使用Django+Pytest搭建在线自动化测试平台

    使用Django+Pytest搭建在线自动化测试平台

    最近由于公司的发展安排本人实现公司项目的自动化测试,下面这篇文章主要给大家介绍了关于如何Django + Pytest搭建在线自动化测试平台的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2022-07-07
  • Python 操作 PostgreSQL 数据库示例【连接、增删改查等】

    Python 操作 PostgreSQL 数据库示例【连接、增删改查等】

    这篇文章主要介绍了Python 操作 PostgreSQL 数据库的方法,结合实例形式分析了Python 连接PostgreSQL及增删改查等相关操作技巧,需要的朋友可以参考下
    2020-04-04
  • 解决pytorch报错:AssertionError: Invalid device id的问题

    解决pytorch报错:AssertionError: Invalid device id的问题

    今天小编就为大家分享一篇解决pytorch报错:AssertionError: Invalid device id的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-01-01
  • Django框架之中间件MiddleWare的实现

    Django框架之中间件MiddleWare的实现

    这篇文章主要介绍了Django框架之中间件MiddleWare的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-12-12
  • 跟老齐学Python之做一个小游戏

    跟老齐学Python之做一个小游戏

    经过一段时间学习,看官已经不是纯粹小白了,已经属于python初级者了。现在就是开始做那个游戏的时候了。说是做游戏,不过还是先来点基础知识吧
    2014-09-09
  • PyTorch中的train()、eval()和no_grad()的使用

    PyTorch中的train()、eval()和no_grad()的使用

    本文主要介绍了PyTorch中的train()、eval()和no_grad()的使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-04-04
  • python实现五子棋游戏(pygame版)

    python实现五子棋游戏(pygame版)

    这篇文章主要为大家详细介绍了python实现五子棋游戏,pygame版五子棋,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2020-01-01
  • Django密码存储策略分析

    Django密码存储策略分析

    这篇文章主要介绍了Django密码存储策略分析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-01-01
  • Python中的条件判断语句基础学习教程

    Python中的条件判断语句基础学习教程

    这篇文章主要介绍了Python中的条件判断语句基础学习教程,文中使用的是Python2.x版本但条件语句部分的使用规则未在3.x中改变,需要的朋友可以参考下
    2016-02-02

最新评论