Python 并行加速技巧分享

 更新时间:2022年05月19日 16:31:14   作者:Python数据挖掘  
这篇文章主要介绍了Python 并行加速技巧分享,文章围绕文章主题展开详细的内容介绍,具有一定的参考价值,需要的小伙伴可以参考一下

1 前言

我们在日常使用Python进行各种数据计算处理任务时,若想要获得明显的计算加速效果,最简单明了的方式就是想办法将默认运行在单个进程上的任务,扩展到使用多进程或多线程的方式执行。

而对于我们这些从事数据分析工作的人员而言,以最简单的方式实现等价的加速运算的效果尤为重要,从而避免将时间过多花费在编写程序上。

而今天我就来带大家学习如何利用joblib这个非常简单易用的库中的相关功能,来快速实现并行计算加速效果。

2 使用joblib进行并行计算

作为一个被广泛使用的第三方Python库(譬如scikit-learn项框架中就大量使用joblib进行众多机器学习算法的并行加速),我们可以使用pip install joblib对其进行安装,安装完成后,下面我们来学习一下joblib中有关并行运算的常用方法:

2.1 使用Parallel与delayed进行并行加速

joblib中实现并行计算只需要使用到其Parallel和delayed方法即可,使用起来非常简单方便

下面我们直接以一个小例子来演示:

joblib实现并行运算的思想是将一组通过循环产生的串行计算子任务,以多进程或多线程的方式进行调度,而我们针对自定义的运算任务需要做的仅仅是将它们封装为函数的形式即可,譬如:

import time
def task_demo1():
    time.sleep(1)
    return time.time()

接着只需要像下面的形式一样,为Parallel()设置相关参数后,衔接循环创建子任务的列表推导过程,其中利用delayed()包裹自定义任务函数,再衔接()传递任务函数所需的参数即可,其中n_jobs参数用于设置并行任务同时执行的worker数量,因此在这个例子中可以看到进度条是按照4个一组递增的,

可以看到最终时间开销也达到了并行加速效果:

其中可以根据计算任务以及机器CPU核心数具体情况为Parallel()调节参数,核心参数有:

  • backend:用于设置并行方式,其中多进程方式有'loky'(更稳定)和'multiprocessing'两种可选项,多线程有'threading'一种选项。默认为'loky'
  • n_jobs:用于设置并行任务同时执行的worker数量,当并行方式为多进程时,n_jobs最多可设置为机器CPU逻辑核心数量,超出亦等价于开启全部核心,你也可以设置为-1来快捷开启全部逻辑核心,若你不希望全部CPU资源均被并行任务占用,则可以设置更小的负数来保留适当的空闲核心,譬如设置为-2则开启全部核心-1个核心,设置为-3则开启全部核心-2个核心

譬如下面的例子,在我这台逻辑核心数为8的机器上,保留两个核心进行并行计算:

关于并行方式的选择上,由于Python中多线程时全局解释器锁的限制,如果你的任务是计算密集型,则推荐使用默认的多进程方式加速,如果你的任务是IO密集型譬如文件读写、网络请求等,则多线程是更好的方式且可以将n_jobs设置的很大,举个简单的例子,可以看到,通过多线程并行,我们在5秒的时间里完成了1000次请求,远快于单线程17秒请求100次的成绩

我们可以根据自己实际任务的不同,好好利用joblib来加速你的日常工作。

到此这篇关于Python 并行加速技巧分享的文章就介绍到这了,更多相关Python 加速内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python初学时购物车程序练习实例(推荐)

    Python初学时购物车程序练习实例(推荐)

    下面小编就为大家带来一篇Python初学时购物车程序练习实例(推荐)。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-08-08
  • 使用Python模拟操作windows应用窗口详解

    使用Python模拟操作windows应用窗口详解

    在日常工作中,我们经常遇到需要进行大量重复性任务的情况,这篇文章将介绍如何使用 Python 模拟操作记事本,感兴趣的小伙伴可以了解下
    2025-02-02
  • Python中__slots__属性介绍与基本使用方法

    Python中__slots__属性介绍与基本使用方法

    在Python中,每个类都有实例属性。默认情况下Python用一个字典来保存一个对象的实例属性。这非常有用,因为它允许我们在运行时去设置任意的新属性。下面这篇文章主要给大家介绍了关于Python中__slots__属性与基本使用方法的相关资料,需要的朋友可以参考下
    2018-09-09
  • Python网络爬虫出现乱码问题的解决方法

    Python网络爬虫出现乱码问题的解决方法

    这篇文章主要为大家详细介绍了Python网络爬虫出现乱码问题的解决方法,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-01-01
  • pymongo中group by的操作方法教程

    pymongo中group by的操作方法教程

    这篇文章主要给大家介绍了关于pymongo中group by的操作方法,文中通过示例代码介绍的非常详细,对大家学习或者使用pymongo具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧
    2019-03-03
  • 详解Python如何批量检查图像是否可用

    详解Python如何批量检查图像是否可用

    数据集中的图像,一般不可用在以下3个方面:图像过小、无法打开和“Premature end of JPEG file”。本文将为大家介绍Python如何批量检查图像是否可用,感兴趣的可以了解一下
    2022-06-06
  • Python中日期和时间的互相转换操作方法

    Python中日期和时间的互相转换操作方法

    Python的datetime模块提供了一套强大而灵活的工具,使我们能够轻松地在不同的时间表示形式间相互转换,并进行复杂的时间计算,本文通过一个实用的例子向大家展示如何在Python中高效地进行这些操作,感兴趣的朋友一起看看吧
    2024-05-05
  • python/golang 删除链表中的元素

    python/golang 删除链表中的元素

    这篇文章主要介绍了python/golang 如何删除链表中的元素,帮助大家更好的理解和使用python/golang,感兴趣的朋友可以了解下
    2020-09-09
  • Python异步爬虫多线程与线程池示例详解

    Python异步爬虫多线程与线程池示例详解

    这篇文章主要为大家介绍了Python异步爬虫多线程与线程池示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步
    2021-09-09
  • Python将视频或者动态图gif逐帧保存为图片的方法

    Python将视频或者动态图gif逐帧保存为图片的方法

    本文是基于opencv将视频和动态图gif保存为图像帧的方法,本文通过实例代码给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友参考下吧
    2019-09-09

最新评论