pytorch锁死在dataloader(训练时卡死)

更新时间：2021年05月28日 09:34:02 作者：Totoro-wen

这篇文章主要介绍了pytorch锁死在dataloader(训练时卡死)，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教

1.问题描述

2.解决方案

（1）Dataloader里面不用cv2.imread进行读取图片，用cv2.imread还会带来一系列的不方便，比如不能结合torchvision进行数据增强，所以最好用PIL 里面的Image.open来读图片。（并不适用本例）

（2）将DataLoader 里面的参变量num_workers设置为0，但会导致数据的读取很慢，拖慢整个模型的训练。（并不适用本例）

（3）如果用了cv2.imread，不想改代码的，那就加两条语句，来关闭Opencv的多线程：cv2.setNumThreads(0)和cv2.ocl.setUseOpenCL(False)。加了这两条语句之后，并不影响模型的训练。（并不适用本例）

（4）这种情况应该是属于pytorch多线程锁死，在github上看到有该问题，但是没有解决的。

参考建议

首先确保num_works数量低于CPU数量(如果使用Kubernetes，则设置为pod)，但是设置得足够高，使数据随时可以用于下一次迭代。

如果GPU在t秒内运行每个迭代，而每个dataloader worker加载/处理单个批处理需要N*t秒，那么您应该将num_workers设置为至少N，以避免GPU停滞。当然，系统中至少要有N个cpu。

不幸的是，如果Dataloader使用任何使用K个线程的库，那么生成的进程数量就会变成num_workersK = NK。这可能比计算机中的cpu数量大得多。这会使pod节流，而Dataloader会变得非常慢。这可能导致Dataloader不返回批处理每t秒，导致GPU暂停。

避免K个线程的一种方法是通过OMP_NUM_THREADS=1 MKL_NUM_THREADS=1 python train.py调用主脚本。这就限制了每个Dataloader工作程序只能使用一个线程，从而避免了使机器不堪重负。你仍然需要有足够的num_workers来满足GPU的需要。

您还应该在_get_item__中优化您的代码，以便每个worker在较短的时间内完成其批处理。请确保worker完成批处理的时间不受从磁盘读取训练数据的时间(特别是当您从网络存储中读取数据时)或网络带宽(当您从网络磁盘读取数据时)的影响。如果您的数据集很小，并且您有足够的RAM，那么可以考虑将数据集移动到RAM(或/tmpfs)中，并从那里读取数据以进行快速访问。对于Kubernetes，您可以创建一个RAM磁盘(在Kubernetes中搜索emptyDir)。

如果你已经优化了你的_get_item__代码，并确保磁盘访问/网络访问不是罪魁祸首，但仍然会出现问题，你将需要请求更多的cpu(为了一个Kubernetes pod)，或者将你的GPU移动到拥有更多cpu的机器上。

另一个选项是减少batch_size，这样每个worker要做的工作就会减少，并且可以更快地完成预处理。后一种选择在某些情况下是不可取的，因为会有空闲的GPU内存不被利用。

你也可以考虑离线做一些预处理，减轻每个worker的负担。例如，如果每个worker正在读取一个wav文件并计算音频文件的谱图，那么可以考虑离线预先计算谱图，只从工作者的磁盘中读取计算的谱图。这将减少每个worker的工作量。

你也可以考虑将dataloader里的设置pin_memory=False。

补充：pytorch加载训练数据集dataloader操作耗费时间太久，该如何解决？

笔者在使用pytorch加载训练数据进行模型训练的时候，发现数据加载需要耗费太多时间，该如何缩短数据加载的时间消耗呢？经过查询相关文档，

总结实际操作过程如下：

1、尽量将jpg等格式的文件保存为bmp文件，可以降低解码时间；

2、dataloader函数中增加num_workers参数，该参数表示加载数据的线程数，建议设置为该系统中的CPU核心数，若CPU很强劲，而且内存很大，也可以考虑将该数值设置的更大一些。

train_loader=torch.utils.data.DataLoader(dataset=train_dataset,batch_size=batch_size,shuffle=True)

修改为：

train_loader=torch.utils.data.DataLoader(dataset=train_dataset,batch_size=batch_size,shuffle=True,num_workers=multiprocessing.cpu_count())

虽然使用dataloader达到了iter（Dataset）的读取并行，但是没有实现在GPU运算时异步读取数据，可以考虑使用non_blocking实现。

dataloader = data.Dataloader(dataset, batch_size = batch_size, num_workers = workers)
for epoch in range(epochs):
    for batch_idx, (images, labels) in enumerate(dataloader):
        images = images.to(device)
        labels = labels.to(device)

改为：

dataloader = data.Dataloader(dataset, batch_size = batch_size, num_workers = workers, pin_memory = True)
for epoch in range(epochs):
    for batch_idx, (images, labels) in enumerate(dataloader):
        images = images.to(device, non_blocking=True)
        labels = labels.to(device, non_blocking=True)

需要注意的是：只有pin_memory=True并且num_workers>0时non_blocking才会有效。

以上为个人经验，希望能给大家一个参考，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

python @property的用法及含义全面解析
下面小编就为大家分享一篇python @property的用法及含义全面解析，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-02-02
python获取中文字符串长度的方法
今天小编就为大家分享一篇python获取中文字符串长度的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-11-11
使用python 获取进程pid号的方法
这篇文章主要介绍了使用python 获取进程pid号的方法,需要的朋友可以参考下
2014-03-03
python线程池的实现实例
这篇文章主要介绍了python线程池的实现方法，代码简单实用，供大家参考使用
2013-11-11
四个Python常用OCR库的用法详解
在接口自动化工作中,经常需要处理文字识别的任务,而OCR库能够帮助我们将图像中的文字提取出来,所以本文为大家整理了四个常用的OCR库以及它们的用法,需要的可以参考下
2023-09-09
简述Python中的进程、线程、协程
这篇文章主要介绍了Python中的进程、线程、协程的相关资料,需要的朋友可以参考下
2016-03-03
基于plt.title无法显示中文的快速解决
这篇文章主要介绍了基于plt.title无法显示中文的快速解决，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-05-05
python tornado修改log输出方式
今天小编就为大家分享一篇python tornado修改log输出方式，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-11-11
如何在Python中妥善使用进度条详解
python的进度条有很多第三方库,有些做的比较炫酷,下面这篇文章主要给大家介绍了关于如何在Python中妥善使用进度条的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考下
2022-04-04
情人节快乐! python绘制漂亮玫瑰
情人节快乐! 这篇文章主要教大家如何用python绘制漂亮玫瑰花，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2019-02-02