pytorch GPU计算比CPU还慢的可能原因分析
1. 张量(tensor)太小,难以并行化计算
我们先来做个简单实验:
import torch import time def train(size_list, epochs): for s in size_list: # CPU start_time1 = time.time() a = torch.ones(s,s) for _ in range(epochs): a += a cpu_time = time.time() - start_time1 # GPU start_time2 = time.time() b = torch.ones(s,s).cuda() for _ in range(epochs): b += b gpu_time = time.time() - start_time2 print('s = %d, CPU_time = %.4fs, GPU_time = %.4fs'%(s, cpu_time, gpu_time)) size_list = [8, 32, 128, 512] epochs = 100000 train(size_list, 100000)
s = 8, CPU_time = 0.2252s, GPU_time = 0.6376s
s = 32, CPU_time = 0.3321s, GPU_time = 0.6468s
s = 128, CPU_time = 2.2634s, GPU_time = 0.6493s
s = 512, CPU_time = 9.6728s, GPU_time = 1.5587s
可以看到,在tensor维度比较低(s = 8, 32) 时,CPU的计算耗时比GPU少,这是因为把数据从CPU搬到GPU也是需要时间的,GPU加速带来的收益被这部分搬运时间抵消了,完全展示不出cuda的加速功能。
当tensor维度达到128或以上时,GPU的计算耗时显著低于CPU的计算耗时,这时GPU加速带来的收益远高于搬运数据所花费的时间,展示出GPU加速的强大能力(老黄牛批!)。
咳咳,分析一下:
GPU加速通过大量的计算并行化来工作。 GPU有大量的内核,每个内核都不是很强大,但是核心数量巨大。PyTorch可以使它们尽可能地并行计算,在tensor维度比较高的情况下,GPU能够并行化更多的整体计算,显著减少计算耗时。
因此,如果遇到pytorch 用CPU比GPU还快的情况时,可以看看dataloader里单次输入的 x 维度是否太低,如果太低可以把 batch_size 调大一点,可以的话增加一下数据维度,单次输入的tensor的shape越大,GPU越能并行化计算。
当然,也不要设的太大了,比如batch_size设个大几万啥的,再强的显卡也遭不住这么折腾。
2. 模型太过简单
GPU的强大体现在它的并行计算,数据越大,模型越复杂越能体现出来。
太过简单的模型CPU一下子就算完了,此时的GPU可能才刚接收完数据,没法体现GPU的强大。
因此,解决方案也很简单,换个复杂点的模型或者加深加宽现有的神经网络模型。
3. CPU 相对 GPU 强太多
在相同的、没调好的参数情况下,有时候64核的CPU用60%的核心(也就是38个)也能达到一张2080ti显卡(GPU)的效果。
如果CPU是个64核的芯片,而显卡是老黄家的古董960,那CPU比GPU快也是完全有可能的,这时候瓶颈就在显卡了。
总结
以上是我在写bug代码时遇到的情况及可能原因,希望能给大家一个参考,也希望大家多多支持脚本之家。
相关文章
Python ORM框架SQLAlchemy学习笔记之数据添加和事务回滚介绍
这篇文章主要介绍了Python ORM框架SQLAlchemy学习笔记之数据添加和事务回滚介绍,需要的朋友可以参考下2014-06-06Pytorch 解决自定义子Module .cuda() tensor失败的问题
这篇文章主要介绍了Pytorch 解决自定义子Module .cuda() tensor失败的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧2020-06-06解决python 读取excel时 日期变成数字并加.0的问题
这篇文章主要介绍了python 读取excel时, 日期变成数字并加.0的问题,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下2019-10-10解决tensorflow/keras时出现数组维度不匹配问题
这篇文章主要介绍了解决tensorflow/keras时出现数组维度不匹配问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧2020-06-06
最新评论