pytorch GPU计算比CPU还慢的可能原因分析

更新时间：2024年02月22日 08:29:53 作者：Kevin Davis

这篇文章主要介绍了pytorch GPU计算比CPU还慢的可能原因,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教

1. 张量（tensor）太小，难以并行化计算

我们先来做个简单实验：

import torch
import time

def train(size_list, epochs):

    for s in size_list:

        # CPU
        start_time1 = time.time()
        a = torch.ones(s,s)
        for _ in range(epochs):
            a += a
        cpu_time = time.time() - start_time1

        # GPU
        start_time2 = time.time()
        b = torch.ones(s,s).cuda()
        for _ in range(epochs):
            b += b
        gpu_time = time.time() - start_time2

        print('s = %d, CPU_time = %.4fs, GPU_time = %.4fs'%(s, cpu_time, gpu_time))

size_list = [8, 32, 128, 512]
epochs = 100000
train(size_list, 100000)

s = 8, CPU_time = 0.2252s, GPU_time = 0.6376s
s = 32, CPU_time = 0.3321s, GPU_time = 0.6468s
s = 128, CPU_time = 2.2634s, GPU_time = 0.6493s
s = 512, CPU_time = 9.6728s, GPU_time = 1.5587s

可以看到，在tensor维度比较低(s = 8, 32) 时，CPU的计算耗时比GPU少，这是因为把数据从CPU搬到GPU也是需要时间的，GPU加速带来的收益被这部分搬运时间抵消了，完全展示不出cuda的加速功能。

当tensor维度达到128或以上时，GPU的计算耗时显著低于CPU的计算耗时，这时GPU加速带来的收益远高于搬运数据所花费的时间，展示出GPU加速的强大能力（老黄牛批！）。

咳咳，分析一下：

GPU加速通过大量的计算并行化来工作。 GPU有大量的内核，每个内核都不是很强大，但是核心数量巨大。PyTorch可以使它们尽可能地并行计算，在tensor维度比较高的情况下，GPU能够并行化更多的整体计算，显著减少计算耗时。

因此，如果遇到pytorch 用CPU比GPU还快的情况时，可以看看dataloader里单次输入的 x 维度是否太低，如果太低可以把 batch_size 调大一点，可以的话增加一下数据维度，单次输入的tensor的shape越大，GPU越能并行化计算。

当然，也不要设的太大了，比如batch_size设个大几万啥的，再强的显卡也遭不住这么折腾。

2. 模型太过简单

GPU的强大体现在它的并行计算，数据越大，模型越复杂越能体现出来。

太过简单的模型CPU一下子就算完了，此时的GPU可能才刚接收完数据，没法体现GPU的强大。

因此，解决方案也很简单，换个复杂点的模型或者加深加宽现有的神经网络模型。

3. CPU 相对 GPU 强太多

在相同的、没调好的参数情况下，有时候64核的CPU用60%的核心（也就是38个）也能达到一张2080ti显卡（GPU）的效果。

如果CPU是个64核的芯片，而显卡是老黄家的古董960，那CPU比GPU快也是完全有可能的，这时候瓶颈就在显卡了。

总结

以上是我在写~~bug~~代码时遇到的情况及可能原因，希望能给大家一个参考，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

Python ORM框架SQLAlchemy学习笔记之数据添加和事务回滚介绍
这篇文章主要介绍了Python ORM框架SQLAlchemy学习笔记之数据添加和事务回滚介绍,需要的朋友可以参考下
2014-06-06
python批量修改xml文件中的信息
大家好，本篇文章主要讲的是python批量修改xml文件中的信息，感兴趣的同学赶快来看一看吧，对你有帮助的话记得收藏一下的相关资料
2022-01-01
Python实现求笛卡尔乘积的方法
这篇文章主要介绍了Python实现求笛卡尔乘积的方法,结合实例形式分析了Python计算笛卡尔乘积的原理与实现技巧,需要的朋友可以参考下
2017-09-09
numpy.insert用法及内插插0的方法
本文主要介绍了numpy.insert用法及内插插0的方法，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2023-03-03
解决Jupyter因卸载重装导致的问题修复
这篇文章主要介绍了解决Jupyter因卸载重装导致的问题修复，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-04-04
python目标检测实现黑花屏分类任务示例
这篇文章主要为大家介绍了python目标检测实现黑花屏分类任务示例，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2022-07-07
Pytorch 解决自定义子Module .cuda() tensor失败的问题
这篇文章主要介绍了Pytorch 解决自定义子Module .cuda() tensor失败的问题，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-06-06
解决python 读取excel时日期变成数字并加.0的问题
这篇文章主要介绍了python 读取excel时, 日期变成数字并加.0的问题,本文给大家介绍的非常详细，具有一定的参考借鉴价值，需要的朋友可以参考下
2019-10-10
Android分包MultiDex策略详解
这篇文章主要介绍了Android分包MultiDex策略详解，具有一定参考价值，需要的朋友可以了解下。
2017-10-10
解决tensorflow/keras时出现数组维度不匹配问题
这篇文章主要介绍了解决tensorflow/keras时出现数组维度不匹配问题，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-06-06