基于CUDA out of memory的一种神奇解决方式

 更新时间:2023年02月22日 09:04:03   作者:JasmineFeng  
这篇文章主要介绍了基于CUDA out of memory的一种神奇解决方式,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教

CUDA out of memory的解决

我的输入样本维度是(1000,12,24,72),一开始我是这么输入数据的:

trainer.train(x_train, t_train, x_val, t_val)

发现必溢出,后来我取出其中400个样本输入:

trainer.train(x_train[:400], t_train[:400], x_val, t_val)

发现不溢出了,训练正常,然后我把400删掉,但没删冒号:

trainer.train(x_train[:], t_train[:], x_val, t_val)

竟然也没有溢出!!!虽然训练速度降了,但是也能正常训练,我不是很懂原理是啥,好神奇!

但是样本量一大起来,即使用冒号法还是可能会溢出。比方说我后来把4000个样本作为x/t_train:

>>>x_train.shape
(4000,12,24,72)
>>>t_train.shape
(4000,24)
>>>trainer.train(x_train[:], t_train[:], x_val, t_val)
RuntimeError:CUDA out of memory...

之所以说“可能”会溢出,是因为确实是有小概率能正常训练的,但是大部分情况还是会out of memory…

不过这真的是一个“神奇”的方法,能从一定程度上解决CUDA out of memory 的问题。希望大佬能解释一下这其中的原理~谢谢!

-------------------------------------------------------------------

再附上两个我昨天看到的两种不同的解决方案。

一个是减少带梯度的中间变量(即非叶子节点)。简言之,能一行代码搞定的,尽量不要写成多行,即使写成多行,也要尽可能减少新变量的建立。

另一个是在eval的时候,让所有的变量都不带梯度。只需要添加一行代码:

with torch.no_grad():
    outputs = Net_(inputs)

在with语句里的所有变量requires_grad都是False。

CUDA error: out of memory问题

本人遇到的问题是在训练是正常,一到验证时就会出现cuda error: out of memory的问题

解决思路溯寻

1.首先就是考虑减少batch_size和num_worker,对于我的情况不奏效

2.然后找到pin_memory发现是设置的True,改为false,仍旧不管用

3.包括把

 # Empty GPU cache
        if torch.cuda.is_available():
            torch.cuda.empty_cache()

放到报错位置的前后,不奏效

4.后来再聚焦问题关键,是一到验证就会出问题,所以专门查攻略,我初步怀疑是因为验证没有参与反向传播,梯度累积,内存爆了,但当时代码中有with torch.no_grad(): ,所以并没有发现关键,知道看到别人里面 forword是放在with torch.no_grad()后面的,所以最后

with torch.no_grad():
                # Forward pass
                loss, np_probs, hv_logits = self.forward(images, targets)

问题解决!

总结

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • python中编写函数并调用的知识点总结

    python中编写函数并调用的知识点总结

    在本篇文章里小编给各位整理的是一篇关于python中编写函数并调用的知识点总结内容,有兴趣的朋友们可以学习下。
    2021-01-01
  • 详解Python函数print用法

    详解Python函数print用法

    今天给大家带来的是关于Python的相关知识,文章围绕着Python print函数的用法展开,文中有非常详细的介绍及代码示例,需要的朋友可以参考下
    2021-06-06
  • Python的Tqdm模块实现进度条配置

    Python的Tqdm模块实现进度条配置

    这篇文章主要介绍了Python的Tqdm模块实现进度条配置,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-02-02
  • 如何基于Python实现数字类型转换

    如何基于Python实现数字类型转换

    这篇文章主要介绍了如何基于Python实现数字类型转换,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-02-02
  • python中pyplot直方图的绘制方式

    python中pyplot直方图的绘制方式

    这篇文章主要介绍了python中pyplot直方图的绘制方式,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-11-11
  • python如何开启多线程

    python如何开启多线程

    这篇文章主要介绍了python如何开启多线程问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-08-08
  • 浅谈django rest jwt vue 跨域问题

    浅谈django rest jwt vue 跨域问题

    这篇文章主要介绍了django rest jwt vue 跨域问题,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-10-10
  • Python中正则表达式的详细教程

    Python中正则表达式的详细教程

    这篇文章主要介绍了Python中正则表达式的详细教程,正则表达式是Python学习进阶当中的重要内容,需要的朋友可以参考下
    2015-04-04
  • python条件判断中not、is、is not、is not None、is None代码实例

    python条件判断中not、is、is not、is not None、is None代码实例

    None是python中的一个特殊的常量,表示一个空的对象,下面这篇文章主要给大家介绍了关于python条件判断中not、is、is not、is not None、is None的相关资料,需要的朋友可以参考下
    2024-03-03
  • 一文带你精通Python中*args和**kwargs的应用技巧

    一文带你精通Python中*args和**kwargs的应用技巧

    如果能在Python中创建适应不同场景的函数,而无需每次都重写它们,会使得操作简洁方便,这就是*args和**kwargs的魔力所在,下面我们就来看看它们的具体一些应用技巧吧
    2024-03-03

最新评论