Pytorch中retain_graph的坑及解决

更新时间：2023年02月21日 09:08:40 作者：Longlongaaago

这篇文章主要介绍了Pytorch中retain_graph的坑及解决方案，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教

Pytorch中retain_graph的坑

在查看SRGAN源码时有如下损失函数，其中设置了retain_graph=True，其作用就是

在更新D网络时的loss反向传播过程中使用了retain_graph=True，目的为是为保留该过程中计算的梯度，后续G网络更新时使用；

        ############################
        # (1) Update D network: maximize D(x)-1-D(G(z))
        ###########################
        real_img = Variable(target)
        if torch.cuda.is_available():
            real_img = real_img.cuda()
        z = Variable(data)
        if torch.cuda.is_available():
            z = z.cuda()
        fake_img = netG(z)
 
        netD.zero_grad()
        real_out = netD(real_img).mean()
        fake_out = netD(fake_img).mean()
        d_loss = 1 - real_out + fake_out
        d_loss.backward(retain_graph=True) #####
        optimizerD.step()
 
        ############################
        # (2) Update G network: minimize 1-D(G(z)) + Perception Loss + Image Loss + TV Loss
        ###########################
        netG.zero_grad()
        g_loss = generator_criterion(fake_out, fake_img, real_img)
        g_loss.backward()
        optimizerG.step()
        fake_img = netG(z)
        fake_out = netD(fake_img).mean()
 
        g_loss = generator_criterion(fake_out, fake_img, real_img)
        running_results['g_loss'] += g_loss.data[0] * batch_size
        d_loss = 1 - real_out + fake_out
        running_results['d_loss'] += d_loss.data[0] * batch_size
        running_results['d_score'] += real_out.data[0] * batch_size
        running_results['g_score'] += fake_out.data[0] * batch_size

也就是说，只要我们有一个loss，我们就可以先loss.backward(retain_graph=True) 让它先计算梯度，若下面还有其他损失，但是可能你想扩展代码，可能有些loss是不用的，所以先加了 if 等判别语句进行了干预，使用loss.backward(retain_graph=True)就可以单独的计算梯度，屡试不爽。

但是另外一个问题在于，如果你都这么用的话，显存会爆炸，因为他保留了梯度，所以都没有及时释放掉,浪费资源。

而正确的做法应该是，在你最后一个loss 后面，一定要加上loss.backward()这样的形式，也就是让最后一个loss 释放掉之前所有暂时保存下来得梯度！！

Pytorch中有多次backward时需要retain_graph参数

Pytorch中的机制是每次调用loss.backward()时都会free掉计算图中所有缓存的buffers，当模型中可能有多次backward()时，因为前一次调用backward()时已经释放掉了buffer，所以下一次调用时会因为buffers不存在而报错

解决办法

loss.backward(retain_graph=True)

错误使用

optimizer.zero_grad() 清空过往梯度；
loss1.backward(retain_graph=True) 反向传播，计算当前梯度；
loss2.backward(retain_graph=True) 反向传播，计算当前梯度；
optimizer.step() 根据梯度更新网络参数

因为每次调用bckward时都没有将buffers释放掉，所以会导致内存溢出，迭代越来越慢（因为梯度都保存了，没有free)

正确使用

optimizer.zero_grad() 清空过往梯度；
loss1.backward(retain_graph=True) 反向传播，计算当前梯度；
loss2.backward() 反向传播，计算当前梯度；
optimizer.step() 根据梯度更新网络参数

最后一个 backward() 不要加 retain_graph 参数，这样每次更新完成后会释放占用的内存，也就不会出现越来越慢的情况了

总结

以上为个人经验，希望能给大家一个参考，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

Python转换字典成为对象,可以用"."方式访问对象属性实例
这篇文章主要介绍了Python转换字典成为对象,可以用"."方式访问对象属性实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-05-05
Python重新引入被覆盖的自带function
最近在写python应用时遇到一个问题: 引入某个模块时会自动引入自定义的int到python的namespace中, 从而覆盖了python自带的int function. 因为我们需要使用python的int, 所以不得不找到重新引入这int的方法.
2014-07-07
python判断文件夹内是否存在指定后缀文件的实例
今天小编就为大家分享一篇python判断文件夹内是否存在指定后缀文件的实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-06-06
用Python中的__slots__缓存资源以节省内存开销的方法
这篇文章主要介绍了用Python中的__slots__通过缓存资源的方式以节省内存开销的方法,且示例代码非常简单,需要的朋友可以参考下
2015-04-04
使用Python搭建服务器公网展示本地电脑文件的操作过程
这篇文章主要介绍了使用Python搭建服务器公网展示本地电脑文件,今天我们就尝试用python,建立一个简单的http服务器,用来展示本地电脑上指定的目录和文件,需要的朋友可以参考下
2023-08-08
Linux 修改Python命令的方法示例
这篇文章主要介绍了Linux 修改Python命令的方法示例，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2018-12-12
解决python3 urllib 链接中有中文的问题
今天小编就为大家分享一篇解决python3 urllib 链接中有中文的问题，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-07-07
Python子类继承父类构造函数详解
在本文里我们给大家分享一篇关于Python 子类继承父类构造函数的相关知识点内容，需要的朋友们跟着学习下。
2019-02-02
Python编程中闭包的变量作用域问题解析
这篇文章主要介绍了Python编程中闭包的变量作用域问题解析，在学习Python的返回函数的时候，我发现里面涉及了几个问题，在这里为大家分享讲解下
2021-10-10
Python根据指定文件生成XML的方法
这篇文章主要介绍了Python根据指定文件生成XML的方法，文中代码非常详细，帮助大家更好的理解和学习，感兴趣的朋友可以了解下
2020-06-06