当前位置：首页 > news >正文

pytorch正向传播没问题，loss.backward()使定义的神经网络中权重参数变为nan

news 2025/7/4 17:07:44

记录一个非常坑爹的bug:loss回传导致神经网络中一个linear层的权重参数变为nan
1.首先loss值是正常数值；
2.查了好多网上的解决办法：检查原始输入神经网络数据有没有nan值，初始化权重参数，使用relu激活函数，梯度裁剪，降低优化器的学习率等等都没解决，个人认为这些应该影响不大，一般不会出问题；
3.最后是使用如下异常检测：检测在loss回传过程中哪一块出现了问题
torch.autograd.set_detect_anomaly(True)
with torch.autograd.detect_anomaly():
loss.backward()
4.果真报了一个错：
RuntimeError: Function ‘ExpBackward’ returned nan values in its 0th output.
意思是Exp函数回传有问题，然后发现在生成loss过程中有一步：
tensor2 = torch.exp(tensor1),tensor1是我要处理的张量，tensor2用来做后续处理，这里tensor1中的值如果太小，容易使torch.exp的结果变为0。虽然exp函数的值域是大于0的，但是对于非常小的输入pytorch处理后会取0，所以做了如下处理：
torch.clamp(tensor2,1e-9),对tensor2中小于1e-9的数，直接取1e-9，避免0值出现
5.还有一个点是：计算loss时有一个torch.log(tensor3)的函数，同样的道理不能让tensor3的值中有0，否则loss会出现inf值，同样可以加一个很小的值比如1e-9
6.最后不确定的一点是pytorch的版本问题，出现问题的是torch1.0.1，更新到1.5.1之后不再报错（这也是在https://discuss.pytorch.org/找到的方法）。
7.这个问题找了好长时间，又是输出loss值，又是输出过程中的各种变量值还有神经网络权重参数，最后按照上面的措置一步一步才解决，最重要的是要保证每个函数的输入要正常，但是不确定是不是torch版本问题，反正手段都用上了。

查看全文

http://www.lryc.cn/news/432354.html