当前位置: 首页 > news >正文

pytorch正向传播没问题,loss.backward()使定义的神经网络中权重参数变为nan

记录一个非常坑爹的bug:loss回传导致神经网络中一个linear层的权重参数变为nan
1.首先loss值是正常数值;
2.查了好多网上的解决办法:检查原始输入神经网络数据有没有nan值,初始化权重参数,使用relu激活函数,梯度裁剪,降低优化器的学习率等等都没解决,个人认为这些应该影响不大,一般不会出问题;
3.最后是使用如下异常检测:检测在loss回传过程中哪一块出现了问题
torch.autograd.set_detect_anomaly(True)
with torch.autograd.detect_anomaly():
loss.backward()
4.果真报了一个错:
RuntimeError: Function ‘ExpBackward’ returned nan values in its 0th output.
意思是Exp函数回传有问题,然后发现在生成loss过程中有一步:
tensor2 = torch.exp(tensor1),tensor1是我要处理的张量,tensor2用来做后续处理,这里tensor1中的值如果太小,容易使torch.exp的结果变为0。虽然exp函数的值域是大于0的,但是对于非常小的输入pytorch处理后会取0,所以做了如下处理:
torch.clamp(tensor2,1e-9),对tensor2中小于1e-9的数,直接取1e-9,避免0值出现
5.还有一个点是:计算loss时有一个torch.log(tensor3)的函数,同样的道理不能让tensor3的值中有0,否则loss会出现inf值,同样可以加一个很小的值比如1e-9
6.最后不确定的一点是pytorch的版本问题,出现问题的是torch1.0.1,更新到1.5.1之后不再报错(这也是在https://discuss.pytorch.org/找到的方法)。
7.这个问题找了好长时间,又是输出loss值,又是输出过程中的各种变量值还有神经网络权重参数,最后按照上面的措置一步一步才解决,最重要的是要保证每个函数的输入要正常,但是不确定是不是torch版本问题,反正手段都用上了。

http://www.lryc.cn/news/432354.html

相关文章:

  • ❤《实战纪录片 1 》原生开发小程序中遇到的问题和解决方案
  • 2024.9.6 作业
  • 2024年架构设计师论文-“模型驱动架构设计方法及其应用”
  • Tapd敏捷开发平台的使用心得
  • 远程桌面 Rust Desk 自建服务器
  • 开源网安引领AIGC+开发安全,智能防护铸就软件安全新高度
  • 树和二叉树
  • 一篇带你速通差分算法(C/C++)
  • 贷款利率高低跟什么有关?仅凭身份证就能贷到款?额度是多少?
  • 苹果电脑需要安装杀毒软件吗?探索Mac的安全世界!
  • Oracle start with connect BY 死循环
  • 力扣接雨水
  • bug“医典”
  • Track 06:量子计算机概述
  • 论文解读 | KDD2024 演化图上的森林矩阵快速计算
  • 7.统一网关-Gateway
  • QT:QWidget 控件属性的介绍
  • ctfshow-nodejs
  • Linux 大文件和大量小文件的复制策略
  • 0.3 学习Stm32经历过的磨难
  • 9、Django Admin优化查询
  • 数据结构基础之《(3)—二分法》
  • C语言 | Leetcode C语言题解之第391题完美矩形
  • day47——面向对象特征之继承
  • 启动 Spring Boot 项目时指定特定的 application.yml 文件位置
  • Hive 本地启动时报错 Persistence Manager has been closed
  • 多模态在京东内容算法上的应用
  • SSM+Ajax实现广告系统
  • 项目实战 ---- 商用落地视频搜索系统(6)---UI 结构及与service互动
  • 双头BFS