当前位置: 首页 > news >正文

pytorch的CrossEntropyLoss交叉熵损失函数默认reduction是平均值

pytorch中使用nn.CrossEntropyLoss()创建出来的交叉熵损失函数计算损失默认是求平均值的,即多个样本输入后获取的是一个均值标量,而不是样本大小的向量。

net = nn.Linear(4, 2)
loss = nn.CrossEntropyLoss()
X = torch.rand(10, 4)
y = torch.ones(10, dtype=torch.long)
y_hat = net(X)
l = loss(y_hat, y)
print(l)

打印的结果:tensor(0.7075, grad_fn=<NllLossBackward0>)

以上是对10个样本做的均值的标量

net = nn.Linear(4, 2)
loss = nn.CrossEntropyLoss(reduction='none')
X = torch.rand(10, 4)
y = torch.ones(10, dtype=torch.long)
y_hat = net(X)
l = loss(y_hat, y)
print(l)

在构造CrossEntropyLoss时候加入 reduction='none',就把默认求平均取消掉了

打印结果:

tensor([0.6459, 0.7372, 0.6373, 0.6843, 0.6251, 0.6555, 0.5510, 0.7016, 0.6975,0.6849], grad_fn=<NllLossBackward0>)

以上是10个样本各自的loss值

上图是pytorch的CrossEntropyLoss的构造方法,默认是 reduction='mean'

此外,使用反向传播计算梯度也会发生变化,loss值调用backward()要求loss值是一个tensor标量,如果是reduction='none',loss值得到的是tensor向量,会报错。 loss值需要求和或者求平均得到标量再进行backward()的计算

l = loss(y_hat, y)
l.sum().backward()

至于为什么求和或者求平均都可以,首先要看下更新梯度的计算公式

 求和学习率就调整的大一点,求均值的话学习率就可以小一点,总之就是除以样本数这个操作可以放到调整学习率中

http://www.lryc.cn/news/110606.html

相关文章:

  • OKR管理策略:为开发团队注入动力
  • C++二叉搜索树剖析
  • 升级你的GitHub终端认证方式:从密码到令牌
  • 【力扣】链表题目总结
  • Thunar配置自定义动作
  • Python 开发工具 Pycharm —— 使用技巧Lv.3
  • 51单片机(普中HC6800-EM3 V3.0)实验例程软件分析 实验三 LED流水灯
  • 深度学习与计算机相结合:直播实时美颜SDK的创新之路
  • Unity寻找子物体的方法
  • 车载软件架构 —— 车载软件安全启动关键技术解读
  • 2023-08-05——JVM Method Area(方法区)
  • 【前端知识】React 基础巩固(四十六)——自定义Hook的应用
  • Swish - Mac 触控板手势窗口管理工具[macOS]
  • 【雕爷学编程】MicroPython动手做(31)——物联网之Easy IoT 2
  • C# 简单模拟 程序内部 消息订阅发布功能
  • 第六章 支持向量机
  • Docker基本操作之删除容器Container和删除镜像IMAGE
  • vue 3.0 + element-ui MessageBox弹出框的 让文本框显示文字 placeholder
  • QT生成可执行文件的步骤
  • 一分钟学会JS获取当前年近五年的年份
  • 14 springboot项目——首页跳转实现
  • IL汇编语言读取控制台输入和转换为整数
  • 什么是跨链 DeFi?
  • Linux下C/C++的gdb工具与Python的pdb工具常见用法之对比
  • 从入门到专业:探索Python中的判断与循环技巧!
  • mqtt、tcp、http的区别
  • 边写代码边学习之RNN
  • 在linux调试进程PID的方法
  • 【并发编程】线程安全的栈容器
  • ES嵌套查询和普通查询的高亮显示区别