当前位置: 首页 > news >正文

【bug】使用transformers训练二分类任务时,训练损失异常大

使用transformers训练二分类任务时,训练损失异常大

  • 问题
  • 分析

问题

training_loss异常大,在二分类损失中,收敛在1~2附近,而eval_loss却正常(小于0.5)

分析

参考:
Bug in gradient accumulation training_step in huggingface Trainer?
Fix Gradient Accumulation issue
使用解决了多卡gradient accumulation严重BUG的最新transformer库(以及对应的trl库),DPO训练的时候LOSS变为之前的好几倍
New GA fix causes training loss multiple times higher across the board (5x to 10x higher)

版本:trainsformer==4.46.0

怀疑启用training_args.gradient_accumulation_steps后,training_loss变大。
请添加图片描述

请添加图片描述

对比后发现,确实启用GA后,training_loss会变大,差不多是不启用GA的4倍。

这下差不多可以确定,在启用GA后,training_loss乘上了GA。

看到社区也有很多人在讨论这个问题,目前transformers最新版本是4.46.3,不知道是否解决了这个问题。

最新版本是4.46.3,不知道是否解决了这个问题。

transformers怎么这么多bug…


20241122:实测4.46.3版本还是未解决使用GA后,训练损失偏大的问题。

http://www.lryc.cn/news/490205.html

相关文章:

  • 文献阅读与笔记整理技巧
  • Python Flask中集成SQLAlchemy和Flask-Login
  • esp32 JTAG 串口 bootload升级
  • 【linux】(17)压缩和解压
  • 摄像机视频分析软件下载LiteAIServer视频智能分析平台玩手机打电话检测算法技术的实现
  • springboot购物推荐网站的设计与实现(代码+数据库+LW)
  • 【Unity3D插件】Unity3D HDRP Outline高亮发光轮廓描边插件教程
  • QT基础 UI编辑器 QT5.12.3环境 C++环境
  • 计算机网络socket编程(5)_TCP网络编程实现echo_server
  • go语言闭包捕获的是变量的引用而不是变量的值
  • 周期法频率计的设计
  • 【Linux】drop cache与reclaim的区别
  • 【Linux课程学习】:命令行参数,环境变量
  • HTB:WifineticTwo[WriteUP]
  • mac安装Pytest、Allure、brew
  • 关于相机选型的一些参数说明
  • 深入解析 Cron 表达式高级用法:Spring 与 Linux Crontab 的全面对比与实践20241120
  • 24软专 数据结构
  • 洛谷 P1616 疯狂的采药 C语言 记忆化搜索
  • #渗透测试#红蓝攻防#HW#SRC漏洞挖掘01之静态页面渗透
  • element-plus入门教程:Button
  • oneplus6线刷、trwp、magisk(apatch)、LSPosed、Shamiko、Hide My Applist
  • flux的版本
  • Kafka 数据倾斜:原因、影响与解决方案
  • 【从零开始的LeetCode-算法】3297. 统计重新排列后包含另一个字符串的子字符串数目 I
  • 【2024APMCM亚太赛A题】完整参考论文与代码分享
  • Excel求和如何过滤错误值
  • Android 常用命令和工具解析之GPU相关
  • 刷题——【模板】二维前缀和
  • Xilinx 7 系列 FPGA的各引脚外围电路接法