当前位置：首页 > news >正文

【bug】使用transformers训练二分类任务时，训练损失异常大

news 2025/7/1 11:05:07

使用transformers训练二分类任务时，训练损失异常大

问题
分析

问题

training_loss异常大，在二分类损失中，收敛在1~2附近，而eval_loss却正常（小于0.5）

分析

参考：
Bug in gradient accumulation training_step in huggingface Trainer?
Fix Gradient Accumulation issue
使用解决了多卡gradient accumulation严重BUG的最新transformer库（以及对应的trl库），DPO训练的时候LOSS变为之前的好几倍
New GA fix causes training loss multiple times higher across the board (5x to 10x higher)

版本：trainsformer==4.46.0

怀疑启用training_args.gradient_accumulation_steps后，training_loss变大。
请添加图片描述

请添加图片描述

对比后发现，确实启用GA后，training_loss会变大，差不多是不启用GA的4倍。

这下差不多可以确定，在启用GA后，training_loss乘上了GA。

看到社区也有很多人在讨论这个问题，目前transformers最新版本是4.46.3，不知道是否解决了这个问题。

最新版本是4.46.3，不知道是否解决了这个问题。

~~transformers怎么这么多bug…~~

20241122：实测4.46.3版本还是未解决使用GA后，训练损失偏大的问题。

http://www.lryc.cn/news/490205.html

相关文章：

文献阅读与笔记整理技巧

Python Flask中集成SQLAlchemy和Flask-Login

esp32 JTAG 串口 bootload升级

【linux】（17）压缩和解压

摄像机视频分析软件下载LiteAIServer视频智能分析平台玩手机打电话检测算法技术的实现

springboot购物推荐网站的设计与实现(代码+数据库+LW)

【Unity3D插件】Unity3D HDRP Outline高亮发光轮廓描边插件教程

QT基础 UI编辑器 QT5.12.3环境 C++环境

计算机网络socket编程(5)_TCP网络编程实现echo_server

go语言闭包捕获的是变量的引用而不是变量的值

周期法频率计的设计

【Linux】drop cache与reclaim的区别

【Linux课程学习】：命令行参数，环境变量

HTB：WifineticTwo[WriteUP]

mac安装Pytest、Allure、brew

关于相机选型的一些参数说明

深入解析 Cron 表达式高级用法：Spring 与 Linux Crontab 的全面对比与实践20241120

24软专数据结构

洛谷 P1616 疯狂的采药 C语言记忆化搜索

#渗透测试#红蓝攻防#HW#SRC漏洞挖掘01之静态页面渗透

element-plus入门教程：Button

oneplus6线刷、trwp、magisk(apatch)、LSPosed、Shamiko、Hide My Applist

Kafka 数据倾斜：原因、影响与解决方案

【从零开始的LeetCode-算法】3297. 统计重新排列后包含另一个字符串的子字符串数目 I

【2024APMCM亚太赛A题】完整参考论文与代码分享

Excel求和如何过滤错误值

Android 常用命令和工具解析之GPU相关

刷题——【模板】二维前缀和

Xilinx 7 系列 FPGA的各引脚外围电路接法