当前位置: 首页 > article >正文

LLM中的Loss与Logits详解

LLM中的Loss与Logits详解

自己构建的logits的损失函数,比自带loss效果好很多,建议自己构建;
另外学习率也是十分重要的参数,多次尝试,通过查看loss的下降趋势进行调整;
举例,来回跳跃说明下降率过大,一般从0.0001 开始尝试。
在这里插入图片描述

在深度学习中,logitsloss 是两个不同的概念,需要先区分清楚:

  • logits 是模型输出的原始未归一化分数(如分类任务中未经过 softmax 激活的线性输出)。
  • loss 是根据模型预测(logits 或概率)与真实标签计算的损失值,用于衡量预测与真实值的差距。

http://www.lryc.cn/news/2393978.html

相关文章:

  • 数学术语之源——绝对值(absolute value)(复数模?)
  • 亚马逊商品评论爬取与情感分析:Python+BeautifulSoup实战(含防封策略)
  • STM32的DMA入门指南:让单片机学会“自动搬运“数据
  • 从虚拟化到云原生与Serverless
  • OpenAI o3安全危机:AI“抗命”背后的技术暗战与产业变局
  • Bootstrap:精通级教程(VIP10万字版)
  • 技术创新如何赋能音视频直播行业?
  • leetcode1201. 丑数 III -medium
  • ai工具集:AI材料星ppt生成,让你的演示更出彩
  • @Prometheus 监控操作系统-Exporter(Win Linux)
  • LINUX530 rsync定时同步 环境配置
  • CMG 机器人格斗大赛举行,宇树人形机器人参赛,比赛有哪些看点?对行业意味着什么?
  • Python——MySQL远程控制
  • 异常:UnsupportedOperationException: null
  • Ubuntu 24.04 LTS 和 ROS 2 Jazzy 环境中使用 Livox MID360 雷达
  • 自动化立体仓库堆垛机SRM控制系统FC19手动控制功能块开发
  • Ollama(1)知识点配置篇
  • VMware Workstation虚拟系统设置双网口
  • Qt基础终结篇:从文件操作到多线程异步UI,深度解析核心要点
  • ubuntu中,文本编辑器nano和vim区别,vim的用法
  • 山洪灾害声光电监测预警解决方案
  • 【Rust模式与匹配】Rust模式与匹配深入探索与应用实战
  • React从基础入门到高级实战:React 高级主题 - React Concurrent 特性:深入探索与实践指南
  • electron安装报错处理
  • NHANES指标推荐:CQI
  • 【OpenHarmony】【交叉编译】使用gn在Linux编译3568a上运行的可执行程序
  • Med-R1论文阅读理解-1
  • 【从零开始学习QT】快捷键、帮助文档、Qt窗口坐标体系
  • 强化学习笔记总结(结合论文)
  • Java线程安全解决方案全面指南