当前位置: 首页 > news >正文

LLM - 神经网络的训练过程

1. 对于回归问题,用损失函数来计算预测值和真实值的差异,一种常用的公式是如下图所示(Mean Square Error),如果损失函数的值越小说明神经网络学习越准确,所以神经网络训练目标是减小损失函数的值,

    

2. 对于分类问题,损失函数和上面不一样,这里使用交叉熵作为损失函数,神经网络训练目标是最小化交叉熵。

3. 最小化损失函数的方法(梯度下降法),即将优化步骤拆分成若干个步骤,每次对损失函数的值做小幅缩小,具体过程是对损失函数求该模型参数的梯度,每次迭代对向着梯度变化最快的方向前进一步(这样就可以计算出模型参数,并在此轮迭代后更新模型参数),这样就可以使损失函数值降低一点,每次前进一步的步长称为学习率。

4. 回归问题的梯度求解过程:输出是标量F(x), 输入是[x1,x2,...xn], 对输入求偏导,得到的向量是梯度。

    

     

5. 分类问题的梯度求解过程:输出是向量F(X),有多个输出,让每个输出对输入变量X[x1,x2,..xn]求微分,得到的jacobian矩阵是梯度

6. 求微分时的链式法则:

7.求微分实例:

8.在实际深度学习场景中,对每个参数梯度计算是通过反向传播算法实现的。

9.单个节点梯度的计算过程: downstream_gradient = upstream_gradient * local_gradient 这个公式在实际写算子时会用到。

http://www.lryc.cn/news/392447.html

相关文章:

  • 【全网最全ABC三题完整版】2024年APMCM第十四届亚太地区大学生数学建模竞赛(中文赛项)完整思路解析+代码+论文
  • Python | Leetcode Python题解之第213题打家劫舍II
  • 揭秘数据之美:【Seaborn】在现代【数学建模】中的革命性应用
  • 【宠粉赠书】UML 2.5基础、建模与设计实践
  • Python中几个重要的集合
  • 【JS】纯web端使用ffmpeg实现的视频编辑器-视频合并
  • 解决Python用xpath爬取不到数据的一个思路
  • C#面:如何把一个array复制到arrayist里
  • 解决前后端同一个端口跨域问题
  • 《C语言》认识数据类型和理解变量
  • 【ARM 常见汇编指令学习 7.1 -- LDRH 半字读取指令】
  • C++期末整理
  • 技术派Spring事件监听机制及原理
  • 秋招突击——设计模式补充——简单工厂模式和策略模式
  • SwiftUI中List的liststyle样式及使用详解添加、移动、删除、自定义滑动
  • PostgreSQL的系统视图pg_stats
  • UML2.0-系统架构师(二十四)
  • leetcode 152. 乘积最大子数组「贪心」「动态规划」
  • Android项目目录结构
  • 网络安全--计算机网络安全概述
  • 用requirements.txt配置环境
  • APP渗透-android12夜神模拟器+Burpsuite实现
  • 源码扭蛋机开发初探
  • Patch SCN使用说明---惜分飞
  • 【微服务架构的守护神】Eureka与服务熔断深度解析
  • 使用label-studio对OCR数据进行预标注
  • 嵌入式linux sqlite3读写demo
  • vue实现搜索文章关键字,滑到指定位置并且高亮
  • Stable Diffusion与AI艺术:探索人工智能的创造力
  • 华为HCIP Datacom H12-821 卷26