当前位置：首页 > news >正文

LLM - 神经网络的训练过程

news 2025/8/18 17:35:32

1. 对于回归问题，用损失函数来计算预测值和真实值的差异，一种常用的公式是如下图所示(Mean Square Error)，如果损失函数的值越小说明神经网络学习越准确，所以神经网络训练目标是减小损失函数的值，

2. 对于分类问题，损失函数和上面不一样，这里使用交叉熵作为损失函数，神经网络训练目标是最小化交叉熵。

3. 最小化损失函数的方法（梯度下降法），即将优化步骤拆分成若干个步骤，每次对损失函数的值做小幅缩小，具体过程是对损失函数求该模型参数的梯度，每次迭代对向着梯度变化最快的方向前进一步（这样就可以计算出模型参数，并在此轮迭代后更新模型参数），这样就可以使损失函数值降低一点，每次前进一步的步长称为学习率。

4. 回归问题的梯度求解过程：输出是标量F(x), 输入是[x1,x2,...xn], 对输入求偏导，得到的向量是梯度。

5. 分类问题的梯度求解过程：输出是向量F(X)，有多个输出，让每个输出对输入变量X[x1,x2,..xn]求微分，得到的jacobian矩阵是梯度

6. 求微分时的链式法则：

7.求微分实例：

8.在实际深度学习场景中，对每个参数梯度计算是通过反向传播算法实现的。

9.单个节点梯度的计算过程: downstream_gradient = upstream_gradient * local_gradient 这个公式在实际写算子时会用到。

http://www.lryc.cn/news/392447.html

相关文章：

【全网最全ABC三题完整版】2024年APMCM第十四届亚太地区大学生数学建模竞赛（中文赛项）完整思路解析+代码+论文

Python | Leetcode Python题解之第213题打家劫舍II

揭秘数据之美：【Seaborn】在现代【数学建模】中的革命性应用

【宠粉赠书】UML 2.5基础、建模与设计实践

Python中几个重要的集合

【JS】纯web端使用ffmpeg实现的视频编辑器-视频合并

解决Python用xpath爬取不到数据的一个思路

C#面：如何把一个array复制到arrayist里

解决前后端同一个端口跨域问题

《C语言》认识数据类型和理解变量

【ARM 常见汇编指令学习 7.1 -- LDRH 半字读取指令】

C++期末整理

技术派Spring事件监听机制及原理

秋招突击——设计模式补充——简单工厂模式和策略模式

SwiftUI中List的liststyle样式及使用详解添加、移动、删除、自定义滑动

PostgreSQL的系统视图pg_stats

UML2.0-系统架构师（二十四）

leetcode 152. 乘积最大子数组「贪心」「动态规划」

Android项目目录结构

网络安全--计算机网络安全概述

用requirements.txt配置环境

APP渗透-android12夜神模拟器+Burpsuite实现

源码扭蛋机开发初探

Patch SCN使用说明---惜分飞

【微服务架构的守护神】Eureka与服务熔断深度解析

使用label-studio对OCR数据进行预标注

嵌入式linux sqlite3读写demo

vue实现搜索文章关键字，滑到指定位置并且高亮

Stable Diffusion与AI艺术：探索人工智能的创造力

华为HCIP Datacom H12-821 卷26