当前位置：首页 > news >正文

深度学习-----------数值稳定性

news 2025/7/28 15:20:45

目录

神经网络的梯度
数值稳定性的常见两个问题
- 例子：MLP
梯度爆炸
- 梯度爆炸的问题
梯度消失
- 梯度消失的问题
总结
模型初始化和激活函数
- 让训练更加稳定
- 让每层的方差是一个常数
权重初始化
正向均值和方差
- 正向均值
- 正向方差
反向均值和方差
Xavier初始
正向和反向的均值和方差（书上）
- 正向均值和方差
- 反向均值和方差
从线性的激活函数的角度提升数值稳定性
- 正向
- 反向
检查常用激活函数
总结
问题

在这里插入图片描述

神经网络的梯度

考虑如下有d层的神经网络，输入x和输出y的深层网络。每一层t由线性变换 $f_1$ 定义，该变换的参数为权重 $w^{(t)}$ ,其隐藏变量是 $h^{(t)}$ (令 $h^{(0)}$ =x)。我们的网络可以表示为：

在这里插入图片描述
层：记作t
l：损失函数（即预测的要进行优化的目标函数）
y：y不是预测，还包括损失函数

计算损失l关于参数 $w^{(t)}$ 的梯度。

在这里插入图片描述

数值稳定性的常见两个问题

在这里插入图片描述

例子：MLP

加入如下MLP（为了简单省略了偏移）（即MLP：多层感知机的模型）

在这里插入图片描述
首先对激活函数进行求导，它是一个按元素的一个函数，所以对它的求导就变成一个diag(对角)矩阵

在这里插入图片描述

梯度爆炸

使用ReLU作为激活函数
在这里插入图片描述

通过（元素为0和1的）对角矩阵与相乘，那么意味着把某一列留住了，要么把它全变为0。

在这里插入图片描述是指那些没有变成0的那一列的乘法

如果d-t很大，值将会很大。（意思是网络比较深的话，那么它的值会比较大，因为里面全是w的元素，假设每个w的元素都是大于1的话，而且层数比较大的情况下，那么就会有非常大的值。）

梯度爆炸的问题

值超出值域(infinity)
对于16位浮点数尤为严重（数值区间为(6e-5，6e-4)）

对学习率敏感
如果学习率太大→大参数值→更大的梯度
（如果学习率太大，那么就会带来比较大的参数值，因为每一步走的比较远，那么权重会变的比较大，权重变大对应的梯度更大（这里的梯度即：权重的乘法））在这里插入图片描述

如果学习率太小→训练无进展
我们可能需要在训练过程不断调整学习率。

梯度消失

使用sigmoid作为激活函数
在这里插入图片描述

当激活函数的输入稍微大一点时，它的导数就变为接近0，连续n个接近0的数相乘，最后的梯度就接近0，梯度就消失了。

梯度消失的问题

梯度值变成0
对16位浮点数尤为严重

训练没有进展
不管如何选择学习率
（梯度为0，不管学习率如何变都不会有进展，权重=学习率*梯度）

对于比较深的网络的时候，对于底层尤为严重
仅仅顶部层训练的较好
无法让神经网络更深

总结

当数值过大或者过小时会导致数值问题。
常发生在深度模型中，因为其会对n个数累乘。

模型初始化和激活函数

让训练更加稳定

在这里插入图片描述
目标：让梯度值在合理的范围内
    例如：[1e-6,1e3]
将乘法变加法
    ResNet，LSTM
归一化
    梯度归一化，梯度裁剪
合理的权重初始和激活函数

让每层的方差是一个常数

将每层的输出和梯度都看做随机变量
让它们的均值和方差都保持一致

在这里插入图片描述

权重初始化

在合理值区间里随机初始参数
训练开始的时候更容易有数值不稳定
远离最优解的地方损失函数表面可能很复杂（比较陡，说明梯度越大）
最优解附近表面会比较平
使用N(0,0.01)来初始可能对小网络没问题，但不能保证深度神经网络。

在这里插入图片描述

正向均值和方差

例子：MLP
假设
在这里插入图片描述（即：权重是一个独立同分布(Independent identical distribution)，代表的意思是权重的第t层第i行第j列，那么均值等于0，方差等于 $γ_t$ ,t为其层数。
t-1层的输入独立于当前的权重。
）

正向均值

在这里插入图片描述

正向方差

方差=平方的期望-期望的平方
在这里插入图片描述

方差= 在这里插入图片描述平方项的均值-均值的平方。
其中为0.

在这里插入图片描述全独立，每个的均值为0，

在这里插入图片描述和的均值为0，这两项就等价于其方差。
题设：
其中对j进行求和，j的取值就是[0,t-1]
$n_{t-1}$ 是第t-1层的维度数

反向均值和方差

在这里插入图片描述

Xavier初始

在这里插入图片描述

正向和反向的均值和方差（书上）

正向均值和方差

假设：

在这里插入图片描述

与相互独立
在这种情况下，我们可以按如下方式计算 o_i 的平均值和方差：

保持方差不变（）的一种方法是设置

反向均值和方差

假设：
在这里插入图片描述

可以看到，除非在这里插入图片描述
否则梯度的方差可能会增大，其中是该层的输出的数量。这使得我们进退两难：我们不可能同时满足这两个条件。相反，我们只需满足：

在这里插入图片描述或等价于

通常，Xavier初始化从均值为零，方差在这里插入图片描述的高斯分布中采样权重。
我们也可以将其改为选择从均匀分布中抽取权重时的方差。注意均匀分布的方差为。将代入到的条件中，将得到初始化值域：

在这里插入图片描述

从线性的激活函数的角度提升数值稳定性

正向

在这里插入图片描述

反向

在这里插入图片描述

由以上推理可知：从激活函数的角度保持每层的输入和输出的均值和方差不变，必须使得激活函数在这里插入图片描述

检查常用激活函数

在这里插入图片描述

总结

合理的权重初始值和激活函数的选取可以提升数值稳定性。

问题

①nan（not a number）和inf是怎么产生的以及怎么解决吗？
inf是太大了，权重初始没更新
nan是除0产生的。
解决：合理初始化权重、学习率、激活函数

②在训练的过程中，如果网络层的输出层特征元素的值突然变成nan了，是发生了梯度爆炸了吗？还是有什么其它可能的原因？
对，一般来说nan就是梯度太大造成的，所以一般是梯度的问题

③梯度消失可以说是因为使用了sigmoid激活函数引起的对吗？所以我们可以用ReLU替换sigmoid解决梯度消失的问题吗？
不对，梯度消失有很多可能因素，不一定是sigmoid引起的。ReLU替换sigmoid可以让梯度消失的概率减少。

④为什么乘法变加法可以让训练更稳定？
100个1.5乘在一起梯度会炸，但100个1.5相加没问题。

⑤使用resnet为什么还会出现数值稳定性问题？
只能缓解问题不能解决问题。

http://www.lryc.cn/news/415138.html

相关文章：

SpringBoot项目接口可以承受的调用次数

抽象代数精解【8】

数据结构与算法 - 二叉树

Spring Cloud Gateway如何给一个请求加请求头

chromedriver版本下载地址汇总chromedriver所有版本下载地址汇总国内源下载

Go语言与Windows系统

JAVA—面向对象编程高级

[BJDCTF2020]Mark loves cat1

微信答题小程序产品研发-用户操作流程设计

目标检测——YOLOv10: Real-Time End-to-End Object Detection

堡垒机简单介绍

【星闪开发连载】WS63E 星闪开发板和hi3861开发板的对比

Python接口自动化测试框架（实战篇）-- Jenkins持续集成

【leetcode】根据二叉树创建字符串、二叉树的前中后遍历（非递归链表实现二叉树）

【RabbitMQ】RabbitMQ交换机概述

ROS2从入门到精通4-6：路径平滑插件开发案例(以B样条曲线平滑为例)

Tensorflow训练视觉模型（CPU）

从根儿上学习spring 十之run方法启动第四段(4)

如果我的发明有修改，需要如何处理？

java：File与MultipartFile互转

高级java每日一道面试题-2024年8月04日-web篇-如果客户端禁止cookie能实现session还能用吗?

leetcode 107.二叉树的层序遍||

C++在网络安全领域的应用

Chapter 26 Python魔术方法

基于Transformer的语音识别与音频分类

leetcode数论(1362. 最接近的因数)

sqli-labs-master less1-less6

力扣287【寻找重复数】

【2024蓝桥杯/C++/B组/传送阵】

（四十一）大数据实战——spark的yarn模式生产环境部署