当前位置: 首页 > news >正文

【机器学习】039_合理初始化

一、稳定训练

目标:使梯度值在更合理的范围内

常见方法如下:

· 将乘法变为加法

        · ResNet:当层数较多时,会加入一些加法进去

        · LSTM:如果时序序列较长时,把一些对时序的乘法做加法

· 归一化

        · 梯度归一化:把梯度转化为一个均值0、方差1这样的数,从而避免梯度的数值过大或过小

        · 梯度裁剪:如果梯度大于一个阈值,就强行拉回来减到一个范围里

· 合理的权重初始化、选取合理的激活函数

二、合理初始化操作

目标:让每层的方差都为一个常数

· 让每层的输出和梯度都看作“随机变量”

· 让输出和梯度的均值和方差都保持一致,那么就可以在每层的传递之间保持,不会出现问题

权重初始化

目标:将参数和权重初始化在一个合理的区间值里,防止参数变化过大或过小导致出现问题

· 当训练开始时,数值更易出现不稳定的问题

        · 随机初始的参数可能离最优解很远,更新幅度较陡,损失函数会很大,从而导致梯度较大

        · 最优解附近一般较缓,更新幅度会较小

· 假设不定义初始化方法,框架将使用默认初始化,即采用正态分布初始化权重值

        · 这种初始化方法对小型神经网络较为有效,但当网络较深时,这种初始化方法往往表现较差

· Xavier初始化:

        某些没有非线性的全连接层输出(例如,隐藏变量)o_i 的尺度分布:

        · 对于某一层 n_{in} 输入 x_j 以及其相关权重 w_{ij},输出由下式给出:

        权重 w_{ij} 都是从同一分布中独立抽取的

        · 假设该分布具有均值 0 和方差 \sigma ^2(不一定是标准正态分布,只需均值方差存在)

        · 假设层 x_j 的输入也具有均值 0 和方差 \gamma ^2,且独立于 w_{ij} 并彼此独立

        可以按下列方式计算 o_i 的均值与方差:

        为了保障 o_i 的方差不变化,可设置 n_{in}\sigma ^2 = 1

        现在考虑反向传播过程,我们面临着类似的问题,尽管梯度是从更靠近输出的层传播的。

        使用与前向传播相同的推断,我们可以看到:

        · 除非 n_{out}\sigma ^2=1,否则梯度的方差可能会增大。其中 n_{out} 是该层输出的数量。

        · 然而,我们不可能同时满足 n_{in}\sigma ^2 = 1 和 n_{out}\sigma ^2=1 这两个条件。

        但我们只需满足:

        即可达到要求,这便是Xavier初始化的基础。

        通常,Xavier初始化从均值为 0,方差 \sigma ^2=\frac{2}{n_{in}+n_{out}} 的高斯分布中采样权重。

        Xavier初始化表明:

        · 对于每一层,输出的方差不受输入数量的影响;

        · 任何梯度的方差不受输出数量的影响。

http://www.lryc.cn/news/240849.html

相关文章:

  • 使用Arrays.asList与不使用的区别
  • 基于可变形卷积和注意力机制的带钢表面缺陷快速检测网络DCAM-Net(论文阅读笔记)
  • el-table 对循环产生的空白列赋默认值
  • 新一代网络监控技术——Telemetry
  • java斗牛,咋金花
  • 深信服技术认证“SCSA-S”划重点:信息收集
  • 代码逻辑修复与其他爬虫ip库的应用
  • 字符串结尾空格比较相关参数BLANK_PAD_MODE(DM8:达梦数据库)
  • 微型计算机原理MOOC题
  • TensorFlow实战教程(十八)-Keras搭建卷积神经网络及CNN原理详解
  • uniapp为什么能支持多端开发?uniapp底层是怎么做的?
  • 《数据仓库入门实践》
  • 什么是arguments对象?
  • Java LinkedList链表、HashSet、HashMap
  • Linux中清除cache/buffer方法
  • github批量仓库克隆,git clone某个用户的所有仓库
  • 防爆智能安全帽、防爆手持终端,防爆智能矿灯守护安全,在煤矿安全生产远程可视化监管中的应用
  • 数据结构与算法【B树】的Java实现+图解
  • 2024中国人民大学计算机考研分析
  • 无人智能货柜:提升购物体验
  • 【OpenCV实现图像:可视化目标检测框】
  • C/C++---------------LeetCode第1436. 旅行终点站
  • 如何在AD上创建完整的项目
  • 实时错误’-2147217887‘多步OLB DB 操作产生错误。如果可能,请检查OLE DB状态值
  • 九、ffmpeg命令转封装
  • 数字逻辑电路基础-时序逻辑电路之锁存器
  • Python---global关键字---设置全局变量
  • bug场景记录
  • 【云备份】第三方库的认识与使用
  • 6.2.SDP协议