当前位置：首页 > news >正文

【梯度消失|梯度爆炸】Vanishing Gradient|Exploding Gradient——为什么我的卷积神经网络会不好呢？

news 2025/8/4 2:22:25

【梯度消失|梯度爆炸】Vanishing Gradient|Exploding Gradient——为什么我的卷积神经网络会不好呢？

文章目录

【梯度消失|梯度爆炸】Vanishing Gradient|Exploding Gradient——为什么我的卷积神经网络会不好呢？
1.什么是梯度消失和梯度爆炸？
- 梯度消失
- 梯度爆炸
2.梯度消失和梯度爆炸的产生原因
3.避免梯度消失和梯度爆炸的方法
- 3.1合理的权重初始化
- 3.2使用合适的激活函数
- 3.3 梯度裁剪（Gradient Clipping）
- 3.4 使用正则化方法
- 3.5使用归一化技术
- 3.6使用合适的优化器
4. 梯度消失和梯度爆炸的检测
5. 总结与实施方案

1.什么是梯度消失和梯度爆炸？

梯度消失

定义：梯度消失指的是在反向传播过程中，网络的梯度值逐渐变得非常小，接近于零，导致模型参数更新缓慢或根本无法更新。
问题：深层网络的前几层由于梯度变得非常小，几乎不会更新，使得这些层无法学习有效的特征，导致训练停滞。
典型场景：梯度消失常发生在使用饱和激活函数（如 sigmoid 或 tanh）的大深度网络中。

梯度爆炸

定义：梯度爆炸是指在反向传播过程中，梯度值逐渐变得非常大，导致模型的参数更新过大，可能使得权重发散或模型无法收敛。
问题：当梯度过大时，模型参数会被大幅度更新，导致模型不稳定，损失函数无法收敛。
典型场景：
梯度爆炸通常发生在长序列的递归神经网络（RNN）中，或深层网络中层数太多，梯度没有合理控制。

2.梯度消失和梯度爆炸的产生原因

这两类问题的根本原因来自反向传播中链式法则的应用。在反向传播过程中，梯度从输出层向输入层传播，当网络层数较深时，会出现：

梯度逐层乘积变小，导致梯度消失。
梯度逐层乘积变大，导致梯度爆炸。

尤其是当权重初始化不当或激活函数的导数值处于某个饱和区间时，这种现象更为严重。例如：

对于 sigmoid 激活函数，其导数在接近 0 和 1 的区间非常小，容易导致梯度消失。
过大或不合理的权重初始值，可能导致梯度的指数级增长，导致梯度爆炸。

3.避免梯度消失和梯度爆炸的方法

3.1合理的权重初始化

不合理的权重初始化可能导致梯度的过度放大或缩小。常用的初始化方法可以有效减少梯度消失或爆炸的风险。

Xavier/Glorot 初始化：适用于 sigmoid 和 tanh 激活函数的网络，权重会根据输入和输出节点数的平方根进行缩放。
He 初始化：适用于 ReLU 激活函数的网络，权重根据输入节点数进行缩放。

代码示例（PyTorch 中使用 Xavier/He 初始化）：

import torch
import torch.nn as nn
import torch.nn.functional as Fclass SimpleModel(nn.Module):def __init__(self):super(SimpleModel, self).__init__()self.fc1 = nn.Linear(784, 256)self.fc2 = nn.Linear(256, 10)# 使用 Xavier 初始化nn.init.xavier_uniform_(self.fc1.weight)nn.init.xavier_uniform_(self.fc2.weight)# 对 ReLU 激活函数可以使用 He 初始化# nn.init.kaiming_uniform_(self.fc1.weight, nonlinearity='relu')def forward(self, x):x = F.relu(self.fc1(x))x = self.fc2(x)return x

3.2使用合适的激活函数

ReLU：ReLU（Rectified Linear Unit）激活函数能够减轻梯度消失问题，因为它的导数在大部分区间内为 1，避免了梯度消失。然而，ReLU 可能存在“神经元死亡”问题（当输入小于 0 时输出恒为 0，导致该神经元永不激活）。
Leaky ReLU：通过引入负值的“泄露”，避免了神经元死亡问题。
ELU、SELU：这些激活函数也可以在一定程度上缓解梯度消失问题。

3.3 梯度裁剪（Gradient Clipping）

梯度裁剪是应对梯度爆炸的常用方法，尤其在递归神经网络（RNN）中使用较为广泛。通过限制梯度的最大范数，确保梯度不会无限增大。

代码示例（PyTorch 中进行梯度裁剪）：

# 假设有一个损失函数 loss
loss.backward()# 在反向传播后进行梯度裁剪，设定最大范数为 1.0
torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)# 更新权重
optimizer.step()

3.4 使用正则化方法

L2 正则化（权重衰减）：通过在损失函数中加入权重参数的惩罚项，防止权重变得过大，间接避免梯度爆炸。
Dropout：通过随机丢弃部分神经元，避免过拟合，也有助于减少梯度爆炸。

代码示例（在 Keras 中添加 L2 正则化）：

from tensorflow.keras import regularizers# 添加 L2 正则化到模型层
model = tf.keras.models.Sequential([tf.keras.layers.Dense(128, activation='relu', kernel_regularizer=regularizers.l2(0.01)),tf.keras.layers.Dense(10, activation='softmax')
])

3.5使用归一化技术

Batch Normalization：批量归一化在每一层计算的过程中标准化输出，使得数据具有均值为 0，方差为 1 的分布。这可以有效缓解梯度消失和梯度爆炸问题，同时加速模型收敛。

代码示例（在 PyTorch 中添加 Batch Normalization）：

class SimpleModelWithBN(nn.Module):def __init__(self):super(SimpleModelWithBN, self).__init__()self.fc1 = nn.Linear(784, 256)self.bn1 = nn.BatchNorm1d(256)  # 添加 Batch Normalizationself.fc2 = nn.Linear(256, 10)def forward(self, x):x = F.relu(self.bn1(self.fc1(x)))  # 在激活函数前加入归一化x = self.fc2(x)return x

3.6使用合适的优化器

自适应学习率优化器：如 Adam、RMSprop 等优化器，能够动态调整每个参数的学习率，防止某些参数的梯度过大或过小，有效应对梯度爆炸和梯度消失问题。

代码示例（使用 Adam 优化器）：

optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

4. 梯度消失和梯度爆炸的检测

为了及时发现梯度消失和梯度爆炸问题，可以监控每一层的梯度变化。通过监测每个 epoch 中的梯度，可以提前发现问题并采取措施。

代码示例（监控 PyTorch 中每一层的梯度）：

for name, param in model.named_parameters():if param.grad is not None:print(f'Layer: {name}, Grad Norm: {param.grad.norm()}')

5. 总结与实施方案

避免梯度消失：

使用非饱和激活函数如 ReLU、Leaky ReLU、ELU。
采用合适的权重初始化方法（Xavier 初始化、He 初始化）。
在深层网络中使用 Batch Normalization。

避免梯度爆炸：

使用梯度裁剪技术，限制梯度的最大范数。
使用正则化技术，如 L2 正则化。
使用自适应学习率优化器如 Adam 或 RMSprop。

查看全文

http://www.lryc.cn/news/439954.html

MAC 地址简化概念（有线 MAC 地址、无线 MAC 地址、MAC 地址的随机化）

SQL_yog安装和使用演示--mysql三层结构

蓝桥杯-STM32G431RBT6（解决LCD与LED引脚冲突的问题）

ESP-01S,ESP8266设置客户端透传模式

NFT Insider #147：Sandbox 人物化身九月奖励上线；Catizen 付费用户突破百万

103.WEB渗透测试-信息收集-FOFA语法（3）

SpringDataJPA基础增删改查

好代码网同款wordpress主题，完全开源无加密可二开

如何在@GenericGenerator中显式指定schema

基于Netty实现TCP客户端：封装断线重连、连接保持

基于形状记忆聚合物的折纸超结构

前端用html写excel文件直接打开

FastText 和 Faiss 的初探了解

微服务保护学习笔记(五)Sentinel授权规则、获取origin、自定义异常结果、规则持久化

YOLOv8目标检测模型——遥感小目标检测经验分享

构建响应式 Web 应用：Vue.js 基础指南

计算机毕业设计选题推荐-在线投票系统-Java/Python项目实战

【C/C++】程序的构建（编译）过程概述

ElasticSearch-2-核心语法集群高可用实战-Week2

STM的CAN通信学习

【高等数学学习记录】函数