当前位置：首页 > news >正文

RNN梯度爆炸/消失的杀手锏——LSTM与GRU

news 2025/8/7 6:20:07

LSTM

LSTM的基本组成部分

输入门（Input Gate）：决定哪些新信息应该被添加到细胞状态中。
遗忘门（Forget Gate）：决定哪些信息应该从细胞状态中丢弃。
输出门（Output Gate）：决定哪些信息应该从细胞状态输出到【隐藏状态】(真正输出是y(t))。
细胞状态（Cell State）：存储长期记忆的信息流。

工作流程：

x(t)是当前时刻的输入，h(t-1)是前一刻的输入，二者通过全连接层与四个神经元(FC)相连，共同决定了四个函数：f(t),g(t),i(t),o(t)

其中f(t)控制遗忘门，即由当前输入x(t)和前一刻h(t-1)输出决定从c(t-1)这个长期记忆中删去哪些东西。

g(t)是预选细胞状态，也就是要放进长期记忆的备选信息，具体要放哪些进c(t)，取决于输入门，而输入门也是由当前输入x(t)和前一刻h(t-1)输出决定的。

h(t)是当前时刻的输出，输出内容是来自细胞状态（长期记忆）的，具体输出什么，也是由当前输入x(t)和前一刻h(t-1)输出决定的。

于是，最终存进长期记忆c(t)的内容就是：

新记忆 = 旧记忆 × 遗忘门 + 新输入 × 输入门

同时我们可以看到还有一个y(t)的箭头，是当前时刻的序列，对于s2s，每一个时刻都需要有一个输出对应输出，而v2s或s2v则不需要。

注意，h(t)是输出到隐藏状态，它作为中间状态，将上一刻的输入传递给下一刻，保证短期记忆的传递。真正作为当前时刻的输出是这个y(t)。

门的激活公式

控制遗忘门

即由当前输入x(t)和前一刻h(t-1)输出决定从c(t-1)这个长期记忆中删去哪些东西。

Wf 是遗忘门的权重矩阵
bf 是偏置项
[h(t−1),x(t)] 表示将 h(t−1) 和 x(t) 拼接成一个向量
σ 是 sigmoid 激活函数，输出值在 0 到 1 之间，表示“保留多少”的比例

长期记忆候选函数

具体要放哪些进c(t)，取决于输入门，而输入门也是由当前输入x(t)和前一刻h(t-1)输出决定的。

控制输入门

具体输入什么，是由当前输入x(t)和前一刻h(t-1)输出决定的。

控制输出门

具体输出什么，也是由当前输入x(t)和前一刻h(t-1)输出决定的。

实际的长期记忆（ $\bigodot$ 表逐项乘积）

新记忆 = 旧记忆 × 遗忘门 + 新输入 × 输入门

GRU是一种简化版的LSTM，它同样能够处理长期依赖问题，但通过减少门的数量和简化计算过程来提高效率。

GRU

GRU的基本组成部分

重置门（Reset Gate）：决定哪些过去的信息需要被“遗忘”。
更新门（Update Gate）：决定我要用新信息替换掉多少旧记忆。
继承门 (Inheritate Gate) ：决定我要保留多少旧记忆。
候选状态（Candidate State）：基于当前输入和上一时刻的状态计算出的新状态候选值

工作流程：

在 GRU 中，h(t) 既是短期记忆，也承载了长期依赖信息。

旧记忆h(t-1)与当前输入x(t)进入后经过两个全连接神经元。

第一个神经元由旧记忆和当前输入决定了遗忘函数r(t)，即从旧记忆h(t-1)中遗忘哪些内容。

经过第一个神经元的旧记忆会和当前输入全连接(右侧)得到预选更新内容g(t)。具体更新哪些内容，要由1-z(t)决定。

第二个神经元由旧记忆和当前输入决定了更新函数z(t)，即要用新信息替换掉多少旧记忆（不是删去）。

那么1-z(t)就是要保留多少旧记忆。

因此预选更新内容g(t)经过保留门（右侧）就会往记忆中加入保留的内容。

因此，往记忆中加入的就是保留的旧记忆(右侧)和更新的新记忆(中间直上)。

更新公式就是

门的激活公式

控制重置门（遗忘门）

决定在计算候选状态时，上一时刻的隐藏状态 h(t−1) 中有多少信息需要被保留

控制继承门

z(t)决定我要保留多少旧记忆。

计算候选状态 g(t)

控制更新门

1-z(t)

更新隐藏状态 h(t)

查看全文

http://www.lryc.cn/news/611585.html

自学嵌入式 day45 ARM体系架构

异世界历险之数据结构世界（非递归快排，归并排序（递归，非递归））

Leetcode题解：739每日温度，用单调栈解决问题！

分布式存储 Ceph 的演进经验 · SOSP 2019

从零搭建React框架--第一章：create-react-app、antd、less

深度解析｜资源位管理工具如何重构媒体商业化效率？

《算法导论》第 8 章—线性时间排序

福彩双色球第2025090期篮球号码分析

【STL源码剖析】从源码看 vector：底层扩容逻辑与内存复用机制

Python实现信号小波分解与重构

飞算JavaAI开发平台：重构开发全流程——从需求到工程的智能化跃迁

数据大集网：以数据为纽带，重构企业贷获客生态的助贷平台实践

React 表单处理：移动端输入场景下的卡顿问题与防抖优化方案

WebSocket 通信与 WebSocketpp 库使用指南

Baumer相机如何通过YoloV8深度学习模型实现农作物水稻病虫害的检测识别（C#代码UI界面版）

深度学习-卷积神经网络CNN-多输入输出通道

2025年大语言模型与多模态生成工具全景指南（V2.0）

《动手学深度学习》读书笔记—9.3深度循环神经网络

MCU程序段的分类

如何解决网页视频课程进度条禁止拖动？

Linux入门DAY18

MCU控制ADAU1701，用System Workbench for STM32导入工程

SSL/TLS协议深度解析

react 流式布局（图片宽高都不固定）的方案及思路

【Create my OS】8 文件系统

机器学习第六课之贝叶斯算法

《第五篇》基于RapidOCR的图片和PDF文档加载器实现详解

新能源汽车热管理系统核心零部件及工作原理详解

apache-tomcat-11.0.9安装及环境变量配置

【算法训练营Day21】回溯算法part3

LSTM

LSTM的基本组成部分

工作流程：

新记忆 = 旧记忆 × 遗忘门 + 新输入 × 输入门

门的激活公式

控制遗忘门

长期记忆候选函数

控制输入门

控制输出门

实际的长期记忆 （表逐项乘积）

GRU

GRU的基本组成部分

工作流程：

门的激活公式

控制重置门（遗忘门）

控制继承门

计算候选状态 g(t)

控制更新门

更新隐藏状态 h(t)

相关文章：

实际的长期记忆（ $\bigodot$ 表逐项乘积）