当前位置: 首页 > news >正文

RNN模型数学推导过程(笔记)

一、定义

  1. 时间步: RNN按顺序处理输入序列。每个序列元素在特定的时间步(t 被输入网络。

  2. 隐藏状态: 这是RNN的“记忆”或“状态”所在。它是一个向量(h_t),总结了从序列开始(t=0)到当前时间步 t 所处理过的所有信息。h_t 被传递给下一个时间步 t+1,用于计算 h_{t+1}

  3. 输入: 在时间步 t,网络接收该时间步的输入向量 x_t

  4. 输出: 在时间步 t,网络可以产生一个输出向量 y_t(例如,预测下一个词、分类当前情绪等)。y_t 通常基于当前的隐藏状态 h_t 计算得出。

二、数学推导过程

        标准的RNN单元在每个时间步 t 执行以下计算:

  • 计算新的隐藏状态 h_t

  • 计算当前输出 y_t

  • 参数共享

        RNN的一个关键特征是参数共享

  • 权重矩阵 W_{hh}W_{xh}W_{hy}

  • 偏置向量 b_hb_y

        在所有时间步 t 上都是相同的。这意味着无论序列有多长,网络都使用同一套参数来处理序列中的每一个元素。这极大地减少了需要学习的参数数量,使模型能够泛化到不同长度的序列,也体现了“循环”的本质:相同的计算单元在每个时间步重复使用。

1、处理整个序列:展开计算图

        为了更清晰地理解信息流动和便于实现(尤其是反向传播),我们通常将RNN在时间维度上“展开”。

2、反向传播:BPTT(沿时间反向传播)

3、推导过程

三、核心挑战:梯度消失/爆炸问题

BPTT揭示了标准RNN的一个致命弱点:

1、梯度消失

2、梯度爆炸

四、为什么标准RNN难以学习长期依赖?

        正是因为梯度消失问题,标准RNN的隐藏状态 h_t 主要受最近几个时间步的输入影响。当序列很长时,网络几乎“忘记”了序列开头的信息。这严重限制了RNN处理长序列的能力

五、总结:标准RNN的数学原理

http://www.lryc.cn/news/599394.html

相关文章:

  • 基于Zigee的温度数据采集系统
  • IMU的精度对无人机姿态控制意味着什么?
  • 多层感知机(深度学习-李沐-学习笔记)
  • Oracle 的单体安装
  • SQLite中SQL的解析执行:Lemon与VDBE的作用解析
  • 扒网站工具 HTTrack Website Copier
  • 如何解决pip安装报错ModuleNotFoundError: No module named ‘streamlit’问题
  • 【SpringAI实战】实现仿DeepSeek页面对话机器人(支持多模态上传)
  • GPU 服务器ecc报错处理
  • yolov8通道级剪枝讲解(超详细思考版)
  • linux修改用户名和主目录及权限-linux029
  • vue2用elementUI做单选下拉树
  • 激光频率梳 3D 轮廓检测在深凹槽检测的应用有哪些
  • AI-调查研究-38-多模态大模型量化 主流视觉语言任务的量化评估策略分析
  • 在kdb+x中使用SQL
  • Python高效操作Kafka实战指南
  • 专为小靶面工业相机的抗振微距镜头
  • C++ string:准 STL Container
  • Java线程基础面试复习笔记
  • 相机ROI 参数
  • 力扣-32.最长有效括号
  • Python(32)Python内置函数全解析:30个核心函数的语法、案例与最佳实践
  • 188.买卖股票的最佳时机IV 309.最佳买卖股票时机含冷冻期 714.买卖股票的最佳时机含手续费
  • 《C++初阶之STL》【vector容器:详解 + 实现】
  • Python应用append()方法向列表末尾添加元素
  • 深入解析HBase如何保证强一致性:WAL日志与MVCC机制
  • selenium 元素定位
  • 【unitrix】 6.15 “非零非负一“的整数类型(NonZeroNonMinusOne)特质(non_zero_non_minus_one.rs)
  • XCTF-crypto-幂数加密
  • Docker 实战大纲