当前位置：首页 > news >正文

详解从零开始实现循环神经网络（RNN）

news 2025/7/15 6:16:35

循环神经网络（RNN）的工作原理

1. 单步迭代过程

2. 隐状态的作用

无隐状态的神经网络（Feedforward Neural Networks）

1. 结构与局限

2. 为什么不适合序列数据？

有隐状态的循环神经网络（Recurrent Neural Networks, RNN）

1. 核心思想：隐状态作为 “记忆”

2. 结构特点

有无隐状态的神经网络对比

基于 RNN 的字符级语言模型

1. 核心目标

2. 如何用 RNN 实现？

（1）数据准备：序列切割

（2）RNN 的预测过程

（3）训练目标

困惑度（Perplexity）：语言模型的评估指标

1. 定义与公式

2. 直观意义

3. 示例

什么是独热编码（One-Hot Encoding）

1.核心特点

token 值的设定问题

1. 为什么 token 可以等于 'char' 或 'word'？

2. 为什么需要区分这两种方式？

3. 本质：参数值是 “功能开关”

为什么需要生成函数？

1. 关键区别

方式一：返回迭代器生成函数

方式二：直接返回迭代器

2. 实际应用对比

使用生成函数

直接使用迭代器

3. 总结

完整代码

实验结果

当学习率为0.1时

当学习率为0.0005时

循环神经网络（RNN）的工作原理

RNN 的 “循环” 体现在对序列的逐时间步迭代中，以下以 “文本序列” 为例说明其工作流程：

1. 单步迭代过程

假设处理文本序列 $x_1, x_2, ..., x_T$ （如字符 “a, b, c, ...”），每个 $x_t$ 是t时刻的输入（如一个字符的嵌入向量）。

RNN 的迭代步骤为：

初始化隐状态： $h_0$ （通常为全 0 向量，代表 “初始记忆”）；
第 1 步（t=1）：
输入 $x_1$ ，结合初始隐状态 $h_0$ ，计算新隐状态： $h_1 = f(x_1, h_0)$ ；
输出 $y_1 = g(h_1)$ （如预测下一个字符的概率分布）；

第 2 步（t=2）：
输入 $x_2$ ，结合上一步的隐状态 $h_1$ ，计算\ $h_2 = f(x_2, h_1)$ ；
输出 $y_2 = g(h_2)$ ；

以此类推，直到序列结束（t=T）。

2. 隐状态的作用

隐状态 $h_t$ 是 “压缩的历史信息”—— 它整合了从 $x_1$ 到 $x_t$ 的所有输入信息。例如：

处理文本 “我在吃____” 时， $h_t$ 会 “记住”“我在吃” 的语义，从而帮助预测下一个词（如 “饭”“苹果”）。

无隐状态的神经网络（Feedforward Neural Networks）

无隐状态的神经网络（如多层感知机 MLP）是不具备 “记忆” 能力的网络，其核心特点是：输入与输出之间是 “瞬时映射”，即当前输出仅依赖于当前输入，与历史输入无关。

1. 结构与局限

结构：输入层→隐藏层（可选）→输出层，层与层之间仅存在前向连接，无循环或反馈连接。
局限：无法处理序列数据（如文本、时间序列）。例如：
预测句子 “我吃了____” 的下一个词（如 “饭”）时，需要依赖前文 “我吃了” 的语义，但无隐状态的网络无法 “记住” 前文信息，只能孤立处理每个输入。
处理时间序列（如股票价格）时，无法利用过去的价格波动规律预测未来，因为每个时间步的输入被视为独立样本。

2. 为什么不适合序列数据？

序列数据的核心是时序依赖（当前数据与历史数据相关），而无隐状态的网络会 “遗忘” 所有历史输入，因此无法捕捉这种依赖关系。