当前位置：首页 > news >正文

跟李沐学AI：长短期记忆网络LSTM

news 2025/6/23 7:38:31

输入们、遗忘门和输出门

LSTM引入输入门、忘记门和输出门

输入门计算公式为： $\sigma(X_tW_{xi}+H_{t-1}W_{h1}+b_i)$ 。

遗忘门计算公式为： $\sigma(X_tW_{xf}+H_{t-1}W_{hf}+b_f)$ 。

输出门计算公式为： $\sigma(X_tW_{xo}+H_{t-1}W_{ho}+b_o)$ 。

它们由三个具有sigmoid激活函数的全连接层处理，以计算输入门、遗忘门和输出门的值。因此，这三个门的值都在(0,1)的范围内。

候选记忆元

类似RNN中的 $H_t$ ，计算公式为： $\widetilde{C_t}=tanh(X_tW_{xc}+H_{t-1}W_{hc}+b_c)$ 。

记忆元

LSTM中，输入门和遗忘门类似GRU中控制输入或遗忘的机制。输入们用于控制采用多少来自 $\widetilde{C_t}$ 的新数据，遗忘门用于控制保留多少过去的记忆元 $C_{t-1}$ 的内容。随后按元素乘法，得出 $C_t=F_t\odot C_{t-1} + T_t\odot \widetilde{C_t}$ 。

如果遗忘门始终为1且输入门始终为0，则过去的记忆元Ct−1 将随时间被保存并传递到当前时间步。引入这种设计是为了缓解梯度消失问题，并更好地捕获序列中的长距离依赖关系。

隐状态

LSTM中，输出门用于计算隐状态： $H_t=O_t \odot tanh(C_t)$ 。只要输出门接近1，我们就能够有效地将所有记忆信息传递给预测部分，而对于输出门接近0，我们只保留记忆元内的所有信息，而不需要更新隐状态。

http://www.lryc.cn/news/436020.html

相关文章：

【BIM模型数据】BIM模型的数据如何存储，BIM大模型数据云端存储，需要考虑哪些因素，BIM模型数据存储和获取

【LLM大模型】大模型架构：layer\_normalization

PON光模块的独特类型和特性

架构与业务的一致性应用：实现企业战略目标和合规管理的全面指南

时尚穿搭想换就换，各种风格一键完美搭配！亲测在线虚拟试衣换装平台效果超赞！

【C++】C++ 标准库string类介绍(超详细解析，小白必看系列）

若依RuoYi项目环境搭建教程（RuoYi-Vue + RuoYi-Vue3版本）

Java 后端接口入参 - 联合前端VUE 使用AES完成入参出参加密解密

HarmonyOS开发之使用PhotoViewPicker（图库选择器）保存图片

跨境独立站支付收款常见问题排雷篇1.0丨出海笔记

uni-app实现web-view和App之间的相互通信

HTB-Vaccine(suid提权、sqlmap、john2zip)

【达梦数据库】异构数据库迁移到达梦

抽象类和接口(1)

epoll内核原理与实现详解

被低估的SQL

数字证书、数字签名及其关系

一文读懂：如何将广告融入大型语言模型(LLM)输出

解析REST API与OpenAPI之差异：避免混淆

一篇文章就搞懂了：过虑器、拦截器、监听器是什么

本体映射与本体集成

华媒舍：10种提升推特大V发文推广曝光率的方式

前端本地存储数据：深入解析与代码示例（Cookie、LocalStorage、SessionStorage和IndexedDB）

Java语言程序设计基础篇_编程练习题*18.21 (将十进制数转换为二进制数)

中年转行新可能：18 个月迈向大模型提示词工程师

C++通过返回值和输出参数的原理是什么？分别有什么优势和缺点？

AI客服机器人开启企业客户服务新纪元

TPM项目课题的确定需要考虑哪些因素？

Rust 数据类型