当前位置: 首页 > news >正文

跟李沐学AI:长短期记忆网络LSTM

输入们、遗忘门和输出门

LSTM引入输入门、忘记门和输出门

输入门计算公式为:\sigma(X_tW_{xi}+H_{t-1}W_{h1}+b_i)

遗忘门计算公式为:\sigma(X_tW_{xf}+H_{t-1}W_{hf}+b_f)

输出门计算公式为:\sigma(X_tW_{xo}+H_{t-1}W_{ho}+b_o)

 它们由三个具有sigmoid激活函数的全连接层处理, 以计算输入门、遗忘门和输出门的值。 因此,这三个门的值都在(0,1)的范围内。

候选记忆元

类似RNN中的H_t,计算公式为:\widetilde{C_t}=tanh(X_tW_{xc}+H_{t-1}W_{hc}+b_c)

记忆元

LSTM中,输入门和遗忘门类似GRU中控制输入或遗忘的机制。输入们用于控制采用多少来自\widetilde{C_t}的新数据,遗忘门用于控制保留多少过去的记忆元C_{t-1}的内容。随后按元素乘法,得出C_t=F_t\odot C_{t-1} + T_t\odot \widetilde{C_t}

如果遗忘门始终为1且输入门始终为0, 则过去的记忆元Ct−1 将随时间被保存并传递到当前时间步。 引入这种设计是为了缓解梯度消失问题, 并更好地捕获序列中的长距离依赖关系。

隐状态 

LSTM中,输出门用于计算隐状态:H_t=O_t \odot tanh(C_t)。只要输出门接近1,我们就能够有效地将所有记忆信息传递给预测部分, 而对于输出门接近0,我们只保留记忆元内的所有信息,而不需要更新隐状态。

http://www.lryc.cn/news/436020.html

相关文章:

  • 【BIM模型数据】BIM模型的数据如何存储,BIM大模型数据云端存储,需要考虑哪些因素,BIM模型数据存储和获取
  • 【LLM大模型】大模型架构:layer\_normalization
  • PON光模块的独特类型和特性
  • 架构与业务的一致性应用:实现企业战略目标和合规管理的全面指南
  • 时尚穿搭想换就换,各种风格一键完美搭配!亲测在线虚拟试衣换装平台效果超赞!
  • 【C++】C++ 标准库string类介绍(超详细解析,小白必看系列)
  • 若依RuoYi项目环境搭建教程(RuoYi-Vue + RuoYi-Vue3版本)
  • Java 后端接口入参 - 联合前端VUE 使用AES完成入参出参加密解密
  • HarmonyOS开发之使用PhotoViewPicker(图库选择器)保存图片
  • 跨境独立站支付收款常见问题排雷篇1.0丨出海笔记
  • uni-app实现web-view和App之间的相互通信
  • HTB-Vaccine(suid提权、sqlmap、john2zip)
  • 【达梦数据库】异构数据库迁移到达梦
  • 抽象类和接口(1)
  • epoll内核原理与实现详解
  • 被低估的SQL
  • 数字证书、数字签名及其关系
  • 一文读懂:如何将广告融入大型语言模型(LLM)输出
  • godotenv拜读
  • 解析REST API与OpenAPI之差异:避免混淆
  • 一篇文章就搞懂了:过虑器 、拦截器 、监听器是什么
  • 本体映射与本体集成
  • 华媒舍:10种提升推特大V发文推广曝光率的方式
  • 前端本地存储数据:深入解析与代码示例(Cookie、LocalStorage、SessionStorage和IndexedDB)
  • Java语言程序设计基础篇_编程练习题*18.21 (将十进制数转换为二进制数)
  • 中年转行新可能:18 个月迈向大模型提示词工程师
  • C++通过返回值和输出参数的原理是什么?分别有什么优势和缺点?
  • AI客服机器人开启企业客户服务新纪元
  • TPM项目课题的确定需要考虑哪些因素?
  • Rust 数据类型