当前位置: 首页 > news >正文

深度学习系列——RNN/LSTM/GRU,seq2seq/attention机制

1、RNN/LSTM/GRU可参考:

https://zhuanlan.zhihu.com/p/636756912

(1)对于这里面RNN的表示中,使用了输入x和h的拼接描述,其他公式中也是如此

(2)各符号图含义如下

2、关于RNN细节,seq2seq以及attention机制的描述,参考:

https://zhuanlan.zhihu.com/p/28054589

注意:这里补充了对于RNN,UVW三个矩阵的使用细节,很多喜欢使用下面这张图

另外,seq2seq中decoder,attention的更新机制没有说清楚(其实就是梯度下降更新权重即可),若使用attention机制,则h0'没有说清楚(需要看下源码部分),对于lstm的h和c以及x序列没有说清楚(拼接后作为decoder每个lstm的输入)。

可以直接参考pytorch官方实践:

https://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.htmlhttps://github.com/pytorch/tutorials/blob/main/intermediate_source/seq2seq_translation_tutorial.py

官方代码中,对于GPU模块的output和hidden说明如下

http://www.lryc.cn/news/469088.html

相关文章:

  • 通过call指令来学习指令摘要表的细节
  • 10分钟使用Strapi(无头CMS)生成基于Node.js的API接口,告别繁琐开发,保姆级教程,持续更新中。
  • 创建插件 DLL 项目
  • OpenCV双目相机外参标定C++
  • 【GESP】C++一级练习BCQM3055,4位数间隔输出
  • 纯血鸿蒙的最难时刻才开始
  • 记一个mysql的坑
  • Java中的设计模式:单例模式详解
  • NanoTrack原理与转tensorrt推理
  • YOLO11改进 | 卷积模块 | 卷积模块替换为选择性内核SKConv【附完整代码一键运行】
  • CentOS进入单用户模式进行密码重置
  • bitpoke- mysql-operator cluster
  • 第5课 基本数据类型
  • OceanBase 首席科学家阳振坤:大模型时代的数据库思考
  • 国内知名的几个镜像源
  • 海外著名新闻门户媒体软文发稿之华盛顿独立报-大舍传媒
  • 青少年编程与数学 02-002 Sql Server 数据库应用 13课题、函数的编写
  • 关于LaTeX的floatrow包导入后标题无法直接放到浮动体上方
  • Flutter Image和Text图文组件实战案例
  • 使用 xlrd 和 xlwt 库进行 Excel 文件操作
  • 03.04、化栈为队
  • Coppelia Sim (v-REP)仿真 机器人3D相机手眼标定与实时视觉追踪 (二)
  • 苏州金龙技术创新赋能旅游新质生产力
  • ceph pg stale 恢复
  • Openlayers高级交互(8/20):选取feature,平移feature
  • uniapp renderjs页面传值
  • AI赋能R-Meta分析核心技术:从热点挖掘到高级模型、助力高效科研与论文发表
  • AMD锐龙8845HS+780M核显 虚拟机安装macOS 15 Sequoia 15.0.1 (2024.10)
  • 当事人单方委托专业机构或个人出具的书面意见,证据效力如何认定?
  • AUTOSAR CP 中 BswM 模块功能与使用介绍(2/2)