当前位置: 首页 > news >正文

LSTM已死,Transformer当立(LSTM is dead. Long Live Transformers! ):下

2017 年,Google 在论文 Attention is All you need 中提出了 Transformer 模型,其使用 Self-Attention 结构取代了在 NLP 任务中常用的 RNN 网络结构。而且实验也证明Transformer 在效果上已经完败传统的 RNN 网络。Transformer 的整体模型架构如下图所示。尽管它看起来还是很复杂的,但其实我们已经知道了像全连接层(Feed Forward),Softmax层这些基础概念。而在本系列文章的前一篇里(上),我们也解释过了Multi-Head Attention层。 本文将解释搭建Transformer 模型的其它细节。

编码组件(上图中作侧部分)由多层编码块(Encoder Block)组成,所以图中使用Nx来表示,在论文中作者使用了 6 层编码器,在实际使用过程中你可以尝试其他层数。

解码组件(上图中右侧部分)也是由相同层数的解码块(Decoder Block)组成(在论文也使用了 6 层),在实际使用过程中你可以尝试其他层数。

本文中部分插图引用自【1】和【2】。


一、编码组件

Transformer 中单词的输入由两部分组成:单词 Embedding位置 Embedding (Positional Encoding)。

<

http://www.lryc.cn/news/2731.html

相关文章:

  • OJ万题详解––[NOIP2004 提高组] 合并果子(C++详解)
  • MySQL-字符集和比较规则
  • 微搭低代码从入门到精通12-网格布局
  • 【c语言】二叉树
  • 六、Java框架之SpringBoot
  • 「Python|环境安装|Windows」如何在Windows上安装Python环境?
  • 人工智能轨道交通行业周刊-第33期(2023.2.6-2.12)
  • 五分钟看懂Java字节码:极简手册
  • C++ 类与对象(下)
  • Java基础——I/O
  • 关于@hide的理解
  • 使用python加密主机文件几种方法实现
  • 西湖论剑 2023 比赛复现
  • 微信小程序更换管理员/重置管理员
  • 企业进存销管理系统
  • C++入门
  • 视频知识点(20)- H264码流如何在SPS中获取宽高信息?
  • 鲜花数据集实验结果总结
  • ElasticJob-Lite架构篇 - 认知分布式任务调度ElasticJob-Lite
  • 【直击招聘C++】2.6 对象之间的复制
  • 学了这么久python,不会连自己啥python版本都不知道吧?
  • Revive:从间谍软件进化成银行木马
  • Python 之 NumPy 简介和创建数组
  • 与六年测试工程师促膝长谈,他分享的这些让我对软件测试工作有了全新的认知~
  • 裕太微在科创板上市:市值约186亿元,哈勃科技和小米基金为股东
  • 毕业后5年,我终于变成了月薪13000的软件测试工程师
  • 实践指南|如何在 Jina 中使用 OpenTelemetry 进行应用程序的监控和跟踪
  • MySQL 创建数据表
  • 一文详解网络安全事件的防护与响应
  • vue directive 注册局部指令