当前位置：首页 > news >正文

LSTM已死，Transformer当立（LSTM is dead. Long Live Transformers! ）：下

news 2025/6/24 16:03:53

2017 年，Google 在论文 Attention is All you need 中提出了 Transformer 模型，其使用 Self-Attention 结构取代了在 NLP 任务中常用的 RNN 网络结构。而且实验也证明Transformer 在效果上已经完败传统的 RNN 网络。Transformer 的整体模型架构如下图所示。尽管它看起来还是很复杂的，但其实我们已经知道了像全连接层（Feed Forward），Softmax层这些基础概念。而在本系列文章的前一篇里（上），我们也解释过了Multi-Head Attention层。本文将解释搭建Transformer 模型的其它细节。

编码组件（上图中作侧部分）由多层编码块（Encoder Block）组成，所以图中使用Nx来表示，在论文中作者使用了 6 层编码器，在实际使用过程中你可以尝试其他层数。

解码组件（上图中右侧部分）也是由相同层数的解码块（Decoder Block）组成（在论文也使用了 6 层），在实际使用过程中你可以尝试其他层数。

本文中部分插图引用自【1】和【2】。

一、编码组件

Transformer 中单词的输入由两部分组成：单词 Embedding 和位置 Embedding （Positional Encoding）。

<

http://www.lryc.cn/news/2731.html

相关文章：

OJ万题详解––[NOIP2004 提高组] 合并果子(C++详解)

MySQL-字符集和比较规则

微搭低代码从入门到精通12-网格布局

【c语言】二叉树

六、Java框架之SpringBoot

「Python｜环境安装｜Windows」如何在Windows上安装Python环境？

人工智能轨道交通行业周刊-第33期（2023.2.6-2.12）

五分钟看懂Java字节码：极简手册

C++ 类与对象（下）

Java基础——I/O

关于@hide的理解

使用python加密主机文件几种方法实现

西湖论剑 2023 比赛复现

微信小程序更换管理员/重置管理员

企业进存销管理系统

视频知识点（20）- H264码流如何在SPS中获取宽高信息？

鲜花数据集实验结果总结

ElasticJob-Lite架构篇 - 认知分布式任务调度ElasticJob-Lite

【直击招聘C++】2.6 对象之间的复制

学了这么久python，不会连自己啥python版本都不知道吧？

Revive：从间谍软件进化成银行木马

Python 之 NumPy 简介和创建数组

与六年测试工程师促膝长谈，他分享的这些让我对软件测试工作有了全新的认知~

裕太微在科创板上市：市值约186亿元，哈勃科技和小米基金为股东

毕业后5年，我终于变成了月薪13000的软件测试工程师

实践指南｜如何在 Jina 中使用 OpenTelemetry 进行应用程序的监控和跟踪

MySQL 创建数据表

一文详解网络安全事件的防护与响应

vue directive 注册局部指令