生成模型实战 | Transformer详解与实现
生成模型实战 | Transformer详解与实现
-
- 0. 前言
- 1. 注意力机制 和 Transformer
-
- 1.1 注意力机制
- 1.2 Transformer 架构
- 1.3 不同类型的 Transformer
- 2. 构建编码器
-
- 2.1 注意力机制
- 2.2 创建编码器
- 3. 构建编码器-解码器 Transformer
-
- 3.1 创建解码器层
- 3.2 创建编码器-解码器 Transformer
- 4. 基于 Transformer 构建机器翻译模型
-
- 4.1 定义生成器
- 4.2 创建翻译模型
- 小结
0. 前言
相较于传统模型,如循环神经网络 (Recurrent Neural Network
, RNN
) 和卷积神经网络 (Convolutional Neural Network
, CNN
),Transformer
的优势在于能够有效地理解输入和输出序列中元素之间的关系,尤其是在长距离依赖的情况下,例如文本中相距较远的两个单词之间的关系。与 RNN
不同,Transformer
能够并行训练,显著减少训练时间,并且能够处理大规模数据集。这种创新性的架构在大语言模型 (Large Language Model
, LLM
) 如 ChatGPT
、BERT
和 DeepSeek
的发展中起到了关键作用,标志着人工智能领域发展的一个重要里程碑。
在 Transformer
模型之前,自然语言处理 (Natuarl Language Processing
, NLP
) 及类似任务主要依赖 RNN
,其中包括长短期记忆 (Long Short-Term Memory
, LSTM
) 网络。然而,RNN
按顺序处理信息,由于无法并行训练,限制了其速度,并且在保持序列早期部分信息方面存在困难,因此难以