当前位置：首页 > news >正文

Transformer浅说

news 2025/8/17 9:31:15

rag系列文章目录

文章目录

rag系列文章目录
前言
一、简介
二、注意力机制
三、架构优势
四、模型加速
总结

前言

近两年大模型爆火，大模型的背后是transformer架构，transformer成为家喻户晓的词，人人都知道它，但是想要详细讲清楚，需要专业的算法人员来讲解，网上也有很多资料，我就不班门弄斧了。作为一个经常使用大模型的人，也需要一点知识，来认识它，这样才能更好的使用它。

一、简介

Transformer 是一种基于自注意力机制（Self-Attention）的深度学习架构，由Google团队在2017年的论文《Attention Is All You Need》中提出。它彻底改变了自然语言处理（NLP）领域，并成为现代大模型（如GPT、BERT等）的核心基础。

Transformer的架构图如下所示，它主要有以下几个重要部分，分别是输入embedding、位置encoding、多头自注意力、前馈神经网络（Feed-Forward Network）、残差连接与层归一化（Add & Norm）、编码器和解码器。

图中左侧部分是编码器，输入embedding加位置encoding后，进入N层的编码器层，得到一个矩阵X（n行d列，n是输入的token数，d是向量的维度）。

图中右侧部分是解码器，它的输入包含两部分，一个是左侧编码器的输出，一个是预测值，它是不断生成的，所以图中说是shifted right不断右移。这种根据自己输出结果，然后影响到后面输出结果的机制，成为自回归。

在这里插入图片描述

二、注意力机制

Transformer的核心是自注意力机制，输入X矩阵，transformer使用三个权重矩阵将X投影为Q/K/V矩阵
在这里插入图片描述
注意力计算公式如下：

这个公式的含义是什么呢？举例来说，“The cat sat on the mat because it was tired.”当模型在预测 “it” 的含义时，Query 是“it”的向量。它会去匹配所有 Key（cat, sat, mat, …），结果发现 “cat” 的 Key 跟“it”的 Query最相关。所以 Attention 输出时，会给 “cat” 的 Value 更高的权重。这样模型就能理解“it”指的是“cat”，而不是“mat”。输出的值就是一个新的向量，代表“it”的上下文含义（包含了“cat”的信息）。

Attention(Q,K,V) 的实际含义是：让每个 token 在全局范围内“问一圈”，找到跟自己最相关的信息，并把这些信息汇总到自己的新表示里。也就是说，经过变换之后，每个token的向量值，携带了它相关的语义信息。
获取注意力值之后，再经过多头拼接（多头注意力机制），残差拼接，前馈网络，最终得到编码器的输出。

三、架构优势

 并行计算，transformer对位置信息进行encoding，不想RNN需要依赖前面的状态，后续计算都是矩阵运算，天然支持并行。

 长距离依赖，RNN针对长句子，容易出现梯度消失问题，而transformer距离不是问题
如下图所示，句子中间因为有一个从句，导致book和was距离很远，但是transformer注意力机制，会把两者的关系拉进。
在这里插入图片描述

四、模型加速

了解了基本原理以及处理过程，如何加速大模型呢，可以从以下几个方面：

硬件方面
因为需要大量矩阵运算，那么就gpu上优化，比如：GPU/TPU 并行、流水线/张量并行。
算法层面
注意力复杂度n的平方，也就是每个token都和其他的token有关系，算法方面可以稀疏注意力 (Sparse Attention)，只计算局部窗口或选定位置的注意力
模型层面
里面有很多神经网络，可以进行结构压缩（蒸馏、剪枝、量化、MoE）
推理策略
比如使用vllm推理时，批处理、并行解码