当前位置：首页 > news >正文

Transformer学习（2）：自注意力机制

news 2025/6/21 19:44:28

回顾

注意力机制

在这里插入图片描述

自注意力机制

在这里插入图片描述

自注意力机制中同样包含QKV，但它们是同源(Q≈K≈V)，也就是来自相同的输入数据X，X可以分为 $x_1,x_2,..,x_n)$ 。
而通过输入嵌入层(input embedding)， $x_1,x_2,..,x_n)$ 变为 $a_1,a_2,..,a_n)$ 这些向量，通过X来寻找X中的关键点。

而对于每个 $a_i$ 都会有对应 $q_i,k_i,v_i$ ，Q不再是共用的。
$Q = \{q_1,q_2,...,q_n\};K = \{k_1,k_2,...,k_n\};V = \{v_1,v_2,...,v_n\}$

在自注意力机制中，以输入数据X自身中的 $x_i$ 作为查询对象(注意力机制中的Q），自身的其他 $x$ 作为被查询对象V。也就是自己作为查询与被查询对象。

计算过程

① 计算QKV：
要得到QKV，则需要使用三个参数 $W_Q,W_K,W_V$ ，这三个参数都是可训练的，而且所有 $a$ 共享。
公式：
$q_i = a_i*W_Q$
$k_i = a_i*W_K$
$v_i = a_i*W_V$

在这里插入图片描述
而这个计算过程可以写为矩阵乘法，实现并行计算。

② 计算Q与K相似度（概率）：
每个 $q_i$ 都有一次作为查询对象，所有的 $k$ 计算与其的相似度（与它相同的概率）。
计算相似度的方法与注意力机制是相同，都是q与k进行点乘与scale得到相似度，其中 $d_k$ 为k的尺寸，也就是向量 $k$ 包含多少个数据。
在这里插入图片描述

计算过程如图所示，每个 $q_i$ 都计算与所有 $k$ 的相似度。

计算过程也可以表示为矩阵运算
在这里插入图片描述

③ 汇总权重，得到包含注意力信息的结果
计算出Q与K的相似度，也就是得到了对于 $q_i$ ，各个 $v_i$ 的权重。
最后将得到的权重 $\widehat{a}$ 与每个 $v_i$ 进行点乘运算再将结果相加，就可以得到包含了对于 $q_i$ l来说哪些重要与不重要的数据 $b_i$ ，然后用 $b_i$ 来代替 $a_i$
在这里插入图片描述
计算过程也可以转换为矩阵运算