当前位置：首页 > news >正文

selfAttention 中的dk到底是什么

news 2025/8/23 8:24:48

在Self-Attention机制中，为什么需要对 $QK^T$ 的结果进行缩放，除以 $\sqrt{d_k}$ 。以下是详细解释：

缩放的原因

除以 $\sqrt{d_k}$ 的原因有两个：

防止输入过大：如果不缩放， $QK^T$ 的值可能会非常大，这会导致Softmax的值非常小，接近于0，从而造成梯度消失问题。
归一化：缩放使得 $Q\cdot K$ 的结果满足均值为0，方差为1的分布，类似于归一化的效果。

数学推导

假设 $Q$ 和 $K$ 中的元素是从均值为0，方差为1的独立同分布随机变量。设 $X = q_i$ 和 $Y = k_i$ ，则：

$E (X) = E (Y) = 0$
$E(X^2)E(Y^2) - [E(X)E(Y)]^2 = 1 \cdot 1 - 0 = 1$

因此， $D\left(\sum_{i=1}^{d_k} q_i k_i\right) = d_k$ 。

对 $QK^T$ 的缩放：
$D\left(\frac{QK^T}{\sqrt{d_k}}\right) = \frac{1}{d_k} D\left(\sum_{i=1}^{d_k} q_i k_i\right) = \frac{1}{d_k} \cdot d_k = 1$

好的，让我们通过一个具体的例子来说明 (d_k) 的作用以及为什么要除以 (\sqrt{d_k})。

假设我们有一个查询向量 $\mathbf{q}$ 和一个键向量 $\mathbf{k}$ ，它们的维度 $d_k = 4$ 。这些向量的元素是均值为0、方差为1的独立同分布随机变量。我们具体来看下这两个向量的点积结果以及缩放后的结果。

假设：
$\mathbf{q} = [1.2, -0.5, 0.3, 0.8]$
$\mathbf{k} = [0.6, -0.1, -1.5, 0.7]$

计算点积：
$\mathbf{q} \cdot \mathbf{k} = 1.2 \times 0.6 + (-0.5) \times (-0.1) + 0.3 \times (-1.5) + 0.8 \times 0.7$
$= 0.72 + 0.05 - 0.45 + 0.56$
$= 0.88$

不进行缩放时，这个点积结果直接用于Softmax计算。但是，当 (d_k) 很大时，这个值可能会非常大，导致Softmax输出非常尖锐。为了避免这种情况，我们将点积结果除以 (\sqrt{d_k}) 来进行缩放。

在本例中， $d_k = 4$ ，因此 $\sqrt{d_k} = 2$ 。

缩放后的点积结果：
$\frac{\mathbf{q} \cdot \mathbf{k}}{\sqrt{d_k}} = \frac{0.88}{2} = 0.44$

现在我们来比较一下经过Softmax之前的值和经过缩放后的值在Softmax函数中的效果：

假设有另外两个查询向量和键向量的点积结果分别为2.0和0.5，计算Softmax之前和之后的值。

不缩放时的点积结果：
$\text{未缩放的点积值} = [0.88, 2.0, 0.5]$
Softmax计算：
$\text{Softmax}(0.88, 2.0, 0.5) = \left[ \frac{e^{0.88}}{e^{0.88} + e^{2.0} + e^{0.5}}, \frac{e^{2.0}}{e^{0.88} + e^{2.0} + e^{0.5}}, \frac{e^{0.5}}{e^{0.88} + e^{2.0} + e^{0.5}} \right]$
$\approx [0.184, 0.643, 0.173]$

缩放后的点积结果：
$\text{缩放的点积值} = [0.44, 1.0, 0.25]$
Softmax计算：
$\text{Softmax}(0.44, 1.0, 0.25) = \left[ \frac{e^{0.44}}{e^{0.44} + e^{1.0} + e^{0.25}}, \frac{e^{1.0}}{e^{0.44} + e^{1.0} + e^{0.25}}, \frac{e^{0.25}}{e^{0.44} + e^{1.0} + e^{0.25}} \right]$
$\approx [0.272, 0.459, 0.269]$