当前位置：首页 > news >正文

Transformer中Decoder的计算过程及各部分维度变化

news 2025/7/21 8:10:54

在Transformer模型中，解码器的计算过程涉及多个步骤，主要包括自注意力机制、编码器-解码器注意力和前馈神经网络。以下是解码器的详细计算过程及数据维度变化：

1. 输入嵌入和位置编码

解码器的输入首先经过嵌入层和位置编码：
$\text{Input}_d = \text{Embedding}(x) + \text{PositionEncoding}(x)$

维度变化： $x$ : 输入序列的标记，维度为 $n, d_{model})$ $\text{Embedding}(x)$ : 输出维度为 $n, d_{model})$ $\text{PositionEncoding}(x)$ : 输出维度为 $n, d_{model})$

2. 自注意力机制

自注意力机制计算如下：
$\text{Input}_d W_Q, \quad K = \text{Input}_d W_K, \quad V = \text{Input}_d W_V$

这里 $W_Q, W_K, W_V$ 是参数矩阵，维度为 $d_{model}, d_k)$ ，假设 $d_k = d_{model}$ 。
维度变化： $Q, K, V$ : 输出维度为 $n, d_k)$
自注意力的计算为：
$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}} + M\right)V$
维度变化： $QK^T$ : 维度为 $(n, n)$ $\text{softmax}$ : 结果维度为 $(n, n)$ 最终输出的维度为 $n, d_v)$ （假设 $d_v = d_{model}$ ）。

3. 残差连接与层归一化

自注意力的输出与输入相加，然后进行层归一化：
$\text{Output}_d^{(l)} = \text{LayerNorm}(\text{Attention} + \text{Input}_d)$

维度变化：维度保持为 $n, d_{model})$ 。

4. 编码器-解码器注意力

接下来，解码器会对编码器的输出进行注意力计算：
$\text{Output}_d^{(l)} W_Q', \quad K' = \text{EncoderOutput} W_K', \quad V' = \text{EncoderOutput} W_V'$

这里 $W_Q', W_K', W_V'$ 的维度也是 $d_{model}, d_k)$ 。
编码器输出的维度为 $T_e, d_{model})$ 。
注意力计算为：
$\text{Attention}(Q', K', V') = \text{softmax}\left(\frac{Q'K'^T}{\sqrt{d_k}}\right)V'$
维度变化： $Q'K'^T$ : 维度为 $n, T_e)$ 最终输出的维度为 $n, d_v)$ 。
然后与自注意力的输出进行残差连接和层归一化：
$\text{Output}_d^{(l)} = \text{LayerNorm}(\text{EncoderDecoderAttention} + \text{Output}_d^{(l)})$

5. 前馈神经网络

接下来是前馈神经网络的处理：
$\text{FFN}(x) = \text{ReLU}(xW_1 + b_1)W_2 + b_2$

$W_1$ 维度为 $d_{model}, d_{ff})$ ， $W_2$ 维度为 $d_{ff}, d_{model})$ ，其中 $d_{ff}$ 是前馈层的隐藏单元数。
维度变化：输入维度为 $n, d_{model})$ 输出维度为 $n, d_{model})$ 。

6. 最终输出

在最后一步，再次进行残差连接和层归一化：
$\text{Output}_d^{(l)} = \text{LayerNorm}(\text{FFN} + \text{Output}_d^{(l)})$
接下来，解码器的最终输出通过线性层和Softmax层生成词汇表的概率分布：
$\text{Logits} = \text{Output}_d^{(l)} W_{out} + b_{out}$
$\text{Probabilities} = \text{softmax}(\text{Logits})$

维度变化： $W_{out}$ 维度为 $d_{model}, V)$ ，其中 $V$ 是词汇表的大小。 $\text{Logits}$ 的维度为 $(n, V)$ ， $\text{Probabilities}$ 的维度同样为 $(n, V)$ ，表示每个时间步上各个词汇的概率。
通过这些步骤，解码器能够生成序列的下一个标记。