当前位置：首页 > news >正文

[论文笔记]ON LAYER NORMALIZATION IN THE TRANSFORMER ARCHITECTURE

news 2025/8/2 21:32:49

引言

这是论文ON LAYER NORMALIZATION IN THE TRANSFORMER ARCHITECTURE的阅读笔记。本篇论文提出了通过Pre-LN的方式可以省掉Warm-up环节，并且可以加快Transformer的训练速度。

通常训练Transformer需要一个仔细设计的学习率warm-up(预热)阶段：在训练开始阶段学习率需要设成一个极小的值，然后在一些迭代后逐步增加。这个阶段对于Transformer最终的表现非常重要，但同时引入了更多的超参数调节。学习率预热被证明在处理一些特定问题时是至关重要的，比如大批次训练。当使用较大的批大小进行训练时，在开始时使用一个较大的学习率来优化模型通常会导致较差的效果。

在优化开始阶段，对于原始的Transformer，把层归一化放到残差块之间，接近输出层的参数的梯度往往较大。然后在那些梯度上使用较大的学习率会使得训练不稳定。warm-up阶段在实际应用中有助于避免这个问题。

基于这种分析，作者提出了一种Transformer的变体，将层归一化置于残差块之中(残差连接里面)的修改方法。使得在初始化阶段梯度也表现良好，同时更容易且更快训练。因此作者做出了结论，预热阶段可以被安全地移除，同时训练时间可以大大缩减。