SwiGLU是什么:Swish激活函数和门控线性单元(GLU)机制的激活函数
SwiGLU(Swish-Gated Linear Unit)是一种结合了Swish激活函数和门控线性单元(GLU)机制的激活函数,广泛应用于Transformer架构的前馈网络(FFN)中,尤其在大型语言模型(如LLaMA、GPT-3、PaLM)中表现出色。其核心公式为:
SwiGLU(x)=Swish(W1x)⊙(W2x)\text{SwiGLU}(x) = \text{Swish}(W_1 x) \odot (W_2 x)SwiGLU(x)