当前位置：首页 > news >正文

主流开源LLM架构对比与突破·

news 2025/7/23 5:11:40

先说要点总结

LLM 架构对比文章概述：文章对比了 llama - 3.2、Qwen3 - 4B、SmolLM3 - 3B、DeepSeek - V3、Qwen3 - 235B - A22B、Kimi - K2 等大型语言模型架构，探讨其区别与优势，虽 LLM 在结构上有相似性，但在位置嵌入、注意力机制、激活函数等方面有改进。且比较 LLM 性能关键因素因数据集、训练技术和超参数差异大且记录少而具挑战性，本文聚焦主流开源模型架构发展。英文原文链接：https://sebastianraschka.com/blog/2025/the - big - llm - architecture - comparison.html
DeepSeek V3/R1：
- 发布信息：DeepSeek R1 于 2025 年 1 月发布，基于 2024 年 12 月问世的 DeepSeek V3 架构构建，因随 R1 发布获广泛关注，故纳入讨论。
- 多头潜在注意力 (MLA) ：
  - 背景：GQA 成为 MHA 新型替代方案，通过多查询头共享键值投影减少内存占用，降低参数数量和内存带宽使用，且不显著影响模型性能。
  - 原理：MLA 在存储键值张量到 KV 缓存前将其压缩至低维空间，推理时恢复，虽增加矩阵乘法运算，但大幅减少内存占用，查询仅在训练时压缩。
  - 选择原因：DeepSeek - V2 论文研究表明，相比 GQA，MLA 在模型性能上更优。
- 专家混合 (MoE) ：
  - 原理：用多个专家层替换 Transformer 块中前馈神经网络模块，增加模型总参数。路由机制为每个词元选少数专家，MoE 模块因此为稀疏模块，在增加模型容量同时保持推理效率。
  - DeepSeek 特点：使用 “共享专家”，始终为每个词元激活，可提升整体模型性能，因常见模式无需多专家分别学习，使专家能学习更特化模式。
- 总结：DeepSeek - V3 参数达 6710 亿，性能超越部分开源模型，因 MoE 架构推理效率高，且采用 MLA 而非 GQA，虽 MLA 实现复杂，但模型性能更好。
OLMo 2：
- 模型特点：由 Allen 人工智能研究所开发，因训练数据、代码透明度及详细技术报告受关注，虽未在基准测试名列前茅，但性能不俗，1 月发布时达计算效率与性能帕累托最优前沿，使用传统 MHA。
- 归一化层的位置：从 LayerNorm 切换到 RMSNorm，将 RMSNorm 层置于注意力模块和前馈模块之后（一种后归一化变体），在残差层内部，有助于训练稳定性，但因与 QK - 范数结合，难判断其单独贡献。
- QK - 范数 (QK - Norm) ：本质是又一个 RMSNorm 层，置于 MHA 模块内，在应用 RoPE 前应用于查询和键，与后归一化协同稳定训练过程，概念可追溯到 2023 年相关论文。
- 总结：OLMo 2 架构设计决策在于 RMSNorm 放置及添加 QK - 范数，有助于稳定训练损失，与 Llama 3 架构相似，不过 OLMo 2 之后发布使用 GQA 的 320 亿参数变体。
Gemma 3：
- 模型特点：谷歌模型，表现优异但受关注少，词汇量大，侧重 270 亿参数模型尺寸，平衡功能与资源消耗。
- 滑动窗口注意力：借鉴 LongFormer 论文，减少 KV 缓存内存需求，是一种局部注意力机制，限制上下文大小，可与 MHA、GQA 结合，Gemma 3 调整了全局与局部注意力比例，滑动窗口大小也减小，消融研究表明对模型性能影响小。
- 归一化层放置：在分组查询注意力模块前后都使用 RMSNorm，兼顾前归一化和后归一化优点，计算成本低，对实际应用影响不明显。
- 总结：Gemma 3 是性能优秀的开源 LLM，利用滑动窗口注意力提升效率，独特放置归一化层。
- Gemma 3n：为适应小型设备优化，采用 “逐层嵌入参数层（PLE）”，仅保留部分模型参数在 GPU 内存，按需从 CPU 或 SSD 流式传输词元 - 层特有的嵌入；使用 MatFormer 概念，将共享 LLM 架构切分成可独立使用的小模型，推理时仅运行所需部分。
Mistral Small 3.1：3 月发布，在多项基准测试（数学除外）上超越 Gemma 3 27B 且速度更快，推理延迟低可能因定制化分词器、缩减 KV 缓存和层数，采用标准架构，放弃早期模型使用的滑动窗口注意力，使用常规分组查询注意力，可能因能使用更优化代码节省推理计算。
Llama 4：采用 MoE 方法，整体架构与 DeepSeek - V3 相似，使用 GQA，而 DeepSeek - V3 采用 MLA。DeepSeek - V3 总参数量比 Llama 4 Maverick 多约 68%，活跃参数是其两倍多。Llama 4 Maverick 采用经典 MoE 设置，专家数量少但规模大，且与 DeepSeek - V3 在 MoE 层使用位置上有差异。
Qwen3：
- 密集模型：拥有多个稠密模型，如 0.6B 模型是当前世代较小的开源模型，表现出色，内存占用小，易本地训练，相比 Llama 3 1B，架构更深但更窄，运行速度慢。
- MoE 模型：提供 30B - A3B 和 235B - A22B 两种 MoE 版本，MoE 变体可降低大型基础模型推理成本，发布密集和 MoE 两种版本可满足不同用户需求，密集模型适用于微调等，MoE 模型适用于大规模推理服务。
  ————————————————————————————————
  以下是文章中出现的主要技术名词及解释，结合其在文中的语境和作用整理：

名词解释：

注意力机制相关

多头注意力（Multi-Head Attention, MHA）
传统Transformer中的注意力机制，将输入序列的“查询（Queries）”“键（Keys）”“值（Values）”分割成多个“头”（Head），并行计算注意力分数，再拼接结果。优点是能捕捉不同维度的语义信息，缺点是参数和计算成本较高。
分组查询注意力（Grouped-Query Attention, GQA）
介于MHA和单头注意力之间的优化方案：多个查询头（Query Head）共享一组键（Key）和值（Value）投影。平衡了性能与效率，减少键值缓存的内存占用，成为近年LLM的主流选择（如Llama 3/4、Gemma 3）。
多头潜在注意力（Multi-Head Latent Attention, MLA）
DeepSeek系列（V2/V3/R1）采用的注意力机制：在推理时压缩键（Key）和值（Value）的维度以减少KV缓存内存使用，训练时也会压缩查询（Queries）。相比GQA，在保持性能的同时更高效，且文中提到其性能优于MHA和GQA（DeepSeek-V2论文验证）。

模型架构组件

专家混合（Mixture-of-Experts, MoE）
用多个“专家层”（每个专家是一个前馈神经网络）替代Transformer中的单个前馈层，通过“路由机制”为每个词元选择少量专家（而非全部）参与计算。优点是在增加模型总参数（提升容量）的同时，保持推理时的计算效率（仅激活部分参数）。主流模型如DeepSeek V3、Llama 4、Qwen3 MoE版均采用。
共享专家（Shared Expert）
MoE架构中的特殊专家，为每个词元强制激活，避免路由机制可能的“误判”。DeepSeek V3保留该设计，而Qwen3 MoE版移除，推测与专家数量增加有关。

位置编码

绝对位置编码（Absolute Positional Encoding）
早期GPT等模型使用的位置编码方式，为每个位置分配固定的嵌入向量，直接添加到词嵌入中。缺点是对长序列泛化能力差。
旋转位置嵌入（Rotary Position Embedding, RoPE）
通过旋转矩阵对查询和键进行编码，将位置信息融入向量的相位中，能更好处理长序列，且位置编码与序列长度无关。目前LLM的主流位置编码方式（如Llama、Qwen、Gemma等）。
无位置嵌入（No Position Embedding, NoPE）
SmolLM3采用的方案：不使用显式位置编码（如RoPE），仅依赖Transformer的因果掩码（限制词元关注未来位置）隐含位置信息。研究表明可能提升长序列泛化能力，但对大模型的适用性仍需验证。

激活函数

GELU（Gaussian Error Linear Unit）
早期LLM常用的激活函数，近似ReLU，具有平滑特性，但计算效率一般。
SwiGLU（Swish-Gated Linear Unit）
更高效的激活函数，结合Swish函数和门控机制，计算速度更快且性能更优，目前被多数LLM采用（如Llama、Qwen、DeepSeek等）。

归一化方法

层归一化（LayerNorm）
对每个样本的特征维度进行归一化，稳定训练，但计算成本较高（需计算均值和方差）。
RMSNorm（Root Mean Square Layer Normalization）
LayerNorm的简化版，仅计算均方根（省略均值），计算更快，参数更少，广泛用于现代LLM（如Llama、Gemma、OLMo等）。
前归一化（Pre-Norm）
归一化层置于注意力层和前馈层之前（如GPT-2、Llama），训练更稳定，无需复杂的学习率预热。
后归一化（Post-Norm）
归一化层置于注意力层和前馈层之后（原始Transformer和OLMo 2采用的变体），需配合其他机制（如QK-范数）稳定训练，但可能提升性能。
QK-范数（QK-Norm）
在注意力机制内部，对查询（Q）和键（K）额外应用RMSNorm，减少注意力分数的波动，稳定训练。OLMo 2、Gemma 3等采用。

效率优化技术

滑动窗口注意力（Sliding Window Attention）
Gemma 2/3采用的机制：限制每个词元仅关注其周围固定范围的上下文（如窗口大小1024），而非全局序列，大幅减少KV缓存内存和计算量，适合长序列场景。
逐层嵌入参数层（Per-Layer Embedding, PLE）
Gemma 3n为适配小设备设计：仅将部分模型参数保留在GPU内存，词元/层特有的嵌入参数（如文本、音频嵌入）按需从CPU/SSD加载，显著节省内存。
MatFormer（Matryoshka Transformer）
Gemma 3n采用的架构：共享Transformer骨干，可切分成多个独立的小模型，推理时仅运行所需部分，适配不同设备算力。