当前位置: 首页 > news >正文

主流开源LLM架构对比与突破·

先说要点总结

  • LLM 架构对比文章概述:文章对比了 llama - 3.2、Qwen3 - 4B、SmolLM3 - 3B、DeepSeek - V3、Qwen3 - 235B - A22B、Kimi - K2 等大型语言模型架构,探讨其区别与优势,虽 LLM 在结构上有相似性,但在位置嵌入、注意力机制、激活函数等方面有改进。且比较 LLM 性能关键因素因数据集、训练技术和超参数差异大且记录少而具挑战性,本文聚焦主流开源模型架构发展。英文原文链接:https://sebastianraschka.com/blog/2025/the - big - llm - architecture - comparison.html

  • DeepSeek V3/R1

    • 发布信息:DeepSeek R1 于 2025 年 1 月发布,基于 2024 年 12 月问世的 DeepSeek V3 架构构建,因随 R1 发布获广泛关注,故纳入讨论。

    • 多头潜在注意力 (MLA)

      • 背景:GQA 成为 MHA 新型替代方案,通过多查询头共享键值投影减少内存占用,降低参数数量和内存带宽使用,且不显著影响模型性能。
      • 原理:MLA 在存储键值张量到 KV 缓存前将其压缩至低维空间,推理时恢复,虽增加矩阵乘法运算,但大幅减少内存占用,查询仅在训练时压缩。
      • 选择原因:DeepSeek - V2 论文研究表明,相比 GQA,MLA 在模型性能上更优。
    • 专家混合 (MoE)

      • 原理:用多个专家层替换 Transformer 块中前馈神经网络模块,增加模型总参数。路由机制为每个词元选少数专家,MoE 模块因此为稀疏模块,在增加模型容量同时保持推理效率。
      • DeepSeek 特点:使用 “共享专家”,始终为每个词元激活,可提升整体模型性能,因常见模式无需多专家分别学习,使专家能学习更特化模式。
    • 总结:DeepSeek - V3 参数达 6710 亿,性能超越部分开源模型,因 MoE 架构推理效率高,且采用 MLA 而非 GQA,虽 MLA 实现复杂,但模型性能更好。

  • OLMo 2

    • 模型特点:由 Allen 人工智能研究所开发,因训练数据、代码透明度及详细技术报告受关注,虽未在基准测试名列前茅,但性能不俗,1 月发布时达计算效率与性能帕累托最优前沿,使用传统 MHA。
    • 归一化层的位置:从 LayerNorm 切换到 RMSNorm,将 RMSNorm 层置于注意力模块和前馈模块之后(一种后归一化变体),在残差层内部,有助于训练稳定性,但因与 QK - 范数结合,难判断其单独贡献。
    • QK - 范数 (QK - Norm) :本质是又一个 RMSNorm 层,置于 MHA 模块内,在应用 RoPE 前应用于查询和键,与后归一化协同稳定训练过程,概念可追溯到 2023 年相关论文。
    • 总结:OLMo 2 架构设计决策在于 RMSNorm 放置及添加 QK - 范数,有助于稳定训练损失,与 Llama 3 架构相似,不过 OLMo 2 之后发布使用 GQA 的 320 亿参数变体。
  • Gemma 3

    • 模型特点:谷歌模型,表现优异但受关注少,词汇量大,侧重 270 亿参数模型尺寸,平衡功能与资源消耗。
    • 滑动窗口注意力:借鉴 LongFormer 论文,减少 KV 缓存内存需求,是一种局部注意力机制,限制上下文大小,可与 MHA、GQA 结合,Gemma 3 调整了全局与局部注意力比例,滑动窗口大小也减小,消融研究表明对模型性能影响小。
    • 归一化层放置:在分组查询注意力模块前后都使用 RMSNorm,兼顾前归一化和后归一化优点,计算成本低,对实际应用影响不明显。
    • 总结:Gemma 3 是性能优秀的开源 LLM,利用滑动窗口注意力提升效率,独特放置归一化层。
    • Gemma 3n:为适应小型设备优化,采用 “逐层嵌入参数层(PLE)”,仅保留部分模型参数在 GPU 内存,按需从 CPU 或 SSD 流式传输词元 - 层特有的嵌入;使用 MatFormer 概念,将共享 LLM 架构切分成可独立使用的小模型,推理时仅运行所需部分。
  • Mistral Small 3.1:3 月发布,在多项基准测试(数学除外)上超越 Gemma 3 27B 且速度更快,推理延迟低可能因定制化分词器、缩减 KV 缓存和层数,采用标准架构,放弃早期模型使用的滑动窗口注意力,使用常规分组查询注意力,可能因能使用更优化代码节省推理计算。

  • Llama 4:采用 MoE 方法,整体架构与 DeepSeek - V3 相似,使用 GQA,而 DeepSeek - V3 采用 MLA。DeepSeek - V3 总参数量比 Llama 4 Maverick 多约 68%,活跃参数是其两倍多。Llama 4 Maverick 采用经典 MoE 设置,专家数量少但规模大,且与 DeepSeek - V3 在 MoE 层使用位置上有差异。

  • Qwen3

    • 密集模型:拥有多个稠密模型,如 0.6B 模型是当前世代较小的开源模型,表现出色,内存占用小,易本地训练,相比 Llama 3 1B,架构更深但更窄,运行速度慢。
    • MoE 模型:提供 30B - A3B 和 235B - A22B 两种 MoE 版本,MoE 变体可降低大型基础模型推理成本,发布密集和 MoE 两种版本可满足不同用户需求,密集模型适用于微调等,MoE 模型适用于大规模推理服务。
      ————————————————————————————————
      以下是文章中出现的主要技术名词及解释,结合其在文中的语境和作用整理:

名词解释:

注意力机制相关

  1. 多头注意力(Multi-Head Attention, MHA)
    传统Transformer中的注意力机制,将输入序列的“查询(Queries)”“键(Keys)”“值(Values)”分割成多个“头”(Head),并行计算注意力分数,再拼接结果。优点是能捕捉不同维度的语义信息,缺点是参数和计算成本较高。

  2. 分组查询注意力(Grouped-Query Attention, GQA)
    介于MHA和单头注意力之间的优化方案:多个查询头(Query Head)共享一组键(Key)和值(Value)投影。平衡了性能与效率,减少键值缓存的内存占用,成为近年LLM的主流选择(如Llama 3/4、Gemma 3)。

  3. 多头潜在注意力(Multi-Head Latent Attention, MLA)
    DeepSeek系列(V2/V3/R1)采用的注意力机制:在推理时压缩键(Key)和值(Value)的维度以减少KV缓存内存使用,训练时也会压缩查询(Queries)。相比GQA,在保持性能的同时更高效,且文中提到其性能优于MHA和GQA(DeepSeek-V2论文验证)。

模型架构组件

  1. 专家混合(Mixture-of-Experts, MoE)
    用多个“专家层”(每个专家是一个前馈神经网络)替代Transformer中的单个前馈层,通过“路由机制”为每个词元选择少量专家(而非全部)参与计算。优点是在增加模型总参数(提升容量)的同时,保持推理时的计算效率(仅激活部分参数)。主流模型如DeepSeek V3、Llama 4、Qwen3 MoE版均采用。

  2. 共享专家(Shared Expert)
    MoE架构中的特殊专家,为每个词元强制激活,避免路由机制可能的“误判”。DeepSeek V3保留该设计,而Qwen3 MoE版移除,推测与专家数量增加有关。

位置编码

  1. 绝对位置编码(Absolute Positional Encoding)
    早期GPT等模型使用的位置编码方式,为每个位置分配固定的嵌入向量,直接添加到词嵌入中。缺点是对长序列泛化能力差。

  2. 旋转位置嵌入(Rotary Position Embedding, RoPE)
    通过旋转矩阵对查询和键进行编码,将位置信息融入向量的相位中,能更好处理长序列,且位置编码与序列长度无关。目前LLM的主流位置编码方式(如Llama、Qwen、Gemma等)。

  3. 无位置嵌入(No Position Embedding, NoPE)
    SmolLM3采用的方案:不使用显式位置编码(如RoPE),仅依赖Transformer的因果掩码(限制词元关注未来位置)隐含位置信息。研究表明可能提升长序列泛化能力,但对大模型的适用性仍需验证。

激活函数

  1. GELU(Gaussian Error Linear Unit)
    早期LLM常用的激活函数,近似ReLU,具有平滑特性,但计算效率一般。

  2. SwiGLU(Swish-Gated Linear Unit)
    更高效的激活函数,结合Swish函数和门控机制,计算速度更快且性能更优,目前被多数LLM采用(如Llama、Qwen、DeepSeek等)。

归一化方法

  1. 层归一化(LayerNorm)
    对每个样本的特征维度进行归一化,稳定训练,但计算成本较高(需计算均值和方差)。

  2. RMSNorm(Root Mean Square Layer Normalization)
    LayerNorm的简化版,仅计算均方根(省略均值),计算更快,参数更少,广泛用于现代LLM(如Llama、Gemma、OLMo等)。

  3. 前归一化(Pre-Norm)
    归一化层置于注意力层和前馈层之前(如GPT-2、Llama),训练更稳定,无需复杂的学习率预热。

  4. 后归一化(Post-Norm)
    归一化层置于注意力层和前馈层之后(原始Transformer和OLMo 2采用的变体),需配合其他机制(如QK-范数)稳定训练,但可能提升性能。

  5. QK-范数(QK-Norm)
    在注意力机制内部,对查询(Q)和键(K)额外应用RMSNorm,减少注意力分数的波动,稳定训练。OLMo 2、Gemma 3等采用。

效率优化技术

  1. 滑动窗口注意力(Sliding Window Attention)
    Gemma 2/3采用的机制:限制每个词元仅关注其周围固定范围的上下文(如窗口大小1024),而非全局序列,大幅减少KV缓存内存和计算量,适合长序列场景。

  2. 逐层嵌入参数层(Per-Layer Embedding, PLE)
    Gemma 3n为适配小设备设计:仅将部分模型参数保留在GPU内存,词元/层特有的嵌入参数(如文本、音频嵌入)按需从CPU/SSD加载,显著节省内存。

  3. MatFormer(Matryoshka Transformer)
    Gemma 3n采用的架构:共享Transformer骨干,可切分成多个独立的小模型,推理时仅运行所需部分,适配不同设备算力。

优化器

  1. Muon优化器
    Kimi 2采用的优化器,替代传统的AdamW,首次在万亿参数模型上验证有效性,训练损失曲线更平滑,可能助力模型性能提升。

这些技术反映了LLM在效率(如GQA、MoE、滑动窗口)、性能(如MLA、QK-范数)、泛化能力(如RoPE、NoPE)等方面的迭代方向,多数改进围绕“在有限资源下提升模型能力”展开。

http://www.lryc.cn/news/595672.html

相关文章:

  • 【Qt开发】Qt的背景介绍(四)
  • 项目复盘核心要点
  • 网络安全基础作业三
  • 图论的整合
  • JS WebAPIs DOM节点概述
  • v0+claude+cursor构建初始脚手架
  • 北京养老金计算公式网页实现案例:从需求分析到架构设计
  • 在Python中操作Word
  • 滴滴0722 总结与优化方向
  • J2EE模式---前端控制器模式
  • es6中的symbol基础知识
  • Element Plus Table 组件扩展:表尾合计功能详解
  • UE5 UI ScrollBox 滚动框
  • .NET使用EPPlus导出EXCEL的接口中,文件流缺少文件名信息
  • 归并排序(Merge Sort)(递归写法)
  • 【前端】ikun-pptx编辑器前瞻问题一: pptx的xml样式, 使用html能100%还原么
  • vscode目录,右键菜单加入用VSCode打开文件和文件夹(快速解决)(含删除)(脚本)
  • 基于 KeepAlived + HAProxy 搭建 RabbitMQ 高可用负载均衡集群
  • 医院信息系统(HIS)切换实施方案与管理技术分析
  • Linux中信号认识及处理和硬件中断与软中断的讲解
  • 基于 Spring Batch 和 XXL-Job 的批处理任务实现
  • iOS加固工具有哪些?从零源码到深度混淆的全景解读
  • iOS 抓包工具有哪些?场景导向下的工具推荐与实战对比
  • 微软徽标认证是什么?如何快速获取驱动签名?
  • haproxy七层代理新手入门详解
  • 字体识别实战:用Python打造智能字体侦探工具
  • 查看 iOS iPhone 设备上 App 和系统运行时的实时日志与崩溃日志
  • 一文速通《线性方程组》
  • ipynb断点不停 ipynb调试相关
  • 项目集成zustand后,如何构建和使用,以及devtools函数。