当前位置: 首页 > news >正文

DeepSeek-V3网络模型架构图解

DeepSeek-V3网络架构的创新主要在两次,分别是在前馈层的MOE(混合专家模型)在注意力中的MHA(多头潜在注意力,一种注意力计算规模压缩技术)。

MOE(混合专家模型)

回顾最初的MOE

GShard是最早将MoE应用在Transformer上的模型,其提出的框架和思想一直影响至今。

回顾Transformer的前馈层FFN,是将注意力子层的输出作为输入,通过一个带有ReLU激活函数的两层全连接网络对输入进行更复杂的非线性变换,公式描述如下:

FFN ( x ) = ReLU ( x W 1 + b 1 ) W 2 + b 2 \text{FFN}(x)=\text{ReLU}(xW_1+b_1)W_2+b_2 FFN(x)=ReLU(xW1+b1)W2+b2

MoE其实就是将Transformer中的FFN层替换成了MoE-layer(也可以理解成多个规模较小且稀疏的FFN层),其中每个MoE-Layer由一个gate和若干个experts组成。这里gate和每个expert都可以理解成是nn.linear形式的神经网络,图解如下:
(原图来自https://zhuanlan.zhihu.com/p/681154742)

DeepSeek中的MOE

模型架构:

不同的地方:

为了在负载均衡和模型性能之间取得更好的平衡,DeepSeek开创了一种无辅助损失的负载均衡策略:为每个专家引入一个偏差项,并将其添加到相应的亲和力分数中以确定top- K K K路由,具体来说:如果其对应的专家过载,我们将偏差项减少 b b b;如果其对应的专家负载不足,我们将偏差项增加 b b b,其中 b b b是一个称为偏差更新速度的超参数。

门控网络本质上就是一个softmax叠加一个分类网络,那么辅助loss往往就是添加一个惩罚项,对输出过大的 logits 进行惩罚,鼓励模型生成更加适度的 logits 值,防止模型生成过于极端的输出

公式描述为公式(14)改为公式(16)

引入了偏差项

MLA 多头潜在注意力

本质就是在计算注意力之前进行各种向量降维(用于降低注意力计算和后端推理的计算量)和加入旋转位置编码(RoPE)(目的是:通过旋转矩阵将位置信息融入词向量的内积计算中,从而在注意力机制中隐式编码相对位置关系)。

参考文章

https://zhuanlan.zhihu.com/p/15153745590

https://arxiv.org/pdf/2412.19437v1

https://zhuanlan.zhihu.com/p/681154742

http://www.lryc.cn/news/535518.html

相关文章:

  • Linux系统管理小课堂
  • 明远智睿核心板在智能家居与工业网关中的应用实践
  • Windows 系统 GDAL库 配置到 Qt 上
  • 部署onlyoffice后,php版的callback及小魔改(logo和关于)
  • 《qt open3d网格拉普拉斯平滑》
  • 【愚公系列】《Python网络爬虫从入门到精通》004-请求模块urllib3
  • 网络安全技术复习总结
  • 初阶c语言(while循环二分法)
  • 如何使用Java语言在Idea和Android中分别建立服务端和客户端实现局域网聊天
  • Java_多线程
  • uniapp开发h5部署到服务器
  • 如何在个人电脑本地化部署Deepseek-R1大模型
  • Java中关于JSON的基本使用
  • 简化的动态稀疏视觉Transformer的PyTorch代码
  • PADS多层板减少层数
  • 你需要提供管理员权限才能删除此文件夹解决方法
  • 螺旋折线(蓝桥杯18G)
  • 常见的数据仓库有哪些?
  • 数据科学之数据管理|NumPy数据管
  • LSTM 学习笔记 之pytorch调包每个参数的解释
  • ASUS/华硕飞行堡垒9 FX506H FX706H 原厂Win10系统 工厂文件 带ASUS Recovery恢复
  • Unity使用iTextSharp导出PDF-04图形
  • JDBC如何连接数据库
  • Unity URP的2D光照简介
  • 【IC】AI处理器核心--第二部分 用于处理 DNN 的硬件设计
  • 从 0 开始本地部署 DeepSeek:详细步骤 + 避坑指南 + 构建可视化(安装在D盘)
  • 如何本地部署DeepSeek集成Word办公软件
  • Centos10 Stream 基础配置
  • 时间序列分析(三)——白噪声检验
  • ThinkPHP8视图赋值与渲染