当前位置: 首页 > article >正文

【人工智能】deepseek七篇论文阅读笔记大纲

七篇文章看了整整五天,加上整理笔记和问ds优化,大致的框架是有了。具体的公式细节比较多,截图也比较麻烦,就不列入大纲去做笔记了。


DeepSeek-LLM:一切的起点,所以探索的东西比较多,包括:

  • transformer架构(后续V2/V3的改进基础)
  • “多步”替代“余弦”学习率调度器
  • AdamW优化器(贯穿所有版本的核心)
  • HAI-LLM框架并行(支持后续FP8训练)
  • ZeRO-1优化器(V3升级到ZeRO-3)
  • 位置编码RoPE/GQA(需解耦RoPE冲突)
  • scaling law(v3的MTP深度选择依据)
  • BBPE分词器(保持到V3不变)
  • 归一化:Pre-Norm + RMS Norm(保持到V3不变)
  • CND(计算预算、最优批大小、学习率)公式C=6ND(V2/V3的算力分配用,但V3引入FP8后需调整系数)
  • DPO替代RLHF
  • 无明确奖励模型

DeepSeek-R1:
在DeepSeek-V3-Base上研究"推理",主要优化点
(这里我没有把zeroR1和R1分开写,两者具体不一样见表格):

  • 纯用RL算法GRPO(分组策略降低方差,适配长推理链→导致"顿悟"现象)
  • GRPO是RLHF变体,SFT只是准确问答问题,RLHF更有人类偏好
  • 冷启动优化(用小规模思维链数据预热,解决RL初期不稳定)
  • 蒸馏提取推理能力(为V3的SFT阶段提供数据源)
  • 语言混合问题 → 催生V3的语言一致性奖励
  • AdamW等基础未改动
  • 奖励模型:纯用RL算法GRPO
    怕有人杠其实我只是懒得分开两版来写了囧

DeepSeek-V2:
在LLM基础上研究"性能",从架构入手:

  • MoE创新(细粒度专家+共享专家隔离 → 参数效率↑30%)
  • KV压缩MLA(低秩联合压缩,缓存减少88% → 为V3的MTP铺路)(文中这里是先介绍传统的MHA、MQA、GQA作为铺垫)
  • 解耦旋转位置编码:解决旋转位置嵌入与KV压缩不兼容的问题
  • 设备感知路由(通信成本↓50%)
  • AdamW等基础未改动
  • 未提及奖励模型,推测沿用R1

DeepSeek-V3:
在V2基础上增强:

  • MoE路由改进(无辅助损失负载均衡 → 摆脱平衡性约束)
  • 注意力增强MTP(需V2的MLA作为前提,新增4个预测头)
  • FP8训练(依赖H100硬件,速度↑1.7x)
  • 两阶段蒸馏(继承R1的CoT能力)
  • AdamW等基础未改动
  • 奖励模型:混合了规则奖励与模型奖励
    在这里插入图片描述

DeepSeekMoE:
v2混合专家→v3混合专家→终极优化混合专家:

  • 动态专家合并(解决V3固定m值的扩展瓶颈)
  • 跨设备协作(千亿级参数时延迟优化)
  • 成为DeepSeek最终MoE形态
  • AdamW等基础未改动
  • 奖励模型:沿用V3,增加专家选择奖励
    在这里插入图片描述

H-CoT:
国外一项工作,抽样几家主流AI进行安全性测试,对于deepseek他们选了R1:

  • R1的GRPO缺陷(过度依赖结果奖励,忽视中间状态 → 被劫持)
  • 对比V3的改进:规则奖励模型+轨迹监控
  • 后续启示:需增加推理过程签名验证
    在这里插入图片描述
http://www.lryc.cn/news/2396976.html

相关文章:

  • unix/linux source 命令,在当前的 Shell 会话中读取并执行指定文件中的命令
  • [leetcode] 二分算法
  • imgsz参数设置
  • 【算法】分支限界
  • 使用 C/C++ 和 OpenCV 调用摄像头
  • 历史数据分析——广州港
  • 数据库管理与高可用-MySQL全量,增量备份与恢复
  • 从gitee仓库中恢复IDEA项目某一版本
  • 用dayjs解析时间戳,我被提了bug
  • [git每日一句]Changes not staged for commit
  • 架构师面试题整理
  • 类和对象:实现日期类
  • 基于springboot的运动员健康管理系统
  • 华为云Flexus+DeepSeek征文 | 初探华为云ModelArts Studio:部署DeepSeek-V3/R1商用服务的详细步骤
  • 下载即转化的商业密码:解析华为应用商店CPD广告的智能投放逻辑
  • 分布式锁和数据库锁完成接口幂等性
  • 浅谈JMeter之常见问题Address already in use: connect
  • 【机器学习基础】机器学习入门核心算法:随机森林(Random Forest)
  • 【深度学习】12. VIT与GPT 模型与语言生成:从 GPT-1 到 GPT4
  • 常规算法学习
  • Google 发布的全新导航库:Jetpack Navigation 3
  • Arbitrum Stylus 合约实战 :Rust 实现 ERC20
  • 电脑故障基础知识
  • 12.2Swing中JButton简单分析
  • 内存管理--《Hello C++ Wrold!》(8)--(C/C++)--深入剖析new和delete的使用和底层实现
  • JavaScript性能优化实战指南(详尽分解版)
  • 从 AMQP 到 RabbitMQ:核心组件设计与工作原理(一)
  • Java进阶---JVM
  • 鸿蒙OSUniApp离线优先数据同步实战:打造无缝衔接的鸿蒙应用体验#三方框架 #Uniapp
  • 地震资料裂缝定量识别——学习计划