当前位置: 首页 > news >正文

LLM实践——DeepSeek技术报告学习(含实现逻辑梳理)

目录

  • 一些基本概念:
  • deepseek-r1-zero
  • deepseek-R1
  • deepseek-R1 distill model:

DeepSeek官网:https://www.deepseek.com/

一些基本概念:

  • post-training:旨在优化预训练模型的特定能力,包括‌任务适配性、安全性、对齐人类偏好‌等,使其更适用于实际场景。主要分为三个阶段:‌微调(Finetune)、对齐(Alignment)、评估(Evaluation);
  • test-time compute(推理时计算):在推理阶段(即大语言模型生成最终结果的阶段)投入更多计算资源,而非集中在预训练或后训练阶段。(推理过程的加入,使该现象更明显);
  • rejection sampling(拒绝采样):
    • 拒绝采样定义:
      如图所示,p ( x ) 是我们希望采样的分布,q ( x ) 是我们提议的分布(proposal distribution),q ( x ) 分布比较简单,令kq(x)>p(x),我们首先在k q ( x ) 中按照直接采样的方法采样粒子,接下来判断这个粒子落在图中什么区域,对于落在蓝线以外的粒子予以拒绝,落在蓝线下的粒子接受,最终得到符合p(x)的N个粒子。
      ————————————————
    • 拒绝接受采样的基本步骤:
      ①生成服从q(x)的样本→ xi
      ​②生成服从均匀分布U(0,1)的样本→ui
      ​③当q ( x i ) ⋅ u i < p ( x i ) ,也就是二维点落在蓝线以下(见附件),此时接受X k = x i
      ④最终得到的Xk为服从p(x)的样本。
      在这里插入图片描述

deepseek-r1-zero

基于DeepSeek-R1报告梳理的deepseek-r1-zero模型实现过程如下:
在这里插入图片描述

deepseek-R1

基于DeepSeek-R1报告梳理的deepseek-R1模型实现过程如下:

  • 整体以DeepSeek-V3模型为基础,经过两个SFT阶段、两个RL阶段;
  • deepseek GitHub:https://github.com/deepseek-ai/DeepSeek-R1?tab=readme-ov-file;
    在这里插入图片描述

deepseek-R1 distill model:

模型蒸馏技术还需要进一步备注。

(1)DeepSeek蒸馏模型的基模型:Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-
14B, Qwen2.5-32B, Llama-3.1-8B, and Llama-3.3-70B-Instruct.
(2)使用deepseek-R1的800k SFT数据进行微调,没有经过RL过程。

http://www.lryc.cn/news/547353.html

相关文章:

  • Autojs无线连接vscode方法
  • 第一节:基于Winform框架的串口助手小项目---基础控件使用《C#编程》
  • 小红书湖仓架构的跃迁之路
  • pytorch高可用的设计策略和集成放大各自功能
  • 神经网络前向微分和后向微分区别
  • Android 创建一个全局通用的ViewModel
  • windows 利用nvm 管理node.js 2025最新版
  • 基于物联网技术的电动车防盗系统设计(论文+源码)
  • run方法执行过程分析
  • 关联封号率降70%!2025最新IP隔离方案实操手册
  • LeetCode 解题思路 10(Hot 100)
  • ASP.NET Core JWT认证与授权
  • 城市地质安全专题连载⑧ | 强化工程地质安全保障力度,为工程项目全栈护航
  • 50.xilinx fir滤波器系数重加载如何控制
  • 低代码平台的后端架构设计与核心技术解析
  • QT实现单个控制点在曲线上的贝塞尔曲线
  • svn 通过127.0.01能访问 但通过公网IP不能访问,这是什么原因?
  • ‌学习DeepSeek V3 与 R1 核心区别(按功能维度分类)
  • C++中的 互斥量
  • 直接法估计相机位姿
  • PHP动态网站建设
  • 【gRPC】Java高性能远程调用之gRPC详解
  • 数据结构知识学习小结
  • 分布式锁—2.Redisson的可重入锁一
  • 计算机毕业设计SpringBoot+Vue.js球队训练信息管理系统(源码+文档+PPT+讲解)
  • FFmpeg入门:最简单的音视频播放器
  • java 查找两个集合的交集部分数据
  • 【系统架构设计师】以数据为中心的体系结构风格
  • 通过HTML有序列表(ol/li)实现自动递增编号的完整解决方案
  • 【Python 数据结构 4.单向链表】