当前位置: 首页 > news >正文

[论文笔记] Deepseek-R1R1-zero技术报告阅读

启发:

1、SFT&RL的训练数据使用CoT输出的格式,先思考再回答,大大提升模型的数学与推理能力。

2、RL训练使用群体相对策略优化(GRPO),奖励模型是规则驱动,准确性奖励和格式化奖励。

1. 总体概述

  • 背景与目标

    • 报告聚焦于利用强化学习(RL)提升大型语言模型(LLMs)的推理能力,旨在探索在不依赖大规模监督微调(SFT)的情况下,模型如何自我进化并形成强大的推理能力。

    • 介绍了两代模型:DeepSeek-R1-Zero(纯 RL,无 SFT 冷启动数据)和 DeepSeek-R1(在 RL 前加入少量冷启动数据和多阶段训练流程,提升可读性及推理表现)。

  • 核心思路

    • 直接在基础模型上应用大规模强化学习,利用规则设计的奖励机制(包括准确性奖励和格式奖励)激励生成长链思维(CoT)。

    • 通过拒绝采样和后续的监督微调,进一步改善模型输出的可读性和对齐人类偏好。

http://www.lryc.cn/news/533143.html

相关文章:

  • VUE之组件通信(三)
  • 【Redis实战】投票功能
  • linux常用基础命令 最新1
  • UnityShader学习笔记——多种光源
  • 深入浅出谈VR(虚拟现实、VR镜头)
  • 项目2 车牌检测
  • Linux: 网络基础
  • 【实战篇】巧用 DeepSeek,让 Excel 数据处理更高效
  • Flink CDC YAML:面向数据集成的 API 设计
  • RabbitMQ技术深度解析:打造高效消息传递系统
  • DeepSeek与人工智能的结合:探索搜索技术的未来
  • TAPEX:通过神经SQL执行器学习的表格预训练
  • Qt:Qt基础介绍
  • 加速度计信号处理
  • 基于SpringBoot养老院平台系统功能实现六
  • Conmi的正确答案——Rider中添加icon作为exe的图标
  • 机试题——DNS本地缓存
  • Day38【AI思考】-彻底打通线性数据结构间的血脉联系
  • 【LeetCode】152、乘积最大子数组
  • [MRCTF2020]Ez_bypass1(md5绕过)
  • MySQL 缓存机制与架构解析
  • LabVIEW自定义测量参数怎么设置?
  • 海思的一站式集成环境Hispark Studio更新了
  • TresJS:用Vue组件构建3D场景的新选择
  • Axure设计教程:动态排名图(中继器实现)
  • 攻防世界 文件上传
  • 从 .NET Framework 升级到 .NET 8 后 SignalR 问题处理与解决方案
  • 《Node.js Express 框架》
  • Unity LineRenderer 画线及代码控制--Unity小记
  • llama.cpp GGML Quantization Type