当前位置：首页 > news >正文

[论文笔记] Deepseek-R1R1-zero技术报告阅读

news 2025/9/16 1:49:35

启发：

1、SFT&RL的训练数据使用CoT输出的格式，先思考再回答，大大提升模型的数学与推理能力。

2、RL训练使用群体相对策略优化（GRPO），奖励模型是规则驱动，准确性奖励和格式化奖励。

1. 总体概述

背景与目标
- 报告聚焦于利用强化学习（RL）提升大型语言模型（LLMs）的推理能力，旨在探索在不依赖大规模监督微调（SFT）的情况下，模型如何自我进化并形成强大的推理能力。
- 介绍了两代模型：DeepSeek-R1-Zero（纯 RL，无 SFT 冷启动数据）和 DeepSeek-R1（在 RL 前加入少量冷启动数据和多阶段训练流程，提升可读性及推理表现）。
核心思路
- 直接在基础模型上应用大规模强化学习，利用规则设计的奖励机制（包括准确性奖励和格式奖励）激励生成长链思维（CoT）。
- 通过拒绝采样和后续的监督微调，进一步改善模型输出的可读性和对齐人类偏好。

http://www.lryc.cn/news/533143.html

相关文章：

VUE之组件通信（三）

【Redis实战】投票功能

linux常用基础命令最新1

UnityShader学习笔记——多种光源

深入浅出谈VR（虚拟现实、VR镜头）

项目2 车牌检测

Linux：网络基础

【实战篇】巧用 DeepSeek，让 Excel 数据处理更高效

Flink CDC YAML：面向数据集成的 API 设计

RabbitMQ技术深度解析：打造高效消息传递系统

DeepSeek与人工智能的结合：探索搜索技术的未来

TAPEX：通过神经SQL执行器学习的表格预训练

Qt：Qt基础介绍

加速度计信号处理

基于SpringBoot养老院平台系统功能实现六

Conmi的正确答案——Rider中添加icon作为exe的图标

机试题——DNS本地缓存

Day38【AI思考】-彻底打通线性数据结构间的血脉联系

【LeetCode】152、乘积最大子数组

[MRCTF2020]Ez_bypass1(md5绕过)

MySQL 缓存机制与架构解析

LabVIEW自定义测量参数怎么设置?

海思的一站式集成环境Hispark Studio更新了

TresJS：用Vue组件构建3D场景的新选择

Axure设计教程：动态排名图（中继器实现）

攻防世界文件上传

从 .NET Framework 升级到 .NET 8 后 SignalR 问题处理与解决方案

《Node.js Express 框架》

Unity LineRenderer 画线及代码控制--Unity小记

llama.cpp GGML Quantization Type