当前位置：首页 > news >正文

大模型DeepSeek-R1学习

news 2025/9/1 10:35:24

学习路线

机器学习->
深度学习->
强化学习->
深度强化学习

大模型演进分支

微调： SFT 监督学习
蒸馏：把大模型作为导师训练小模型
RLHF：基于人类反馈的强化学习

PPO 近端策略优化

油门 - 重要性采样权重 * 打分
刹车 - clip 修剪：防止变化的太快
老司机 - KL散度：起到一种正则化（提高泛化，防止过拟合）的作用，限制策略的变化幅度

R1的损失函数的核心逻辑

让新策略比就策略回答的更好，但又不能变化太快
通过裁剪机制防止更新幅度过大，保持训练稳定
KL散度进一步控制新策略和某个参考策略间距离，防止模型乱跑
让模型更聪明地进化，提升推理能力，稳定训练过程

方向感？
场景？

http://www.lryc.cn/news/535831.html

相关文章：

【STM32】H743的以太网MAC控制器的一个特殊功能

关于“i18n“在vue中的使用

前缀树算法篇：前缀信息的巧妙获取

DVSI使用SenseGlove为开发虚拟现实场景技能培训

VSCode + Continue 实现AI编程助理

【PHP的static】

考研操作系统----操作系统的概念定义功能和目标（仅仅作为王道哔站课程讲义作用）

从360度全景照片到高质量3D场景：介绍SC-Omnigs 3D重建系统

前沿技术新趋势：值得关注的创新发展

算法跟练第十一弹——二叉树

机器学习（李宏毅）——BERT

新数据结构(7)——Object

云计算基础

利用kali linux 进行自动化渗透测试

【Vue中BUG解决】npm error path git

GPT-4o微调SFT及强化学习DPO数据集构建

element-plus 解决el-dialog背后的页面滚动问题，及其内容有下拉框出现错位问题

MT6835 21位磁编码器 SPI 平台无关通用驱动框架 STM32

vue REF 和 Reactive区别、特点、优势

Elastic Cloud Serverless 现已在 Microsoft Azure 上提供技术预览版

Spring Boot + MyBatis Field ‘xxx‘ doesn‘t have a default value 问题排查与解决

kafka的架构和工作原理

游戏引擎学习第100天

机器学习：朴素贝叶斯分类器

打开Visual Studio Code的时候发现未检测到适用于linux的windows子系统，那么该问题要如何解决？

力扣24题——两两交换链表中节点

android launcher拖动图标释放错位

window ssh免密码输入

2024年博客之星年度评选—主题文章创作评审文章得分公布

vscode插件Remote - SSH使用教程