当前位置: 首页 > news >正文

大模型DeepSeek-R1学习

学习路线

机器学习->
深度学习->
强化学习->
深度强化学习

大模型演进分支

  • 微调: SFT 监督学习
  • 蒸馏:把大模型作为导师训练小模型
  • RLHF:基于人类反馈的强化学习

PPO 近端策略优化

  • 油门 - 重要性采样 权重 * 打分
  • 刹车 - clip 修剪:防止变化的太快
  • 老司机 - KL散度:起到一种正则化(提高泛化,防止过拟合)的作用,限制策略的变化幅度

R1的损失函数的核心逻辑

  1. 让新策略比就策略回答的更好,但又不能变化太快
  2. 通过裁剪机制防止更新幅度过大,保持训练稳定
  3. KL散度进一步控制新策略和某个参考策略间距离,防止模型乱跑
    让模型更聪明地进化,提升推理能力,稳定训练过程

方向感?
场景?

http://www.lryc.cn/news/535831.html

相关文章:

  • 【STM32】H743的以太网MAC控制器的一个特殊功能
  • 关于“i18n“在vue中的使用
  • 前缀树算法篇:前缀信息的巧妙获取
  • DVSI使用SenseGlove为开发虚拟现实场景技能培训
  • VSCode + Continue 实现AI编程助理
  • 【PHP的static】
  • 考研操作系统----操作系统的概念定义功能和目标(仅仅作为王道哔站课程讲义作用)
  • 从360度全景照片到高质量3D场景:介绍SC-Omnigs 3D重建系统
  • 前沿技术新趋势:值得关注的创新发展
  • 算法跟练第十一弹——二叉树
  • 机器学习(李宏毅)——BERT
  • 新数据结构(7)——Object
  • 云计算基础
  • 利用kali linux 进行自动化渗透测试
  • 【Vue中BUG解决】npm error path git
  • GPT-4o微调SFT及强化学习DPO数据集构建
  • element-plus 解决el-dialog背后的页面滚动问题,及其内容有下拉框出现错位问题
  • MT6835 21位 磁编码器 SPI 平台无关通用驱动框架 STM32
  • vue REF 和 Reactive区别、特点、优势
  • Elastic Cloud Serverless 现已在 Microsoft Azure 上提供技术预览版
  • Spring Boot + MyBatis Field ‘xxx‘ doesn‘t have a default value 问题排查与解决
  • kafka的架构和工作原理
  • 游戏引擎学习第100天
  • 机器学习:朴素贝叶斯分类器
  • 打开Visual Studio Code的时候发现未检测到适用于linux的windows子系统,那么该问题要如何解决?
  • 力扣24题——两两交换链表中节点
  • android launcher拖动图标释放错位
  • window ssh免密码输入
  • 2024年博客之星年度评选—主题文章创作评审文章得分公布
  • vscode插件Remote - SSH使用教程