当前位置: 首页 > news >正文

LLM-chatgpt训练过程

流程简介

  • 主要包含模型预训练和指令微调两个阶段
    • 模型预训练:搜集海量的文本数据,无监督的训练自回归decoder;
      O T = P ( O t < T ) O_T=P(O_{t<T}) OT=P(Ot<T),损失函数CE loss
    • 指令微调:在输入文本中加入任务提示,
      • 输入 “翻译文本为英文:无监督训练。译文:”,让模型输出 “Non-supervised”
      • 也是一个自回归训练的过程,损失函数和预训练一样,但是输入数据是有范式的。

指令微调

在这里插入图片描述

  • 指令微调一般分成三个阶段
    • 从用户那里收集到大量的问题,邀请专业的人士给出高质量的答案 ,然后用这些数据fine-tune生成模型;
    • 让训练过的生成模型基于用户问题给出多次答案,并邀请真人对答案的质量进行打分,这些打分的数据用户训练reward model;
    • 生成模型+reward model串起来,就可以自己生成答案,自己评价结果的好坏,不断进行优化。

参考博客

brightliao-ChatGPT 的模型训练

http://www.lryc.cn/news/139759.html

相关文章:

  • 【学习笔记】[ABC274Ex] XOR Sum of Arrays
  • 抖音web频道爬虫
  • sql中的替换函数replace()总结
  • vue3 vite使用 monaco-editor 报错
  • 微信小程序获取蓝牙权限
  • GE 8920-PS-DC安全模块
  • UG\NX二次开发 使用BlockUI设计对话框时,如何设置默认的开发语言?
  • W5500-EVB-PICO进行UDP组播数据回环测试(九)
  • 24 WEB漏洞-文件上传之WAF绕过及安全修复
  • Python科研绘图--Task03
  • ssm端游游戏账号销售管理系统源码和论文
  • ssm+vue农家乐信息平台源码和论文
  • 安装启动yolo5教程
  • 封装redis 分布式锁 RedisCallback
  • 代码随想录算法训练营第17期第32天 | 122. 买卖股票的最佳时机 II、455.分发饼干、376. 摆动序列、53. 最大子序和
  • iOS HealthKit 介绍
  • Windows平台Unity下播放RTSP或RTMP如何开启硬解码?
  • 模板方法模式在JDBCTemplate中的应用
  • 如何在Debian中同步系统时间?Debian 系统时间配置(NTP服务)
  • 模板方法模式(十六)
  • 机器学习笔记之优化算法(十九)牛顿法与正则化
  • Java面试之单例模式的六种实现方式
  • re正则入门
  • C++ Day5
  • el-element:自定义参数
  • “分布式”与“集群”初学者的技术总结
  • C++day5(静态成员、类的继承、多继承)
  • 2023MySQL+MyBatis知识点整理
  • 【随笔】如何使用阿里云的OSS保存基础的服务器环境
  • 汽车电子笔记之:AUTOSA架构下的多核OS操作系统