当前位置：首页 > news >正文

LLM-chatgpt训练过程

news 2025/9/12 1:07:25

流程简介

主要包含模型预训练和指令微调两个阶段
- 模型预训练：搜集海量的文本数据，无监督的训练自回归decoder；
  $O_T=P(O_{t<T})$ ，损失函数CE loss
- 指令微调：在输入文本中加入任务提示，
  - 输入 “翻译文本为英文：无监督训练。译文：”，让模型输出 “Non-supervised”
  - 也是一个自回归训练的过程，损失函数和预训练一样，但是输入数据是有范式的。

指令微调

在这里插入图片描述

指令微调一般分成三个阶段
- 从用户那里收集到大量的问题，邀请专业的人士给出高质量的答案，然后用这些数据fine-tune生成模型；
- 让训练过的生成模型基于用户问题给出多次答案，并邀请真人对答案的质量进行打分，这些打分的数据用户训练reward model；
- 生成模型+reward model串起来，就可以自己生成答案，自己评价结果的好坏，不断进行优化。

参考博客

brightliao-ChatGPT 的模型训练

http://www.lryc.cn/news/139759.html

相关文章：

【学习笔记】[ABC274Ex] XOR Sum of Arrays

抖音web频道爬虫

sql中的替换函数replace()总结

vue3 vite使用 monaco-editor 报错

微信小程序获取蓝牙权限

GE 8920-PS-DC安全模块

UG\NX二次开发使用BlockUI设计对话框时，如何设置默认的开发语言？

W5500-EVB-PICO进行UDP组播数据回环测试（九）

24 WEB漏洞-文件上传之WAF绕过及安全修复

Python科研绘图--Task03

ssm端游游戏账号销售管理系统源码和论文

ssm+vue农家乐信息平台源码和论文

安装启动yolo5教程

封装redis 分布式锁 RedisCallback

代码随想录算法训练营第17期第32天 | 122. 买卖股票的最佳时机 II、455.分发饼干、376. 摆动序列、53. 最大子序和

iOS HealthKit 介绍

Windows平台Unity下播放RTSP或RTMP如何开启硬解码？

模板方法模式在JDBCTemplate中的应用

如何在Debian中同步系统时间？Debian 系统时间配置（NTP服务）

模板方法模式(十六)

机器学习笔记之优化算法(十九)牛顿法与正则化

Java面试之单例模式的六种实现方式

el-element：自定义参数

“分布式”与“集群”初学者的技术总结

C++day5（静态成员、类的继承、多继承）

2023MySQL+MyBatis知识点整理

【随笔】如何使用阿里云的OSS保存基础的服务器环境

汽车电子笔记之：AUTOSA架构下的多核OS操作系统