当前位置: 首页 > news >正文

GPT-4o微调SFT及强化学习DPO数据集构建

假设,已经标注的训练数据集df包含了提示词、输入和输出三列。

构建微调SFT的数据集代码如下:

data = []
for x in df.values:prompt = x[1]user_content = x[2]assistant_content = x[3]data.append({"messages": [{"role": "system", "content": prompt}, {"role": "user", "content": user_content},{"role": "assistant", "content": assistant_content}]})
data[0]import json# 将数据写入.jsonl文件
with open('sft_train.jsonl', 'w') as f:for item in data:json.dump(item, f)f.write('\n')  # 每行一个JSON对象

假设,已经标注的强化学习数据集df包含用户输入、首选输出、次选输出三列。

构建强化学习DPO的数据集代码如下:

dpo_data = []
for x in sft_df.values:user_content = x[1]preferred_output = x[2]non_preferred_output = x[3]dpo_data.append({"input": {"messages": [{"role": "user", "content": user_content}],"tools": [], "parallel_tool_calls": True }, "preferred_output": [{"role": "assistant", "content": preferred_output}], "non_preferred_output": [{"role": "assistant", "content": non_preferred_output}]})
dpo_data[0]import json
with open('dpo_train.jsonl', 'w') as f:for item in dpo_data:json.dump(item, f)f.write('\n')  # 每行一个JSON对象

注意:强化学习DPO通常在微调SFT的模型上进行。

http://www.lryc.cn/news/535815.html

相关文章:

  • element-plus 解决el-dialog背后的页面滚动问题,及其内容有下拉框出现错位问题
  • MT6835 21位 磁编码器 SPI 平台无关通用驱动框架 STM32
  • vue REF 和 Reactive区别、特点、优势
  • Elastic Cloud Serverless 现已在 Microsoft Azure 上提供技术预览版
  • Spring Boot + MyBatis Field ‘xxx‘ doesn‘t have a default value 问题排查与解决
  • kafka的架构和工作原理
  • 游戏引擎学习第100天
  • 机器学习:朴素贝叶斯分类器
  • 打开Visual Studio Code的时候发现未检测到适用于linux的windows子系统,那么该问题要如何解决?
  • 力扣24题——两两交换链表中节点
  • android launcher拖动图标释放错位
  • window ssh免密码输入
  • 2024年博客之星年度评选—主题文章创作评审文章得分公布
  • vscode插件Remote - SSH使用教程
  • 自学人工智能大模型,满足7B模型的训练和微调以及推理,预算3万,如何选购电脑
  • github不翻墙就可以访问
  • 十大知识领域中涉及到的工具与技术(三)
  • 在nodejs中使用RabbitMQ(三)Routing、Topics、Headers
  • 设计模式全解(含代码实例)
  • springboot019-爬虫基于网页开发和数据抓取技术的在线新闻聚合平台的设计与实现
  • #渗透测试#批量漏洞挖掘#LiveBos UploadFile 任意文件上传漏洞
  • 【分布式架构理论3】分布式调用(1):负载均衡
  • 如何安装和运行Zonos:详细步骤指南
  • docker学习---第3步:docker实操大模型
  • 记录第一次在windows环境编译libuvc库 踩的坑
  • 快速集成DeepSeek到项目
  • 基础连接已经关闭: 服务器关闭了本应保持活动状态的连接
  • [前端] axios网络请求二次封装
  • 本地部署DeepSeek Nodejs版
  • 【PL/SQL】常用操作复习20250212