当前位置: 首页 > news >正文

各种LLM数据集包括SFT数据集

各种LLM数据集包括SFT数据集

  • 数集介绍和 hf上的名字
  • 对话数据生成方法
  • 交通领域数据集
  • SFT 的解释

数集介绍和 hf上的名字

通用预训练数据集 SFT datasets SFT 数据集 50万条中文ChatGPT指令Belle数据集:BelleGroup/train_0.5M_CN

100万条中文ChatGPT指令Belle数据集:BelleGroup/train_1M_CN

5万条英文ChatGPT指令Alpaca数据集:50k English Stanford Alpaca dataset

2万条中文ChatGPT指令Alpaca数据集:shibing624/alpaca-zh

69万条中文指令Guanaco数据集(Belle50万条+Guanaco19万条):Chinese-Vicuna/guanaco_belle_merge_v1.0

5万条英文ChatGPT多轮对话数据集:RyokoAI/ShareGPT52K

80万条中文ChatGPT多轮对话数据集:BelleGroup/multiturn_chat_0.8M

116万条中文ChatGPT多轮对话数据集:fnlp/moss-002-sft-data

Reward Model datasets 奖励模型数据集 原版的oasst1数据集:OpenAssistant/oasst1

2万条多语言oasst1的reward数据集:tasksource/oasst1_pairwise_rlhf_r

http://www.lryc.cn/news/239359.html

相关文章:

  • Sleuth
  • 新手必看!!附源码!!STM32通用定时器输出PWM
  • 静态文件鉴权
  • 计算机视觉与机器学习D1
  • layui(2.8.18)生成验证码
  • MAX/MSP SDK学习05:A_GIMME方法
  • LangChain: 类似 Flask/FastAPI 之于 Django,LangServe 就是「LangChain 自己的 FastAPI」
  • mmdet全教程
  • 1992-2021年省市县经过矫正的夜间灯光数据(GNLD、VIIRS)
  • Guava的Retryer
  • Docker实践笔记7:构建MySQL 8镜像
  • # 学习 Prolog 和 离散逻辑的16个等价公式:一趟有趣的逻辑之旅
  • Win11+Modelsim SE-64 10.6d搭建UVM环境
  • LeetCode(32)串联所有单词的子串【滑动窗口】【困难】(含图解)
  • 【Delphi】使用TWebBrowser执行JavaScript命令传入JSON参数执行出错解决方案
  • 04 if进阶
  • 2023全球数字贸易创新大赛9-12
  • vue3的两个提示[Vue warn]: 关于组件渲染和函数外部使用
  • Ubuntu环境下基于libxl库文件使用C++实现对表格的操作
  • Sentinel与SpringBoot整合
  • 如何实现数据通过表格批量导入数据库
  • (动手学习深度学习)第13章 计算机视觉---微调
  • 训练跳跃(青蛙跳台阶),剑指offer,力扣
  • Linux中路由route
  • 美国国家安全实验室员工详细数据在网上泄露
  • 一石激起千层浪,有关奥特曼被炒的消息引发了一场热烈的讨论
  • Vue 定义只读数据 readonly
  • [Linux] Network: IPv6 link-local 地址是否可用不自动生成
  • 万字解析:十大排序(直接插入排序+希尔排序+选择排序+堆排序+冒泡排序+快速排序+归并排序+计数排序+基数排序+桶排序)
  • 基于原子轨道搜索算法优化概率神经网络PNN的分类预测 - 附代码