当前位置: 首页 > news >正文

强化学习常用数据集

强化学习常用数据集

  • 数学推理数据集
    • 数值标签
      • GSM8K(2021 OpenAI)
  • 问答数据集

在LLM场景下进行强化学习训练的时候,时常会涉及到各种各样的数据集,容易记不住,因此开个帖子记录一下。可采取的分类方法有很多,这里直接按照领域和标签的类型进行层次划分。

数学推理数据集

数值标签

GSM8K(2021 OpenAI)

由Openai在2021年提出的,包括约8500个小学数学问题(小学数学词汇水平)。
下载地址:https://huggingface.co/datasets/openai/gsm8k
论文地址:https://arxiv.org/pdf/2110.14168
下面是论文中给出的三个例子,其中红色用<<>>扩起来的是对具体计算过程的注释。
最终的final answer是对于问题最终答案结果的注释。
在这里插入图片描述
但是,在观察实际数据的时候如下:

其中对于计算过程的注释没问题,用:<<>>
对于最终答案的注释,在实际的数据集中:用`#### `后的内容表示

在这里插入图片描述

问答数据集

http://www.lryc.cn/news/617379.html

相关文章:

  • linux 秒 安装谷歌浏览器 区分ubuntu和centos 给python爬取网站使用
  • 提升行车安全的关键技术:BSD(盲点监测)与DSM(驾驶员监测)是如何工作的?
  • 剧本杀小程序系统开发:推动行业数字化转型新动力
  • 【VS Code - Qt】如何基于Docker Linux配置Windows10下的VS Code,开发调试ARM 版的Qt应用程序?
  • AI模型服务接入WAF防火墙
  • 为什么Open WebUI可以不联网问问题,而直接使用Ollama可能需要联网
  • 虚幻GAS底层原理解剖十 (网络)
  • Linux操作系统从入门到实战(二十)进程优先级
  • 汉森(1982)提出的广义矩估计法
  • ResponseBodyAdvice是什么?
  • Agent用户体验设计:人机交互的最佳实践
  • Cobalt Strike的简单搭建与使用
  • ARM基础概念 day51
  • 环境配置-拉取NVIDIA Docker镜像时出现401Unauthorized错误
  • Redis 01 数据结构
  • 第7节 大模型性能评估与优化方法指南
  • Web 开发前端与后端 API 的交互
  • 101. 孤岛的总面积
  • 区块链技术原理(5)-网络
  • 《深度解构:React与Redux构建复杂表单的底层逻辑与实践》
  • (附源码)基于Spring Boot的4S店信息管理系统 的设计与实现
  • 虚拟财产刑事辩护:跨地域性与匿名性带来的挑战
  • 【C/C++】(struct test*)0->b 讲解
  • 从零开始的ReAct Agent尝试
  • HTTPS应用层协议-中间攻击人
  • SharePlay确保最佳游戏体验
  • 前端SVG图标URL编码与嵌入
  • POI导入时相关的EXCEL校验
  • 【数据库】如何使用一款轻量级数据库SqlSugar进行批量更新,以及查看最终的Sql操作语句
  • Flink TableAPI 按分钟统计数据量