当前位置: 首页 > news >正文

【开源训练数据集1】神经语言程式(NLP)项目的15 个开源训练数据集

一个聊天机器人需要大量的训练数据,以便在无需人工干预的情况下快速解决用户的询问。然而,聊天机器人开发的主要瓶颈是获取现实的、面向任务的对话数据来训练这些基于机器学习的系统。

我们整理了训练聊天机器人所需的对话数据集,包括问答数据客户支持数据对话数据多语言数据

用于聊天机器人训练的问答数据集

问题-答案数据集:该语料库包括维基百科文章、从中手动生成的事实问题以及这些问题的手动生成的答案,用于学术研究。

WikiQA 语料库:一组公开可用的问题和句子对,为开放域问答研究而收集和注释。为了反映一般用户的真实信息需求,他们使用Bing查询日志作为问题来源。每个问题都链接到可能有答案的维基百科页面。

雅虎语言数据:此页面包含来自雅虎雅虎问答的手动策划的 QA 数据集。

TREC QA Collection:TREC 自 1999 年以来就有了问答轨道。在每个轨道中,任务都被定义为系统要检索包含开放域、封闭类问题答案的小文本片段。

http://www.lryc.cn/news/301846.html

相关文章:

  • 【AIGC】Stable Diffusion的ControlNet参数入门
  • 静态curl库编译与使用(c++)
  • element 表单提交图片(表单上传图片)
  • Android 15 第一个开发者预览版
  • anomalib1.0学习纪实-续1:增加新算法
  • Java+Vue+MySQL,国产动漫网站全栈升级
  • 机器人常用传感器分类及一般性要求
  • C++-opencv的imread、imshow、waitkey、namedWindow
  • 开源语音识别faster-whisper部署教程
  • 使用IntelliJ IDEA配置Maven (入门)
  • 汽车金融市场研究:预计2029年将达到482亿美元
  • 关于举办第十五届蓝桥杯大赛电子赛5G全网规划与建设赛项的通知
  • Vue3快速上手(七) ref和reactive对比
  • 8、内网安全-横向移动RDPKerberos攻击SPN扫描WinRMWinRS
  • 《数据结构与算法之美》读书笔记
  • C语言—字符数组(3)
  • linux 实用技能
  • 【maya 入门笔记】基本视图和拓扑
  • IO 流分类
  • JVM的主要组成部分,以及它们的作用。JVM中的内存区域有哪些,它们各自的作用是什么?什么是Java的堆内存,它如何影响程序的性能?
  • Qt QWidget以及各种控件、布局 核心属性(适合入门使用时查询)
  • svg图片构造QGraphicsSvgItem对象耗时很长的问题解决
  • 边坡位移监测设备:守护工程安全的前沿科技
  • Qt使用单例模式读取xml文件
  • 备战蓝桥杯 Day6(学习动态规划)
  • 【uniapp】自定义步骤条样式
  • UE5 C++ UObject实例化
  • Appium环境安装与架构介绍
  • Vue+Vite项目初建(axios+Unocss+iconify)
  • ASUS华硕枪神8笔记本电脑G614JIR,G814JVR,G634JYR,G834JZR工厂模式出厂Windows11系统 带重置还原功能