当前位置: 首页 > news >正文

训练一个ChatGPT需要多少数据?

“风很大”的ChatGPT正在席卷全球。作为OpenAI在去年底才刚刚推出的机器人对话模型,ChatGPT在内容创作、客服机器人、游戏、社交等领域的落地应用正在被广泛看好。这也为与之相关的算力、数据标注、自然语言处理等技术开发带来了新的动力。

自OpenAI发布ChatGPT以来,出色的性能引发了全世界热爱AI的人们竞相围观使用。在官方描述中,ChatGPT是一个“可以连续回答问题、承认自己的错误、挑战不正确的前提并拒绝不适当的要求”的对话模型。它的应用场景十分广泛,包括问答系统、客服机器人、语音助手等等,亦可扩展到小说文本生成、搜索引擎等领域。

▲ 如果让ChatGPT写一首贬低自己的诗

在产业链的数据环节,ChatGPT的爆火也激发了行业对于多轮对话标注的新需求。澳鹏Appen MatrixGo平台的多轮对话标注工具便是针对训练ChatGPT这样的高质量对话模型而研发。

ChatGPT与数据训练

ChatGPT & Data Annotation

ChatGPT本质上是一个多轮聊天机器人,它具有自然语言理解(NLP)和文本生成能力,可以根据上下文内容与用户进行互动。基于预训练语言模型及其强大的语言理解和生成能力,ChatGPT通过在人工标注和反馈的大规模数据上进行学习,使模型能够更好地理解人类的问题并给出更好的回复。

聊天机器人的产生离不开大量的训练语料,ChatGPT的前身GPT-3就使用了3,000亿单词、超过40T的大规模、高质量数据进行训练。ChatGPT在其基础上,加入了人工打标的监督学习,即对话式模型给出结果后,由训练师对结果做出评价并修改结果以更贴切对话内容。

▲ 多轮对话标注工具

工具操作步骤

Steps for Training

Step 1:标注人员选择主题后发起对话

Step 2:机器人生成文本回应上述对话内容

Step 3:标注人员对生成的文本进行评价和修改

Step 4:重复以上流程

http://www.lryc.cn/news/17372.html

相关文章:

  • 【GlobalMapper精品教程】053:打开dbf文件并生成有坐标系的shp数据
  • 图像亮度调整
  • 精简版SDL落地实践
  • 第一回:Matplotlib初相识
  • 怎么找回电脑删除的图片
  • 【Linux】进程状态与进程优先级
  • Python+Qt生日提醒
  • 第二章 编写MBR主引导记录
  • Android 9.0 仿ios的hotseat效果修改hotseat样式
  • 量化私募投资百亿头部量化私募企业在招岗位:AI算法工程师21/22/23届,校招/秋招/社招都看年base60-200万
  • 百度西交大大数据菁英班目标检测竞赛
  • Redisson实现分布式锁
  • 【HID基础知识】
  • 工赋开发者社区 | 工业数字孪生:西门子工业网络与设备虚拟调试案例(TIA+MCD+SINETPLAN)
  • 将闲置的Ipad作为Windows的副屏(Twomon SE)
  • 浮点数在内存中的存储——“C”
  • 华为OD机试 C++ 实现 - 租车骑绿岛
  • Spring Cloud Nacos源码讲解(三)- Nacos客户端实例注册源码分析
  • 位运算(C/C++)
  • 哈希表题目:设计哈希映射
  • ​力扣解法汇总1238. 循环码排列
  • [数据结构]时间复杂度与空间复杂度
  • Codeforces Round #848 (Div. 2)(A~D)
  • 第十三届蓝桥杯Java B 组国赛 C 题——左移右移(AC)
  • 第14篇:系列二—Java抽象类/接口/枚举
  • 深入浅出C++ ——哈希
  • Tina_Linux_系统裁剪_开发指南
  • 算法刷题打卡第99天:至少在两个数组中出现的值
  • 线程池面试题
  • 【学习笔记】NOIP爆零赛5