当前位置: 首页 > news >正文

开发大语言模型需要数据?算法?算力?

开发大语言模型的关键是什么。最近看到不少文章为了流量,甚至连 5G 通讯都说成了是开发大语言模型的关键 

其实从前面的原理介绍,不难看出,大语言模型的其中一个关键点是数据。

关键一:数据​

训练数据主要是所谓的语料库。今天的很多语言模型的语料库主要有以下几种:

  • Books:BookCorpus 是之前小语言模型如 GPT-2 常用的数据集,包括超过 11000 本电子书。主要包括小说和传记,最近更新时间是 2015 年 12 月。大一点的书籍语料库是 Gutenberg,它有 70000 本书,包括小说、散文、戏剧等作品,是目前最大的开源书籍语料库之一,最近更新时间是 2021 年 12 月。
  • CommonCrawl:这个是目前最大的开源网络爬虫数据库,不过这个数据包含了大量脏数据,所以目前常用的四个数据库是 C4、CC-Stories、CC-News 和 RealNews。另外还有两个基于 CommonCrawl 提取的新闻语料库 REALNEWS 和 CC-News。
  • Reddit Links:简单理解 Reddit 就是外国版本的百度贴吧 + 知乎。目前开源的数据库有 OpenWebText 和 PushShift.io。
  • Wikipedia:维基百科是目前大模型广泛使用的语料库。
  • Code:一般包含 GitHub 上的开源公共代码库,或者是
http://www.lryc.cn/news/67116.html

相关文章:

  • CSS选择器的常见用法
  • Oracle EBS修改密码
  • 《花雕学AI》33:如何用XMind制作AI思维导图、鱼骨图和组织结构图
  • 【rust】| 06——语言特性 | 所有权
  • AUTOSAR入门
  • 运维高可用架构的 6 大常规方案
  • Java设计模式-桥接模式
  • 计及N-k安全约束的含光热电站电力系统优化调度模型【IEEE14节点、118节点】(Matlab代码实现)
  • 欧拉函数详解
  • 手把手教你如何将安卓手机数据导入iPhone!【详解】
  • 怎么轻松地搞定Win11系统备份任务?
  • MySQL集群
  • 关于Kerberos认证的一些攻击手法学习总结
  • STL-deque容器
  • ❤ go语言和java语言的优缺点
  • 安全成就未来|Fortinet Accelerate 2023·中国区巡展首站启幕
  • 输入URL到显示界面的整个过程
  • BetaFlight飞控启动运行过程简介
  • 智能汽车实验二(视觉传感器标定)
  • 计算机网络:HTTP
  • Go 语言接口
  • 常用的intellij的快捷键
  • Unity中的`SetPositionAndRotation()`
  • API 接口的使用和功能
  • Vue插件
  • C++好难(5):内存管理
  • vue-admin-template中vue动态路由不显示问题解决
  • IP协议介绍
  • 将一个单体服务重构成微服务
  • SpringBoot项目如何打包成exe应用程序