当前位置: 首页 > news >正文

大语言模型训练的数据集从哪里来?

继续上篇文章的内容说说大语言模型预训练的数据集从哪里来以及为什么互联网上的数据已经被耗尽这个说法并不专业,再谈谈大语言模型预训练数据集的优化思路。

1. GPT2使用的数据集是WebText,该数据集大概40GB,由OpenAI创建,主要内容爬取自Reddit平台的出站网络链接对应的网站,每个链接要至少有三个赞,以保障数据质量。

2. 但是WebText数据集不公开,仅OpenAI自己能使用,于是OpenWebText数据集(OpenWebText数据集)应运而生,该数据集搜集超过23亿个链接,大于WebText数据集。

3. GPT3的训练使用了Common Crawl、WebText2、维基百科、电子书也以及一些多种来源的网络文本、新闻网站数据集等(纽约时报的新闻大概也被爬取了,所以有了后来的诉讼),大概570GB。

4. 以下是llama开源模型早期版本的预训练数据集来源,来源于多个数据集,大概4.8TB,比GPT3多了Github、ArXiv(开放的学术论文分享平台,Kaggle上也有它的数据集)还有StackExchange。

5. 写到这里可以说明为什么说互联网的数据没有被耗尽:

  •  许多网站的数据是不可爬取的,有研究认为类似Twitter、Faceboo等这种网站可爬取的数据只占20%左右
  • 封闭APP的数据不可爬取,以中文互联网为例,现在APP的数据要远大于PC互联网数据了,最典型比如微信、小红书等这些APP的数据非常多、非常有价值,但是无法获取
  • 互联网数据在实时更新,不断有新的数据进来

6. 进一步,企业的私有数据没有被用来训练。

7. 再进一步,物理世界的许多数据并没有被捕获,比如线下大会的视频如果没有传到网络就无法被纳入训练集。智能汽车将会提供超大量的数据,未来AR眼镜如果能普及将会是一个更大的数据来源。

8. 所以预训练用的数据集其实还可以优化,还有以下思路可以参考:

  • 预训练的数据集来源优化,获取更高质量的数据集
  • 模型训练的时候为了节省资源会对原数据进行压缩降维,如果数据集高质量点但小点,可以给减小压缩空间

参考来源:
大语言模型(LLM)预训练数据集调研分析

大模型训练数据集分析:多样性和挑战-CSDN博客

http://www.lryc.cn/news/519557.html

相关文章:

  • Webpack和Vite的区别
  • 【再谈设计模式】模板方法模式 - 算法骨架的构建者
  • Bytebase 3.1.1 - 可定制的快捷访问首页
  • Java阶段四04
  • B2C API安全警示:爬虫之外,潜藏更大风险挑战
  • OCR文字识别—基于PP-OCR模型实现ONNX C++推理部署
  • 如何播放视频文件
  • MySQL -- 约束
  • php 使用simplexml_load_string转换xml数据格式失败
  • net-http-transport 引发的句柄数(协程)泄漏问题
  • 高级软件工程-复习
  • eslint.config.js和.eslintrc.js有什么区别
  • 如何使用MVC模式设计和实现校园自助点餐系统的微信小程序
  • 继续坚持与共勉
  • 人机交互 | 期末复习(上)| 补档
  • Oracle 表分区简介
  • 多并发发短信处理(头条项目-07)
  • 网络编程的进程查看连接描述符信息等
  • ChatGPT API快速搭建自己的第一个应用—文章摘要(单轮对话应用)
  • 【01】AE特效开发制作特技-Adobe After Effects-AE特效制作快速入门-制作飞机,子弹,爆炸特效以及导出png序列图-优雅草央千澈
  • 软件测试预备知识④—NTFS权限管理、磁盘配额与文件共享
  • CI/CD 流水线
  • 【python3】 sqlite格式的db文件获得所有表和数据
  • 【灵码助力安全3】——利用通义灵码辅助智能合约漏洞检测的尝试
  • openEuler 22.04使用yum源最快速度部署k8s 1.20集群
  • Docker Compose 教程
  • opencv的NLM去噪算法
  • scala基础学习_方法函数
  • Android车机DIY开发之软件篇(八)单独编译
  • 【Bug】报错信息:Required request body is missing(包含五种详细解决方案)