当前位置: 首页 > news >正文

大语言模型预训练数据——数据采样方法介绍以GPT3为例

大语言模型预训练数据——数据采样方法介绍以GPT3为例

      • 一、数据采样核心逻辑
      • 二、各列数据含义

一、数据采样核心逻辑

这是 GPT - 3 训练时的数据集配置,核心是非等比例采样——不按数据集原始大小分配训练占比,而是人工设定不同数据集在训练中被抽取的概率(Weight in training mix ),让小数据集也能被多次学习,大数据集适当降低重复度,平衡模型学习广度与深度。

GPT-3

二、各列数据含义

  1. Dataset:训练 GPT - 3 用到的数据集,像 Common Crawl 是网页抓取数据,Wikipedia 是维基百科内容,Books1/2 是书籍文本等,覆盖不同来源、不同类型的语料。
  2. Quantity (tokens):每个数据集的token总量 ,比如 Common Crawl (filtered) 有 4100 亿 token,代表该数据集文本转成模型可处理的 token 后,总数量是这么多。
  3. Weight in training mix:训练时,从该数据集抽取样本的概率占比 。比如 Common Crawl 占 60%,意味着每一轮训练选样本,60%的概率从它这里选,和数据集本身大小无严格比例关系,是人为调的“采样权重”。
  4. Epochs elapsed when training for 300B tokens:当整体训练到 3000 亿 token 时,该数据集被“完整过几遍(Epoch )”。计算逻辑是:
    • 先算训练 3000 亿 token 时,从该数据集实际用了多少 token:3000 亿 × 该数据集权重
    • 再用“实际用的 token 量 ÷ 该数据集总 token 量”,得到被训练的轮次(Epoch )。
    • 举个例子,以 Wikipedia 为例:
      • 按权重,训练 3000 亿 token 时,用了 3000 亿×3% = 90 亿 token
      • Wikipedia 总 token 是 30 亿,所以 Epoch = 90 亿÷30 亿 = 3.4 ,即被完整学习约 3.4 遍;同理,Common Crawl 是 3000 亿×60% = 1800 亿 token ,除以 4100 亿总 token,得到约 0.44 轮。

简单说,就是通过“自定义采样权重”打破数据集大小限制,让不同数据按需被模型学习多轮,最终“Epochs”体现的是:在 3000 亿总训练量下,单个数据集被重复学习的次数 ,背后是“权重×总训练量÷数据集自身大小”的计算逻辑。

http://www.lryc.cn/news/580140.html

相关文章:

  • 基于Apache MINA SSHD配置及应用
  • CppCon 2018 学习:OOP is dead, long live Data-oriented design
  • ABP VNext + RediSearch:微服务级全文检索
  • PyCharm 安装使用教程
  • Rust异步爬虫实现与优化
  • 全星 QMS:制造业全面质量管理的数字化全能平台
  • 鸿蒙系统(HarmonyOS)应用开发之手势锁屏密码锁(PatternLock)
  • Jenkins-Publish HTML reports插件
  • 接口测试之postman
  • ZigBee通信技术全解析:从协议栈到底层实现,全方位解读物联网核心无线技术
  • 区块链技术核心组件及应用架构的全面解析
  • 7.4_面试_JAVA_
  • 【PyTorch】PyTorch预训练模型缓存位置迁移,也可拓展应用于其他文件的迁移
  • 基于PHP+MySQL实现(Web)英语学习与测试平台
  • 408第三季part2 - 计算机网络 - 计算机网络基本概念
  • 金融平衡术:创新与合规的突围之路
  • Spark从入门到实战:安装与使用全攻略
  • 使用 DigitalPlat 免费搭配 Cloudflare Tunnel 实现飞牛系统、服务及 SSH 内网穿透教程
  • Java SE--方法的使用
  • Kotlin中优雅的一行行读取文本文件
  • 缓存雪崩、缓存穿透、缓存预热、缓存更新、缓存降级
  • 【笔记】PyCharm 2025.2 EAP 创建 Poetry 和 Hatch 环境的踩坑实录与反馈
  • 三体融合实战:Django+讯飞星火+Colossal-AI的企业级AI系统架构
  • Android WebView 性能优化指南
  • 《Java修仙传:从凡胎到码帝》第三章:缩进之劫与函数峰试炼
  • React Ref使用
  • React中的useState 和useEffect
  • 指环王英文版魔戒再现 Part 1 Chapter 01
  • 力扣 hot100 Day34
  • [Linux]内核态与用户态详解