当前位置: 首页 > news >正文

LLaMA:挑战大模型Scaling Law的性能突破

实际问题

在大模型的研发中,通常会有下面一些需求:

  1. 计划训练一个10B的模型,想知道至少需要多大的数据?
  2. 收集到了1T的数据,想知道能训练一个多大的模型?
  3. 老板准备1个月后开发布会,给的资源是100张A100,应该用多少数据训多大的模型效果最好?
  4. 老板对现在10B的模型不满意,想知道扩大到100B模型的效果能提升到多少?

核心结论

大模型的Scaling Law是OpenAI在2020年提出的概念[1],具体如下:

  1. 对于Decoder-only的模型,计算量𝐶(Flops), 模型参数量𝑁, 数据大小𝐷(token数),三者满足: 𝐶≈6𝑁𝐷 。(推导见本文最后)
  2. 模型的最终性能主要与计算量𝐶,模型参数量𝑁和数据大小𝐷三者相关,而与模型的具体结构(层数/深度/宽度)基本无关。

固定模型的总参数量,调整层数/深度/宽度,不同模型的性能差距很小,大部分在2%以内

3. 对于计算量𝐶,模型参数量𝑁和数据大小𝐷

http://www.lryc.cn/news/385902.html

相关文章:

  • vue3 +elementPlus上传照片墙
  • Charles网络抓包工具安装和web抓包(一)
  • mysql workbench使用schema视图导出表和列结构到excel
  • Linux操作系统--软件包管理(保姆级教程)
  • 【uniapp】HBuilderx中uniapp项目运行到微信小程序报错Error: Fail to open IDE
  • Rust详解日志
  • 某麦网自动刷新抢票脚本——手机端(高级版)
  • 【MySQL】(基础篇十八) —— 触发器
  • [19] Opencv_CUDA应用之 基于形状的对象检测与跟踪
  • 【Echarts】散点图 制作 气泡 类型图表
  • 深入理解Spring Boot的启动过程
  • 【深度学习】卷积神经网络CNN
  • 游戏AI的创造思路-技术基础-深度学习(3)
  • 贪心算法练习题(2024/6/24)
  • 大厂程序员上班猝死成常态?
  • 深度学习 —— 1.单一神经元
  • Android 12.0 通知发送过程源码分析-Framework
  • 提防远程攻击:了解正向 Shell 和反向 Shell 确保服务器安全
  • RabbitMQ中CorrelationData 与DeliveryTag的区别
  • 数据恢复篇:如何在Android上恢复删除的短信
  • 花了大几万的踩坑经验!宠物空气净化器哪个牌子好:希喂、小米、有哈PK
  • 查普曼大学团队使用惯性动捕系统制作动画短片
  • vue 代理
  • [leetcode]24-game
  • 网络爬虫的原理
  • 游戏AI的创造思路-技术基础-机器学习(2)
  • 【深度学习】记录为什么没有调用GPU
  • vite 创建vue3项目 集成 ESLint、Prettier、Sass等
  • 计算机系统基础知识(上)
  • [深度学习]循环神经网络RNN