当前位置: 首页 > news >正文

scaling laws for neural language models

关于scaling law 的正确认识 - 知乎最近scaling law 成了最大的热词。一般的理解就是,想干大模型,清洗干净数据,然后把数据tokens量堆上来,然后搭建一个海量H100的集群,干就完了。训练模型不需要啥技巧,模型结构也没啥好设计的,对算法精度影响…icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/684955373对于基于transformer的语言模型,假设模型的参数量为N,数据集tokens个数为D(token数),那么模型的计算量C约为6ND,模型的计算量C一定后,模型的性能即精度就基本确定。语言模型的影响因素只有N和D,跟模型的具体结构诸如层数,深度,attention头个数基本无关,相关性非常小,性能在2%的区间内。

scaling laws的前提是标准的transformer结构。

http://www.lryc.cn/news/339267.html

相关文章:

  • 水经微图IOS版5.2.0发布
  • 聚观早报 | 哪吒L上市定档;iPhone 16最新高清渲染图
  • 【C++】手搓 list 容器
  • LinkedList用法详解(Java)
  • 34. 在排序数组中查找元素的第一个和最后一个位置
  • 音乐文件逆向破解
  • xhci 数据结构
  • Go——Goroutine介绍
  • Centos7,部署etcd集群,基于二进制包,https安全通讯
  • 设置MariaDB,创建新库,新用户并授权其可以从任何主机登录
  • 每日一VUE——组件的生命周期
  • Redis中的BigKey
  • MySQL中的存储过程详解(上篇)
  • 面试官:说一说CyclicBarrier的妙用!我:这个没用过...
  • MySQL高可用搭建方案MHA
  • 【vue】用vite创建vue项目
  • 内网渗透-内网环境下的横向移动总结
  • Linux命令学习—linux 的常用命令
  • 【Git教程】(十)版本库之间的依赖 —— 项目与子模块之间的依赖、与子树之间的依赖 ~
  • 最新版IntelliJ IDEA 2024.1安装和配置教程 详细图文解说版安装教程
  • JVM常用参数一
  • 分布式锁-redission可重入锁原理
  • Android Gradle开发与应用 (八) :Kotlin DSL
  • phpstorm 快捷键
  • 浦大喜奔APP8.0智能升级,发力数字金融深化五大金融篇章服务
  • 自然语言处理、大语言模型相关名词整理
  • 移动开发避坑指南——内存泄漏
  • 太好玩了,我用 Python 做了一个 ChatGPT 机器人
  • STM32存储左右互搏 SDIO总线读写SD/MicroSD/TF卡
  • 累积分布函数图(CDF)的介绍、matlab的CDF图绘制方法(附源代码)