当前位置: 首页 > news >正文

大模型训练时间估算

文章目录

  • 开激活重计算
  • 不开激活重计算

开激活重计算

在这里插入图片描述

在这里插入图片描述
GPU利用率一般在 0.3 - 0.55 之间,假定为0.45
4090 理论性能:FP16:82.58 TFLOPS

不开激活重计算

我们来说一下系数8或6是怎么来的:

  • 对于每个模型参数,都进行2次浮点数计算,即计算Y = AB 时,先将元素按位相乘,再按位相加,因此每个参数都需要进行两次浮点数运算。
  • 反向传播的计算量是前向传播时的两倍
    在这里插入图片描述
    个人理解,对每个参数而言,反向传播时需要计
http://www.lryc.cn/news/120945.html

相关文章:

  • 函数的模拟实现
  • CSDN博客批量查询质量分https://yma16.inscode.cc/请求超时问题(设置postman超时时间)(接口提供者设置了nginx超时时间)
  • 什么是 CSRF 攻击?
  • [内网渗透]CFS三层靶机渗透
  • 一百五十一、Kettle——Linux上安装的kettle8.2开启carte服务以及配置子服务器
  • 2023高教社杯数学建模A题 B题C题 D题 E题思路代码分析
  • 从ChatGLM2-6B来看大模型扩展上下文和加速推理相关技术
  • Unity特效总览
  • Unity中人物控制器
  • 零钱兑换-输出组合数
  • Mybatis 小结
  • 【Cartopy】库的安装和瓦片加载(天地图、高德等)
  • TCPDF生成PDF文件,含jpjraph生成雷达图
  • Flink-串讲面试题
  • 如何培养对技术的热爱
  • Vue响应式数据的原理
  • pytest fixture 用于teardown工作
  • 39 printf 的输出到设备层的调试
  • 数字普惠金融、数字创新与经济增长—基于省级面板数据的实证考察(2011-2021年)
  • 控制renderQueue解决NGUI与Unity3D物体渲染顺序问题
  • 概率论与数理统计:第二、三章:一维~n维随机变量及其分布
  • BOLT- 识别和优化热门的基本块
  • Golang 中的 time 包详解(四):函数详解
  • 【前端 | CSS】5种经典布局
  • 腾讯云宣布VPC网络架构重磅升级,可毫秒级感知网络故障并实现自愈
  • vue 路由页面跳转
  • Vue toRefs:在Vue中不失去响应式的情况下解构属性
  • 自定义element-plus的弹框样式
  • Linux:iptables防火墙
  • MongoDB文档-进阶使用-spring-boot整合使用MongoDB---MongoTemplate完成增删改查