当前位置: 首页 > news >正文

深度学习中常用概念总结

最近在做深度学习,里面涉及到很多概念,有的名称都差不多容易记混。所以写这篇文章总结一下。眼过千遍不如手过一遍。

1. 轮数(Epochs):
    一轮(Epoch)指的是整个训练数据集在训练过程中被完整使用一次。每个 Epoch 包含多个批次(batches),在每个 Epoch 结束后,模型通常会在验证集上进行评估。

2. 步数(Steps):
    步数(Steps)通常指的是训练过程中的迭代次数。在每个 Step 中,模型进行一次前向传播和后向传播。

3. 批处理大小(Batch Size):
     批处理大小(Batch Size)是指每次迭代中用于训练的样本数量。它影响计算资源的利用和模型训练的稳定性。

4. 微批处理大小(Micro-batch-size):
     微批处理大小是在模型并行或流水线并行中使用的概念,指的是在每个 GPU 或每个并行阶段中处理的批次大小。它是批处理大小的进一步划分。

5. 学习率(Learning Rate):
    学习率是优化算法中用于调整模型权重的步长。它决定了在每次迭代中参数更新的幅度。

6. 训练吞吐量:
     训练吞吐量指模型训练过程中单位时间内能够处理的数据量,通常以样本/秒或批次/秒来衡量。

7. 加速器内存(Accelerator Memory):
    加速器内存是专用于支持 GPU 或 TPU 等硬件加速器的高性能计算任务的内存,用于存储模型参数、中间计算结果等。

8. 词大小(Word-size):
    在深度学习中,词大小通常指的是模型中词嵌入(Word Embedding)的维度,即表示每个词的向量的长度。

9. 数据并行(Data Parallel):
    数据并行是一种并行化技术,通过将数据集分割成多个批次分配到多个处理器上同时训练,以此来加速训练过程。

10. 上下文并行大小(Context Parallel Size):
     上下文并行大小可能是指在使用特定深度学习框架时,如 Megatron-LM 中的设置,用于控制跨多个 GPU 分配模型的不同部分的方式。

11. 张量模型并行大小(Tensor Model Parallel Size):
      张量模型并行大小是指在模型并行中,模型的张量如何分配到不同的处理器上。它决定了模型的哪一部分将在不同的 GPU 上计算。

12. 管道模型并行大小(Pipeline Model Parallel Size):
      管道模型并行大小是指将模型分成多个阶段,每个阶段可以并行处理不同的数据微批次,从而提高计算效率和资源利用率。
 

http://www.lryc.cn/news/424798.html

相关文章:

  • 进 程
  • Taro-UI
  • TypeScript 之 JavaScript文件类型检查
  • 基本数据类型变量间的自动提升与强制转换以及进制的转换
  • SparseConv 的学习笔记
  • vscode 快速生成vue 格式
  • react笔记:redux
  • 数据结构与算法--图的应用
  • 【leetcode图文详解】特殊数组II : 空间换时间的“记忆化”,越多越好吗?
  • 离线安装prometheus与Grafana实现可视化监控
  • 【Python学习-UI界面】PyQt5 小部件7-QSpinBox 计数器
  • [二次元]个人主页搭建
  • Spring Data JPA 自动创建时间的相关注解和用法
  • Java基础之隐式类型转换
  • 【数据结构与算法 | 图篇】Dijkstra算法(单源最短路径算法)
  • windows c转linux c要做的事情。
  • 【高等代数笔记】002.高等代数研究对象(二)
  • ubuntu服务器部署的mysql本地连不上的问题
  • python redis安装
  • YJ0043定制版抖音电商卷抢购系统带回收商城抖音电商优惠卷投资理财系统
  • 如何选择图片和视频
  • html+css网页制作 电商华为商城首页 ui还原度100%
  • EDAS(企业级应用服务)
  • 简单工厂,工厂方法 和 抽象工厂
  • python 压力测试脚本
  • 【Linux】多线程7——线程池
  • Linux Shell实例
  • Linux~MySQL数据库具体操作
  • Unity WebGL平台Hybrid Generate All报错undefined symbol sendfile
  • Java高级Day28-多线程