当前位置: 首页 > news >正文

流水线并行举例说明;GPU 的细粒度问题

GPU 的细粒度与模型并行和流水线并行关系

使用模型并行和流水线并行之后会涉及到一个模型切分细粒度的问题,先切分多头(并行执行),每一个多头在切分不同阶段(串行执行)。这种情况下GPU的细粒度是多少

在这种模型并行和流水线并行结合且按多头和阶段切分的情况下,GPU 的细粒度会因模型结构和具体的切分策略而有所不同。

以一个具有 8 个头的多头注意力机制的 Transformer 层为例,假设使用 4 个 GPU 进行模型并行和流水线并行。

首先进行多头切分,将 8 个头平均分配到 4 个 GPU 上,每个 GPU 负责 2 个头的计算,这就是**多头切分的粒度。**此时每个 GPU 在这一步的计算相对独立,但在后续可能需要进行一些信息汇总或交互。

然后对于每个头所对应的计算阶段(比如计算注意力权重、进行线性变换等阶段),进一步在每个 GPU 内部进行流水线切分。假设每个头的计算分为 3 个阶段,在每个 GPU 上这 3 个阶段就形成了一个小的流水线。

例如,在第一个 GPU 上,对于它负责的 2 个头,首先头 1 的第一阶段计算开始

http://www.lryc.cn/news/513018.html

相关文章:

  • 如何确保Kafka集群的高可用?
  • 计算机毕业设计Python+Spark考研预测系统 考研推荐系统 考研数据分析 考研大数据 大数据毕业设计 大数据毕设
  • Oracle SqlPlus常用命令简介
  • 8.若依系统监控与定时任务
  • 《计算机组成及汇编语言原理》阅读笔记:p160-p176
  • TCP网络编程(三)—— 客户端的编写/服务器端和客户端的通信
  • 如何在谷歌浏览器中使用自定义模板
  • Day2 微服务 网关路由转发、网关登录校验、配置管理
  • Android 旋转盘导航栏
  • 空域降噪、频域降噪和时域降噪
  • Cornerstone3D:了解Nifti文件,并查看元数据
  • 设计模式の状态策略责任链模式
  • DevOps流程CICD之Jenkins使用操作
  • 【玩转23种Java设计模式】行为型模式篇:备忘录模式
  • Unity Shader TexelSize的意义
  • 三、STM32MP257系列之定制Yocto Machine
  • 小程序信息收集(小迪网络安全笔记~
  • 使用 Docker 搭建 Drogon 框架
  • 【Linux报告】实训一:GNME桌面环境的设置及应用
  • 活动预告 |【Part1】Microsoft Azure 在线技术公开课:基础知识
  • vulnhub靶场【Hogwarts】之bellatrix
  • 移动 APP 设计规范参考
  • HarmonyOS:@Require装饰器:校验构造传参
  • github提交不上去,网络超时问题解决
  • 国产数据库OceanBase从入门到放弃教程
  • 风力涡轮机缺陷检测数据集,91.4%准确识别率,18912张图片,支持yolo,PASICAL VOC XML,COCO JSON格式的标注
  • Rabbitmq追问2
  • 郑州时空-TMS运输管理系统 GetDataBase 信息泄露漏洞复现
  • 如何使用React,透传各类组件能力/属性?
  • 汇编点灯练习