当前位置: 首页 > news >正文

笔记-分布式计算基础

Distributed Computing

划分

  • 数据并行(DataParallelism)

    image-20250602212512685

    将数据分为n份,发送到n个GPU上,每个GPU上都存在一个完整的大模型

    缺点: 模型太大

  • Pipeline Parallelism(串行的)

    image-20250602212607260

    将模型做split,每个GPU负责一部分,GPU1运行完后将结果发送给GPU2

    缺点:

    1. 不好分割
    2. 分割成差不多的计算量是个大的问题
    3. 速度受限于最慢的GPU模块
    4. 可能会出现许多空闲状态的GPU
  • Tensor Parallelism

    更细化的,在tensor维度上

    image-20250602213308606

    会造成额外的通信

Data Parallelism

parameter server

  • Parameter server

    image-20250602213807371

    分为两个部分

    1. Parameter Server : recieive gradients from workers and send back the aggregated results
    2. workers: compute gradients using splitted dataset and send to parameter server

    这种方式不太适合大模型

  • 步骤

    1. replicate models to workers

      image-20250602214308099

    2. split data to workers

      image-20250602214356800

    3. compute gradient

      image-20250602214427915

    4. Aggregate and synchronize gradient

      image-20250602214541708

    5. Gradient update and update model parameters

      image-20250602214605315

  • All in one picture

    image-20250602214638138

  • Parameter server:代码

    image-20250602214858669

parameter server 通信-Communication:reduce and broadcast

  • one-to-many communication: a type of operations performed across all workers

    image-20250602215147152

    1. Reduce : 类似聚合,但是在聚合过程中进行平均或求和
    2. Broadcast: 向所有的workers发送相同的复制
  • Parameter server 的bottle neck(瓶颈)image-20250602215723394

    parameter server主要起的作用就是同步信息的作用,不希望有类似server的节点:All-Reduce

  • Naive All reduce implementation

    image-20250602220114316

    需要循环,每次传输所有的数据

  • Better All reduce implementation

    image-20250602220225305每个节点只和旁边的节点做交互,也需要循环三次,但每次只传输旁边的一部分

  • 更聪明的方式: Recursive Halving reduce(递归减半规约)

    image-20250602221008971

    同上面的类似,也是临近的workers交换,对于8个worker来说,做了3次的iteration,然后交换间隔是20,21,232^0,2^1,2^320,21,23,这样可以将时间复杂度从O(N)降到O(log⁡N)O(N)降到O(\log N)O(N)降到O(logN)


Zero-1/2/3 and FADP

  • 如果我们训练一个非常大的大模型,那么即使是最好的GPU也没法完全将模型权重完全加载到内存中,然而,训练需要存储梯度和优化器

    image-20250608093818287

    在fp32精度下,如果模型的weight占2bytes,那么其gradients大概也占2bytes左右,如果优化器使用Adam,其optimizer states因为要存储parameters, momentum 和variance,所以大概需要6倍(这个倍数取决于配置,再怎么配置一般也都是weight的三到四倍),即使是使用A100或者H100显卡(80G)来训练,最多也只能训练5.0B的模型

    image-20250608094812014

  • 第一种方式 ZERO-1

    没个GPU存放完整的额weight和gradients,分割optimizer states 到N个不同的GPU卡上,假设N=64,则这时候用80G的显卡,大概能训练19B参数量的模型

    image-20250608095500614

  • 第二种方式ZERO-2

    相比zero-1,除了optimizer states,我们还将gradients也分布在不同的GPU上,假设N=64, 则这时候用80G的显卡,大概能训36B参数量的模型

    image-20250608095720011

  • 第三种方式ZERO-3

    将optimizer states,gradients and weights都分布在不同的GPU上,假设N=64, 则这时候用80G的显卡,大概能训320B参数量的模型

    image-20250608095751984

  • 在pytorch中,ZERO-3等价于FSDP (FullyShardedDataParallel),即所有的参数都做parallelism

    难点在于GPU之间的通信,如何将GPU前后向传播联合起来计算

    image-20250608100006519


Pipeline Parallelism

  • 与数据并行不同,Pipeline直接对模型进行分割

    image-20250608100444827

Naive Implementation

  • 下图表示的是4层网络在训练的时候,使用F代表Forward,B代表Backward,下面图中的(b)Training timeline,其横轴为时间轴,假设这4层网络分别存放在4个GPU上

    image-20250608101502157

    所以计算的顺序为GPU0->GPU1->GPU2->GPU3->GPU3->GPU2->GPU1->GPU0,那么这四个GPU没个都使用了两个时间单元,占有率都是 28=0.25\frac{2}{8}=0.2582=0.25,这意味着其他75%的时间都是空闲的,而且这25%还是在假设没个pipeline的执行时间是一样的情况下,否则这个占有率还可能更低,这个是pipeline并行的一大问题,没有办法很好的利用到GPU的资源

    image-20250608102014445

    同一时间点只有一个设备在计算,其他的都在等待。

Micro-batch

  • 让它多跑一跑不断地将计算给到流水线,如下图,将batch为16的分为4个batch为4的(Micro-batch技术),下图下面的部分,这时候T=14, 那么每个GPU的使用率就是4∗84∗14=47\frac{4*8}{4*14}=\frac{4}{7}41448=74,这样空闲的时间实际上就下降了很多,当然如果再将任务拆解的更小,还可以提升使用

    image-20250608103629478

    注意,红色为空闲时间

    image-20250608103705415

  • 如何提高Pipeline Paralisem的效率?尽量将任务拆解的更小,然后做micro-batch


Tensor Parallelism

  • 在pipeline Parallelism中再做tensor Parallelism,还可以提高pipeline Parallelism的效率

  • tensor并行的核心关键点:如何把运算拆解

    注意,这里后续还需要进行一个类似reduce的操作

    image-20250608104351334

MLP

  • MLP和Self-Attention的tensor并行

    image-20250608104717468

  • partition in First FFN Layer,注意这里用两个GPU设备来举例

    image-20250608104913542

  • partition in Second FFN Layer,注意这里用两个GPU设备来举例

    image-20250608105010845


self-attention

  • 假设这里是用三个GPU来举例 ,每个GPU分别来存储QKV,先在各GPU上分别计算QKV

    image-20250608105337896

    softmax计算

    image-20250608105623292

    计算Z

    image-20250608105705016

    所以tensor parallelism核心是怎么将这些操作设计出来


不同并行方法的总结

  • 总结image-20250608105903210

    Data Oarallelism

    1. 分割数据
    2. copy数据到N的设备上
    3. 高利用率,高内存开销,设备间低通信
    4. 优化:ZeRO 1/2/3,FSDP

    Pipeline Parallelism

    1. 按层分割模型
    2. 低利用率,低内存开销,适中的通信要求

    Tensor Parallelism

    1. 按tensor维度分割模型
    2. 高利用率,低内存开销,高通信要求(有许多all-reduce操作)

3D并行

  • 将上面的三种并行方法都混在一起

    下面的相同的颜色表示同一个server里面的GPU(Model Parallel是Tensor Parallelism)

    image-20250608110829348

    需要注意的是:

    为什么同一个server中用 ModelParallel(Tensor Parallelism)

    因为tensor并行是高通信的,GPU之间需要经常交互,同一个server中交互更快

  • 如何设计并行?

    当模型太大,无法加载到一个GPU上:使用pipeline parallelism来拆分模型

    当layer太大,无法加载到一个GOU上:使用tensor parallelism来拆分layer


带宽:bandwith

  • 通信的时间可能比计算的时间更长,所以我们需要降低通信的开销

    在同一个数据中心,数据通信网络延迟可能是1毫秒到10毫秒,无线wifi连接数据通信延迟是100ms,地球间的通信网络延迟大概是500毫秒到1秒,但是在同一个机架内(同一个GPU集群上)那么延迟1纳秒,非常小

    image-20250608113058999

  • 减小传输的数据大小

    在worker之间,或者在GPU之间,减小传输的数据(gradient,parameters)大小

    1. 梯度剪枝
    2. 量化(会损失精度和信息)

    image-20250608113157955

  • 压缩通信:梯度剪枝

    注意梯度剪枝是一种基于梯度信息的剪枝方法。它通过分析梯度的大小来决定哪些神经元或连接是重要的,哪些可以被移除,区别于梯度裁剪

    image-20250608114020010


KV Cache

http://www.lryc.cn/news/586505.html

相关文章:

  • 容器化改造避坑指南:传统应用迁移K8s的10个关键节点(2025实战复盘)
  • 黑客工具Nessus介绍及其安装使用教程
  • 无法打开windows安全中心解决方案
  • python内置函数 —— zip
  • 【6.1.2 漫画分布式事务技术选型】
  • Pandas 模块数据处理全解析
  • Wwise音频在Unity中内存泄露问题
  • 如何检测自动化设备中的直线导轨品质是否优良?
  • 【从零开始编写数据库:基于Python语言实现数据库ToyDB的ACID特性】
  • 2025Stockapi股票数据接口,股票实时数据,技术指标macd,kdj,cci技术指标算法,集合竞价数据,龙虎榜数据接口
  • 全连接网络 和卷积神经网络
  • 《PyQtGraph例子库:Python数据可视化的宝藏地图》
  • 技术面试问题总结二
  • Python 实战:构建可扩展的命令行插件引擎
  • 希尔排序和选择排序及计数排序的简单介绍
  • C++法则21:避免将#include放在命名空间内部。
  • 20250712-2-Kubernetes 应用程序生命周期管理-部署应用的流程_笔记
  • Java ThreadLocal详解:从原理到实践
  • Arduino 无线通信实战:使用 RadioHead实现 315MHz 433M模块数据传输
  • AV1比特流结构
  • Paimon Lookup 哈希文件和Sort文件选择
  • Claude code在Windows上的配置流程
  • 内存dmp文件太大导致计算机登录异常
  • 「日拱一码」025 机器学习——评价指标
  • 基于SEP3203微处理器的嵌入式最小硬件系统设计
  • 19th Day| 530.二叉搜索树的最小绝对差,501.二叉搜索树中的众数, 236.二叉树的最近公共祖先
  • 电子基石:硬件工程师的器件手册 (五) - 三极管:电流放大的基石与开关的利刃
  • 敏捷开发方法全景解析
  • ABSD(基于架构的软件开发)深度解析:架构驱动的工程范式
  • day051-ansible循环、判断与jinja2模板