当前位置: 首页 > news >正文

deepspeed zero3

zero3。它是纵向切分权重(intra-layer,每一层的权重切成n块)。但是这样会增加通讯时间。你可以根据自己的模型,估算下切分后的通讯量和通讯时间。其次,pipeline并行一般指横向切分权重(inter-layer,每一层放在一块卡上,有n层就放n张卡),所以它和zero3的切分不是一个类型的。总结一下,zero3可以帮你切权重,但不是pipeline的那种切法,zero3切分权重后会增加通讯量,进而增加训练时间。

megatron+deepspeed 实现3D并行。效率更高。:megatron提供tp,deepspeed 提供dp和pp。

参考资料:

https://huggingface.co/blog/zh/bloom-megatron-deepspeed

图解大模型训练之:数据并行下篇( DeepSpeed ZeRO,零冗余优化) - 知乎
https://huggingface.co/blog/zh/megatron-training

http://www.lryc.cn/news/113421.html

相关文章:

  • 代驾小程序怎么做
  • 探索 AJAX 技术:实现动态数据交互的前端利器
  • 深度学习Redis(3):主从复制
  • php笔记1
  • 2023 ChinaJoy 圆满闭幕,FairGuard游戏加固亮相 BTOB 展区
  • 数据规约策略
  • 服务器带宽独享跟共享有什么区别103.36.166.x
  • 【cluster_block_exception】写操作elasticsearch索引报错
  • chaitin-Nginx+Docker
  • 具体面试题
  • Logback ThresholdFilter LevelFilter
  • python+django+mysql项目实践二(前端及数据库)
  • Kubernetes高可用集群二进制部署(五)kubelet、kube-proxy、Calico、CoreDNS
  • 拦截器对接口细粒度权限校验
  • 计算机科技历史纵横:8月6日的十大里程碑
  • 知识图谱实战应用23-【知识图谱的高级用法】Neo4j图算法的Cypher查询语句实例
  • C++ 头文件函数大全
  • 智慧物流园区整体架构方案【46页PPT】
  • llama2模型下载
  • C高级【day4】
  • 【前端实习生备战秋招】—HTML 和 CSS面试题总结(一)
  • 【从零学习python 】02. 开发工具介绍
  • Python:Spider爬虫工程化入门到进阶(2)使用Spider Admin Pro管理scrapy爬虫项目
  • CubeMap convert into Octahedral思路
  • vue项目实战-脑图编辑管理系统kitymind百度脑图
  • c++调用ffmpeg api录屏 并进行rtmp推流
  • SQL分类及通用语法数据类型(超详细版)
  • 配置Hive远程服务详细步骤
  • Java中实现图片和Base64的互相转化
  • 视频添加字幕