当前位置: 首页 > news >正文

PyTorch中DistributedDataParallel使用笔记

1. 基本概念

在使用DistributedDataParallel时有一些概率必须掌握

多机多卡含义
world_size代表有几台机器,可以理解为几台服务器
rank第几台机器,即第几个服务器
local_rank某台机器中的第几块GPU
单机多卡含义
world_size代表机器一共有几块GPU
rank第几块GPU
local_rank第几块GPU,与rank相同

2. 使用方法

2.1. 修改主函数

在运行的时候,DistributedDataParallel会往你的程序中加入一个参数local_rank,所以要现在你的代码中解析这个参数,如:

parser.add_argument("--local_rank", type=int, default=1, help="number of cpu threads to use during batch generation")

2.2. 初始化

torch.distributed.init_process_group(backend="nccl")os.environ["CUDA_VISIBLE_DEVICES"] = "0, 1, 2"  # 有几块GPU写多少

2.3. 设定device

local_rank = torch.distributed.get_rank()
torch.cuda.set_device(local_rank)
global device
device = torch.device("cuda", local_rank)

我没用arg.local_rank,新定义了一个local_rank变量,是因为我更信任distributed.get_rank()这个函数
这里用torch.device来写,并且加了global,是因为后面模型和数据都要用到这个device,不会出错

2.4. 模型加载到多gpu

model.to(device)  # 这句不能少,最好不要用model.cuda()
model = torch.nn.parallel.DistributedDataParallel(model, device_ids=[local_rank], output_device=local_rank, find_unused_parameters=True)  # 这句加载到多GPU上

2.5. 数据加载到gpu

数据.to(device)

2.6. 启动

torchrun --nproc_per_node=4 --rdzv_endpoint=localhost:12345 train_cylinder_asym.py

参考文献

Pytorch并行计算(二): DistributedDataParallel介绍_dist.barrier_harry_tea的博客-CSDN博客

DistributedDataParallel多GPU分布式训练全过程总结 跟着做90%成功_BRiAq的博客-CSDN博客 

http://www.lryc.cn/news/172758.html

相关文章:

  • 前端面试的话术集锦第 18 篇博文——高频考点(HTTP协议 TLS协议)
  • SQL Server 数据库变成单个用户怎么办
  • 错过成考报名,今年你还有这两种方式升学!
  • 【2023】从事务的特征以及解决方式上分析MySQL是如何保证事务的
  • MTR 网络连通性测试工具 基础入门 整理
  • Linux安装mysql数据库并实现主从搭建
  • windows使用小技巧之windows照片查看器无法显示此图片
  • ez_pz_hackover_2016
  • 解决方案| anyRTC远程检修应用场景
  • IC芯片测试:如何对芯片静态功耗进行测试?
  • Redis面试二“缓存击穿是什么”
  • python使用apscheduler每隔一段时间自动化运行程序
  • 2023 Sui Builder House全球之旅圆满收官
  • OpenCV自学笔记二十三:K近邻算法
  • ChatGLM-中英对话大模型-6B试用说明
  • 小白入门pytorch(一)
  • 【STM32笔记】HAL库I2C通信配置、读写操作及通用函数定义
  • Direct3D模板缓存
  • 在windows上执行ssh-keygen报错Bad permissions
  • 给Proxmox VE 虚拟机分配巨大分区惹麻烦
  • 数学建模——统计回归模型
  • C++【个人笔记1】
  • 博通强迫三星签不平等长约,被韩处罚1亿元 | 百能云芯
  • 版本控制 Sourcetree
  • 题目 1059: 二级C语言-等差数列
  • HarmonyOS 如何使用异步并发能力进行开发
  • 时间格式化时候HH和hh的区别
  • aliyunoss上传图片
  • 动手吧,vue数字动画
  • Android12之仿Codec2.0实现传递编解码器组件本质(四十六)