当前位置: 首页 > news >正文

Pytorch多机多卡分布式训练

多机多卡分布式:

多机基本上和单机多卡差不多:

第一台机器(主设备):

torchrun --master_port 6666 --nproc_per_node=8 --nnodes=${nnodes} --node_rank=0  --master_addr=${master_addr}  train_with_multi_machine_and_multi_gpu.py

第二台机器(从设备): 

torchrun --master_port 6666 --nproc_per_node=6 --nnodes=${nnodes} --node_rank=1  --master_addr=${master_addr}  train_with_multi_machine_and_multi_gpu.py

是不是非常简单!! 唯一的区别就是--node_rank的区别,其他一模一样

简单解释一下里面的参数:

--nproc_per_node 指的是每个阶段的进程数,这里第一台8个GPU,第二台6个GPU

--nnodes 节点数,这里是两机,所以是2

--node_rank 节点rank,对于第一台机器是0,第二台机器是1

--master_addr 主节点的ip,这里我填的第一台机器的ip

--master_port 主节点的端口号

http://www.lryc.cn/news/326743.html

相关文章:

  • win11 环境配置 之 Jmeter
  • 蓝桥杯刷题之路径之谜
  • 【深度学习】图片预处理,分辨出模糊图片
  • 基础NLP知识了解
  • Android 性能优化(六):启动优化的详细流程
  • QT程序打包
  • ARMday7作业
  • Unity构建详解(4)——SBP的依赖后处理
  • 使用GO对PostgreSQL进行有意思的多线程压测
  • CI/CI实战-jenkis结合gitlab 4
  • 修复ubuntu引导
  • 11.Notepad++
  • 实现阻塞队列
  • MySQL8.X驱动datetime映射问题
  • 【Selenium】隐藏元素的定位和操作|隐藏与isDisplay方法
  • 视图的作用
  • 动态ip白名单频繁更改问题解决方案
  • 什么是物联网监控平台?部署物联网平台有什么作用?
  • netty构建udp服务器以及发送报文到客户端客户端详细案例
  • Selenium 学习(0.22)——软件测试之小结
  • 贪心算法问题
  • 深入理解 @Transactional 注解在 Spring 中的应用
  • Python爬虫之爬取网页图片
  • AI Agent(LLM Agent)入门解读
  • 自动化面试常见算法题!
  • CCF-CSP真题202206-2《寻宝!大冒险!》
  • Rust编程(三)生命周期与异常处理
  • 【办公类-21-11】 20240327三级育婴师 多个二级文件夹的docx合并成docx有页码,转PDF
  • OSG编程指南<二十一>:OSG视图与相机视点更新设置及OSG宽屏变形
  • Laplace变换-3