当前位置: 首页 > news >正文

pytorch 多卡分布式训练 调用all_gather_object 出现阻塞等待死锁的问题

pytorch 多卡分布式训练

torch._C._distributed_c10d中的函数all_gather_object 出现阻塞等待死锁的问题

解决办法就是 在进程通信之前调用torch.cuda.set_device(local_rank)

For NCCL-based processed groups, internal tensor representations of objects must be moved to the GPU device before communication takes place. In this case, the device used is given by torch.cuda.current_device() and it is the user’s responsiblity to ensure that this is set so that each rank has an individual GPU, via torch.cuda.set_device().

http://www.lryc.cn/news/164756.html

相关文章:

  • SpringMvc增删改查
  • 【计算机网络】网络编程接口 Socket API 解读(5)
  • 手动实现一个bind函数!
  • 数据结构-时间复杂度/空间复杂度
  • 英语写作中“展示”、“表明”demonstrate、show、indicate、illustrate的用法
  • Redis的java客户端
  • Android环境配置笔记
  • element-table 行的拖拽更改顺序(无需下载sortableJs
  • Docker部署jenkins
  • 从0到1学会Git(第三部分):Git的远程仓库链接与操作
  • 虚拟机Ubuntu操作系统常用终端命令(1)(详细解释+详细演示)
  • redis实战-redis实现异步秒杀优化
  • Python爬虫-IP隐藏技术与代理爬取
  • 二刷力扣--链表
  • 返回值加const ,为了不拷贝得到成员的值,但被赋值的左值也要const
  • 本地如何使用HTTPS进行调试
  • 观察者模式:对象之间的订阅机制
  • 【1462. 课程表 IV】
  • Kerberos 身份验证
  • R语言贝叶斯METROPOLIS-HASTINGS GIBBS 吉布斯采样器估计变点指数分布分析泊松过程车站等待时间...
  • 通付盾入选2023年度“上市苗圃工程”重点企业
  • SpringMVC之文件上传下载
  • 嵌入式IDE(2):KEIL中SCF分散加载链接文件详解和实例分析
  • Linux防火墙常用操作及端口开放
  • [JAVAee]Linux上的javax.mail报错
  • 开学季|校园迎新哪家强?VR全景来导航
  • el-checkbox-group限制勾选数量
  • 【JavaScript】WebAPI入门到实战
  • 奥康的高尔夫鞋,圈不住投资者的心
  • vue2配置环境变量并且nginx运行成功