当前位置: 首页 > news >正文

deepspeed分布式训练在pytorch 扩展(PyTorch extensions)卡住

错误展示:

Using /root/.cache/torch_extensions/py310_cu121 as PyTorch extensions root...

Using /root/.cache/torch_extensions/py310_cu121 as PyTorch extensions root...

 

错误表现:

出现在多卡训练过程的pytorch 扩展,deepspeed 长时间卡住(1-2小时)

 PyTorch extensions 初次构建需要一定的时间,如果构建失败需要将之前构建的缓存删除,否则就有可能卡住较长的时间

# 跳到用户目录
cd ~
# 展示所有的文件
ls -alh
# 上述步骤可以看到一个.cache的目录,需要删除 .cache 中与torch有关的缓存文件
rm -rf ~/.cache/torch
rm -rf ~/.cache/torch_extensions

重新运行训练脚本,程序work 

http://www.lryc.cn/news/320916.html

相关文章:

  • Rust 的 HashMap
  • exporter方式监控达梦数据库
  • 供应链安全之被忽略的软件质量管理平台安全
  • python入门(二)
  • Mysql,MongoDB,Redis的横纵向对比
  • css3 实现html样式蛇形布局
  • 基于消失点的相机自标定
  • Python:filter过滤器
  • Python函数学习
  • IDEA中的Project工程、Module模块的概念及创建导入
  • 如何快速下载并剪辑B站视频
  • 智慧矿山新趋势:大数据解决方案一览
  • Ubuntu使用Docker部署Nginx容器并结合内网穿透实现公网访问本地服务
  • 面试笔记——Redis(使用场景、面临问题、缓存穿透)
  • 电机学(笔记一)
  • 数值分析复习:Newton插值
  • 金融知识分享系列之:出场信号RSI指标
  • 基于Spring Boot的宿舍管理系统
  • 全量知识系统“全基因序列”程序构想及SmartChat的回复
  • 315晚会曝光主板机产业链,如何应对工作室技术更迭
  • Copilot with GPT-4与文心一言4.0:AI技术的未来
  • 注册-前端部分
  • SpringBoot ApplicationListener实现发布订阅模式
  • 嵌入式学习40-数据结构
  • k8s集群部署elk
  • 【Python】清理conda缓存的常用命令
  • 代码随想录算法训练营第46天 | 完全背包,139.单词拆分
  • rust - 将windows剪贴板的截图保存为png
  • pyflink1.18.0 报错 TypeError: cannot pickle ‘_thread.lock‘ object
  • 算法学习系列(四十一):Flood Fill算法