当前位置: 首页 > news >正文

解决容器内deepspeed微调大模型报错

解决容器内deepspeed微调大模型报错:[launch.py:315:sigkill_handler] Killing subprocess

  • 问题描述:
  • 解决办法

问题描述:

在容器中用deepspeed微调百川大模型2时,出现上述错误,错误是由于生成容器时,共享内存没有设置,采用默认值引起的。终端输入ds_report,可以查看shared_memory,(之前是默认63M,现已调整50G)
在这里插入图片描述

解决办法

docker stop 容器名
docker rm 容器名
重新生成容器时加上共享内存参数:–shm-size=1g
例:
docker run -it -d --shm-size=50g --name 容器名–net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash

http://www.lryc.cn/news/197267.html

相关文章:

  • UE 插件模块引用
  • python元组、拆包和装包
  • 1-Docker安装MySQL8.0
  • 配电房智能化改造在加油站等的应用
  • 集准测试-架构真题(五十六)
  • 木与空间的舞蹈:奥地利住宅的独特设计
  • 性能优化-卡顿优化-tarce抓取及分析
  • P5740 【深基7.例9】最厉害的学生
  • Hive引擎MR、Tez、Spark
  • 不写前端代码,curl直接调试sse
  • 百分点科技受邀参加“一带一路”国际合作高峰论坛
  • git学习——第4节 时光机穿梭
  • golang 在 Mac、Linux、Window 下交叉编译
  • 半导体可靠性测试方法都有哪些?
  • 百度智能云发布AI原生应用工作台,为大模型落地五类需求提供最优
  • flutter 手机卡住,需要等待,主线程被占用
  • 微信小程序 onLoad(option) 方法
  • Vue3 实现文件预览 Word Excel pdf 图片 视频等格式 大全!!!!
  • GaussDB for openGauss部署形态
  • 6.MidBook项目经验之前端nuxt优化SEO和手机登录,微信登录
  • NR SRS power control
  • C++(boost):通过boost::process::child同步调用其他程序
  • 【经验分享】解决vscode编码问题
  • 核酸管外观缺陷检测(一)
  • NodeJS @kubernetes/client-node连接到kubernetes集群的方法
  • 【基于Kmeans、Kmeans++和二分K均值算法的图像分割】数据挖掘实验三
  • 深入理解Java CompletableFuture并发编程模型
  • TensorFlow手动加载数据集(以mnist为例)
  • C++项目实战——基于多设计模式下的同步异步日志系统(总集篇)
  • 杨辉三角按列求和