当前位置: 首页 > news >正文

docker容器运行一段时间提示Failed to initialize NVML: Unknown Error

情况描述

服务器使用docker启动容器。启动以后一切正常也能跑程序。但是,在运行一段时间(2天左右不等),会发现gpu掉了。输入nvidia-smi提示

Failed to initialize NVML: Unknown Error

主要发生条件是,docker启动的时候指定的部分卡。譬如4卡,指定2卡在容器中使用。

当前发现情况基本都是,代码运行完,准备下一次跑的时候,提示这个问题。

解决方案记录

1、如果是容器使用本机所有卡,在启动容器时候添加“--privileged”参数,能够避免上述问题。但是,如果只使用部分卡,则不能添加此参数。

2、【测试中】根据链接所述,发生原因如下,详情见链接。https://github.com/NVIDIA/nvidia-container-toolkit/issues/48

主要首先要确定docker是否使用systemd cgroup进行管理,如果不是这问题导致,大概率后续解决方案无效。运行docker info| grep Cgroup。确认一下。

 $ docker info  ...  Cgroup Driver: systemd  Cgroup Version: 1

如果如上图所示,在/etc/docker/daemon.json里面添加参数,重启docker。

"exec-opts": ["native.cgroupdriver=systemd"]

http://www.lryc.cn/news/464853.html

相关文章:

  • PPT自动化:快速更换PPT图片(如何保留原图片样式等参数更换图片)
  • 秒懂MVC, MVP, MVVM框架
  • IDEA社区版如何用tomcat运行war包
  • 如何使用 Git Cherry-Pick 和 Reset 处理误提交,并确保安全回滚
  • Goland 搭建Gin脚手架
  • Java Spring的高级装配
  • 分布式光伏发电系统电气一次部分设计(开题报告2)
  • 【设计模式-迪米特法则】
  • Webpack安装
  • 前端开发学习(一)VUE框架概述
  • Linux操作系统的背景、发展历程及对比分析
  • gaussdb 基础管理 数据库 表 用户 模式 权限 存储过程
  • i9-11900H+3070laptop+win10下的yolov5配置
  • SpringBoot日常:封装redission starter组件
  • 腾讯云技术深度解析:构建高效云原生应用与数据安全管理
  • ACM与蓝桥杯竞赛指南 基本输入输出格式二
  • 解决SolidWorks装配体无法更改透明度问题
  • 2024_newstar_week1_crypto
  • 6.2 URDF集成Rviz基本流程
  • 双系统一体机电脑无法启动报错“Something has gone serously wrong: SBAT self-check failed: Security Policy Violation”
  • 八股面试2(自用)
  • Leetcode 347 Top K Frequent Elements
  • [Linux网络编程]03-TCP协议
  • Windows和Linux在客户端/服务端在安全攻防方面的区别
  • VUE 仿神州租车-开放平台
  • 计算机的错误计算(一百二十九)
  • process.platform 作用
  • Java项目-基于springboot框架的企业客户信息反馈系统项目实战(附源码+文档)
  • 《深度学习》dlib 人脸应用实例 仿射变换 换脸术
  • springboot044美容院管理系统(论文+源码)_kaic