当前位置: 首页 > news >正文

Docker中Failed to initialize NVML: Unknown Error

参考资料
Docker 中无法使用 GPU 时该怎么办(无法初始化 NVML:未知错误)
SOLVED Docker with GPU: “Failed to initialize NVML: Unknown Error”
解决方案需要的条件:
需要在服务器上docker的admin list之中. 不需要服务器整体的admin权限. 我在创建docker的时候向管理员申请了把握加到docker list当中了. 如果你能够创建docker你就满足这个条件了
问题描述:
在主机上nvidia-smi正常, 但是在docker上报错如标题.
解决: 使用上述方法修改. 但是有一些不同

  1. 我的docker没有/etc/nvidia-container-runtime/config.toml, 于是我自己新建了一个. 注意新建这个文件需要有docker的admin密码(不是服务器主机上docker 命令的管理员密码)
  2. config.toml的内容是从服务器上抄的, 复制如下
disable-require = false
#swarm-resource = "DOCKER_RESOURCE_GPU"
#accept-nvidia-visible-devices-envvar-when-unprivileged = true
#accept-nvidia-visible-devices-as-volume-mounts = false[nvidia-container-cli]
#root = "/run/nvidia/driver"
#path = "/usr/bin/nvidia-container-cli"
environment = []
#debug = "/var/log/nvidia-container-toolkit.log"
#ldcache = "/etc/ld.so.cache"
load-kmods = true
#no-cgroups = false
#user = "root:video"
ldconfig = "@/sbin/ldconfig.real"[nvidia-container-runtime]
#debug = "/var/log/nvidia-container-runtime.log"
log-level = "info"# Specify the runtimes to consider. This list is processed in order and the PATH
# searched for matching executables unless the entry is an absolute path.
runtimes = ["docker-runc","runc",
]mode = "auto"[nvidia-container-runtime.modes.csv]mount-spec-path = "/etc/nvidia-container-runtime/host-files-for-container.d"
  1. 不需要重启docker, 只要重启容器就可以了. 需要服务器docker admin list权限.
    上面的链接当中, 使用命令sudo systemctl restart docker重启docker, 需要服务器admin权限,权限等级比较高. 我只是在docker list 当中.
    我首先执行了sudo docker run --rm --gpus all nvidia/cuda:11.0-base nvidia-smi.

然后再重启我的container.
我使用docker ps -a查看我的container_id, 然后使用docker stop <container_id>关闭我的container, 再使用docker start <container_id>重启

然后就成功了

http://www.lryc.cn/news/214271.html

相关文章:

  • 学习笔记|单样本秩和检验|假设检验摘要|Wilcoxon符号检验|规范表达|《小白爱上SPSS》课程:SPSS第十一讲 | 单样本秩和检验如何做?很轻松!
  • ttkefu在线客服在客户联络领域的价值
  • 创新方案|2023如何用5种新形式重塑疫后实体门店体验
  • Aqua Data Studio 2023.1
  • 【C++智能指针】
  • gcc/g++使用格式+各种选项,预处理/编译(分析树,编译优化,生成目标代码)/汇编/链接过程(函数库,动态链接)
  • OSPF复习(2)
  • FPGA时序分析与约束(9)——主时钟约束
  • sqlite3 关系型数据库语言 SQL 语言
  • spring boot中的多环境配置
  • python3 阿里云api进行巡检发送邮件
  • 【Linux】安装使用Nginx负载均衡,并且部署前端项目
  • k8s中 pod 或节点的资源利用率监控
  • 订水商城实战教程07-搜索
  • stm32内 misc stm32f10x_hd stm32f10x_it stm32f10x_conf关系
  • 树结构及其算法-二叉查找树
  • PHP自定义文件缓存实现
  • 猫耳 Android 播放框架开发实践
  • linux下df -h 命令一直卡住的解决方法
  • 系统架构设计热点知识
  • 2023-在mac下安装Homebrew的国内镜像
  • Ubuntu 20.04设置虚拟内存 (交换内存swap)解决内存不足
  • RabbitMQ-死信交换机和死信队列
  • [HNCTF 2022 WEEK2]easy_include 文件包含遇上nginx
  • python中transform和apply的区别是什么
  • TCP 协议
  • Azure机器学习 - 在 Azure 机器学习中上传、访问和浏览数据
  • 新建包含cuda和cudnn的docker
  • Opensips安装配置(以下操作均已centOS 6.3系统为准)
  • 第03章 用户与权限管理