当前位置: 首页 > news >正文

[小白系列]GPU-nvidia-smi指令

‌nvidia-smi(NVIDIA System Management Interface)是一种命令行实用程序,用于监控和管理NVIDIA GPU(图形处理器)的状态和性能‌。它提供了一种简单而强大的方式来获取有关GPU的实时信息,并且可以用于诊断、优化和管理GPU资源‌。

显存与GPU

显存使用率和GPU使用率是两个不一样的概念,显卡是由GPU和显存等组成的,显存和GPU的关系有点类似于内存和CPU的关系。

当没有设置好CPU的线程时,Volatile GPU-Util 参数是在反复跳动的,0%,20%,70%,95%,0%。这样停息1-2秒,然后又重复起来。这是因为GPU在等待数据从CPU传输过来,当从总线传输到GPU之后,GPU开始计算,GPU的利用率突然升高。但GPU的算力很强大,所以GPU利用率接下来又会降下来,等待下一个batch的传入。

因此,GPU的利用率瓶颈在内存带宽和内存介质上以及CPU的性能上面。最直接的解决办法,就是更换高频率的内存条,配合更好的CPU。

nvidia-smi

#执行一次

nvidia-smi

# 每秒刷新一次
nvidia-smi -l 1

watch 指令是周期性的执行下一个程序,可以监测一个命令的运行结果,并全屏显示执行结果。
# 每秒刷新一次
watch -n 1 -d nvidia-smi

参数解释:
-n或--interval,指定间隔时间,watch缺省每2秒运行一下程序。
-d或--differences,高亮显示变化的区域。


nvidia-smi 常用的选项包括:

-L, --list-gpus:显示连接到系统的GPU列表。
-B, --list-excluded-gpus:显示系统中排除的GPU列表。
-i, --id:指定目标GPU。
-f, --filename:将输出日志到指定文件,而不是标准输出。
-l, --loop:以指定间隔时间循环查询GPU信息‌2。


nvidia-smi的输出信息


GPU:本机中的GPU编号,从0开始,上图为0,1,2,3四块GPU
Fan:风扇转速(0%-100%),N/A表示没有风扇
Name:GPU名字/类型,上图四块均为NVIDIA GeForce RTX 3080
Temp:GPU温度(GPU温度过高会导致GPU频率下降)
Perf:性能状态,从P0(最大性能)到P12(最小性能),上图均为P2
Pwr:Usager/Cap:GPU功耗,Usage表示用了多少,Cap表示总共多少
Persistence-M:持续模式状态,持续模式耗能大,但在新的GPU应用启动时花费时间更少,上图均为On
Bus-Id:GPU总线
Disp.A:Display Active,表示GPU是否初始化
Memory-Usage:显存使用率
Volatile GPU-UTil:GPU使用率,与显存使用率的区别可参考显存与GPU
Uncorr. ECC:是否开启错误检查和纠错技术,0/DISABLED,1/ENABLED,上图均为N/A
Compute M:计算模式,0/DEFAULT,1/EXCLUSIVE_PROCESS,2/PROHIBITED,上图均为Default
Processes:显示每个进程占用的显存使用率、进程号、占用的哪个GPU

高级功能和技巧


nvidia-smi可以通过不同的选项来查询更详细的信息或执行特定操作

nvidia-smi -q --unit=temperature:查询所有GPU的温度信息。
nvidia-smi -L:列出所有连接的GPU。
nvidia-smi -i 0 -q:查询编号为0的GPU的详细信息。

参考

linux: nvidia-smi用法详解-CSDN博客

https://www.cnblogs.com/freedom-w/articles/17867561.html

nvidia-smi命令详解 - 猴子吃桃_Q - 博客园

参考:

nvidia-smi指令解读_nividia -sim-CSDN博客

http://www.lryc.cn/news/502690.html

相关文章:

  • 在SQL Server中使用hash join来提高表连接的性能
  • 《Django 5 By Example》阅读笔记:p493-p520
  • 【开源】基于SpringBoot框架的网上订餐系统 (计算机毕业设计)+万字毕业论文 T018
  • 数据湖治理最佳实践
  • 基于php求职招聘系统设计
  • ensp实验-vrrp多网关配置
  • Ajax--实现检测用户名是否存在功能
  • 【代码pycharm】动手学深度学习v2-09 Softmax 回归 + 损失函数 + 图片分类数据集
  • 设计模式:24、访问者模式
  • 基于JAVA的旅游网站系统设计
  • 网络安全产品之认识防火墙
  • nginx反向代理(负载均衡)和tomcat介绍
  • Microsoft Azure 在线技术公开课:生成式 AI 基础知识
  • lnmp+discuz论坛 附实验:搭建discuz论坛
  • 谷粒商城—分布式高级①.md
  • Unity开发配置不足,卡顿崩溃怎么办?
  • 在 Linux 上以 All-in-One 模式安装 kubernetes v1.22.12 kubesphere v3.4.1
  • 网络安全自学是一项需要耐心和恒心的任务
  • Python+OpenCV系列:图像的几何变换
  • 第P1周:Pytorch实现mnist手写数字识别
  • 使用EventLog Analyzer进行Apache日志监控和日志分析
  • PaddleOCR模型ch_PP-OCRv3文本检测模型研究(二)颈部网络
  • 360极速浏览器不支持看PDF
  • 【深度学习】深刻理解ViT
  • 解决vue2中更新列表数据,页面dom没有重新渲染的问题
  • vscode通过ssh连接远程服务器(实习心得)
  • 知识图谱9:知识图谱的展示
  • leetcode 面试经典 150 题:验证回文串
  • 【0363】Postgres内核 从 XLogReaderState readBuf 解析 XLOG Record( 8 )
  • docker tdengine windows快速体验