npu-smi info 华为昇腾NPU 状态监控工具解读
npu-smi info 用于查询所有设备的基本信息。
命令格式
npu-smi info
参数说明
无
使用指南
- 当设备上未运行进程时,回显信息中会显示“No running processes found in NPU card_id”。
- 本命令只能查询到命令执行场景下所运行的进程。
- 每个芯片上最多显示8个device侧SVM相关的进程信息。
表4-3 部署场景
产品形态 | Linux物理机 | Linux物理机容器 | |
root用户 | 运行用户组(非root用户) | root用户 | |
Atlas 300I 推理卡(型号 3000) | Y | Y | Y |
Atlas 300I 推理卡(型号 3010) | Y | Y | Y |
使用实例
查询所有设备的基本信息。
npu-smi info
+--------------------------------------------------------------------------------------------------------+ | npu-smi 24.1.RC3 Version: 24.1.RC3 | +-------------------------------+-----------------+------------------------------------------------------+ | NPU Name | Health | Power(W) Temp(C) Hugepages-Usage(page) | | Chip Device | Bus-Id | AICore(%) Memory-Usage(MB) | +===============================+=================+======================================================+ | 4 xxx | OK | 12.8 49 229812/ 232892 | | 0 0 | 0000:88:00.0 | 0 854 / 7759 | +-------------------------------+-----------------+------------------------------------------------------+ | 4 xxx | OK | 12.8 51 229912/ 232992 | | 1 1 | 0000:89:00.0 | 0 853 / 7759 | +-------------------------------+-----------------+------------------------------------------------------+ | 4 xxx | OK | 12.8 52 178284/ 181364 | | 2 2 | 0000:8A:00.0 | 0 854 / 7759 | +-------------------------------+-----------------+------------------------------------------------------+ | 4 xxx | OK | 12.8 49 230164/ 233244 | | 3 3 | 0000:8B:00.0 | 0 852 / 7759 | +===============================+=================+======================================================+ +-------------------------------+-----------------+------------------------------------------------------+ | NPU Chip | Process id | Process name | Process memory(MB) | +===============================+=================+======================================================+ | 4 0 | 39193 | hlt_host_devmm_ | 675 | | 4 0 | 39165 | hlt_host_devmm_ | 682 | | 4 0 | 39157 | hlt_host_devmm_ | 681 | | 4 0 | 39177 | hlt_host_devmm_ | 682 | | 4 0 | 39169 | hlt_host_devmm_ | 683 | | 4 0 | 39189 | hlt_host_devmm_ | 681 | | 4 0 | 39209 | hlt_host_devmm_ | 682 | | 4 0 | 39161 | hlt_host_devmm_ | 681 | | 4 1 | 39210 | hlt_host_devmm_ | 683 | | 4 1 | 39182 | hlt_host_devmm_ | 685 | | 4 1 | 39202 | hlt_host_devmm_ | 684 | | 4 1 | 39162 | hlt_host_devmm_ | 682 | | 4 1 | 39154 | hlt_host_devmm_ | 683 | | 4 1 | 39174 | hlt_host_devmm_ | 681 | | 4 1 | 39166 | hlt_host_devmm_ | 685 | | 4 1 | 39186 | hlt_host_devmm_ | 681 | | 4 2 | 39155 | hlt_host_devmm_ | 682 | | 4 2 | 39215 | hlt_host_devmm_ | 683 | | 4 2 | 39167 | hlt_host_devmm_ | 685 | | 4 2 | 39187 | hlt_host_devmm_ | 683 | | 4 2 | 39207 | hlt_host_devmm_ | 682 | | 4 2 | 39159 | hlt_host_devmm_ | 683 | | 4 2 | 39211 | hlt_host_devmm_ | 682 | | 4 2 | 39171 | hlt_host_devmm_ | 681 | | 4 3 | 39160 | hlt_host_devmm_ | 683 | | 4 3 | 39212 | hlt_host_devmm_ | 683 | | 4 3 | 39172 | hlt_host_devmm_ | 682 | | 4 3 | 39192 | hlt_host_devmm_ | 681 | | 4 3 | 39204 | hlt_host_devmm_ | 675 | | 4 3 | 39164 | hlt_host_devmm_ | 682 | | 4 3 | 39216 | hlt_host_devmm_ | 681 | | 4 3 | 39156 | hlt_host_devmm_ | 683 | +===============================+=================+======================================================+
输出说明
表4-4 打印信息说明
字段 | 说明 |
---|---|
npu-smi | npu-smi 工具版本 |
Version | 驱动版本 |
NPU | 设备id |
Name | 芯片名称 |
Health | 芯片的健康状态 有如下五种状态:OK、Warning、Alarm、Critical或UNKNOWN
|
Power(W) | 芯片功率 |
Temp(C) | 芯片温度(单位:°C) |
Hugepages-Usage(page) | 大页内存占比(单位:page),每一个page的大小是2048KB。 |
Chip | 芯片id |
Device | 芯片编号 |
Bus-Id | BUS id |
AICore(%) | AICore占用率 |
Memory-Usage(MB) | 内存占比 |
Process id | 进程id |
Process name | 进程名称 |
Process memory(MB) | 进程占用的内存(单位:MB) |