【nvidia-H100-ib排障实战2】:服务器 InfiniBand 网络性能问题深度分析
目录
InfiniBand 网络性能日志:
实际生产服务器 InfiniBand 网络性能问题深度分析
一、核心问题定位:mlx5_1 设备性能异常
二、问题详细分析
1. mlx5_1 设备异常原因推测
(1)硬件连接故障
(2)驱动或固件问题
(3)资源争用或配置错误
2. CPU 频率不一致问题
三、其他设备性能分析
1. 正常设备表现
2. 异常偏高设备:mlx5_10
四、系统性优化建议
1. 硬件层面
2. 软件与配置层面
3. 测试方法改进
五、故障处理优先级建议
InfiniBand 网络性能日志:
test@h3-1-gpu:~/nccl-tests$ nvidia-smi
Mon Jun 23 14:01:32 2025
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.183.01 Driver Version: 535.183.01 CUDA Version: 12.2 |
|-----------------------------------------+----------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp P