当前位置: 首页 > news >正文

监控篇之利用dcgm-exporter监控GPU指标并集成grafana大盘

一、应用场景

当环境中包含GPU节点时,需要了解GPU应用使用节点GPU资源的情况,例如GPU利用率、显存使用量、GPU运行的温度、GPU的功率等。
在获取GPU监控指标后,用户可根据应用的GPU指标配置弹性伸缩策略,或者根据GPU指标设置告警规则。
下文是基于开源Prometheus和DCGM Exporter实现丰富的GPU观测场景

二、采集GPU监控指标

部署dcgm-exporter组件进行GPU指标的采集,同时以9400端口对外暴露GPU指标。
该文利用docker进行gpu监控部署

docker pull nvcr.io/nvidia/k8s/dcgm-exporter:3.0.4-3.0.0-ubuntu20.04

1. 安装 NVIDIA Container Toolkit

确定您的 Linux 发行版和版本:

distribution=$(. /etc/os-release;echo $ID$VERSION_ID)

添加 NVIDIA Container Toolkit 的 GPG 密钥:

curl -s -L https://nvidia.github.io/nvidia-container-toolkit/gpgkey | sudo apt-key add -

添加 NVIDIA Container Toolkit 的 APT 软件源:

curl -s -L https://nvidia.github.io/nvidia-container-toolkit/ubuntu${distribution}/nvidia-container-toolkit.list | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

更新您的 yum软件包列表并安装 NVIDIA Container Toolkit:

yum update
yum install -y libseccomp
yum install -y nvidia-container-toolkit

安装完成之后执行如下验证是否安装成功:

rpm -qa | grep nvidia

2. 启动dcgm-exporter容器

运行带有 GPU 支持的容器:

sudo docker run -d --gpus all -p 9400:9400 --restart=always nvcr.io/nvidia/k8s/dcgm-exporter:3.0.4-3.0.0-ubuntu20.04

3. 测试dcgm-exporter的metrics指标

调用dcgm-exporter接口,验证采集的应用GPU信息。
例如:IP地址为:192.168.0.10

curl 192.168.0.10:9400/metrics

4. 集成prometheus

修改监控内容

sudo vim /etc/prometheus/prometheus.yml

添加以下代码

  - job_name: 'gpu_metrics'static_configs:- targets: ['gpu_exporter_host:9400']

格式如下
在这里插入图片描述
重启prometheus

systemctl restart prometheus

5.集成 grafana大盘

登录Grafana页面查看GPU信息
如您安装了Grafana,您可通过导入NVIDIA DCGM Exporter Dashboard来展示gpu的相关指标信息。
关于在Grafana导入Dashboard的方法,请参见Manage dashboards。
在这里插入图片描述

http://www.lryc.cn/news/430040.html

相关文章:

  • 获取当前路由器的外网IP(WAN IP)
  • QT Creator UI中文输入跳出英文
  • Java基础核心知识学习笔记
  • Leetcode 237.19.83.82 删除链表重复结点 C++实现
  • Spring OAuth2.0资源服务源码解析
  • JavaScript 原型与原型链
  • Spring Boot实现简单的Oracle数据库操作
  • 微软发布 Phi-3.5 系列模型,涵盖端侧、多模态、MOE;字节 Seed-ASR:自动识别多语言丨 RTE 开发者日报
  • 笔记:Echarts柱状图 实现滚轮条 数据太多
  • 嵌入式学习day17(数据结构)
  • 网站怎么做敏感词过滤,敏感词过滤的思路和实践
  • 【峟思】如何使用投入式水位计才能确保测量准确性
  • 供应链管理系统(SCM) —— 企业物流的智能枢纽
  • 计算机视觉(CV)技术的优势和挑战。
  • 数据库MySQL多表设计、查询
  • 基于vue框架的北城招聘管理平台题目7lly3(程序+源码+数据库+调试部署+开发环境)系统界面在最后面。
  • 详讲C#中如何存储当前项目的设置-超级简单省事
  • 【QT文件操作】---xml文件读取
  • 科研软件 | Diamond 4.6 安装教程
  • 利用keepalived达成服务高可用
  • Dumpy:一款针对LSASS数据的动态内存取证工具
  • TinyEngine是什么?
  • FPGA跨时钟域处理
  • 【Docker深入浅出】Docker镜像
  • “LOCAL_LISTENER”参数导致业务无法连接数据库,文末附Oracle连接故障检查监听的排查流程
  • Vmware虚拟机接入物理机路由器网络
  • yolov8旋转框+关键点检测
  • Qt-QWidget的windowTitle属性(13)
  • RCE编码绕过--php://filter妙用
  • FactoryBean 与 BeanFactory