当前位置: 首页 > news >正文

docker搭建普罗米修斯监控gpu

ip8的服务器监控ip110和ip111的服务器

被监控的服务器110和111只需要安装node-export和nvidia-container-toolkit

下载镜像包

docker pull prom/node-exporter
docker pull prom/prometheus
docker pull grafana/grafana

新建目录

mkdir /opt/prometheus
cd /opt/prometheus/
vim prometheus.yml
global:scrape_interval:     60sevaluation_interval: 60sscrape_configs:- job_name: prometheusstatic_configs:- targets: ['localhost:9090']labels:instance: prometheus- job_name: linuxstatic_configs:- targets: ['10.20.13.8:9100']labels:instance: master- job_name: nodestatic_configs:- targets: ['10.20.13.111:9100','10.20.13.110:9100']

启动普罗米修斯

docker run  -d \-p 9090:9090 \-v /opt/prometheus/prometheus.yml:/etc/prometheus/prometheus.yml  \prom/prometheus

启动node-export  

docker run -d -p 9100:9100 \-v "/proc:/host/proc:ro" \-v "/sys:/host/sys:ro" \-v "/:/rootfs:ro" \prom/node-exporter

新建目录

mkdir /opt/grafana-storage
chmod 777 -R /opt/grafana-storage

启动grafana

docker run -d \-p 3000:3000 \--name=grafana \-v /opt/grafana-storage:/var/lib/grafana \grafana/grafana

访问grafana  url

10.20.13.8:3000
默认会先跳转到登录页面,默认的用户名和密码都是admin

添加data source时,ip地址要填写本机Ip地址     http://ip:9090

安装显卡监控

curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg   && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list |     sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' |     sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
apt update
apt upgrade 
apt-get install -y nvidia-container-toolkit
nvidia-ctk runtime configure --runtime=docker
systemctl restart docker

运行容器

docker run -d     --restart always     --gpus all     -p 9400:9400     --name gpu-exporter     nvcr.io/nvidia/k8s/dcgm-exporter:3.2.5-3.1.8-ubuntu22.04

在配置文件中加入端口

vim /opt/prometheus/prometheus.yml

加入一段

- job_name: gpu_metricsstatic_configs:- targets: ['10.20.13.111:9400','10.20.13.110:9400']

在grafanan导入监控gpu模板  id12239

http://www.lryc.cn/news/404119.html

相关文章:

  • 像 MvvmLight 一样使用 CommunityToolkit.Mvvm 工具包
  • python入门课程Pro(2)--循环
  • 今日总结:雪花算法,拉取在线用户
  • 前瞻断言与后瞻断言:JavaScript 正则表达式的秘密武器
  • 昇思MindSpore学习总结十六 —— 基于MindSpore的GPT2文本摘要
  • React Router 6笔记
  • Android init 中的wait_for_property指令
  • 智能合约语言(eDSL)—— 并行化方案——调度算法
  • vue2.0中如何实现数据监听
  • kafka开启kerberos和ACL
  • QT+winodow 代码适配调试总结(三)
  • Linux之旅:常用的指令,热键和权限管理
  • 简单实用的企业舆情安全解决方案
  • 【中项】系统集成项目管理工程师-第2章 信息技术发展-2.1信息技术及其发展-2.1.1计算机软硬件与2.1.2计算机网络
  • SpringBoot集成Sharding-JDBC-5.3.0实现按月动态建表分表
  • ubuntu 上安装中文输入法
  • Postman导出excel文件
  • 你还在手动构建Python项目吗?PyBuilder让一切自动化!
  • WebRTC音视频-前言介绍
  • centos/rocky容器中安装xfce、xrdp记录
  • 实战:Eureka的概念作用以及用法详解
  • jupyter_contrib_nbextensions安装失败问题
  • 设计模式-Git-其他
  • 【C#】计算两条直线的交点坐标
  • 在项目服务器部署git 并实现自动提交
  • 前缀匹配工具之IP-Prefix
  • 等级保护测评案例分享及合规建议
  • GOLLIE : ANNOTATION GUIDELINES IMPROVE ZERO-SHOT INFORMATION-EXTRACTION
  • 2024-07-19 Unity插件 Odin Inspector9 —— Validation Attributes
  • 跨平台WPF音乐商店应用程序