当前位置: 首页 > news >正文

Dell服务器根据GPU温度调整风扇转速

前言

dell服务器自动风扇是根据CPU温度来调速的,我跑AI的时候cpu温度不高但是GPU温度很高导致显卡卡死PVE虚拟机直接挂起无法运行,我看了下也没有基于显卡温度调速的脚本,于是我就自己写了一个

基于ipmi工具 乌班图等linux先安装ipmi

apt install -y ipmitool

然后到idrac远程管理中的网络选项中打开 IPMI 设置

基础 

#关闭自动调速
ipmitool -I lanplus -U root -P XXX -H 192.168.3.30 raw 0x30 0x30 0x01 0x00 ipmitool -I lanplus -U root -P XXX -H 192.168.3.30 raw 0x30 0x30 0x02 0xff 0x23#80%转速
ipmitool -I lanplus -U root -P XXX -H 192.168.3.30 raw 0x30 0x30 0x02 0xff 0x50

最后的0x50是80的十六进制,也就是设置转速为80%

请注意要手动调速请先关闭自动调速,不然不会生效

自动脚本

下面是我写的自动脚本,写的比较差凑合用 (修改ipmi的参数为自己服务器的)

#!/bin/bash
# GPU个数
gpu_count=2
current_time=$(date "+%Y-%m-%d %H:%M")
users="chen"
max_temperature=0  # 用于记录最高的GPU温度
max_temperature_gpu=0  # 用于记录最高温度的GPU编号# 遍历每个GPU,获取温度并记录最高温度的GPU编号和温度值
for ((i=0; i<gpu_count; i++))
do# 获取第i个GPU的温度temperature=$(nvidia-smi --query-gpu=temperature.gpu --format=csv,noheader,nounits | sed -n "${i+1}p")if [ $temperature -gt $max_temperature ]; thenmax_temperature=$temperaturemax_temperature_gpu=$ifi
done
# 根据最高温度的GPU进行对应的调速操作
if [ $max_temperature -gt 85 ]; then# 设置风扇速度为100%ipmitool -I lanplus -U root -P xxx -H 192.168.3.30 raw 0x30 0x30 0x02 0xff 0x64 && echo "$current_time - GPU $max_temperature_gpu 温度$max_temperature 过高 风扇转速已调整为100%" >> /home/$users/ipmi.log
elif [ $max_temperature -gt 72 ]; then# 设置风扇速度为80%ipmitool -I lanplus -U root -P xxx -H 192.168.3.30 raw 0x30 0x30 0x02 0xff 0x50 && echo "$current_time - GPU $max_temperature_gpu 温度$max_temperature 过高 风扇转速已调整为80%" >> /home/$users/ipmi.log
else# 设置风扇速度为50%ipmitool -I lanplus -U root -P xxx -H 192.168.3.30 raw 0x30 0x30 0x02 0xff 0x32 && echo "$current_time - GPU $max_temperature_gpu 温度$max_temperature过高 风扇转速已调整为50%" >> /home/$users/ipmi.log
fi

crontab 设置10秒运行一次

* * * * * sleep 10; /home/chen/ipmi-gpu.sh

http://www.lryc.cn/news/370705.html

相关文章:

  • 快捷键专栏 IDEA、Navicat、电脑、Excle、Word等
  • 卸载MySQL5.0,安装MySQL8.0
  • 苹果WWDC重磅发布的IOS 18、Apple Intelligence背后的技术分析!
  • Linux基础IO【II】
  • DevExpress学习系列文章
  • 在大数据时代:为何硬盘仍是数据中心存储的核心
  • 安装TrinityCore NPCBot(尝试中)
  • Java SE LTS版本商用收费,有那些开源的替代方案?
  • Win系统 锁屏自动暂停音乐
  • ffmpeg实现视频播放 ----------- Javacv
  • 解决更新Android Studio后下载Gradle超时
  • 智能合约漏洞类型
  • 6.7.31 使用端到端训练的基于 EfficientNet 的卷积网络在双视图乳房 X 线摄影中进行乳腺癌诊断
  • 访问方法(反射)
  • 探索Excel的隐藏功能:如何求和以zzz开头的列
  • git:切换到指定的commit
  • js之事件监听以及相关案例
  • pip 安装出现 ERROR: Command errored out with exit status 1: 问题解决
  • 图的遍历介绍
  • 实验二、网络属性设置《计算机网络》
  • 【Python数据魔术】:揭秘类型奥秘,赋能代码创造
  • Android Glide loading Bitmap from RESOURCE_DISK_CACHE slow,cost time≈2 seconds+
  • 微调技术:人工智能领域的神奇钥匙
  • MyBatis 参数上的处理的细节内容
  • 水帘降温水温
  • kafka如何保证消息不丢失
  • 流媒体学习之路(WebRTC)——音频NackTracker优化思路(8)
  • Java基础面试重点-2
  • 【活动文章】通用大模型VS垂直大模型,你更青睐哪一方
  • 记录一个Qt调用插件的问题