当前位置：首页 > news >正文

服务器GPU温度过高挂掉排查记录

news 2025/8/14 22:23:30

服务器GPU挂掉

跑深度学习的代码的时候发现中断了。通过命令查看：

nvidia-smi

显示

Unable to determine the device handle for GPU 0000:01:00.0: Unknown Error。

感觉很莫名其妙。通过重启大法之后，又能用一段时间。

shutdown -r now

但是过了一个小时左右又会挂掉。不能从根本解决问题。那么到底为什么GPU会自己挂掉呢？

问题排查

通过查看日志定位错误原因：

nvidia-bug-report.sh

在当前目录下生成了nvidia-bug-report.log日志文件。查看到日志文件的内容如下：

在这里插入图片描述
网上查找一下这个报错码79https://forums.developer.nvidia.com/t/gpu-has-fallen-of-the-bus/122124发现要么是电源问题，要么是温度过高问题。

重现问题，查看温度日志

如果判断是否是GPU温度过高呢？需要打一个温度日志，再运行一下代码，看GPU温度是否超过了shutdown 温度（GPU温度过高会自动掉线保护GPU）。命令如下：

nvidia-smi -q -l 2 -d TEMPERATURE -f nvidiatemp.log

代码继续跑，等待问题重现后查看温度日志就可以确定是否是温度过高导致GPU自动掉线了。
果然，当GPU掉线后，查看温度日志：
在这里插入图片描述
上图中CurrentTemp表示当前温度，Shutdown Temp表示超过这个温度GPU会自动掉线。Target Temp表示目标温度（GPU比较合适的温度）。
找到问题了！就是温度过热导致GPU掉线！

解决问题

温度过热？
多半是散热不行，果然，发现一个风扇明显转的较慢。猜测可能是那个风扇坏掉了。
于是将显卡风扇拆下来。通过拨动发现其中一个风扇没另一个风扇灵活。拆开发现转轴有点杂质，增大了风扇阻力，清理了一下,上了点润滑油。（当然直接换风扇最为方便！！！免得担心风扇被拆坏掉）
在这里插入图片描述

装上后发现能正常工作，温度再也没有超负荷过！问题完美解决！

参考链接

gpu-has-fallen-of-the-bus

http://www.lryc.cn/news/275215.html

相关文章：

服务器终端快速下载coco数据集

el-select下拉框 change事件返回该项所有数据

MySQL基础篇（一）SQL

多类指针式仪表自动读数系统的LabVIEW开发应用案例

攀登者2 - 华为OD统一考试

归并排序例题——逆序对的数量

数据库连接使用问题 - 1

【已解决】You have an error in your SQL syntax

如何在Ubuntu安装SVN服务并结合cpolar实现公网TCP地址远程访问本地服务

windows监控进程是否还活着，查看内存使用率

C#-词法结构

GitHub pull request（傻瓜式入门版）

Studio 3T客户端连接Mongodb数据库服务

算法每日一题：赎金信 | 字符和整数

数字孪生在虚拟现实（VR）中的应用

iOS实时查看App运行日志

论文阅读：通过时空生成卷积网络合成动态模式(重点论文)

html2canvas+jsPDF导出超长网页的PDF

云计算：OpenStack 分布式架构管理VXLAN网络（单控制节点与多计算节点）

MATLAB --- dlmread( )函数的用法

STM32CubeMX RS485接口使用

ClickHouse(20)ClickHouse集成PostgreSQL表引擎详细解析

R304S 指纹识别模块功能实现示例

2、Excel：基础概念、表格结构与常见函数

鱼类识别Python+深度学习人工智能+TensorFlow+卷积神经网络算法

ThreadLocal线程重用导致用户信息错乱的 Bug

洛谷——P1143 进制转换

linux stop_machine 停机机制应用及一次触发 soft lockup 分析

ARM 链接器优化功能介绍

动手学深度学习之卷积神经网络之池化层