当前位置: 首页 > news >正文

服务器GPU温度过高挂掉排查记录

服务器GPU挂掉

跑深度学习的代码的时候发现中断了。通过命令查看:

nvidia-smi

显示

Unable to determine the device handle for GPU 0000:01:00.0: Unknown Error。

感觉很莫名其妙。通过重启大法之后,又能用一段时间。

shutdown -r now

但是过了一个小时左右又会挂掉。不能从根本解决问题。那么到底为什么GPU会自己挂掉呢?

问题排查

通过查看日志定位错误原因:

nvidia-bug-report.sh

在当前目录下生成了nvidia-bug-report.log日志文件。查看到日志文件的内容如下:

在这里插入图片描述
网上查找一下这个报错码79https://forums.developer.nvidia.com/t/gpu-has-fallen-of-the-bus/122124发现要么是电源问题,要么是温度过高问题。
在这里插入图片描述

重现问题,查看温度日志

如果判断是否是GPU温度过高呢?需要打一个温度日志,再运行一下代码,看GPU温度是否超过了shutdown 温度(GPU温度过高会自动掉线保护GPU)。命令如下:

nvidia-smi -q -l 2 -d TEMPERATURE -f nvidiatemp.log 

代码继续跑,等待问题重现后查看温度日志就可以确定是否是温度过高导致GPU自动掉线了。
果然,当GPU掉线后,查看温度日志:
在这里插入图片描述
上图中CurrentTemp表示当前温度,Shutdown Temp表示超过这个温度GPU会自动掉线。Target Temp表示目标温度(GPU比较合适的温度)。
找到问题了!就是温度过热导致GPU掉线!

解决问题

温度过热?
多半是散热不行,果然,发现一个风扇明显转的较慢。猜测可能是那个风扇坏掉了。
于是将显卡风扇拆下来。通过拨动发现其中一个风扇没另一个风扇灵活。拆开发现转轴有点杂质,增大了风扇阻力,清理了一下,上了点润滑油。(当然直接换风扇最为方便!!!免得担心风扇被拆坏掉)
在这里插入图片描述

装上后发现能正常工作,温度再也没有超负荷过!问题完美解决!

参考链接

gpu-has-fallen-of-the-bus

http://www.lryc.cn/news/275215.html

相关文章:

  • 服务器终端快速下载coco数据集
  • el-select下拉框 change事件返回该项所有数据
  • MySQL基础篇(一)SQL
  • 多类指针式仪表自动读数系统的LabVIEW开发应用案例
  • 攀登者2 - 华为OD统一考试
  • 归并排序例题——逆序对的数量
  • 数据库连接使用问题 - 1
  • 【已解决】You have an error in your SQL syntax
  • 如何在Ubuntu安装SVN服务并结合cpolar实现公网TCP地址远程访问本地服务
  • windows监控进程是否还活着,查看内存使用率
  • C#-词法结构
  • GitHub pull request(傻瓜式入门版)
  • Studio 3T客户端连接Mongodb数据库服务
  • 算法每日一题:赎金信 | 字符和整数
  • 数字孪生在虚拟现实(VR)中的应用
  • iOS实时查看App运行日志
  • 论文阅读:通过时空生成卷积网络合成动态模式(重点论文)
  • html2canvas+jsPDF导出超长网页的PDF
  • 云计算:OpenStack 分布式架构管理VXLAN网络(单控制节点与多计算节点)
  • MATLAB --- dlmread( )函数的用法
  • STM32CubeMX RS485接口使用
  • ClickHouse(20)ClickHouse集成PostgreSQL表引擎详细解析
  • R304S 指纹识别模块功能实现示例
  • 2、Excel:基础概念、表格结构与常见函数
  • 鱼类识别Python+深度学习人工智能+TensorFlow+卷积神经网络算法
  • ThreadLocal线程重用导致用户信息错乱的 Bug
  • 洛谷——P1143 进制转换
  • linux stop_machine 停机机制应用及一次触发 soft lockup 分析
  • ARM 链接器优化功能介绍
  • 动手学深度学习之卷积神经网络之池化层