服务器GPU温度过高挂掉排查记录

news2025/2/26 4:23:51

服务器GPU挂掉

跑深度学习的代码的时候发现中断了。通过命令查看:

nvidia-smi

显示

Unable to determine the device handle for GPU 0000:01:00.0: Unknown Error。

感觉很莫名其妙。通过重启大法之后,又能用一段时间。

shutdown -r now

但是过了一个小时左右又会挂掉。不能从根本解决问题。那么到底为什么GPU会自己挂掉呢?

问题排查

通过查看日志定位错误原因:

nvidia-bug-report.sh

在当前目录下生成了nvidia-bug-report.log日志文件。查看到日志文件的内容如下:

在这里插入图片描述
网上查找一下这个报错码79https://forums.developer.nvidia.com/t/gpu-has-fallen-of-the-bus/122124发现要么是电源问题,要么是温度过高问题。
在这里插入图片描述

重现问题,查看温度日志

如果判断是否是GPU温度过高呢?需要打一个温度日志,再运行一下代码,看GPU温度是否超过了shutdown 温度(GPU温度过高会自动掉线保护GPU)。命令如下:

nvidia-smi -q -l 2 -d TEMPERATURE -f nvidiatemp.log 

代码继续跑,等待问题重现后查看温度日志就可以确定是否是温度过高导致GPU自动掉线了。
果然,当GPU掉线后,查看温度日志:
在这里插入图片描述
上图中CurrentTemp表示当前温度,Shutdown Temp表示超过这个温度GPU会自动掉线。Target Temp表示目标温度(GPU比较合适的温度)。
找到问题了!就是温度过热导致GPU掉线!

解决问题

温度过热?
多半是散热不行,果然,发现一个风扇明显转的较慢。猜测可能是那个风扇坏掉了。
于是将显卡风扇拆下来。通过拨动发现其中一个风扇没另一个风扇灵活。拆开发现转轴有点杂质,增大了风扇阻力,清理了一下,上了点润滑油。(当然直接换风扇最为方便!!!免得担心风扇被拆坏掉)
在这里插入图片描述

装上后发现能正常工作,温度再也没有超负荷过!问题完美解决!

参考链接

gpu-has-fallen-of-the-bus

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1361958.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【软件测试】学习笔记-测试覆盖率

测试覆盖率通常被用来衡量测试的充分性和完整性,从广义的角度来讲,测试覆盖率主要分为两大类,一类是面向项目的需求覆盖率,另一类是更偏向技术的代码覆盖率。 需求覆盖率 需求覆盖率是指测试对需求的覆盖程度,通常的做…

即时设计:设计流程图,让您的设计稿更具条理和逻辑

流程图小助手 在设计工作中,流程图是一种重要的工具,它可以帮助设计师清晰地展示设计思路和流程,提升设计的条理性和逻辑性。今天,我们要向您推荐一款强大的设计工具,它可以帮助您轻松为设计稿设计流程图,让…

关于CNN卷积神经网络与Conv2D标准卷积的重要概念

温故而知新,可以为师矣! 一、参考资料 深入解读卷积网络的工作原理(附实现代码) 深入解读反卷积网络(附实现代码) Wavelet U-net进行微光图像处理 卷积知识点 CNN网络的设计论:NAS vs Handcra…

基于web3+solidity的众筹项目

基本配置:node、npm、yarn,安装ganache,chrome,chrome安装插件MetaMask, 主要功能:目的是实现一个简单的众筹平台,允许用户发起筹款项目、捐款、提出使用资金请求以及证明人证明。 部分合约&…

mysql之视图执行计划

一.视图 1.1视图简介 1.2 创建视图 1.3视图的修改 1.4视图的删除 1.5查看视图 二.连接查询案例 三.思维导图 一.视图 1.1视图简介 虚拟表,和普通表一样使用 MySQL中的视图(View)是一个虚拟表,其内容由查询定义。与实际表不…

谈谈AI产品经理的产品开发流程

本文以智能文档审阅系统(IDP)和工业互联网数字孪生—故障预测为例,介绍AI产品经理在产品开发全流程过程中,每一阶段的工作内容、工作流程及注意事项,并结合具体案例方便对AI产品经理感兴趣的同学予以了解。文中尽量避免…

C++中神奇的tuple:详解使用技巧和实例解析

C中神奇的tuple:详解使用技巧和实例解析 一、tuple的基本概念二、tuple基础知识2.1、tuple的创建和初始化2.2、tuple的成员访问2.3、效果展示2.4、tupe的成员函数、非成员函数 及 辅助类 三、tuple高级应用技巧3.1、tuple的结构化绑定3.2、tuple的运算符重载3.3、tu…

数字人克隆:人类科技进步的里程碑

数字人克隆,作为一项引起广泛争议和关注的科技创新,正在逐渐走向我们的生活。它是将人的意识和思想复制到数字化的实体中,从而使之与真正的人类无异。数字人克隆的出现不仅引发了人们对道德伦理问题的讨论,也给人类社会带来了巨大…

三叠云流程制造ERP:构建智慧工厂,实现高效生产管理

在数字化经济的浪潮下,新一代信息技术快速发展,深度整合,引领了工业的创新和变革,推动了企业向智能化发展。解决生产管理、销售管理和技术管理等难题的关键,在于管理者能否及时准确地掌握企业运营信息。三叠云流程制造…

HTML中的主根元素、文档元数据、分区根元素、内容分区、文本内容 和 内联文本语义

本文主要介绍了HTML中主根元素<html>、文档元数据<base>、<head>、<link>、<meta>、<style>、<title>、分区根元素<body>、内容分区<address>、<article>、<aside>、<footer>、<h1> (en-US), &…

PyTorch|构建自己的卷积神经网络

如何搭建网络&#xff0c;这在深度学习中非常重要。简单来讲&#xff0c;我们是要实现一个类&#xff0c;这个类中有属性和方法&#xff0c;能够进行计算。 一般来讲&#xff0c;使用PyTorch创建神经网络需要三步&#xff1a; 继承基类&#xff1a;nn.Module 定义层属性 实现…

el-form点击提交后把验证失败的数据传给了后端

问题&#xff1a;版本号需要根据后端返回的结果查看是否可用&#xff0c;在这里1.0.0是不可用的&#xff0c;如果点击其他地方则会报红&#xff0c;可是直接点击提交&#xff0c;则会把1.0.0这个错误的数据也提交给后端。 解决方案&#xff1a; html代码&#xff1a; <el…

算法第十二天-最大整除子集

最大整除子集 题目要求 解题思路 来自[宫水三叶] 根据题意&#xff1a;对于符合要求的[整除子集]中的任意两个值&#xff0c;必然满足[较大数]是[较小数]的倍数 数据范围是 1 0 3 10^3 103&#xff0c;我们不可能采取获取所有子集&#xff0c;再检查子集是否合法的暴力搜解法…

C++ 给父类带参构造函数的赋值

在类的使用中&#xff0c;默认的构造函数不带任何参数&#xff0c;但是也会因为需要而使用带参数的构造函数。 在带参的构造函数中&#xff0c;是如何继承的呢&#xff0c;这里我们通过使用基类&#xff0c;子类&#xff0c;孙类的两重继承来观察&#xff0c;如何给带参构造函数…

C++: 求1+2+3+...+n

int i 1; int sum 0; class Sum { public:Sum(){sum i;i;} };class Solution { public:int Sum_Solution(int n) {Sum a[n]; //调用n次sum的构造函数return sum;} };

2024年汉字小达人区级选拔备考——真题做一做:诗词连线

前面&#xff0c;六分成长介绍了汉字小达人区级选拔样题的第一大题看拼音写汉字&#xff0c;以及第二大题补充成语。这两道题都是填空题&#xff0c;通常在学校进行线下选拔的时候使用。这篇文章介绍第三大题&#xff1a;诗词连线。 诗词连线是2022年&#xff08;第九届&#x…

计算机毕业设计 SpringBoot的一站式家装服务管理系统 Javaweb项目 Java实战项目 前后端分离 文档报告 代码讲解 安装调试

&#x1f34a;作者&#xff1a;计算机编程-吉哥 &#x1f34a;简介&#xff1a;专业从事JavaWeb程序开发&#xff0c;微信小程序开发&#xff0c;定制化项目、 源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事&#xff0c;生活就是快乐的。 &#x1f34a;心愿&#xff1a;点…

【Kubernetes】认证授权RBAC (一)

认证授权RBAC 一、k8s安全管理&#xff1a;认证、授权、准入控制概述1.1、简介【1】认证基本介绍【2】授权基本介绍【3】准入控制基本介绍 1.2、认证【1】客户端认证【2】Bearertoken【3】Serviceaccount【4】拓展&#xff1a;kubeconfig文件 1.3、授权【1】什么是RBAC&#xf…

8、VS中Git使用

VS中Git使用 1.基础操作1.1 VS配置Git1.2 操作界面 2.本地库版本管理2.1 创建管理本地库2.2 暂存、存储2.3 提交2.4 版本切换 3.分支操作3.1 分支应用3.2 新建分支3.3 合并分支、解决冲突3.4 删除分支 4.远程库版本管理4.1 新建、克隆4.2 提取、拉取、推送与同步4.3 团队开发 最…

每日一题——LeetCode1051.高度检查器

方法一 sort排序&#xff1a; 创建一个元素和heights一模一样的expect数组 &#xff0c;将expect数组从小到大进行排序&#xff0c;比较heights和expect相同位置不同的元素个数 var heightChecker function(heights) {var expect [],count0for(const n of heights){expect.…