【踩坑】解决运行一段时间GPU计算后忽然变得很慢

news2025/2/25 10:40:57

转载请注明出处:小锋学长生活大爆炸[xfxuezhagn.cn]

如果本文帮助到了你,欢迎[点赞、收藏、关注]哦~


目录

发现问题

问题分析

修复思路

思路一

思路二

思路二对应代码


这个问题真的找了我好久,但说起来其实也简单,就是GPU温度太高了

发现问题

1、运行监控指令:

nvidia-smi dmon -i 00000000:41:00.0 -s pucvmet --gpm-metrics 10

2、运行你的代码,等到出问题。

3、看图就知道,密集的GPU运算,导致GPU温度达到限制了。高温限制是会影响性能的。

问题分析

本节内容来自:对于GPU显卡来说,多热算太热?

对于GPU来说,温度大致分为以下几个层次:

  • 60°C以下 - 低温,GPU性能基本未发挥。
  • 60-75°C - 正常工作温度,GPU性能发挥良好且寿命长。
  • 75-85°C - 开始偏热,但性能基本无影响,如果长时间在此范围可能缩短服务寿命。
  • 85-95°C - 极限工作温度,性能会受影响。如果长期工作在此温度就可能锁频下降性能。
  • 95°C以上 - 非常热乃至太热,此温度下GPU性能将受很大影响,极易发生故障或损坏元件。

一般来说:

  • 75°C以下算正常,保持这个度数(或更低)的温度应该可以让您安心,因为您的 GPU 正在发挥其最大潜力。
  • 75-85°C需要注意,保持通风以避免长期这样。
  • 85°C以上已经属于比较热了,需要改进散热或降低负荷。
  • 95°C以上就已经属于非常危险的热度域,需要立即采取措施降温。
  • 所以对GPU来说,75°C应该算做热的标准,85°C开始需要特别注意,95°C以上就可能导致不可恢复的损坏。

对GPU来说,长时间工作在85°C以上,会有以下影响:

  • 加速老化速度。高温环境下,GPU内各个组件如芯片封装材料、焊料连接等将会以更快的速度老化和失效。
  • 故障率增加。85°C及以上的高温会促进GPU内部各种微观装配和结构性问题的暴露,从而加大故障发生概率。
  • 缩短可用年限。85°C高温下,GPU将在5-7年内即达到其可用服务寿命极限,比常温使用寿命短1-3年。
  • 锁频降级性能。为保护内部元器件,85°C时GPU极有可能自动下调时钟频率来降温,导致长期性能下降。大多数现代显卡都具有固有的热保护机制,当其内部温度过高时,该机制会导致 GPU 节流。驱动程序采取的第一步是限制性能,以减少过热 GPU 的负载。尽管采取了这些措施,如果温度继续升高,系统将开始强制关闭。这通常可以防止对 GPU 造成任何物理损坏,但如果经常发生过热,永久性硬件损坏将是不可避免的。

        所以总体来说,如果GPU显卡长期工作在85°C以上高温,会明显缩短GPU的平均使用寿命,从1-3年不等,同时也影响其锁定频率和稳定性能输出,建议尽量降低和控制工作温度。

修复思路

思路一

来自对于GPU显卡来说,多热算太热?

        这里是一些建议,可以帮助降低GPU的工作温度:

  • 清除尘垢。定期清洁GPU风扇及散热片上积聚的灰尘,以保持散热效率。
  • 优化固件。检查显卡驱动是否为最新版本,更新可以改善电源管理降温。
  • 散热风扇速度。调整风扇转速提高冷风流量对GPU进行更有效的降温。
  • 流通散热。确保GPU周围有足够通风间隙,有助热空气迅速排出。
  • 改用散热板。更换散热更强的板后型显卡可以有效降温5-10°C。
  • 升级电源。GPU功耗大时需要足够功率输出的电源降温支持。
  • 温控软件。使用温控软件根据温度自动调整GPU时钟、风扇速度等。
  • 水冷模式。水冷传热效率高,能最大限度降低GPU温度。
  • 温度监测。实时了解GPU温曲线有助于查找问题热点进行改进。

        以上方法结合使用可以有效帮助控制GPU的工作温度,延长使用寿命。

思路二

        GPU的降温挺快的,不调用GPU运算,它的温度就会开始降低,因此可以考虑适当的降低GPU的连续使用时间。

思路二对应代码

        或者,可以在运行代码前,等待GPU的问题降低到一定的程度再执行。给个自己写的参考代码吧:

def check_gpu_temperatures(gpu_ids, temp_threshold=40, timeout=None):
    gpu_ids_list = gpu_ids.split(',')
    start_time = time.time()
    while True:
        temperatures = []
        all_below_threshold = True
        for gpu_id in gpu_ids_list:
            result = subprocess.run(['nvidia-smi', '-i', gpu_id, '--query-gpu=temperature.gpu', '--format=csv,noheader,nounits'], stdout=subprocess.PIPE)
            temp = int(result.stdout.decode('utf-8').strip())
            temperatures.append(f'GPU {gpu_id}: {temp}°')
            if temp > temp_threshold: all_below_threshold = False
        if all_below_threshold: 
            print('>> 当前GPU温度: ' + ' | '.join(temperatures))
            break
        print(f'>> 为防止GPU高温导致性能限制,等待降温中({temp_threshold}°): ' + ' | '.join(temperatures), end='\r')
        if timeout and (time.time() - start_time) > timeout:
            print('\n已达超时,不在等待 GPU 温度下降。')
            break
        time.sleep(1)
    print()

        用法:

gpus = '2,3,4'
check_gpu_temperatures(gpu_ids=gpus , temp_threshold=60, timeout=None)

        效果:

温度监控UI代码

        为了方便监控GPU的温度:

import sys
import subprocess
import threading
import time
import numpy as np
import tkinter as tk
from tkinter import ttk
from matplotlib.backends.backend_tkagg import FigureCanvasTkAgg
from matplotlib.figure import Figure

class RealtimePlot:
    def __init__(self, parent, title, ylabel):
        self.fig = Figure(figsize=(5, 2), dpi=100)  # 设定图像尺寸
        self.ax = self.fig.add_subplot(111)
        self.ax.set_title(title)
        self.ax.set_ylabel(ylabel)
        self.ax.set_xlabel('Time')
        self.xdata = []
        self.ydata = []
        self.line, = self.ax.plot(self.xdata, self.ydata, 'r-')
        self.canvas = FigureCanvasTkAgg(self.fig, master=parent)
        self.canvas.draw()
        self.canvas.get_tk_widget().pack(side=tk.LEFT, fill=tk.BOTH, expand=1)

    def update_plot(self, y):
        self.xdata.append(time.time())
        self.ydata.append(y)
        if len(self.xdata) == 1:  # 防止 transformation singular 错误
            self.ax.set_xlim(self.xdata[0], self.xdata[0] + 1)
        else:
            self.ax.set_xlim(self.xdata[0], self.xdata[-1])
        self.line.set_xdata(self.xdata)
        self.line.set_ydata(self.ydata)
        self.ax.relim()
        self.ax.autoscale_view()
        self.canvas.draw()

    def resize(self, event):
        self.fig.set_size_inches(event.width / self.canvas.get_tk_widget().winfo_fpixels('1i'),
                                 event.height / self.canvas.get_tk_widget().winfo_fpixels('1i'))
        self.canvas.draw()

class GPU_MonitorApp:
    def __init__(self, root):
        self.root = root
        self.root.title("nvidia-smi dmon Realtime Plot")

        self.plots = []
        gpu_ids = ['00000000:3d:00.0', '00000000:3e:00.0', '00000000:1D:00.0', '00000000:1E:00.0', '00000000:41:00.0']

        main_frame = tk.Frame(root)
        main_frame.pack(fill=tk.BOTH, expand=1)

        canvas = tk.Canvas(main_frame)
        canvas.pack(side=tk.LEFT, fill=tk.BOTH, expand=1)

        scrollbar_y = tk.Scrollbar(main_frame, orient=tk.VERTICAL, command=canvas.yview)
        scrollbar_y.pack(side=tk.RIGHT, fill=tk.Y)

        scrollbar_x = tk.Scrollbar(root, orient=tk.HORIZONTAL, command=canvas.xview)
        scrollbar_x.pack(side=tk.BOTTOM, fill=tk.X)

        canvas.configure(yscrollcommand=scrollbar_y.set, xscrollcommand=scrollbar_x.set)
        canvas.bind('<Configure>', lambda e: canvas.configure(scrollregion=canvas.bbox("all")))

        second_frame = tk.Frame(canvas)
        canvas.create_window((0, 0), window=second_frame, anchor="nw")

        plot_width = 500  # 每个图的宽度(以像素为单位)
        plot_height = 200  # 每个图的高度(以像素为单位)

        for i, gpu_id in enumerate(gpu_ids):
            frame = ttk.Frame(second_frame, width=plot_width * 2, height=plot_height)
            frame.pack(side=tk.TOP, fill=tk.BOTH, expand=1)
            plot_power = RealtimePlot(frame, f"GPU {i} Power Usage", "Power (W)")
            plot_temp = RealtimePlot(frame, f"GPU {i} Temperature", "Temperature (C)")
            self.plots.append((plot_power, plot_temp))
            frame.bind("<Configure>", plot_power.resize)
            frame.bind("<Configure>", plot_temp.resize)

        # 计算窗口初始尺寸
        window_width = plot_width * 2 + 40  # 两个图表并排 + 滚动条和边距
        window_height = plot_height * len(gpu_ids) + 40  # 每个GPU占一行 + 滚动条和边距
        self.root.geometry(f"{window_width}x{window_height}")

        self.start_monitoring(gpu_ids)

    def start_monitoring(self, gpu_ids):
        self.monitor_thread = threading.Thread(target=self.monitor_gpu, args=(gpu_ids,))
        self.monitor_thread.daemon = True
        self.monitor_thread.start()

    def monitor_gpu(self, gpu_ids):
        command = ['nvidia-smi', 'dmon', '-i', ','.join(gpu_ids), '-s', 'pm']
        process = subprocess.Popen(command, stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True)
        skip_header = True  # 用于跳过表头
        for line in process.stdout:
            try:
                if skip_header:
                    if line.startswith('#'):
                        continue  # 跳过表头行
                    skip_header = False

                parts = line.split()
                if len(parts) == 0 or parts[0] == '#':
                    continue  # 跳过表头或空行
                if len(parts) >= 7 and parts[0].isdigit():  # 确保行数据完整
                    gpu_idx = int(parts[0])
                    if gpu_idx < len(gpu_ids):
                        gpu_power = float(parts[1]) if parts[1] != '-' else None
                        gpu_temp = float(parts[2]) if parts[2] != '-' else None

                        print(f"GPU {gpu_idx} power: {gpu_power}, temp: {gpu_temp}")  # Debug info

                        if gpu_power is not None:
                            self.plots[gpu_idx][0].update_plot(gpu_power)
                        if gpu_temp is not None:
                            self.plots[gpu_idx][1].update_plot(gpu_temp)
            except Exception as e:
                print(f"Error parsing line: {line}\n{e}")

if __name__ == '__main__':
    root = tk.Tk()
    app = GPU_MonitorApp(root)
    root.mainloop()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1824025.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

XILINX 7系列XDMA使用_IP核介绍以及工程搭建

文章目录 一、XDMA IP核1.1、接口说明1.2、配置页说明 二、XDMA工程搭建2.1、BD搭建2.2 Linux下XDMA驱动安装2.3 Linux下使用XDMA进行数据传输 一、XDMA IP核 1.1、接口说明 sys_clk&#xff1a;主机给PCIE提供的时钟信号&#xff0c;通过原理图查看 sys_rst_n&#xff1a;主机…

Flowable工作流中会签节点处理回退并清除审批意见

文章目录 1&#xff0c;操作方法及步骤2&#xff0c;实现细节3&#xff0c;总结 1&#xff0c;操作方法及步骤 在Flowable工作流会签流程中&#xff0c;如果最后一个人选择回退流程&#xff0c;想要清除前面用户A和B填写的审批意见&#xff0c;需要通过Flowable提供的API来操作…

LVS_Director + KeepAlived + 邮件报警

目录 一. 环境准备 二. 对master和backup操作 三. 配置master主机 四. 配置backup主机 六. 验证虚拟IP 七. 配置后端两个web服务器 对web1和web2主机都进行如下操作&#xff1a; 单独修改web1主机 单独修改web2主机 验证 八. 设置邮件报警 一. 环境准备 KeepAlive…

【CT】LeetCode手撕—102. 二叉树的层序遍历

目录 题目1-思路2- 实现⭐102. 二叉树的层序遍历——题解思路 3- ACM实现3-1 二叉树构造3-2 整体实现 题目 原题连接&#xff1a;102. 二叉树的层序遍历 1-思路 1.借助队列 Queue &#xff0c;每次利用 ①while 循环遍历当前层结点&#xff0c;②将当前层结点的下层结点放入 …

[大模型]Qwen2-7B-Instruct 接入 LangChain 搭建知识库助手

环境准备 在 autodl 平台中租赁一个 3090 等 24G 显存的显卡机器&#xff0c;如下图所示镜像选择 PyTorch–>2.1.0–>3.10(ubuntu20.04)–>12.1 接下来打开刚刚租用服务器的 JupyterLab&#xff0c;并且打开其中的终端开始环境配置、模型下载和运行 demo。 pip 换源…

图文RAG组件:360LayoutAnalysis中文论文及研报图像分析

AI应用开发相关目录 本专栏包括AI应用开发相关内容分享&#xff0c;包括不限于AI算法部署实施细节、AI应用后端分析服务相关概念及开发技巧、AI应用后端应用服务相关概念及开发技巧、AI应用前端实现路径及开发技巧 适用于具备一定算法及Python使用基础的人群 AI应用开发流程概…

ripro主题如何使用memcached来加速

ripro主题是个很不错的资源付费下载主题。主题自带了缓存加速开关&#xff0c;只要开启了缓存加速功能&#xff0c;正常情况下能让网站访问的速度提升很大。 但好多人这么做了却发现没啥加速效果&#xff0c;原因就在于wordpress里缺少了memcache文件。只需要把object-cache.ph…

电脑怎么录制游戏视频?轻松捕捉每一帧精彩

随着游戏产业的蓬勃发展&#xff0c;越来越多的玩家不仅满足于在游戏世界中的探索与冒险&#xff0c;更希望将自己的游戏精彩瞬间记录下来&#xff0c;分享给更多的朋友。可是电脑怎么录制游戏视频呢&#xff1f;本文旨在为广大游戏爱好者提供一份详细的电脑游戏视频录制攻略&a…

MySQL员工练习

MySQL员工练习 1.数据显示 员工信息表emp&#xff1a; 字段&#xff1a;员工id,员工名字,工作岗位,部门经理,受雇日期,薪水,奖金,部门编号 英文名&#xff1a;EMPNO,ENAME,JOB,MGR,HIREDATE,SAL,BONUS,DEPTNO 部门信息表dept&#xff1a; 字段&#xff1a;部门编号,部门名称,部…

vscode 终端无法正常执行脚本命令如何解决

我们经常需要在vscode的中安装第三方依赖包&#xff0c;npm是前端目前最大的Node.js模块化管理系统&#xff0c;它能帮助开发者管理和发布Node.js模块。但很多时候我们在vscode的终端中执行npm install命令时经常会报以下错误&#xff1a; 但是在Windows的cmd命令提示符中执行n…

VM映像构建实践

概述 VM映像做为创建VM的必要条件&#xff0c;各类云环境映像市场均有提供最基础的映像。创建VM后&#xff0c;通常还需要根据组织或用户的需求&#xff0c;安装一些软件、修改配置后才能满足使用需求。这类需求通常可以手动部署或者借助一些配置管理工具&#xff0c;如ansibl…

KVM+GFS分布式存储系统构建高可用群集

KVMGFS 分布式存储系统构建 KVM 高可用群集 一&#xff1a;理论概述 1.1&#xff1a;Glusterfs 简介 Glusterfs 文件系统是由 Gluster 公司的创始人兼首席技术官 Anand Babu Periasamy编写。 一个可扩展的分布式文件系统&#xff0c; 用于大型的、 分布式的、 对大量数据进行访…

Java版SaaS模式云HIS系统源码Java+Spring+SpringBoot+SpringMVC 基层卫生健康云HIS源码

Java版SaaS模式云HIS系统源码JavaSpring&#xff0b;SpringBoot&#xff0b;SpringMVC 基层卫生健康云HIS源码 云HIS全称为基于云计算的医疗卫生信息系统&#xff08;Cloud-BasedHealthcareInformationSystem&#xff09;&#xff0c;是运用云计算、大数据、物联网等新兴信息技…

宝藏速成秘籍(6)归并排序法

一、前言 1.1、概念 归并排序&#xff08;Merge Sort&#xff09;是一种基于分治思想的排序算法。它将数组分成两个子数组&#xff0c;分别对这两个子数组进行排序&#xff0c;然后再将它们合并成一个有序的数组。归并排序是一种经典的分治算法&#xff0c;它的核心思想是将待…

Elasticsearch搜索引擎(高级篇)

3.1 查询语法 | 《ElasticSearch入门到实战》电子书 (chaosopen.cn) day09-Elasticsearch02 - 飞书云文档 (feishu.cn) 目录 第一章 DSL查询 1.1 基本语法 1.2 叶子查询 全文检索查询 精确查询 1.3 复合查询 算分函数查询 bool查询 1.4 排序 1.5 分页 基础分页 深度分…

Visual Studio Code连接VMware虚拟机

1.安装VS Code插件 在拓展中安装插件 Remote-SSH 2.在虚拟机中安装OpenSSH服务器 使用超级用权限(root)更新软件包列表&#xff0c;Debian系统和Ubuntu系统使用apt包管理工具&#xff1a; sudo apt update CentOS系统使用yum或dnf包管理工具&#xff1a; sudo yum update …

618全面开战,抖音电商头部品牌罗拉密码突然“不干”了?

前言&#xff1a; 随着618电商大战的硝烟渐浓&#xff0c;各大电商平台纷纷摩拳擦掌&#xff0c;准备在这场年度购物盛宴中大展拳脚。然而&#xff0c;在这热闹非凡的氛围中&#xff0c;一个熟悉的名字却显得格外低调——罗拉密码。作为抖音电商领域的头部品牌&#xff0c;罗拉…

el-table 多选回显,分页回显

实现el-table多选分页回显功能&#xff0c;左侧是分页的数据源&#xff0c;右侧是选择后的人员数据&#xff0c;切换下一页&#xff0c;选中的数据会在左侧表格回显。 实现&#xff1a; <template><el-dialog :title"title" :visible.sync"show"…

C#开发-集合使用和技巧(二)Lambda 表达式介绍和应用

C#开发-集合使用和技巧 Lambda 表达式介绍和应用 C#开发-集合使用和技巧介绍简单的示例&#xff1a;集合查询示例&#xff1a; 1. 基本语法从主体语句上区分&#xff1a;1. 主体为单一表达式2. 主体是代码块&#xff08;多个表达式语句&#xff09; 从参数上区分1. 带输入参数的…