深度学习烦人的基础知识(2)---Nvidia-smi功率低,util高---nvidia_smi参数详解

news2025/2/26 19:13:43

文章目录

  • 问题
    • 现象解释
    • 解决方案
  • 磨刀不误砍柴工--nvidia-smi参数解读

问题

如下图所示,GPU功率很低,Util占用率高。这个训练时不正常的!
在这里插入图片描述

现象解释

Pwr是指GPU运行时耗电情况,如图中GPU满载是300W,目前是86W与GPU2的空载情况功率相等。说明GPU没有在真正运行。

GPU-Util高说明它的核心被占用了,占用率为100%。

打个比方,把GPU看做是人。三个人,一个在举重,一个人在跑步,一个人在走路。他们都在运动,都是忙碌的,也就是GPU-Util占用高。但是很显然举重的,对外做功高,跑步的做功低,走路的最差,也就是GPU的耗电情况。详细此述

结论:像是这种情况,说明GPU被占用了,但是没有实际工作,也就是人员到位了,在等活干,很有可能是进程等待问题,或者进程锁死了

解决方案

  1. 定位问题,方法很多,比如:打印输出,看程序卡死在哪步,即可定位。
  2. 网上找解决方案。
  3. 如果是在运行多卡训练,容易卡死的地方有:

磨刀不误砍柴工–nvidia-smi参数解读

如下所示,其表格中,有这么多参数,且参数名与值的其位置是一一对应的。我用不同颜色进行标识,同一种颜色的方框和箭头,标识出参数名和其值的位置关系。
在这里插入图片描述

参数名含义例子
GPU显卡的本地设备号,对应值为0,1,2,3…几块显卡就有几个数
Name显卡型号名
Persistence-MPersistence-M是一种显卡运行模式,值为on或off,代表是否开或关
Fan与散热风扇转数有关,用百分数显示,越高说明转数越高
tempGPU核心温度,过热就有危险了,显卡要烧坏了,单位是摄氏度,如45C就是45度
Perf
Pwr:Usage/CapGPU目前耗电多少瓦,Cap是额定功率,Usage表示当前功率,86W/300W表示满载300W,目前86W
Bus-ID显卡总线的ID,总线是用来传输数据和指令的,是显卡与CPU,内存等硬件传输数据的线路
Disp.A不知道
Memory-Usage显存占用情况,大家都知道,不说了
GPU-UtilGPU中计算核心目前的占用率

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1379892.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

为什么不直接public,多此一举用get、set,一文给你说明白

文章目录 1. 封装性(Encapsulation)2. 验证与逻辑处理3. 计算属性(Computed Properties)4. **跟踪变化(Change Tracking)5. 懒加载与延迟初始化(Lazy Initialization)6. 兼容性与未来…

面试算法117:相似的字符串

题目 如果交换字符串X中的两个字符就能得到字符串Y,那么两个字符串X和Y相似。例如,字符串"tars"和"rats"相似(交换下标为0和2的两个字符)、字符串"rats"和"arts"相似(交换下…

服务器管理平台开发(3)- Web后端

Web服务端 整体架构采用前后端分离形式,后端使用Golang实现,参考Gin框架 1、后端服务 1.1、服务端架构 代码可参考Github开源项目:https://github.com/pbrong/hrms 1.2、服务地址 http://x.x.x.x:8000/api/v1/meta/info http://x.x.x.x:800…

72、C++ 代码格式规范的一个工具使用:clang-format

本节与小册内容无关,仅仅是介绍一个C++代码格式规范化的工具,用来将写的杂乱无章,格式不规范的C++代码来统一调整为规范的格式,包括空格、对齐等,使得C++代码美观大方。 因为 C++ 仓库中用到了这个工具,所以介绍下,有平时用C++做开发的同学也可以使用一下。 clang-for…

算法回忆录——排序

文章目录 1. 插入排序2. 选择排序3. 冒泡排序4. 希尔排序5. 归并排序6. 快速排序7. 堆排序8. 计数排序9. 桶排序10. 基数排序 1. 插入排序 分为两个序列,前面一个序列是排好序的,后面一个序列是未排好的。未排好的序列的第一个元素(a&#x…

独立客服系统的消息通知推送

消息通知 当我们在自己网站上嵌入对接了客服代码,我们想要通过微信接收访客的消息提醒通知,可以通过扫描客服后台的微信二维码,即时收消息通知提醒。 客服后台 后台主页面板,就展示了一个微信二维码,扫码关注公众号…

【大数据】Flink 详解(八):SQL 篇 Ⅰ

本系列包含: 【大数据】Flink 详解(一):基础篇【大数据】Flink 详解(二):核心篇 Ⅰ【大数据】Flink 详解(三):核心篇 Ⅱ【大数据】Flink 详解(四…

太阳光模拟器在晶圆硅片均匀加热解决方案

概述 晶圆硅片是半导体行业中使用的一种重要材料。它是由单晶硅经过一系列工艺加工而成的薄型圆片。晶圆在半导体制造过程中起到了基础性的作用,是制作晶体管和集成电路的关键原材料。硅片是一种重要的半导体材料,被广泛应用于电路制造、太阳能电池板等…

kafka: 基础概念回顾(生产者客户端和机架感知相关内容)

一、kafka生产者客户端 在kafka体系结构中有如下几个重要的概念: Producer:生产者,负责生产消息并投递到kafka broker的某个的分区中Consumer:消费者,负责消费kafka若干个分区中的消息Broker:kafka服务节…

微软为Windows内置记事本应用开发AI功能;2024年15个 AI 语音生成器

🦉 AI新闻 🚀 微软为Windows内置记事本应用开发AI功能 摘要:微软正在开发一个新的生成式AI功能,名为"Cowriter",用于Windows内置的记事本应用。该功能类似于画图应用中的"Cocreator"功能&#x…

计算机导论04-操作系统

操作系统基础 操作系统及其特征 操作系统的概念 操作系统是: 管理和控制计算机硬件与软件资源的计算机程序的集合;操作系统直接运行在“裸机”之上,是最基本的系统软件,其他软件都必须在操作系统的支持下才能运行。 操作系统…

vue中使用js-doc

安装依赖 安装vue-template-compiler npm install ​vue-template-compiler​npm install ​vue-template-compiler​ 安装minami npm install minami 安装js-doc npm install js-doc 根目录下创建 .jsdoc.conf.json 内容: {"tags": {"all…

VMware Visio OmniGraffle模板和图标

VMware Visio OmniGraffle模板和图标 包含可用于Visio、omnigraffle的图标和SVG矢量图。 简介 这组资源适用于 IT 管理员、系统架构师、网络工程师和其他需要可视化 VMware 基础架构的专业人士创建精确的 VMware 网络和数据中心部署图,通过使用这些模板和图标&am…

国内开源环境漫谈

我国开源软件产业相较于欧美发达国家而言起步相对较晚,开源项目很少超过五年,开发者较年轻。国外很多开源项目都是10年以上的规划与投入。在开源社区发展初期、发展期、协作期、结晶期与流行期的五个阶段中,中国的开源社区平台大多处于前三个…

RabbitMQ解决消息丢失以及重复消费问题

文章目录 1、概念2、基于ACK/NACK机制2.1 基于Spring AMQP框架整合ACK/NACK机制2.2 测试消费失败1.02.3 测试结果1.02.4 测试MQ宕机2.5 测试结果2.0 3、RabbitMQ 如何实现幂等性设计3.1 幂等服务设计思路3.1.1 通过雪花算法生成分布式唯一ID3.1.2 通过枚举类,设计Me…

亚马逊怎么防止店铺关联?

亚马逊(Amazon)为了确保公平竞争和防止不当行为,采取了一些措施来防止店铺关联,即通过不同的方式将多个店铺相关联,以获取不正当的竞争优势。以下是一些亚马逊防止店铺关联的主要措施: 同一经营者规定&…

【TC3xx芯片】TC3xx芯片电源管理系统PMS详解

目录 前言 正文 1.供电模式选择(Supply Mode Selection) 1.1 供电域 1.2 供电模式 1.3 供电阈值 1.4 供电上升和下降行为Supply Ramp-up and Ramp-down Behavior 1.5 EVRC产生供电 2. 电源监控 2.1 电源监控原理 2.2 Primary低电压监控 2.3 …

轻松掌握构建工具:Webpack、Gulp、Grunt 和 Rollup 的使用技巧(上)

🤍 前端开发工程师(主业)、技术博主(副业)、已过CET6 🍨 阿珊和她的猫_CSDN个人主页 🕠 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 🍚 蓝桥云课签约作者、已在蓝桥云…

spring常见漏洞(1)

简介 Spring的英文翻译为春天,可以说是给Java程序员带来了春天,因为它极大的简化了开发。得出一个公式:Spring 春天 Java程序员的春天 简化开发。最后的简化开发正是Spring框架带来的最大好处。 Spring是一个开放源代码的设计层面框架&a…

行为型设计模式——状态模式

状态模式 状态模式是比较简单的设计模式,它的主要作用是减少代码中大量的 if-else 或者 switch-case 等逻辑判断(俗称屎山)。它将每个状态定义为一个类,而每个状态类有自己对应的方法,因此当需要根据状态执行逻辑代码…