【已解决】nvidia-smi不显示正在使用GPU的进程

news2024/9/25 7:16:26

目录

  • 1 问题背景
  • 2 问题探索
  • 3 问题解决
  • 4 告别Bug

1 问题背景

环境:

  • 远程服务器Ubuntu20.04
  • CUDA 11.6

现象:在日志文件和终端均显示Python脚本已使用了GPU

在这里插入图片描述
但是nvidia-smi中的Processes进程无显示

在这里插入图片描述

2 问题探索

首先,可以看到

|   0  Tesla V100-PCIE...  On   | 00000000:0F:00.0 Off |                    0 |
| N/A   34C    P0    37W / 250W |   1603MiB / 16384MiB |      0%      Default |

GPU显存被占用,换言之有实例在正常使用GPU,表明不是硬件、显卡驱动等问题。

检查Pytorch是否正确配置

>>> import torch
>>> print(torch.cuda.is_available())
True

证明也不是Pytorch的问题

接着安装一个工具查看正在使用显卡的进程

apt install -y psmisc
fuser -v /dev/nvidia*

终端输出

                     USER        PID ACCESS COMMAND
/dev/nvidia-uvm:     root     kernel mount /dev/nvidia-uvm
                     root      12860 F...m python
/dev/nvidia-uvm-tools:
                     root     kernel mount /dev/nvidia-uvm-tools
/dev/nvidia7:        root     kernel mount /dev/nvidia7
                     root      12860 F...m python
/dev/nvidiactl:      root     kernel mount /dev/nvidiactl
                     root      12860 F...m python

由于我这里诊断的进程是一个使用GPU的python脚本,所以记下脚本的PID: 12860

查看系统进程

ps -aux

输出

USER         PID %CPU %MEM    VSZ   RSS TTY      STAT START   TIME COMMAND
...
root       12860  576  4.2 32781208 17343484 pts/0 Sl+ 14:11 269:00 python test.py
root       13510  0.0  0.0  13900  9076 ?        Ss   14:36   0:00 sshd: root@notty
root       13549  0.0  0.0   7024  3768 ?        Ss   14:37   0:00 bash
root       15003  0.0  0.0   9092  4092 pts/3    Ss   14:50   0:00 /usr/bin/bash --init-file /root/.vscode-server/bin/da76f93349a72022ca4670c1b84860304616aaa2/out/vs/workbench/contrib/terminal/b
root       15352  0.0  0.0   5476   592 ?        S    14:55   0:00 sleep 180
root       15698  0.0  0.0  10856  3316 pts/3    R+   14:58   0:00 ps -aux

PID: 12860对应的python脚本,正好是我怀疑没用上GPU的脚本,证明该python实例实际上成功跑在了GPU上

3 问题解决

nvidia-smi不显示正在使用GPU的进程很可能不是一个问题,而是GPU的使用率太低(多发生在远程高性能服务器运行小型实验的情形),如遇到相关问题,可按上面步骤自检

4 告别Bug

本文收录于《告别Bug》专栏,该专栏记录人工智能领域中各类Bug以备复查,文章形式为:问题背景 + 问题探索 + 问题解决,订阅专栏+关注博主后可通过下方名片联系我进入AI技术交流群帮忙解决问题


👇源码获取 · 技术交流 · 抱团学习 · 咨询分享 请联系👇

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/382510.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Android Handler机制(三) Looper源码分析

一. 简介 我们接上一篇文章:Android Handler机制(二) Handler 实现原理 继续分析Looper Looper 的职责很单一,就是单纯的从 MessageQueue 中取出消息分发给消息对应 的宿主 Handler,因此它的代码不多(400行左右) . Looper 是线程独立的且每个线程只能存在…

MySQL运维知识

1 日志1.1 错误日志1.2 二进制日志查看二进制日志:mysqlbinlog ./binlog.000007purge master logs to binlog.000006reset mastershow variables like %binlog_expire_logs_seconds%默认二进制文件只存放30天,30天后会自动删除。1.3 查询日志1.4 慢查询日…

React(四):事件总线、setState的细节、PureComponent、ref

React(四)一、事件总线二、关于setState的原理1.setState的三种使用方式(1)基本使用(2)传入一个回调(3)第一个参数是对象,第二个参数是回调2.为什么setState要设置成异步…

Android kotlin实战之协程suspend详解与使用

前言 Kotlin 是一门仅在标准库中提供最基本底层 API 以便各种其他库能够利用协程的语言。与许多其他具有类似功能的语言不同,async 与 await 在 Kotlin 中并不是关键字,甚至都不是标准库的一部分。此外,Kotlin 的 挂起函数 概念为异步操作提供…

π型滤波器 计算_π型滤波电路

滤波器在功率和音频电子中常用于滤除不必要的频率。而电路设计中,基于不同应用有着许多不同种类的滤波器,但它们的基本理念都是一致的,那就是移除不必要的信号。所有滤波器都可以被分为两类,有源滤波器和无源滤波器。有源滤波器用…

重新认识 Java 中的内存映射(mmap)

mmap 基础概念 mmap 是一种内存映射文件的方法,即将一个文件映射到进程的地址空间,实现文件磁盘地址和一段进程虚拟地址的映射。实现这样的映射关系后,进程就可以采用指针的方式读写操作这一段内存,而系统会自动回写脏页到对应的文…

电源程控软件下载安装教程

软件:电源程控软件NS-PowerSupply 语言:简体中文 环境:NI-VISA 安装环境:Win10以上版本(特殊需求请后台私信联系客服) 硬件要求:CPU2GHz 内存4G(或更高)硬盘500G(或更高&#xf…

2023年2月安全事件盘点

一、基本信息 2023年2月安全事件共造成约3796万美元损失,相较于上个月,安全事件数量与损失金额都有显著上升,其中Platypus Finance闪电贷攻击为单次利用损失之最高达850万美元。本月RugPull数量基本与上月持平,损失金额占比显著降…

网站打不开数据库错误等常见问题解决方法

1、“主机开设成功!”上传数据后显示此内容,是因为西部数码默认放置的index.htm内容,需要核实wwwroot目录里面是否有自己的程序文件,可以删除index.htm。 2、恭喜,lanmp安装成功!这个页面是wdcp的默认页面&…

用 Real-ESRGAN 拯救座机画质,自制高清版动漫资源

内容一览:Real-ESRGAN 是 ESRGAN 升级之作,主要有三点创新:提出高阶退化过程模拟实际图像退化,使用光谱归一化 U-Net 鉴别器增加鉴别器的能力,以及使用纯合成数据进行训练。 关键词:Real-ESRGAN 超分辨率 视…

一文彻底搞懂cookie、session、token、jwt!

前言 随着Web应用程序的出现,直接在客户端上存储用户信息的需求也随之出现。者背后的想象时合法的:与特定用户相关的信息都应该保存在用户的机器上。无论是登录信息、个人偏好、还是其他数据,Web应用程序提供者都需要有办法 将他们保存在客户…

电子技术——CMOS 逻辑门电路

电子技术——CMOS 逻辑门电路 在本节我们介绍如何使用CMOS电路实现组合逻辑函数。在组合电路中,电路是瞬时发生的,也就是电路的输出之和当前的输入有关,并且电路是无记忆的也没有反馈。组合电路被大量的使用在当今的数字逻辑系统中。 晶体管…

Educational Codeforces Round 144 (Rated for Div. 2)(A~C)

A. Typical Interview Problem从1开始,遇到3的倍数就在字符串后面加F,遇到5的倍数就在字符串后面加B,若遇到3和5的倍数,就加入FB,这样可以写一个无限长的字符串,给出一个长度最多为10的字符串,判…

CLion+Opencv+QT开发相关

一、QT安装和配置其实我并没有直接在Qt上开发,下载Qt而是因为:CLion可以通过Qt的MinGW作为Toolset,并且可以将Qt creator作为external tool;在进行Opencv的编译安装中可以用Qt自带的MinGW进行编译和安装,不用另外下载M…

C++类和对象:初始化列表、static成员和友元

目录 一. 初始化列表 1.1 对象实例化时成员变量的创建及初始化 1.2 初始化列表 1.3 使用初始化列表和在函数体内初始化成员变量的效率比较 1.4 成员变量的初始化顺序 1.5 explicit关键字 二. static成员 2.1 static属性的成员变量 2.2 static属性的成员函数 三. 友元 …

废气处理设备远程监控

当今工业迅速的发展,工业带给人们的经济效益显著,而同时污染问题也备受关注。国家环保标准对排放至大气的废气指标提出了更高的要求。面临着环保压力,企业为走可持续发展之路,为维护员工利益、改善工作环境及周边环境不受影响&…

一、Sping框架引入

OCP开闭原则 什么是OCP? OCP是软件七大开发原则当中最基本的一个原则:开闭原则 对什么开?对扩展开放。 对什么闭?对修改关闭。OCP原则是最核心的,最基本的,其他的六个原则都是为这个原则服务的。OCP开闭原则…

计算机行业回暖?看网友怎么说?

就业寒潮之下,去年的应届生们可谓哀嚎一片,不少人晒出自己的0offer秋招战绩。 就连过去无往不利的计算机行业,亦不例外。但今年开始,计算机行业逐渐有了回暖的迹象和讨论。 陆续有不少之前哭诉收获惨淡的计算机专业同学&#x…

防静电和浪涌TVS layout设计要点

电子产品精密化刚看过了CES2023,雷卯的外贸伙伴们看了最新的AR,VR,5G产品,新的电子产品更智能、更复杂,嵌入了脆弱和敏感的集成电路。这些设备的环境往往很恶劣,产生高水平静电和快速瞬态浪涌。这些ESD事件可能会干扰设备&#xf…

IIS之web服务器的安装、部署以及使用教程(图文详细版)

WEB服务器的部署 打开虚拟机后查看已经开放的端口,可以看到没有TCP 80、TCP 443,说明HTTP服务端口没有打开 打开我的电脑—双击CD驱动器 选择安装可选的Windows组件 选择应用程序服务器—打开Internet信息服务—选择万维网服务和FTP服务 一路确…