CUDA_VISIBLE_DEVICES‘ 不是内部或外部命令,也不是可运行的程序或批处理文件。

news2025/1/10 3:47:15

问题:

命令行出现CUDA_VISIBLE_DEVICES=0 python trainer.py这种命令
这是Linux可以的,但是Windows不行。

解决方案:

这条命令的含义是指定某个GPU来运行程序,我们可以在程序开头添加指定GPU的代码,效果是一样的:

    import os
    os.environ["CUDA_VISIBLE_DEVICES"]='0'

或者在程序外部cmd命令行里执行以下命令,设置临时变量:

set CUDA_VISIBLE_DEVICES=0

或者直接添加到环境变量,同时记得删除原命令的CUDA_VISIBLE_DEVICES=0

在这里插入图片描述


GPU卡号编码规则:

当主机有多个GPU设备时,设置CUDA_VISIBLE_DEVICES 环境变量可以改变CUDA程序所能使用的GPU设备。假如主机中有4块GPU设备,那么这些GPU设备的默认编号为[0,1,2,3],在默认情况下,编号为0的显卡为第一块卡。多卡设置规则如下:
在这里插入图片描述

备注规则:

CUDA应用运行时,CUDA将遍历当前可见的设备,并从零开始为可见设备编号
第一种情况,卡1设置为主卡,但CUDA遍历时会设置为可见编号0
最后一种情况,设备0,2,3将显示为设备0,1,2
如果将字符串的顺序更改为“2,3,0”,则设备2,3,0将分别被设置为0,1,2
如果为CUDA_VISIBLE_DEVICES 设置了不存在的设备,所有实际设备将被隐藏,CUDA 应用将无法使用GPU设备;如果设备序列是存在和不存在设备的混合,那么不存在设备前的所有存在设备将被重新编号,不存在设备之后的所有设备将被屏蔽。
当前可见的(重新编号后的)设备可使用CUDA 程序来查看,代码如下:

import torch
print(torch.cuda.current_device())
1. 临时设置
1.1 命令提前设置环境变量
#Linux: 后面的值为要使用的GPU编号,正常的话是从0开始
export CUDA_VISIBLE_DEVICES=0
#windows: 
set CUDA_VISIBLE_DEVICES=0
1.2 Python代码中设置环境变量
import os
# 仅设置一块可见
os.environ['CUDA_VISIBLE_DEVICES'] = '0'
# 设置多块可见
os.environ['CUDA_VISIBLE_DEVICES'] = '0,2,3'
1.3 命令行前指定
# 以下方法linux可用, windows 需要提前设置环境变量
CUDA_VISIBLE_DEVICES=0 python some-app.py

2. 永久设置

2.1 linux

通过编辑 ~/.bashrc 文件来永久设置,系统启动时将加载 ~/.bashrc 文件,达到自动设置的目的。

export CUDA_VISIBLE_DEVICES=1,2,3

然后通过 如下命令刷新环境变量

. ~/.bashrc
2.2 windows

添加到环境变量,同时记得删除原命令的CUDA_VISIBLE_DEVICES=0

在这里插入图片描述

3. 使用torch.cuda接口

import torch
#当前可见的(重新编号后的)设备可使用如下代码来查看
print(torch.cuda.current_device())
 
torch.cuda.set_device(0)
#或者 使用pytorch的并行GPU接口
net = torch.nn.DataParallel(model, device_ids=[0])
 
#确定GPU的个数
count = torch.cuda.device_count()
#决策使用哪个设备
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
 
#把一个模型放到GPU上
 
device = torch.device("cuda:0")
model.to(device)
 

4. 使用torch.nn.DataParallel

多卡数据并行一般使用torch.nn.DataParallel

torch.nn.DataParallel(model,device_ids)
 
'''
 使用的GPU一定是编号连续的
 其中model是需要运行的模型,device_ids指定部署模型的显卡,数据类型是list/device。
 device_ids中的第一个GPU(即device_ids[0])和model.cuda()或torch.cuda.set_device()中的第一个GPU序号应保持一致,否则会报错
举例:
'''
torch.nn.DataParallel(model, device_ids=device_ids)
torch.nn.DataParallel(modul, device_ids=[x1,x2,x3,x4,x5,x6,x7])
 
torch.nn.DataParallel(model,device_ids = range(torch.cuda.device_count()) )
 

此外如果两者的第一个GPU序号都不是0,比如设置为:

'''
如下代码,程序可以在GPU2和GPU3上正常运行。
device_ids的默认值是使用可见的GPU,不设置model.cuda()或torch.cuda.set_device()等效于设置了model.cuda(0)
'''
model=torch.nn.DataParallel(model,device_ids=[2,3])
model.cuda(2)
 
#模型绑定GPU代码
model = model.cuda() 
device_ids = [0, 1] 	
model = torch.nn.DataParallel(model, device_ids=device_ids)
 

参考:

【疑难杂症】‘CUDA_VISIBLE_DEVICES‘ 不是内部或外部命令,也不是可运行的程序或批处理文件。
CUDA 指定设备的方法,CUDA_VISIBLE_DEVICES 设置当前pytorch程序使用那些GPU设备

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1711719.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SQL高级知识:开窗函数

点击关注公众号,SQL干货及时获取 后台回复:1024,获取海量学习资源 SQL刷题专栏 SQL145题系列 开窗函数的定义 开窗函数用于为行定义一个窗口,它对一组值进行操作,不需要使用GROUP BY子句对数据进行分组,能够…

重学java 49 List接口

但逢良辰,顺颂时宜 —— 24.5.28 一、List接口 1.概述: 是collection接口的子接口 2.常见的实现类: ArrayList LinkedList Vector 二、List集合下的实现类 1.ArrayList集合的使用及源码分析 1.概述 ArrayList是List接口的实现类 2.特点 a.元素有序 —> 按照什么顺…

【Flutter】显式动画

🔥 本文由 程序喵正在路上 原创,CSDN首发! 💖 系列专栏:Flutter学习 🌠 首发时间:2024年5月29日 🦋 欢迎关注🖱点赞👍收藏🌟留言🐾 目…

ORA-12514:TNS:监听程序当前无法识别连接描述符中请求的服务

ORA-12514:TNS:监听程序当前无法识别连接描述符中请求的服务 问题描述: 解决方案: 1、检查oracle的监听服务是否运行正常 1)点击键盘的winr,输入services.msc,点击确认/回车键; 2)查…

2023年信息素养大赛小学组C++智能算法复赛真题

今天给大家分享2023年全国青少年信息素养大赛小学组C智能算法挑战赛复赛里面的一套真题,希望有助于大家了解复赛的难度及备考。 其他真题下载:网盘-真题-信息素养大赛

PyTorch安装与配置

前言 参考文档:https://github.com/TingsongYu/PyTorch-Tutorial-2nd 环境配置之Anaconda 解释器——python.exe,是人类与CPU之间的桥梁,需要配置系统环境变量 Anaconda:集成环境,包管理器 Conda 安装 Anaconda&am…

12.2 通道-阻塞与流程控制、通道型函数、退出通道

阻塞与流程控制 通常在并发程序中要尽力避免阻塞式操作,但有时又需要让代码暂时处于阻塞状态,以等待某种条件、信号或数据,然后再继续运行。 对于无缓冲通道,试图从无人写入的通道中读取,或者向无人读取的通道中写入…

学习笔记——数据通信基础——数据通信网络(拓扑结构)

网络拓扑 网络拓扑(Network Topology)是指用传输介质(例如双绞线、光纤等)互连各种设备(例如计算机终端、路由器、交换机等)所呈现的结构化布局。 1、网络拓扑形态 星型网络∶所有节点通过一个中心节点连接在一起。 优点∶容易在网络中增加新的节点。通信数据必须经过中心节点…

学习Uni-app开发小程序Day21

学习了评分组件、自定义导航栏 评分组件uni-rate 这是需要达到的效果图,这里先分析下效果图, 1、图片是从布局中间弹出的,那这里就要用到uni-popup ,设置type从中间弹出 2、这个弹出的顶部和上一张的顶部布局是一样的&#xff0c…

C# 反射GetProperties和GetFields的坑

有时候使用反射,获取类的所有字段和所有属性,一般情况下是按照我们写的先后顺序返回的。 但是我今天碰到了一次不是按照顺序返回的!!! 翻看文档: GetProperties: https://learn.microsoft.com/…

【C++】从零开始构建红黑树 —— 节点设计,插入函数的处理 ,旋转的设计

送给大家一句话: 日子没劲,就过得特别慢,但凡有那么一点劲,就哗哗的跟瀑布似的拦不住。 – 巫哲 《撒野》 🌋🌋🌋🌋🌋🌋🌋🌋 ⛰️⛰️…

WordPress建网站公司 建易WordPress建站

建易WordPress建网站公司是一家专业从事WordPress网站建设、网站维护、网站托管、运营推广和搜索引擎优化(SEO)等服务的公司。建易WordPress建网站公司提供多种服务,包括模板建站和定制网站,并且明码标价,价格透明,竭诚为全国各地…

常见5大开发进度盲点问题及解决方案

在软件开发项目中,识别并解决常见的进度管理盲点问题,对于确保项目按时、按预算、高质量完成至关重要。它直接关系到项目能否顺利进行,忽视任何一个问题,都可能导致项目延期、成本超支、质量下降,甚至项目失败。 因此&…

G60-M60F-ZQ手动抓取快速接头,专用于吊装设备的重物快速抓取

客户需求概述: 客户需要将重达将近400公斤的产品从一个工作台移动至另一个工作台,目前的方法是通过人工将吊环的螺纹与产品的螺纹相互拧紧,然后利用装备吊起移动,但这种方式效率低下,且因为工人的操作有时难以达到理想…

CHIMA专访美创高级总监丁斐:为医疗数据安全构筑体系化防御新机制

5月17-19日,中国医院信息网络大会(CHIMA 2024)在南京隆重召开。作为结识多年的老友,美创科技再携以数据为中心的全系列安全业务、新一代数字化安全平台、医疗行业解决方案精彩亮相。 会议期间,CHIMA专访美创科技&…

Linux之sshpass命令

介绍 sshpass是一个工具,用于通过SSH连接到远程服务器时自动输入密码。它允许您在命令行中指定密码,以便在建立SSH连接时自动进行身份验证。 安装 # 以centos为例 yum install sshpass -y 使用方法 sshpass [-f filename | -d num | -p password | …

精酿啤酒:品质与口感在啤酒品牌形象建设中的作用

啤酒品牌形象建设是提升市场竞争力的关键,而品质与口感在其中扮演着重要的角色。对于Fendi club啤酒而言,其卓着的品质和与众不同的口感在品牌形象建设中发挥了积极的作用。 品质是啤酒品牌形象的核心要素。消费者对啤酒品质的要求越来越高,品…

新书推荐:7.5 goto、break、continue语句

本节必须掌握的知识点: 示例二十六 代码分析 汇编解析 示例二十七 代码分析 汇编解析 7.5.1 示例二十六 ■goto语句:无条件转移语句。 语法格式: goto label; label : 代码; ●语法解析: 执行到goto语句时,则无…

【PB案例学习笔记】-10 进度条使用

写在前面 这是PB案例学习笔记系列文章的第10篇,该系列文章适合具有一定PB基础的读者。 通过一个个由浅入深的编程实战案例学习,提高编程技巧,以保证小伙伴们能应付公司的各种开发需求。 文章中设计到的源码,小凡都上传到了gite…

【python】OpenCV—Tracking(10.2)

文章目录 BackgroundSubtractorcreateBackgroundSubtractorMOG2createBackgroundSubtractorKNN BackgroundSubtractor Opencv 有三种背景分割器 K-Nearest:KNN Mixture of Gaussian(MOG2) Geometric Multigid(GMG) …