vscode调试pytorch的DistributedDataParallel代码

news2025/1/11 20:02:52

这里写自定义目录标题

  • 一、查找launch.py
  • 二、修改launch.json
  • 三、特别提醒
    • 3.1 错误的写法
    • 3.2 正确的写法

一、查找launch.py

使用代码。

find / -name launch.py | grep distributed

得到的结果如下
在这里插入图片描述
这里我们得到了两个结果,看目标文件的路径名,第二个launch.py应该在软件的解压缩包里,因此这里使用第一个,记下这个绝对路径。

二、修改launch.json

修改默认的launch.json文件(没有就新建)

{
    // Use IntelliSense to learn about possible attributes.
    // Hover to view descriptions of existing attributes.
    // For more information, visit: https://go.microsoft.com/fwlink/?linkid=830387
    "version": "0.2.0",
    "configurations": [
        {
            "name": "Python: train.py",
            "type": "python",
            "python": "/root/miniconda3/envs/onnx/bin/python",
            "request": "launch",
            //program参数一定要放launch.py文件,
            "program": "/root/miniconda3/envs/onnx/lib/python3.8/site-packages/torch/distributed/launch.py",
            "args": [
                //命令行参数
                "--nproc_per_node=1", 
                //程序代码
                "train.py"
                //程序入参
            ],
            //环境变量
            "env": {
                "CUDA_VISIBLE_DEVICES":"0"
            },
            "console": "integratedTerminal",
            "justMyCode": true
    
    
        }
    ]

}

program就是我们上一步复制的绝对路径。
建议只用一个GPU来调试,所以nproc_per_node的值设置为1,CUDA_VISIBLE_DEVICES只用一个设备。

三、特别提醒

上面的写法是默认没有任何参数传递给train.py的,如果要给它传递参数,则一定要写到main.py之后,例如

3.1 错误的写法

  	 "args": [
                "--nproc_per_node=1", 
                "--use_env",
                "--cfg = cfgfile",
                "main.py"
            ],

上面的写法会报错,因为–nproc_per_node=1,–use_env以及–cfg=cfgfile三个变量实际上都是传递给前面"program"所指示的launch.py文件的,而该文件并没有cfg参数,因此会报错。

3.2 正确的写法

  	 "args": [
                "--nproc_per_node=1", 
                "--use_env",
                "main.py",
                "--cfg = cfgfile"
            ],

这样写就表示–cfg=cfgfile参数是传递给main.py文件的,这样就没有问题啦

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1220714.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

深度学习到智能小车(1)深度学习框架

0.前提 最近新开了一门叫机器学习的课程,老师一直在跟我们讲一些有关这方面的知识,告诉我们一定要学好数学,因为数学是算法的基础。我手上的donkeycar刚好也涉及到Keras深度神经网络,所以出于好奇我去图书馆借回了一本叫《Keras深…

一键免费去除视频水印和字幕的AI工具

最近有学员经常让我分享好用的智能抹除视频水印字幕AI工具,今天就给大家分享一个我经常用到的这款工具——腾讯智影,这个平台提供的智能抹除功能,借助这个工具我们可以将视频中不需要的字幕或者水印删除掉。 不过这款工具每天有三次免费次数…

端口映射软件

今天给大家介绍一个自己制作的工具,本工具可以把本地自己的项目映射到外网可以访问,自己有域名可以使用自己的,没有可以用软件自带的三级域名! Token获取 地址:传送 打开上面网址注册账号,然后点击验证,复制里面的值即可。 软件…

openpyxl获取单元格的主题色的颜色值

📢作者: 小小明-代码实体 📢博客主页:https://blog.csdn.net/as604049322 📢欢迎点赞 👍 收藏 ⭐留言 📝 欢迎讨论! openpyxl 支持以下几种颜色类型: RGB (Red, Green, …

Stable Diffusion - StableDiffusion WebUI 软件升级与扩展兼容

欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/134463035 目前,StableDiffusion WebUI 的版本是 1.6.0,同步更新 controlnet、tagcomplete、roop、easy-prompt-selector等…

Go 语言变量类型和声明详解

在Go中,有不同的变量类型,例如: int 存储整数(整数),例如123或-123float32 存储浮点数字,带小数,例如19.99或-19.99string - 存储文本,例如“ Hello World”。字符串值用…

批量替换WordPress文章内图片链接

在WordPress使用过程中,如果中途更换了域名,原先文章内的图片使用的是原来的域名,就会造成文章页里面的图片链接无法显示。如果从后台文章挨个修改就比较麻烦。可以通过数据库进行批量替换即可。 使用 PHPMyadmin 打开 数据库,登…

我所理解的 UI Toolkit 启蒙阶段(一)

我所理解的 UI Toolkit 启蒙阶段(一) 对于自己不会的新东西的学习,我认为最合适的路径就是: 实例教学视频 —> 实操熟悉 —> 官方文档查漏补缺 —> 拟定思路实现功能 但这 4 步并非每一步都需要下 100% 的功夫&#x…

Linux C 线程

线程 概述线程和进程的异同如何选择使用进程还是线程 函数获取进程自身ID  pthread_self创建线程  pthread_create退出线程  pthread_exit线程等待  pthread_join 四种线程模型1 )单线程2 )单线程3 )双线程4 )三线程 概述…

选择Amazon EC2,走进云端新时代

目录 前言 选择云服务器 / 海外服务器需要关注的重点 Amazon EC2 云服务器的优势所在 文末总结 前言 常言道,工欲善其事必先利其器,无论你是资深开发者,还是普通爱好者,在日常开发和学习生活中都需要用到云服务器提供的丰富的…

自建es数据迁移阿里云方案

一、ElasticSearch数据迁移方法介绍 https://help.aliyun.com/document_detail/170095.html?spma2c4g.26937906.0.0.429240c9ymiXGm 可以通过Logstash、reindex和OSS等多种方式完成阿里云Elasticsearch间数据迁移、Elasticsearch数据迁移至Openstore存储中、自建Elasticsear…

GB28181学习(十六)——基于jrtplib实现tcp被动和主动收流

前言 GB/T28181-2022实时流的传输方式介绍:https://blog.csdn.net/www_dong/article/details/134255185 tcp passive收流 流程图 注意: m字段指定传输方式为TCP/RTP/AVP;sdp信息中增加"asetup:passive";SIP服务器启…

微服务学习 | Ribbon负载均衡、Nacos注册中心、微服务技术对比

Ribbon负载均衡 负载均衡流程 负载均衡策略 通过定义IRule实现可以修改负载均衡规则,有两种方式: 1. 代码方式:在服务消费者order-service中的OrderApplication类中,定义一个新的IRule: 2.配置文件方式: 在order-service的application.yml…

技术分享 | 如何写好测试用例?

对于软件测试工程师来说,设计测试用例和提交缺陷报告是最基本的职业技能。是非常重要的部分。一个好的测试用例能够指示测试人员如何对软件进行测试。在这篇文章中,我们将介绍测试用例设计常用的几种方法,以及如何编写高效的测试用例。 ## 一…

【Rust】快速教程——模块mod与跨文件

前言 道尊:没有办法,你的法力已经消失,我的法力所剩无几,除非咱们重新修行,在这个世界里取得更多法力之后,或许有办法下降。——《拔魔》 \;\\\;\\\; 目录 前言跨文件mod多文件mod 跨文件mod //my_mod.rs…

C#语言的由来与发展历程

C#语言的由来与发展历程可以追溯到2000年,当时微软公司为了在.NET平台上开发应用程序,发布了一种新的编程语言——C#。C#语言的设计目标是成为一种简单、现代、通用和面向对象的编程语言,为开发者提供更强大的生产力、更强大的面向对象支持和…

Line多账号如何运营?

Line在亚洲地区非常流行,特别是在日本、台湾、泰国等地,是当地最受欢迎的即时通讯应用之一。 除了基本的聊天功能外,Line还提供了各种各样的贴图、表情包和游戏等娱乐功能,吸引了大量的用户。 一、选择利用line进行海外营销的原…

2024年山东省职业院校技能大赛中职组“网络安全”赛项竞赛试题-A

2024年山东省职业院校技能大赛中职组 “网络安全”赛项竞赛试题-A 一、竞赛时间 总计:360分钟 二、竞赛阶段 竞赛阶段 任务阶段 竞赛任务 竞赛时间 分值 A、B模块 A-1 登录安全加固 180分钟 200分 A-2 本地安全策略设置 A-3 流量完整性保护 A-4 …

百度智能云正式上线Python SDK版本并全面开源

文章目录 前言一、SDK的优势二、千帆SDK:快速落地LLM应用三、如何快速上手千帆SDK3.1、SDK快速启动3.2. SDK进阶指引 3.3. 通过Langchain接入千帆SDK4、开源社区 前言 百度智能云千帆大模型平台再次升级!在原有API基础上,百度智能云正式上线…

【漏洞复现】IP-guard WebServer 远程命令执行

漏洞描述 IP-guard是一款终端安全管理软件,旨在帮助企业保护终端设备安全、数据安全、管理网络使用和简化IT系统管理。互联网上披露IP-guard WebServer远程命令执行漏洞情报。攻击者可利用该漏洞执行任意命令,获取服务器控制权限。 免责声明 技术文章仅供参考,任何个人和…