单机多GPU训练模型入门指南(torch.nn.DataParallel)

news2025/10/28 4:46:03

模型部分

1. 指定使用的GPU

2. 使用Torch的数据并行库(将模型搬到GPU上)

3. 保存模型

数据部分

1. 选择GPU

2. 将数据搬到GPU上

3. loss的反向传播修改

查看效果

本文将介绍模型和数据两部分的处理。

模型部分

1. 指定使用的GPU

1.1 导入os库

import os

1.2 给服务器上的GPU编号

最好一次性都编上，从0~n-1，n是服务器上的显卡的数量，一般为4or8张卡。

选择一：写在python代码中

os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
os.environ["CUDA_VISIBLE_DEVICES"] = '0,1,2,3'

选择二：在命令行设置

CUDA_VISIBLE_DEVICES=0,1,2,3

查看有没有设置好，使用命令行命令

echo $CUDA_VISIBLE_DEVICES

1.3 指定自己要使用哪几张卡

device_ids = [0, 1, 2, 3]

注这个device_ids的列表要在后面作为参数传入

2. 使用Torch的数据并行库(将模型搬到GPU上)

这里要有两行代码

model = torch.nn.DataParallel(model, device_ids=device_ids)
model = model.cuda()

当然，也可以写在一起

model = torch.nn.DataParallel(model, device_ids=device_ids).cuda()

3. 保存模型

原来

model.save_pretrained(path.my_checkpoint)

现在

model.module.save_pretrained(path.my_checkpoint)

注：这里使用了huggingface的transformers库，使用torch.save应该是类似的。

数据部分

注：这里的数据都是训练函数里面的，测试函数里面的应该类似。

1. 选择GPU

device = torch.device("cuda:0")

2. 将数据搬到GPU上

data = data.to(device)

上面那句和下面这句好像是等价的

data = data.cuda()

3. loss的反向传播修改

这个地方也是我遇到的报错最多的地方。

原来

loss.backward()

改法1

loss.sum().backward()

改法2

loss.backward(torch.ones(loss.shape).to(device))

查看效果

使用命令(每0.1秒刷新一次)

watch -n 0.1 nvidia-smi

蓝色箭头所指是我的进程。

以上。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/46478.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

单机多GPU训练模型入门指南(torch.nn.DataParallel)

模型部分

1. 指定使用的GPU

2. 使用Torch的数据并行库(将模型搬到GPU上)

3. 保存模型

数据部分

1. 选择GPU

2. 将数据搬到GPU上

3. loss的反向传播修改

查看效果

相关文章

基于微信小程序的付费自习室系统平台设计与实现的源码+文档

Oracle Primavera P6V7 SQL异常案例

CentOS中使用Docker来部署Postgresql

canal-server使用

10月11日

AndroidStudio连接真机测试运行

流媒体传输 - HLS 协议

SpringBoot中拦截器的使用

【jmeter】windows下使用（测试MQTT）

面试：各种热修复框架对比

powerlevel10k 颜色和图标的自定义设置

浅谈芯片验证中的仿真运行之 compilation unit 技术（实践篇）

Windows本地安装Redis且设置服务自启

Online Decision Transformer

Express：Express 中间件

aws cloudformation 堆栈集的创建和使用

Teams app 的 SSO 机制

刷爆力扣之公平的糖果交换

【数据链路层】循环冗余码CRC、后退N帧协议GBN、选择重传协议SR、CSMA/CA

终于见识到了微服务的天花板！SpringCloud全线手册，太强了