一文搞懂大模型训练加速框架 DeepSpeed 的使用方法!

news2025/1/21 1:05:40

节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学。

针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。

合集:

《大模型面试宝典》(2024版) 正式发布!

保姆级学习指南:《Pytorch 实战宝典》来了


在AI领域,常见的深度学习框架TensorFlow、PyTorch和Keras无疑是开发者们的得力工具,但随着模型规模的急剧膨胀,这些传统框架在应对大模型时往往会显得力不从心。

比如Pytorch的分布式并行计算框架DDP(Distributed Data Parallel),尽管实现了数据并行,但是当模型大小超过单个GPU显存限制时显得捉襟见肘。此时,开发者往往只能手动进行复杂模型的参数拆分到各个GPU上,这无疑增加了研发的复杂性和门槛。

图片

然而,微软推出的一款框架——DeepSpeed,可解决这一局限。它通过将模型参数拆散分布到各个GPU上,以实现大模型的计算。这也意味着,我们可以利用更少的硬件资源训练更大的模型,不再受限于单个GPU的显存限制。

图片

安装DeepSpeed

pip install deepspeed

此外,还需要下载Pytorch,在官网选择自己对应的系统版本和环境,按照指示安装即可:

https://pytorch.org/get-started/locally/

图片

使用DeepSpeed

载入数据集
# 导入必要的库
import torch
import torchvision
import torchvision.transforms as transforms

# 创建训练数据集
trainset = torchvision.datasets.CIFAR10(root='./data',
                                        train=True,
                                        download=True,
                                        transform=transform)
# 创建数据加载器,批量加载数据并处理数据加载的并行化
trainloader = torch.utils.data.DataLoader(trainset,
                                          # 每个批次包含16张图像
                                          batch_size=16,
                                          # 在每次迭代开始时随机打乱训练数据的顺序
                                          # 有助于模型训练
                                          shuffle=True,
                                          # 开启2个子进程来并行加载数据,提高效率
                                          num_workers=2)
# 创建测试数据集
testset = torchvision.datasets.CIFAR10(root='./data',
                                       train=False,
                                       download=True,
                                       transform=transform)
testloader = torch.utils.data.DataLoader(testset,
                                         batch_size=4,
                                         #测试数据通常不需要打乱顺序
                                         shuffle=False,
                                         num_workers=2)
创建模型
# 导入必要的PyTorch模块

# 用于构建神经网络模型
import torch.nn as nn
# 提供了各种神经网络层的函数版本,如激活函数、损失函数等
import torch.nn.functional as F

# 定义一个名为Net的类,继承自nn.Module
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        # 创建卷积层,参数:(输入通道数,输出通道数,卷积核大小)
        self.conv1 = nn.Conv2d(3, 6, 5)
        # 创建最大池化层,参数:(池化窗口大小,步长)
        self.pool = nn.MaxPool2d(2, 2)
        self.conv2 = nn.Conv2d(6, 16, 5)
        # 创建全连接层(线性层),参数:(输入节点数,输出节点数)
        self.fc1 = nn.Linear(16 * 5 * 5, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)
    # 前向传播过程,即输入数据通过网络的流程
    def forward(self, x):
        # 使用F.relu应用ReLU激活函数
        # 使用self.pool进行最大池化
        x = self.pool(F.relu(self.conv1(x)))
        x = self.pool(F.relu(self.conv2(x)))
        # 使用.view方法将池化后的特征图展平为一维向量,以便输入全连接层
        x = x.view(-1, 16 * 5 * 5)
        # 应用全连接层和ReLU激活函数,直到最后一层fc3,
        # 它不使用激活函数,直接输出分类结果
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x
# 实例化网络模型
net = Net()
# 设置损失函数
# 多分类交叉熵损失函数,适用于监督学习中的分类任务
criterion = nn.CrossEntropyLoss()
初始化Deepspeed

DeepSpeed通过输入参数来启动训练,因此需要使用argparse解析参数。

import argparse

def add_argument():
    # 创建一个ArgumentParser对象,设置描述为"CIFAR"
    parser = argparse.ArgumentParser(description='CIFAR')
    # 设置训练时的批大小,默认值为32
    parser.add_argument('-b',
                        '--batch_size',
                        default=32,
                        type=int,
                        help='mini-batch size (default: 32)')
    # 设置总的训练轮数,默认值为30
    parser.add_argument('-e',
                        '--epochs',
                        default=30,
                        type=int,
                        help='number of total epochs (default: 30)')
    # 传递分布式训练中的排名,默认值为-1,表示未使用分布式训练
    parser.add_argument('--local_rank',
                        type=int,
                        default=-1,
                        help='local rank passed from distributed launcher')
    # 设置输出日志信息的间隔,默认值为2000,即每2000次迭代打印一次日志
    parser.add_argument('--log-interval',
                        type=int,
                        default=2000,
                        help="output logging information at a given interval")
    # 添加与DeepSpeed相关的配置参数
    parser = deepspeed.add_config_arguments(parser)
    # 解析命令行参数,返回一个Namespace对象,其中包含了所有定义的参数及其对应的值
    args = parser.parse_args()
    # 返回解析后的参数对象args,供后续的训练脚本使用
    return args

此外,模型初始化的时候除了参数,还需要model及其parameters,还有训练集:

# 启动DeepSpeed训练

# 调用之前定义的add_argument函数,解析命令行参数,并将结果存储在args变量中
args = add_argument()
# 创建Net类的实例
net = Net()
# 筛选出模型中需要梯度计算的参数
parameters = filter(lambda p: p.requires_grad, net.parameters())
# 使用deepspeed.initialize初始化模型引擎、优化器、数据加载器以及其他可能的组件
model_engine, optimizer, trainloader, __ = deepspeed.initialize(
    args=args, model=net, model_parameters=parameters, training_data=trainset)

训练

注意local_rank是不需要管的参数,在后面启动模型训练的时候,DeepSpeed会自动给这个参数赋值。

# 定义进行2个epoch的训练
for epoch in range(2):
    running_loss = 0.0
    # 对于每个epoch,遍历训练数据加载器trainloader中的每一个小批量数据
    # 同时提供索引i和数据data
    for i, data in enumerate(trainloader):
        # 将输入数据inputs和标签labels移动到当前GPU设备上,
        # 具体是哪个GPU由model_engine.local_rank决定,
        # 这对于分布式训练非常重要,确保数据被正确地分配到各个参与训练的GPU上
        inputs, labels = data[0].to(model_engine.local_rank), data[1].to(
            model_engine.local_rank)
        # 通过model_engine执行前向传播,计算模型预测输出
        outputs = model_engine(inputs)
        # 计算预测输出outputs与真实标签labels之间的损失
        loss = criterion(outputs, labels)
        # 反向传播计算梯度
        model_engine.backward(loss)
        # 更新模型参数
        model_engine.step()

        # 计算并累加每个小批量的损失值
        # 当达到args.log_interval指定的迭代次数时,打印平均损失值,
        # 然后重置running_loss为0,以便计算下一个区间的平均损失
        running_loss += loss.item()
        if i % args.log_interval == (args.log_interval - 1):
            print('[%d, %5d] loss: %.3f' % (epoch + 1, i + 1, running_loss / args.log_interval))
            running_loss = 0.0
测试

模型测试和模型训练的逻辑类似:

# 初始化计数器
# correct用于记录分类正确的样本数量
# total用于记录评估的总样本数
correct = 0
total = 0
# 上下文管理器,关闭梯度计算,
# 因为在验证阶段我们不需要计算梯度,这可以提高计算效率
with torch.no_grad():
    # 遍历测试数据加载器testloader中的每个小批量数据
    for data in testloader:
        # 获取当前小批量数据的图像和标签
        images, labels = data
        # 在当前GPU上执行模型的前向传播
        # 这里将图像数据移动到与模型相同的GPU上,然后通过模型得到预测输出
        outputs = net(images.to(model_engine.local_rank))
        # 找到每个样本的最大概率对应的类别
        _, predicted = torch.max(outputs.data, 1)
        # 增加总样本数,同时计算分类正确的样本数。
        # 注意,这里将标签也移动到与模型相同的GPU上进行比较
        total += labels.size(0)
        correct += (predicted == labels.to(
            model_engine.local_rank)).sum().item()
# 遍历完整个测试集后,计算并打印模型在测试集上的准确率
print('Accuracy of the network on the 10000 test images: %d %%' %
      (100 * correct / total))
编写模型参数

当前目录下新建一个config.json,写入调优器、训练batch等参数。

{
   // 每个GPU的训练批次大小
   "train_batch_size": 4,
   // 每隔多少步打印一次训练状态,这里是2000"steps_per_print": 2000,
   //优化器的配置
   "optimizer": {
     //优化器类型
     "type": "Adam",
     //Adam优化器的参数
     "params": {
       //学习率
       "lr": 0.001,
       // Adam的第一和第二动量参数
       "betas": [
         0.8,
         0.999
       ],
       //优化器的稳定常数,防止除以零,这里是1e-8
       "eps": 1e-8,
       //权重衰减(L2正则化)
       "weight_decay": 3e-7
     }
   },
   // 学习率调度器的配置
   "scheduler": {
     //调度器类型
     "type": "WarmupLR",
     "params": {
       //预热阶段的最小学习率,这里是0
       "warmup_min_lr": 0,
       // 预热阶段的最大学习率,这里是0.001
       "warmup_max_lr": 0.001,
       //预热阶段的步数,这里是1000
       "warmup_num_steps": 1000
     }
   },
   //是否开启时间分解功能,用于分析训练过程中的时间消耗。
   //这里是false,表示不开启
   "wall_clock_breakdown": false
}

以上即为利用DeepSpeed开发模型的过程,由此可见,和Pytorch开发模型的过程大同小异,就是在初始化的时候使用了DeepSpeed,并以输入参数的形式初始化。

测试代码

首先,使用环境变量控制GPU,例如机器有10张GPU,但是只使用6, 7, 8, 9号GPU,输入命令:

export CUDA_VISIBLE_DEVICES="6,7,8,9"

然后开始运行代码:

deepspeed test.py --deepspeed_config config.json

如下图所示即为开始运行。

图片

开始训练的时候DeepSpeed通常会打印更多的训练细节供用户监控,包括训练设置、性能统计和损失趋势,效果类似于:

图片

这也说明第一个Deepspeed模型已完成,下来可以开始大规模训练之路了!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1801531.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Vuepress 2从0-1保姆级进阶教程——标准化流程

Vuepress 2 专栏目录 1. 入门阶段 Vuepress 2从0-1保姆级入门教程——环境配置篇Vuepress 2从0-1保姆级入门教程——安装流程篇Vuepress 2从0-1保姆级入门教程——文档配置篇Vuepress 2从0-1保姆级入门教程——范例与部署 2.进阶阶段 Vuepress 2从0-1保姆级进阶教程——全文搜索…

工具篇之NATAPP实现内网穿透

一、内网穿透 1.1概述 内网穿透简单来说就是我们可以通过在个人电脑上运行花生壳或者 frp 等方式,让他人访问我们本地启动的服务,而且这种访问可以不受局域网的限制。比如常用的办公室软件等,一般在办公室或家里,通过拨号上网&am…

Ubuntu项目部署

解压jdk tar -zxvf jdk-8u151-linux-x64.tar.gz 配置Java环境变量: vim ~/.bashrc export JAVA_HOME/root/soft/jdk1.8.0_151 export JRE_HOME${JAVA_HOME}/jre export CLASSPATH.:${JAVA_HOME}/lib:${JRE_HOME}/lib export PATH${JAVA_HOME}/bin:$PATH 设置环境变…

workerman error 2 send buffer full and drop package

来源 报错信息:workerman error 2 send buffer full and drop package 定时发送数据的时候,本地偶尔出现这种情况 线上第一条数据发出去就报错了,数据改小一点可以发,不过一会还是会出现这种情况。 解决 根据我的经验&#xf…

基于comsol进行等离子体缺陷的二维微结构电磁调制仿真

关键词:微结构器件;禁带效应;等离子体缺陷;开关调控;电磁波调制 光子晶体是一种介电常数呈周期变化的材料,通常通过调节介质材料与空气或其他具有折射率差异材料间的周期排列结构,实现电磁波透…

问题:11单位内部人员对行政机关作出的行政处分不服,可申请行政复议. #其他#微信

问题:11单位内部人员对行政机关作出的行政处分不服,可申请行政复议. 参考答案如图所示

Java Web学习笔记5——基础标签和样式

<!DOCTYPE html> html有很多版本&#xff0c;那我们应该告诉用户和浏览器我们现在使用的是HMTL哪个版本。 声明为HTML5文档。 字符集&#xff1a; UTF-8&#xff1a;现在最常用的字符编码方式。 GB2312&#xff1a;简体中文 BIG5&#xff1a;繁体中文、港澳台等方式…

烧写uboot、linux镜像、根文件系统到开发板

烧写uboot、linux镜像、根文件系统到开发板 环境介绍 本博客使用x6818开发板。 公司&#xff1a;三星 ARM架构 Cortex-A53核 型号&#xff1a;S5P6818 特性&#xff1a;8核&#xff0c;最高主频2GHz 烧写uboot 使用网络烧写 网络烧写上位机是Ubuntu虚拟机。 先利用上…

Lidar3607.2 雷达点云数据处理软件新增功能介绍

新特性:预处理航带平差新增livox激光器镜面误差改正,新增多源航带平差&#xff0c;提升点云和影像匹配精度优化配准功能流程&#xff0c;ICP功能支持点云与模型配准安置检校新增轨迹自动裁剪轨迹解算时投影坐标增加Z值记录数据管理新增点云色彩亮度和对比度调节新增多段线平滑工…

【多模态/CV】图像数据增强数据分析和处理

note 多模态大模型训练前&#xff0c;图片数据处理的常见操作&#xff1a;分辨率调整、网格畸变、水平翻转、分辨率调整、随机crop、换颜色、多张图片拼接、相似图片检测并去重等 一、分辨率调整 from PIL import Image def resize_image(original_image_path, save_image_p…

机器学习与数据挖掘知识点总结(一)

简介&#xff1a;随着人工智能&#xff08;AI&#xff09;蓬勃发展&#xff0c;也有越来越多的人涌入到这一行业。下面简单介绍一下机器学习的各大领域&#xff0c;机器学习包含深度学习以及强化学习&#xff0c;在本节的机器学习中主要阐述一下机器学习的线性回归逻辑回归&…

【JavaScript函数详解】Day04

JavaScript函数详解 JavaScript 基础 - 第4天笔记函数声明和调用声明&#xff08;定义&#xff09;调用 参数形参和实参参数默认值 返回值函数补充细节作用域全局作用域局部作用域变量的访问原则 匿名函数函数表达式立即执行函数 逻辑中断小知识&#xff08;转换为Boolean型&am…

WPF视频学习-基础知识篇

1.简介WPF&#xff1a; C# 一套关于windows界面应用开发框架 2.WPF和winform的差别 &#xff0c;(WPF比较新) 创建新项目使用模板&#xff1a; WPF使用.xaml后缀&#xff0c;双击可查看操作界面和设置代码&#xff0c;其文件展开之后中有MainWindow.xaml.cs为程序交互逻辑。…

Vitis HLS 学习笔记--初始化与复位

目录 1. 简介 2. 控制初始化与复位 2.1 初始化 2.2 复位 2.3 全局复位选项 2.4 复位排除 3. 阵列初始化和复位 3.1 不使用 static 限定符 3.2 使用 static 限定符 3.3 BRAM 和 URAM 4. 总结 1. 简介 本文对比分析两个方面的初始化和复位&#xff1a;阵列和控制&…

如何检测UV胶的均匀性?

如何检测UV胶的均匀性&#xff1f; 检测UV胶的均匀性可以通过以下几种方法来实现&#xff1a; 肉眼目视检查&#xff1a; 这是最简单直接的方法。将UV胶涂在表面上&#xff0c;使用裸眼观察胶层的表面。特别注意是否存在气泡、颜色不均匀、裂纹或其他明显的不均匀性。如凹凸不…

选择排序(直接选择排序与堆排序)----数据结构-排序②

1、选择排序 1.1 基本思想 每一次从待排序的数据元素中选出最小&#xff08;或最大&#xff09;的一个元素&#xff0c;放在序列的起始位置&#xff0c;直到全部待排序的数据元素排完就停止 。 1.2 直接选择排序 排序思想&#xff1a; ①在元素集合array[i]--array[n-1]中选择…

FM148A,FM146B运行备件

FM148A,FM146B运行备件。电源保险丝仓主控底座的保险丝仓示意图底座上共有两个保险丝&#xff08;800mA&#xff09;&#xff0c;FM148A,FM146B运行备件。&#xff08;10&#xff5e;73&#xff09;30/195主控单元2.K-CUT014槽底座地址接口主控站地址拨开关从上到下为二进制数的…

Day46 代码随想录打卡|二叉树篇---从中序与后序遍历序列构造二叉树

题目&#xff08;leecode T106&#xff09;&#xff1a; 给定两个整数数组 inorder 和 postorder &#xff0c;其中 inorder 是二叉树的中序遍历&#xff0c; postorder 是同一棵树的后序遍历&#xff0c;请你构造并返回这颗 二叉树 。 方法&#xff1a;本题要通过中序遍历和后…

Windows无法安装到这个硬盘空间。选定的分区上启用了BitLocker驱动器加密。请在控制面板中暂停(也称为禁用)BitLocker,然后重新开始安装。

我们安装操作系统的时候&#xff0c;到了选择安装分区的地方&#xff0c;我们选中的分区提示“无法在驱动器的分区上安装Windows”&#xff0c;然后我们点击显示详细信息&#xff0c;提示如图下所示 分析原因&#xff0c;可能是之前的分区未进行格式化。但是这个时候我们无法格…

基于51单片机水塔水位控制系统

基于51单片机水塔水位控制 &#xff08;仿真&#xff0b;程序&#xff09; 功能介绍 具体功能&#xff1a; 1.用滑动变阻器模拟水位&#xff0c;ADC0809将模拟信号转换为数字信号&#xff1b; 2.LCD1602显示当前水位和水位阈值&#xff1b; 3.当水位超过设定阈值&#xff…