GPU分布式通信技术-PCle、NVLink、NVSwitch深度解析

news2024/11/18 8:13:51

829594aa7b3de8b938128547356d544b.jpeg  

GPU分布式通信技术-PCle、NVLink、NVSwitch

 

大模型时代已到来,成为AI核心驱动力。然而,训练大模型却面临巨大挑战:庞大的GPU资源需求和漫长的学习过程。

要实现跨多个 GPU 的模型训练,需要使用分布式通信和 NVLink。此外,由于单个 GPU 工作线程的内存有限,并且许多大型模型的大小已经超出了单个 GPU 的范围,因此需要实现跨多个 GPU 的模型训练。

PyTorch 提供了一种数据并行方法 DataParallel,用于在单台机器上的多个 GPU 上进行模型训练。它通过将输入数据划分成多个子部分(mini-batches),并将这些子部分分配给不同的 GPU,以实现并行计算。

在探讨分布式通信与NVLink时,我们发现了一个充满魅力且持续发展的技术领域。接下来,我们将简要概述分布式通信的基本原理,并深入了解实现高效分布式通信背后的关键技术——NVLink的演进历程。

分布式通信是指将计算机系统中的多个节点连接起来,使它们能够相互通信和协作,以完成共同的任务。而NVLink则是一种高速、低延迟的通信技术,通常用于连接GPU之间或连接GPU与其他设备之间,以实现高性能计算和数据传输 。

分布式并行

深度学习已迈入大模型时代,即Foundation Models。这类模型以“大”为核心,主要包括以下几个方面:

  1. "大数据驱动,大模型依赖自监督学习。它削减了标注需求,降低了训练成本,而充足的数据又赋予了模型更强的泛化和性能。"
  2. 庞大的数据和参数需求,导致模型难以在单台机器上运行和计算。这既推动了计算硬件的持续创新,也对AI框架提出了分布式并行训练的要求。

所以说,为了解决上述问题我们需要引入分布式并行策略。

数据并行

数据并行(Data Parallel,DP)是一种常用的深度学习训练策略,它通过在多个 GPU 上分布数据来实现并行处理。在数据并行的框架下,每个 GPU(或称作工作单元)都会存储模型的完整副本,这样每个 GPU 都能独立地对其分配的数据子集进行前向和反向传播计算。这种方法可以显著提高训练速度,但需要更多的显存和更复杂的分布式通信 。

数据并行的工作流程:

  1. 梯度聚合是指在分布式训练中,计算完成后,所有工作单元的梯度需要被聚合起来。这通常通过网络通信来实现,比如使用 All-Reduce 算法,它允许在不同的 GPU 间高效地计算梯度的平均值。AllReduce算法是一种特殊的Reduce操作,它将所有节点的数据聚合到一起,并将结果广播回所有节点。
  2. 更新参数:一旦梯度被平均,每个 GPU 使用这个平均梯度来更新其模型副本的参数。
  3. 重复过程:这个过程在每个数据批次上重复进行,直到模型在整个数据集上训练完成。

数据并行的优势和挑战:

数据并行是一种强大的技术,它能让你将训练过程扩展到更多的GPU上,从而极大地加速训练。它的优势在于实施简单,同时可以根据硬件资源的变化,灵活地调整工作单元的数量。目前,多个深度学习框架都已内置了对这种技术的全面支持。

随着GPU并行数量的增加,数据并行会带来显著的内存开销,因为需要存储更多的参数副本。同时,梯度聚合步骤在GPU之间同步大量数据时可能成为系统瓶颈,尤其是工作单元数量增多的情况下。

异步同步方案在数据并行中的应用:

为了突破数据并行中的通信瓶颈,研究者们倾力打造了各种异步同步策略。其中,GPU 工作线程独当一面,各自为政地处理数据,无需等待其他线程完成梯度计算和同步。这种方法大幅减少了通信阻塞时间,从而提高了系统的吞吐效率。

"梯度计算过程中的一大创新,是每个GPU独立进行前向和反向传播,然后立即开始更新梯度。此外,当需要时,每个GPU能即时读取最新的全局权重,无需等待所有GPU同步。"

尽管此方法独具优势,但也存在不足。由于GPU上不同模型权重的同步性问题,工作线程可能使用过时权重进行梯度计算,从而降低统计效率,精度无法得到严格保证。

模型并行

模型并行(Model Parallel, MP)是一种将深度学习模型的不同部分分布到多个计算设备(如GPU)上的技术,以提高训练和推理的效率。模型并行特别适合于大型模型,因为这些模型的参数可能超出单个设备的内存容量 。

模型并行可以进一步细分为几种策略,包括但不限于流水并行(Pipeline Parallel, PP)和张量并行(Tensor Parallel, TP) 。

模型并行是一种解决单个计算节点无法容纳模型所有参数的方法。与数据并行不同,模型并行将模型的不同部分分布到多个节点上,每个节点只负责模型的一部分参数。这样可以有效降低单个节点的内存需求和计算负载。
在模型并行中,我们将深度神经网络的多个层划分为组,并分配给特定节点。这种分层策略使每个节点仅处理其所分配的一部分参数,从而降低了内存和计算资源的需求。

为了提高计算效率,我们引入了流水线并行(Pipeline Parallel,简称PP)技术。在这种方法中,大数据批次被划分为多个微批次,每个微批次的处理速度应保持相对平衡。当一个Worker空闲时,它将立即开始处理下一个微批次,从而加速整个流水线的执行速度。通过合理分配微批次数量,我们可以充分利用Worker资源,并在步骤开始和结束时降低空闲时间。

在并行流水中,各节点按序处理不同层模型,微批次在节点间流动,如流水线。所有微批次处理完毕后,梯度平均并更新模型参数。

采用层级“垂直”分割的流水并行模型,我们还可在层内实现“水平”分割,这被称为张量并行训练(Tensor Parallel,TP),从而进一步提升计算效率。

在张量并行中,大型矩阵乘法操作被分割成更小的部分,这些部分可以在多个计算节点上并行执行。例如,在 Transformer 模型中,矩阵乘法是一个主要的计算瓶颈。通过张量并行,我们可以将权重矩阵分割成更小的块,每个块在不同的节点上并行处理。这样可以提高模型的训练速度和效率。
在实际应用中,模型并行策略主要包含流水线并行和张量并行两种技术。这种方法允许单个节点同时处理整个模型的不同部分(即模型并行),并且在此节点内部,大规模矩阵运算能在多个处理器之间进一步分割(即张量并行)。这种优化组合可以最大限度地利用分布式计算资源,从而显著提升大规模模型训练的效率。

AI 框架分布式

在模型训练中,并行策略的本质是将模型切分为“纵向”或“横向”,然后将单独切分出来的放在不同的机器上进行计算,以充分利用计算资源。
在AI框架中,混合并行策略加速模型训练已成为常态。然而,如何实现不同切分部分间的通信,以支持这种并行策略,仍是一个关键挑战。

d2bbce16280792b97ef9babf237398b2.jpeg

AI 训练图切分

如上图所示,AI计算框架需将网络模型切分并分布至多台机器进行计算。为实现通信,模型中插入Send和Recv节点。

在分布式模型训练中,模型切分导致参数需放置于不同机器上。训练过程中涉及节点间参数交互与同步,即跨节点数据和参数同步,这便是分布式训练。

文章提到了软件层面的分布式策略和算法,接下来我们来看下通讯的硬件上是如何实现的。

通讯硬件上的分布式策略和算法是指在分布式系统中,如何通过硬件来实现数据的传输和处理。这些策略和算法包括数据并行、模型并行、流水并行、算子并行等。

通讯硬件

在AI训练中,分布式通信至关重要,尤其对于处理大型模型和海量数据。它涉及设备或节点间的数据传输与协调,以实现并行计算和模型参数同步。

df9049a63e5127b87693849aa79ea468.jpeg

GPU 服务结构

在机器内通信方面,有几种常见的硬件:

  1. PCIe(Peripheral Component Interconnect Express):作为连接计算设备的标准接口,PCIe总线广泛应用于GPU、加速器卡等外部设备的互联互通。其卓越的传输能力,实现了数据的快速在各计算设备之间流动,从而推动了分布式计算的发展。
  2. NVLink 是一种由 NVIDIA 开发的高速互连技术,可实现 GPU 之间的直接通信。它可以提供比 PCIe 更高的带宽和更低的延迟,适用于要求更高通信性能的任务。NVLink 可用于连接两个或多个 GPU,以实现高速的数据传输和共享,为多 GPU 系统提供更高的性能和效率。

在机器间通信方面,常见的硬件包括:

  1. TCP/IP网络是互联网通信的基础,它允许不同机器之间通过网络进行数据传输。在分布式计算中,可以使用TCP/IP网络进行机器间的通信和数据传输。
  2. RDMA(Remote Direct Memory Access)网络是一种高性能网络通信技术,它允许在不涉及 CPU 的情况下直接从一个内存区域传输数据到另一个内存区域。RDMA 网络通常用于构建高性能计算集群,提供低延迟和高吞吐量的数据传输。

MPI(Message Passing Interface)是一种跨语言的通讯协议,用于编写并行计算机。支持点对点和广播。MPI的目标是高性能、大规模性和可移植性。而在NVIDIA GPU上,最常用的集合通信库则是NCCL(NVIDIA Collective Communications Library)。NCCL是NVIDIA提供的一种性能优化的通信库,可用于深度学习和HPC应用。NCCL支持多种编程语言和网络,提供了简单的C API和自动拓扑检测,可加快多GPU和多节点的训练速度 。

6f527e3c4507ca71750a53ac245d7098.jpeg

NVLink&NVSwitch

如图所示,借助NCCL库,我们能通过NVLink或NVSwitch实现GPU间的互联。此库在算法层面提供了丰富的外部API,使得跨多个GPU的集合通信变得简便。这些API覆盖了广播、归约、全局归约、全局同步等常见的集合通信操作,极大地提升了开发者进行并行计算的效率和便利性。

集合通信

集合通信(Collective Communications)是一种涉及进程组中所有进程的全局通信操作。它包括一系列基本操作,如发送(send)、接收(receive)、复制(copy)、组内进程栅栏同步(Barrier),以及节点间进程同步(signal + wait)。这些基本操作经过组合可以构成一组通信模板,也称为通信原语。例如,1 对多的广播(broadcast)、多对 1 的收集(gather)、多对多的收集(all-gather)、1 对多的发散(scatter)、多对 1 的规约(reduce)、多对多的规约(all-reduce)、组合的规约与发散(reduce-scatter)、多对多的全互连(all-to-all)等。下面我们简单介绍几个。

1cc927a5ef55ca65868c5f7df73d9f95.jpeg

集合通信

Gather操作是一种多对一的通信原语,允许多个发送者将数据发送到一个接收者。在集群内,它能将多个节点的数据汇总到一个节点上。与之相反,Scatter操作对应于Gather,实现了数据的反向收集。

Broadcast是一种多对一的通信原语,适用于集群内的数据传输。当主节点执行Broadcast操作时,数据会从主节点发送至其他所有节点。如图所示,数据从主节点0开始传播至其他各节点。

Scatter是数据的1对多的分发,它将一张GPU卡上的数据进行分片再分发到其他所有的GPU卡上。

以下是一些关于Scatter的信息:
- Scatter是一个1对多的通信原语,也是一个数据发送者,多个数据接收者。
- Scatter可以在集群内把一个节点自身的数据发散到其他节点上。
- Scatter将数据的进行切片再分发给其他所有节点。

AllReduce是一种多对多的通信原语,具有多个数据发送者和多个数据接收者。它在集群内的所有节点上都执行相同的 Reduce 操作,可以将集群内所有节点的数据规约运算得到的结果发送到所有的节点上。简单来说,AllReduce 是数据的多对多的规约运算,它将所有的 GPU 卡上的数据规约(比如 SUM 求和)到集群内每张 GPU 卡上。

AllGather是一种多对多的通信原语,支持多个数据发送者和接收者。它能在集群内将各个节点的数据汇总到一个主节点(Gather),然后再将收集到的数据分发给其他节点。

在分布式计算的领域,"AllToAll"是一种重要的操作模式。这种模式下,每个节点的数据会被分散发送到集群内的所有其他节点。同时,这些节点也会将各自收集到的数据汇总并发送回原节点。相比于"AllGather"模式,"AllToAll"模式的一个显著特点是,它允许同一节点接收来自不同节点的不同数据。这种灵活性使得"AllToAll"模式在处理复杂数据分布问题时具有更大的优势。

NVLlink 与 NVSwitch 发展

NVLink 和 NVSwitch 是英伟达推出的两项革命性技术,它们正在重新定义 CPU 与 GPU 以及 GPU 与 GPU 之间的协同工作和高效通信的方式。

NVLink 是一种专门设计用于连接 NVIDIA GPU 的高速互联技术。 它允许 GPU 之间以点对点方式进行通信,绕过传统的PCIe总线,实现了更高的带宽和更低的延迟。

NVSwitch 是一款GPU桥接设备(芯片),可提供所需的NVLink交叉网络,以初代NVSwitch为例,每块NVSwitch提供18个NVLink端口,支持直连8块GPU,提供GPU之间的高速互联。

NVLink是一种先进的总线及其通信协议,由英伟达(NVIDIA)开发并推出。它采用点对点结构、串列传输,用于中央处理器(CPU)与图形处理器(GPU)之间的连接,也可用于多个图形处理器(GPU)之间的相互连接。NVLink提供高达300GB/s的带宽,是PCIe的10倍,可用于GPU间、GPU与CPU间的通信,甚至CPU互联 。

NVSwitch是一种高速互连技术,同时作为一块独立的 NVLink 芯片,其提供了高达 18 路 NVLink 的接口,可以在多个 GPU 之间实现高速数据传输。

NVLink 发展

4c26460dfc0a19e07feec4fe09223e55.jpeg

NVLink 发展

如上图所示,自Pascal架构起,NVLink已历经四代蜕变。在2024年GTC大会上,NVIDIA惊艳亮相Blackwell架构,第五代NVLink再次升级,互联带宽高达1800GB/s,为业界带来前所未有的性能突破。

如上图所示,随着 NVLink 的升级,每层互联带宽不断增长。从第一代的 4 路到第四代的 18 路,NVLink 能够互联的 GPU 数显著提升。然而,值得注意的是,最新的 Blackwell 架构的最大互联 GPU 数并未发生变化。

b322f12cc816dc78478aa1ed79a4bea9.jpeg

NVLink 发展

如上图所示,P100中的每个NVLink带宽仅为40GB/s,而从第二代V100到H100,每个NVLink链路的带宽提高至50GB/s。这得益于增加了链路数量,从而提升了整体带宽。

NVSwitch 发展

86652bec2ccf8e91472877e9e1a07bff.jpeg

NVSwitch 发展

如上图所示,NVSwitch 技术从 Volta 架构到 Hopper 架构,经历了三代的演进与发展。在每一代中,每个 GPU 互联的芯片模组数量保持不变,都为 8 个,这意味着互联的基本结构保持了稳定性和一致性。随着 NVLink 架构的升级,GPU 到 GPU 之间的带宽却实现了显著的增长,因为 NVSwitch 就是 NVLink 具体承载的芯片模组,从 Volta 架构的 300GB/s 增加到了 Hopper 架构的 900GB/s。

下面我们来看下 NVLink 与 NVSwitch 在服务器中的关系。

4a9a33236aca491bb46e1ff0844e5950.jpeg

NVSwitch 发展

如图所示,P100仅支持NVLink技术,GPU间通过CubeMesh实现互联。在P100中,每个GPU具有4路互联能力,每4个GPU组成一个CubeMesh。

在V100 GPU中,每个GPU可以通过NVSwitch与另一个GPU互联。而在A100中,NVSwitch进一步升级,大大减少了链路数量,使得每个GPU都可以通过NVSwitch与任意一个GPU进行互联。

到了 H100 中,又有了新的技术突破,单机内有 8 块 H100 GPU 卡,任意两个 H100 卡之间都有 900 GB/s 的双向互联带宽。值得注意的是,在 DGX H100 系统里,四个 NVSwitch 留出了 72 个 NVLink4 连接,用于通过 NVLink-Network Switch 连接到其他 DGX H100 系统,从而方便组成 DGX H100 SuperPod 系统。其中,72 个 NVLink4 连接的总双向带宽是~3.6TB/s。

总结

在AI大模型时代,计算资源成为关键驱动力,尤其是GPU资源。为训练庞大模型,需采用分布式并行策略,将任务分散至多GPU或计算节点。这涉及数据并行、模型并行等策略,以及高效的分布式通信技术,如NVLink和NVSwitch,确保数据在各计算单元间快速传输和同步。

在AI大模型时代,优秀的框架不仅要支持灵活的分布式并行策略,还需考虑利用NVLink和NVSwitch等先进通信技术,以确保高效的跨节点协作。

随着模型规模的持续扩大,计算资源需求不断攀升。为应对这一挑战,我们需致力于分布式并行策略的优化,发展高性能的分布式通信技术。这不仅涉及软件层面的策略更新,还需关注硬件优化。

"NVLink与NVSwitch的持续创新,极大地提升了深度学习模型训练的速度和效率。这些通信技术的进步,不仅助力我们训练更大规模的模型,还推动着人工智能迈向更深层次的发展。"

如果这篇文章对您有所帮助,请点赞转发,多多鼓励。

如果觉得这篇文章对你有所帮助,请点一下赞或者在看,是对我的肯定和支持~


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2242695.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于 PyTorch 从零手搓一个GPT Transformer 对话大模型

一、从零手实现 GPT Transformer 模型架构 近年来,大模型的发展势头迅猛,成为了人工智能领域的研究热点。大模型以其强大的语言理解和生成能力,在自然语言处理、机器翻译、文本生成等多个领域取得了显著的成果。但这些都离不开其背后的核心架…

数据集的重要性:如何构建AIGC训练集

文章目录 一、为什么数据集对AIGC如此重要?1. 数据决定模型的知识边界2. 数据质量直接影响生成效果3. 数据集多样性提升模型鲁棒性 二、构建AIGC训练集的关键步骤1. 明确目标任务和生成需求2. 数据源的选择3. 数据清洗与预处理4. 数据标注5. 数据增强 三、针对不同类…

全网首发:Ubuntu编译跨平台嵌入式支持ffmpeg的OpenCV

难题: 使用cmake编译,死活找不到ffmpeg 使用cmake-gui,能找到ffmpeg,不能编译。 解决思路 结合cmake和cmake-gui。 为了给初次编译的朋友一点方便,这里专门完整详细记录。 安装编译环境 其他的略。 apt -y in…

算法——两两交换链表中的节点(leetcode24)

这是一道对于链表节点进行操作的题目非常考验对于链表操作的基本功; 解法: 本题的解法结合下图来进一步解释 创建一个虚拟节点指向头结点以便使代码逻辑看起来更为简便且操作节点容易,定义cur是为了方便找到cur之后的两个节点进行交换操作定义pre和aft是为了保存执…

非对称加密算法RSA的实现

一、实验目的 1、了解非对称密码体制基本原理 2、掌握编程语言实现非对称加密、解密 二、实验原理 RSA加密算法是一种非对称加密算法,所谓非对称,就是指该算法加密和解密使用不同的密钥,即使用加密密钥进行加密、解密密钥进行解密。在RAS…

劳动力市场

1.劳动力市场概述 (1)劳动力:所有有工作能力且愿意工作的人的总称,由那些正在工作(就业)和正在寻找工作(失业)的人组成,表示为:L(劳动力&#xf…

拉取docker镜像应急方法

发现许多docker hub镜像网址速度也慢得发指啦,如果想速度快点,可以考虑买个按量计费的公有云服务器,用他们的内网镜像,然后再导出,然后传到本地。 开通服务器 可以考虑个开通最低配的,这里我用的是腾讯的…

go-zero(三) 数据库操作

go-zero 数据库操作 在本篇文章中,我们将实现一个用户注册和登录的服务。我们将为此构建一个简单而高效的 API,包括请求参数和响应参数的定义。 一、Mysql连接 1. 创建数据库和表 在 MySQL 中创建名为 test_zero的数据库,并创建user 表 …

113页PPT制造业研发工艺协同及制造一体化

研发工艺协同及制造一体化解决方案是制造业数字化转型的重要组成部分,它涵盖了从产品设计到生产的全过程,旨在提高生产效率、降低成本、提升产品质量,并增强企业的市场竞争力。以下是对该解决方案的详细阐述: 一、方案概述 研发…

【MySQL 保姆级教学】事务的隔离级别(详细)--下(14)

事务的隔离级别 1. 如何理解事务的隔离性2. 事务隔离级别的分类3. 查看和设置事务隔离级别3.1 全局和会话隔离级别3.2 查看和设置隔离级别 4. 事务隔离级别的演示4.1 读未提交(Read Uncommitted)4.2 读已提交(Read Committed)4.3 …

手机ip地址异常怎么解决

在现代社会中,手机已成为我们日常生活中不可或缺的一部分,无论是工作、学习还是娱乐,都离不开网络的支持。然而,有时我们会遇到手机IP地址异常的问题,这不仅会影响我们的网络体验,还可能带来安全隐患。本文…

STM32低功耗设计NFC与无线距离感应智能钥匙扣

目录 目录 前言 一、本设计主要实现哪些很“开门”功能? 二、电路设计原理图 1.电路图采用Altium Designer进行设计: 2.实物展示图片 三、程序源代码设计 四、获取资料内容 前言 在当今快速发展的物联网(IoT)时代&#xf…

Pyhon基础数据结构(列表)【蓝桥杯】

a [1,2,3,4,5] a.reverse() print("a ",a) a.reverse() print("a ",a)# 列表 列表(list)有由一系列按照特定顺序排序的元素组成 列表是有顺序的,访问任何元素需要通过“下标访问” 所谓“下标”就是指元素在列表从左…

关于win11电脑连接wifi的同时,开启热点供其它设备连接

背景: 我想要捕获手机流量,需要让手机连接上电脑的热点。那么问题来了,我是笔记本电脑,只能连接wifi上网,此时我的笔记本电脑还能开启热点供手机连接吗?可以。 上述内容,涉及到3台设备&#x…

SAP SD学习笔记13 - 出库确认(发货)之后的取消 - VL09

上一章讲了出荷传票的总结,以及出荷相关的其他知识,比如出荷控制,出荷传票登录的各种Tr-cd,Picking场所的决定,出荷传票的变更等内容。 SAP SD学习笔记12 - 出荷传票总结,出荷控制(出荷Type,出…

IDEA优雅debug

目录 引言一、断点分类🎄1.1 行断点1.2 方法断点1.3 属性断点1.4 异常断点1.5 条件断点1.6 源断点1.7 多线程断点1.8 Stream断点 二、调试动作✨三、Debug高级技巧🎉3.1 watch3.2 设置变量3.3 异常抛出3.4 监控JVM堆大小3.5 数组过滤和筛选 引言 使用ID…

MyBatisPlus(Spring Boot版)的基本使用

1. 初始化项目 1.1. 配置application.yml spring:# 配置数据源信息datasource:# 配置数据源类型type: com.zaxxer.hikari.HikariDataSource# 配置连接数据库信息driver-class-name: com.mysql.cj.jdbc.Driverurl: jdbc:mysql://localhost:3306/mybatis_plus?characterEncodi…

串口DMA接收不定长数据

STM32F767—>串口通信接收不定长数据的处理方法_stm32串口超时中断-CSDN博客 STM32-HAL库串口DMA空闲中断的正确使用方式解析SBUS信号_stm32 hal usart2 dma-CSDN博客 #define USART1_RxBuffSize 100 extern DMA_HandleTypeDef hdma_usart1_rx; //此处声明的变量在…

【Linux】进程字段、环境变量与进程地址空间

🌈 个人主页:谁在夜里看海. 🔥 个人专栏:《C系列》《Linux系列》《算法系列》 ⛰️ 丢掉幻想,准备斗争 目录 一、查看进程字段 1.字段说明 2.进程优先级 二、环境变量 1.概念 2.指令与PATH 3.环境变…

无人机场景 - 目标检测数据集 - 车辆检测数据集下载「包含VOC、COCO、YOLO三种格式」

数据集介绍:无人机场景车辆检测数据集,真实场景高质量图片数据,涉及场景丰富,比如无人机场景城市道路行驶车辆图片、无人机场景城市道边停车车辆图片、无人机场景停车场车辆图片、无人机场景小区车辆图片、无人机场景车辆遮挡、车…