汽车长翅膀：GPU 是如何加速深度学习模型的训练和推理过程的？

编者按：深度学习的飞速发展离不开硬件技术的突破，而 GPU 的崛起无疑是其中最大的推力之一。但你是否曾好奇过，为何一行简单的“.to(‘cuda’)”代码就能让模型的训练速度突飞猛进？本文正是为解答这个疑问而作。

作者以独特的视角，将复杂的 GPU 并行计算原理转化为通俗易懂的概念。从 CPU 与 GPU 的设计哲学对比，到 CUDA 编程的核心要素，再到具体的代码实现，文章循序渐进地引领读者把握 GPU 并行计算的精髓。特别是文中巧妙的比喻 —— 将 CPU 比作法拉利，GPU 比作公交车，这一比喻生动形象地诠释了两种处理器的特性。

这篇文章不仅回答了"为什么"，更指明了"如何做"，在当前人工智能技术飞速发展的背景下，理解底层技术原理的重要性不言而喻。这篇文章虽为入门级别的技术内容介绍，但也提到了更高级的优化技术和工具库，指明了进一步的学习方向，具有一定的学习和参考价值。

作者 | Lucas de Lima Nogueira

编译 | 岳扬

Image by the author with the assistance of AI (https://copilot.microsoft.com/images/create)

现如今，当我们提及深度学习时，人们自然而然地会联想到通过 GPU 来增强其性能。

GPU（图形处理器，Graphical Processing Units）起初是为了加速图像（images）及 2D、3D 图形（graphics）的渲染而生。但凭借其强大的并行运算能力，GPU 的应用范围迅速拓展，已扩展至深度学习（deep learning）等应用领域。

GPU 在深度学习模型中的应用始于 2000 年代中后期，2012 年 AlexNet 的横空出世更是将这种趋势推向高潮。 AlexNet，这款由 Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 共同设计、研发的卷积神经网络，在 2012 年的 ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 上一鸣惊人。这一胜利具有里程碑式的意义，它不仅证实了深度神经网络在图像分类领域（image classification）的卓越性能，同时也彰显了使用 GPU 训练大型模型的有效性。

在这一技术突破之后，GPU 在深度学习模型中的应用愈发广泛，PyTorch 和 TensorFlow 等框架应运而生。

如今，我们只需在 PyTorch 中轻敲 .to(“cuda”)，即可将数据传递给 GPU，从而加速模型的训练。但在实践中，深度学习算法究竟是如何巧妙地利用 GPU 算力的呢？让我们一探究竟吧！

深度学习的核心架构，如神经网络、CNNs、RNNs 和 transformer，其本质都围绕着矩阵加法（matrix addition）、矩阵乘法（matrix multiplication）以及对矩阵应用函数（applying a function a matrix）等基本数学操作展开。因此，优化这些核心运算，便是提升深度学习模型性能的关键所在。

那么，让我们从最基础的场景说起。想象一下，你需要对两个向量执行相加操作 C = A + B。

可以用 C 语言简单实现这一功能：

不难发现，传统上，计算机需逐一访问向量中的各个元素（elements），在每次迭代中按顺序对每对元素进行加法运算。但有一点需要注意，各对元素间的加法操作互不影响，即任意一对元素的加法不依赖于其它任何一对。那么，若我们能同时执行这些数学运算，实现所有元素对（pairs of elements）的并行相加，效果会如何呢？

直接做法是借助 CPU 的多线程功能，并行执行所有数学运算。但在深度学习领域，我们需要处理的向量规模巨大，往往包含数百万个元素。通常情况下，普通 CPU 只能同时处理十几条线程。此时，GPU 的优势便凸显出来！目前的主流 GPU 能够同时运行数百万个线程，极大地提高了处理大规模向量中数学运算的效率。

01 GPU vs. CPU comparison

虽然从单次运算（single operation）的处理速度来看，CPU 或许略胜 GPU 一筹，但 GPU 的优势在于其卓越的并行处理能力。究其根源，这一情况源于两者设计初衷的差异。CPU 的设计侧重于高效执行单一序列的操作（即线程（thread）），但一次仅能同时处理几十个；相比之下，GPU 的设计目标是实现数百万个线程的并行运算，虽有所牺牲单个线程的运算速度，却在整体并行性能上实现了质的飞跃。

打个比方，你可以将 CPU 视作一辆炫酷的法拉利（Ferrari）跑车，而 GPU 则如同一辆宽敞的公交车。倘若你的任务仅仅是运送一位乘客，毫无疑问，法拉利（CPU）是最佳选择。然而，如若当前的运输需求是运送多位乘客，即使法拉利（CPU）单程速度占优，公交车（GPU）却能一次容纳全部乘客，其集体运输效率远超法拉利多次单独接送的效率。由此可见，CPU 更适于处理连续性的单一任务，而 GPU 则在并行处理大量任务时展现出色的效能。

Image by the author with the assistance of AI (https://copilot.microsoft.com/images/create)

为了实现更出色的并行计算能力，GPU 在设计上倾向于将更多晶体管资源（transistors）投入到数据处理中，而非数据缓存（data caching）和流控机制（flow contro），这与 CPU 的设计思路大相径庭。CPU 为了优化单一线程的执行效率和复杂指令集的处理，特意划拨了大量的晶体管来加强这些方面的性能。

下图生动地描绘了 CPU 与 GPU 在芯片资源分配上的显著差异。

Image by the author with inspiration from CUDA C++ Programming Guide

(https://docs.nvidia.com/cuda/pdf/CUDA_C_Programming_Guide.pdf)

CPU 配备了高性能内核（powerful cores）与更为精妙的缓存内存架构（cache memory architecture）（消耗了相当多的晶体管资源），这种设计方案能够极大地优化顺序任务的执行速度。而图形处理器（GPU）则着重于内核（cores）数量，以实现更高的并行处理能力。

现在已经介绍完这些基础知识，那么在实际应用中，我们应如何有效利用并行计算的优势呢？

02 Introduction to CUDA

当我们着手构建深度学习模型时，很可能会倾向于采用诸如 PyTorch 或 TensorFlow 这类广受欢迎的 Python 开发库。尽管如此，一个不争的事实是，这些库的核心代码都是 C/C++ 代码。另外，正如我们先前所提及的，利用 GPU 加快数据的处理速度往往是一种主流优化方案。此时，CUDA 的重要作用便凸显出来！CUDA 是统一计算设备架构（Compute Unified Device Architecture）的缩写，是英伟达（NVIDIA）为使 GPU 能够在通用计算领域大放光彩而精心打造的平台。与 DirectX 被游戏引擎用于图形运算（graphical computation）不同，CUDA 使开发人员能够将英伟达（NVIDIA）的 GPU 计算能力集成到通用软件中，而不仅仅局限于图形渲染。

为了实现这一目标，CUDA 推出了一款基于 C/C++ 的简易接口（CUDA C/C++），帮助开发者调用 GPU 虚拟指令集（virtual intruction se）及执行特定操作（specific operations）（如在 CPU 与 GPU 间传输数据）。

在继续深入技术细节之前，我们有必要澄清几个 CUDA 编程的基础概念和专业术语：

host：特指 CPU 及其配套内存；
device：对应 GPU 及其专属内存；
kernel：指代在设备（GPU）上运行的函数代码；

因此，在一份使用 CUDA 撰写的基本代码（basic code）中，程序主体在 host (CPU) 上执行，随后将数据传递给 device (GPU) ，并调用 kernels (functions) 在 device (GPU) 上并行运行。这些 kernels 由多条线程同时执行。运算完成后，结果再从 device (GPU) 回传至 host (CPU) 。

话说回来，让我们再次聚焦于两组向量相加这个具体问题：

借助 CUDA C/C++，编程人员能够创建一种被称为 kernels 的 C/C++ 函数；一旦这些 kernels 被调用， N 个不同的 CUDA 线程会并行执行 N 次。

若想定义这类 kernel，可运用 __global__ 关键字作为声明限定符（declaration specifier），而若欲设定执行该 kernel 的具体 CUDA 线程数目，则需采用 <<<...>>> 来完成：

每个 CUDA 线程在执行 kernel 时，都会被赋予一个独一无二的线程 ID，即 threadIdx，它可以通过 kernel 中的预设变量获取。上述示例代码将两个长度（size）均为 N 的向量 A 和 B 相加，并将结果保存到向量 C 中。值得我们注意的是，相较于循环逐次处理成对加法的传统串行方式，CUDA 的优势在于其能够并行利用 N 个线程，一次性完成全部加法运算。

不过，在运行上述这段代码前，我们还需对其进行一次修改。切记，kernel 函数的运行环境是 device (GPU) ，这意味着所有相关数据均须驻留于 device 的内存之中。 要达到这一要求，可以借助 CUDA 提供的以下内置函数：

直接将变量 A、B 和 C 传入 kernel 的做法并不适用于本情况，我们应当使用指针。在 CUDA 编程环境下，host 数组（比如示例中的 A、B 和 C）无法直接用于 kernel 启动（<<<…>>>）。鉴于 CUDA kernels 的工作空间为 device 的内存（device memory），故需向 kernel 提供 device 指针（device pointers）（d_A、d_B 和 d_C），以确保其能在 device 的内存上运行。

除此之外，我们还需通过调用 cudaMalloc 函数在 device 上划分内存空间，并运用 cudaMemcpy 实现 host 和 device 之间的数据传输。

至此，我们可在代码中实现向量 A 和 B 的初始化，并在程序结尾处清理 CUDA 内存（cuda memory）。

另外，调用 kernel 后，务必插入 cudaDeviceSynchronize(); 这一行代码。该函数的作用在于协调 host 线程与 device 间的同步，确保 host 线程在继续执行前，device 已完成所有先前提交的 CUDA 操作。

此外，CUDA 的错误检测机制同样不可或缺，这种检测机制能协助我们及时发现并修正 GPU 上潜在的程序缺陷（bugs）。倘若忽略此环节，device 线程（CPU）将持续运行，而 CUDA 相关的故障排查则将变得异常棘手，很难识别与 CUDA 相关的错误。

下面是这两种技术的具体实现方式：

要编译和运行 CUDA 代码，首先需要确保系统中已装有 CUDA 工具包（CUDA toolkit）。紧接着，使用 nvcc —— NVIDIA CUDA 编译器完成相关代码编译工作。

然而，当前的代码尚存优化空间。在前述示例中，我们处理的向量规模仅为 N = 1000，这一数值偏小，难以充分展示 GPU 强大的并行处理能力。特别是在深度学习场景下，我们时常要应对含有数以百万计参数的巨型向量。然而，倘若尝试将 N 的数值设为 500000，并采用 <<<1, 500000>>> 的方式运行 kernel ，上述代码便会抛出错误。因此，为了完善代码，使之能顺利执行此类大规模运算，我们亟需掌握 CUDA 编程中的核心理念 —— 线程层级结构（Thread hierarchy）。

03 Thread hierarchy（线程层级结构）

调用 kernel 函数时，采用的是 <<<number_of_blocks, threads_per_block>>> 这种格式（notation）。因此，在上述示例中，我们是以单个线程块的形式，启动了 N 个 CUDA 线程。然而，每个线程块所能容纳的线程数量都有限制，这是因为所有处于同一线程块内的线程，都被要求共存于同一流式多处理器核心（streaming multiprocessor core），并共同使用该核心的内存资源。

欲查询这一限制数量的具体数值，可通过以下代码实现：

就作者当前使用的 GPU 而言，其单一线程块最多能承载 1024 个线程。因此，为了有效处理示例中提及的巨型向量（massive vector），我们必须部署更多线程块，以实现更大规模的线程并发执行。同时，这些线程块被精心布局成网格状结构（grids），如下图所展示：

https://handwiki.org/wiki/index.php?curid=1157670 (CC BY-SA 3.0)

现在，我们可以通过以下途径获取线程 ID：

于是，该代码脚本更新为：

04 性能对比分析

下表展示了在处理不同大小向量的加法运算时，CPU 与 GPU 的计算性能对比情况。

Image by the author

显而易见，GPU 的处理效能优势，唯有在处理大规模向量时方能得以凸显。此外，切勿忽视一件事，此处的时间对比仅仅考量了 kernel/function 的执行耗时，而未将 host 和 device 间数据传输所需的时间纳入考虑范围。尽管在大多数情况下，数据传输的时间开销微不足道，但就我们目前仅执行简易加法运算（simple addition operation）的情形而言，这部分时间消耗却显得相对可观。因此，我们应当铭记，GPU 的计算性能，仅在面对那些既高度依赖计算能力又适合大规模并行处理的任务时，才能得以淋漓尽致地展现。

05 多维线程处理（Multidimensional threads）

现在，我们已经知道如何提升简单数组操作（simple array operation）的性能了。然而，在处理深度学习模型时，必须要处理矩阵和张量运算（matrix and tensor operations）。在前文的示例中，我们仅使用了内含 N 个线程的一维线程块（one-dimensional blocks）。然而，执行多维线程块（multidimensional thread blocks）（最高支持三维）同样也是完全可行的。因此，为了方便起见，当我们需要处理矩阵运算时，可运行一个由 N x M 个线程组成的线程块。还可以通过 row = threadIdx.x 来确定矩阵的行索引，而 col = threadIdx.y 则可用来获取列索引。此外，为了简化操作，还可以使用 dim3 变量类型定义 number_of_blocks 和 threads_per_block。

下文的示例代码展示了如何实现两个矩阵的相加运算。

此外，我们还可以将此示例进一步拓展，实现对多个线程块的处理：

此外，我们也可以用同样的思路将这个示例扩展到三维运算（3-dimensional operations）操作的处理。

上文已经介绍了处理多维数据（multidimensional data）的方法，接下来，还有一个既重要又容易理解的概念值得我们学习：如何在 kernel 中调用 functions。 一般可以通过使用 __device__ 声明限定符（declaration specifier）来实现。这种限定符定义了可由 device （GPU）直接调用的函数（functions）。因此，这些函数仅能在 __global__ 或其他 __device__ 函数中被调用。下面这个示例展示了如何对一个向量进行 sigmoid 运算（这是深度学习模型中极其常见的一种运算方式）。

至此，我们已经掌握了 CUDA 编程的核心概念，现在可以着手构建 CUDA kernels 了。对于深度学习模型而言，其实质就是一系列涉及矩阵（matrix）与张量（tensor）的运算操作，包括但不限于求和（sum）、乘法（multiplication）、卷积（convolution）以及归一化（normalization ）等。举个例子，一个基础的矩阵乘法算法，可以通过以下方式实现并行化：

我们可以注意到，在 GPU 版本的矩阵乘法算法中，循环次数明显减少，从而显著提升了运算处理速度。下面这张图表直观地展现了 N x N 矩阵乘法在 CPU 与 GPU 上的性能对比情况：

Image by the author

我们会发现，随着矩阵大小（matrix size）的增大，GPU 在处理矩阵乘法运算时的性能提升幅度更大。

接下来，让我们聚焦于一个基础的神经网络模型，其核心运算通常表现为 y = σ(Wx + b)，如下图所示：

Image by the author

上述运算主要涉及矩阵乘法（matrix multiplication）、矩阵加法（matrix addition）以及对数组施加函数变换（applying a function to an array）。如若你已掌握这些并行化处理技术，意味着你现在完全具备了从零构建、并在 GPU 上构建神经网络的能力！

06 Conclusion

本文我们探讨了通过 GPU processing （译者注：使用 GPU进行数据处理和计算。）提升深度学习模型效能的入门概念。不过，有一点还需要指出，本文所介绍的内容仅仅是皮毛，背后还隐藏着很多很多更深层次的东西。PyTorch 和 Tensorflow 等框架实现了诸多高级性能优化技术，涵盖了 optimized memory access、batched operations 等复杂概念（其底层利用了基于 CUDA 的 cuBLAS 和 cuDNN 等库）。但愿这篇文章能够让各位读者对使用 .to(“cuda”) 方法，在 GPU 上构建、运行深度学习模型时的底层原理，有个初步的了解。

Thanks so much for reading! 😊

Lucas de Lima Nogueira

https://www.linkedin.com/in/lucas-de-lima-nogueira/

END

原文链接：

https://towardsdatascience.com/why-deep-learning-models-run-faster-on-gpus-a-brief-introduction-to-cuda-programming-035272906d66