NVIDIA H100 GPU，它将如何改变AI和计算领域的游戏规则？

大语言模型 (LLM) 的兴起标志着人工智能 (AI) 时代的重大进步。在这一背景下，Paperspace + DigitalOcean 提供的云图形处理单元 (GPU) 已成为高质量 NVIDIA GPU 云服务的领先者，推动了计算技术的前沿发展。

NVIDIA 成立于 1993 年，由三位有远见的美国计算机科学家创立：Jen-Hsun (“Jensen”) Huang，LSI Logic 的前董事和 AMD 微处理器设计师；Sun Microsystems 的工程师 Chris Malachowsky；以及 IBM 和 Sun Microsystems 的高级工程师兼图形芯片设计师 Curtis Priem。他们专注于为游戏行业打造尖端图形硬件，这三位充满活力的专家和他们的热情为 NVIDIA 的非凡增长和创新奠定了基础。

随着技术的进步，NVIDIA 认识到 GPU 在游戏领域之外的潜力，开始探索并行处理的可能性。这促成了 2006 年 CUDA（计算统一设备架构）的开发，使全球开发人员能够利用 GPU 完成各种复杂的计算任务。这一创新为深度学习革命奠定了基础，也确立了 NVIDIA 在 AI 研发领域的领导地位。

NVIDIA 的 GPU 已成为 AI 不可或缺的一部分，为复杂的神经网络提供动力，并推动了自然语言处理、图像识别和自主系统等领域的突破。

H100 简介：NVIDIA 产品线的最新进展

随着 H100 GPU 的发布，NVIDIA 继续引领创新潮流。H100 GPU 代表了现代计算的巅峰之作，凭借其尖端的 Hopper 架构，将彻底改变深度学习领域，提供无与伦比的性能和效率。

NVIDIA H100 Tensor Core GPU 配备了 NVIDIA NVLink™ Switch System，允许多达 256 个 H100 GPU 连接在一起，以加速处理工作负载。此外，该 GPU 还配备了专用的 Transformer Engine，专为高效处理万亿参数的语言模型而设计。得益于这些技术进步，H100 的性能相比上一代提升了多达 30 倍，特别是在对话式 AI 中展现出尖端功能。

Tips：DigitalOcean 旗下 GPU 云服务平台 Paperspace 现已支持 NVIDIA H100，提供 NVIDIA H100x1 和 NVIDIA H100x8 两种选择，目前数据节点位于 NYC2。

有关 NVLink 的信息，请参阅 NVIDIA 的 NVLink 文档

H100 的架构

NVIDIA Hopper GPU 架构为低延迟高性能计算而设计，旨在以数据中心规模运行。NVIDIA H100 Tensor Core GPU 基于 NVIDIA Hopper 架构，标志着 NVIDIA 数据中心平台计算性能的重大飞跃。H100 拥有 800 亿个晶体管，是 NVIDIA 有史以来最先进的芯片，并包含众多架构改进。

作为 NVIDIA 的第 9 代数据中心 GPU，H100 相较于之前的 A100 型号，为 AI 和 HPC 工作负载提供了显著的性能提升。通过 InfiniBand 互连，H100 为主流 AI 和 HPC 模型提供了高达 A100 30 倍的性能。全新的 NVLink Switch System还支持跨多个 GPU 的模型并行，以应对一些最具挑战性的计算任务。

格雷斯·霍珀超级芯片

基于 Hopper 架构的 H100 GPU 专为高性能计算和 AI 工作负载而设计。
H100 提供第四代张量核心，与 A100 相比，可实现更快的芯片间通信。
结合软件和硬件优化，加速 Transformer 模型训练和推理，实现高达 9 倍的训练速度和 30 倍的推理速度。
第四代 NVLink 负责增加多 GPU 操作的带宽，提供 900 GB/秒的总带宽。

这些架构上的进步使 H100 GPU 在 AI 和 HPC 应用的性能和效率方面迈出了重要一步。

主要特点和创新

第四代 Tensor Cores：

第四代张量核心的芯片间通信速度比 A100 快 6 倍。
对于等效数据类型，每个流多处理器或 SM 提供 2 倍的矩阵乘法累加 (MMA) 计算速率。
与之前的 16 位浮点选项相比，使用新的 FP8 数据类型可提供 4 倍的 MMA 速率。
其中的稀疏性功能通过利用深度学习网络中的结构化稀疏性优化，使标准张量核心操作的性能提高一倍。

新的 DPX 指令：

与 A100 GPU 相比，动态规划算法的速度最高可提高 7 倍。
适用于基因组学的 Smith-Waterman 算法和动态环境中优化路线的 Floyd-Warshall 算法。

处理速度的提高：

由于更高的时钟和额外的 SM 数量，与 A100 相比，实现了 3 倍更快的 IEEE FP64 和 FP32 处理速度。

线程块集群特性：

扩展 CUDA 编程模型以包含线程、线程块、线程块群集和网格。
允许多个线程块在不同的 SM 之间同步和共享数据。

异步执行增强功能：

采用新的张量内存加速器 (TMA) 单元，可在全局内存和共享内存之间高效传输数据。
支持集群中线程块之间的异步数据复制。
引入异步事务屏障，实现原子数据移动和同步。

全新 Transformer 引擎：

将软件与定制的 Hopper Tensor Core 技术相结合，以加速 Transformer 模型的训练和推理。
使用 FP8 和 16 位精度自动管理计算，与 A100 相比，为大语言模型提供高达 9 倍的 AI 训练速度和 30 倍的 AI 推理速度。

HBM3 内存子系统：

提供的带宽几乎是上一代的两倍。
H100 SXM5 GPU 是首款采用 HBM3 内存的 GPU，可提供 3 TB/秒的内存带宽。

增强型缓存和多实例 GPU 技术：

50 MB L2 缓存通过缓存大型模型和数据集部分来减少内存访问。
第二代多实例 GPU (MIG) 技术比 A100 提供大约 3 倍的计算能力和近 2 倍的内存带宽。
MIG 支持最多七个 GPU 实例，每个实例都有用于视频解码和 JPEG 处理的专用单元。

机密计算和安全：

新增对机密计算的支持，以保护用户数据并防御攻击。
首个原生机密计算 GPU，为虚拟机 (VM) 提供更好的隔离和保护。

第四代 NVIDIA NVLink®：

与之前的 NVLink 版本相比，全归约操作的带宽增加了 3 倍，一般操作的带宽增加了 50%。
为多 GPU IO 提供 900 GB/秒的总带宽，性能比 PCIe Gen 5 高出 7 倍。

第三代 NVSwitch 技术：

通过改进的交换机吞吐量连接服务器和数据中心中的多个 GPU。
通过多播和网络内归约增强集体操作。

NVLink Switch System：

允许多达 256 个 GPU 通过 NVLink 连接，提供 57.6 TB/秒的带宽。
支持百亿亿次 FP8 稀疏 AI 计算。

PCIe Gen 5：

提供 128 GB/秒的总带宽，是 Gen 4 PCIe 带宽的两倍。
与高性能 CPU 和 SmartNIC/DPU 接口。

其他改进：

增强了强大的扩展能力，减少了延迟和开销，并简化了 GPU 编程。

数据中心创新：

NVIDIA 加速数据中心部分讨论了基于 H100 的新型 DGX、HGX、融合加速器和 AI 超级计算系统。
有关 H100 GPU 架构和性能改进的详细信息将在专门的部分中进行深入介绍。

对 AI 未来的影响

在不断发展的 AI 领域中，GPU 已变得至关重要，尤其是在深度学习方面。H100 的并行处理和加速计算是其主要优势，其张量核心和架构显著提高了 AI 模型，特别是大语言模型 (LLM) 的性能，尤其在训练和推理过程中表现突出。这使得开发人员和研究人员能够更高效地处理复杂模型。

H100 的专用 Transformer Engine 优化了 Transformer 模型的训练和推理，这是许多现代 AI 应用（包括自然语言处理和计算机视觉）的基础。此功能加速了各个领域 AI 解决方案的研究和部署。

展望未来，blackwell 被视为 NVIDIA H100 和 H200 GPU 的继任者。未来的 GPU 更有可能专注于进一步提高效率和降低功耗，朝着更加可持续的方向迈进。此外，未来的 GPU 可能在平衡精度和性能方面提供更大的灵活性。

NVIDIA H100 GPU 被认为是 AI 和计算领域不可或缺的产品，正推动着 AI 技术的发展及 AI 在各行业的应用创新。

H100 在推进 AI 能力方面的作用

自动驾驶汽车和机器人：改进的处理能力和效率有助于开发 YOLO 等算法，使自动驾驶系统更加可靠，能够在复杂环境中运行。
金融服务：AI 驱动的金融模型和算法将受益于 H100 的性能提升，实现更快、更准确的风险评估、欺诈检测和市场预测。
娱乐和媒体：H100 在 AI 方面的进步将增强内容创建、虚拟现实和实时渲染，为游戏和娱乐带来更加沉浸和互动的体验。
研究和学术：处理大规模 AI 模型和数据集的能力，将使研究人员能够应对复杂的科学挑战，推动各学科的创新和发现。
人工智能与其他技术的融合：H100 的创新可能为边缘计算、物联网和 5G 铺平道路，实现更智能、更互联的设备和系统。

结论

NVIDIA H100 代表了 AI 和高性能计算领域的巨大飞跃。Hopper 架构和 Transformer Engine 成功树立了效率和功率的新标杆。展望未来，H100 对深度学习和 AI 的影响将继续推动创新，助力在医疗保健、自主系统和科学研究等领域取得更多突破，最终塑造下一个技术进步的时代。

目前 DigitalOcean 旗下 GPU 云服务平台 Paperspace 提供 NVIDIA H100 的实例，按秒计费，支持随时创建和取消 GPU 云实例。同时，Paperspace 还提供专用网络、云端备份，以及从模型训练到部署的一系列软件工具与服务，可大幅提升 AI 创业者们的开发与业务扩展效率。如需要详询更多产品方案细节以及目前库存情况，可联系 DigitalOcean 中国区独家战略合作伙伴卓普云。