液冷是大模型对算力需求的必然选择？

在这个以高性能计算和大模型推动未来通用人工智能时代，算力已成为科技发展的隐形支柱。本文将重点探讨算力的演进，深入分析在不同领域中算力如何成为推动进步的基石；着眼于液冷如何突破算力瓶颈成为引领未来的先锋，对液冷散热的三种方式（冷板式、浸没式和喷淋式）做了详细的对比分析、成本测算和市场空间预测。并为您提供一份“实用教程”，指导如何将普通服务器改装为液冷服务器，以应对越来越复杂的计算需求。

如果您错过了精彩的的英伟达2024 GTC大会，小编特地为您总结其6大亮点，见文末。

算力演进：世界模型视角下的技术需求变化

谈及大模型，最近大火的大模型莫过于Sora视频模型。Sora标志着计算机视觉的重大进展，是首个展现高级"涌现"能力的视频生成模型。它依托于强大的Diffusion Transformer架构和大量高质量数据，带来视频技术的飞跃——类似于GPT-3在语言模型中的突破。Sora的创新点在于时间-空间压缩、去噪的Transformer处理，以及CLIP风格的调节，可根据GPT-4加强的指令生成精准视频。

一、Video Encoding：将视频信息有效地转化为机器理解的方法至关重要

Sora解决了视频生成中一个关键挑战：如何处理视频数据的多样性和复杂性，包括不同分辨率和宽高比，以及比文本和图片更丰富的信息，如空间、时间和内容。它的一大创新是制定了一种能够统一不同视频类型的表示方法，对大量多维视觉数据进行有效的大规模训练。

Sora 技术报告中的 Encoding 模式

Sora的初步工作是将复杂的视频内容转化成机器能够处理的潜在特征，类似于大语言模型中文本的tokenization。不同之处在于视频的转换不仅需要保留内容信息，还要维护时间和二维空间位置，而语言模型仅涉及内容和一维位置。鉴于单帧视频像素量巨大，转化过程也起到了数据压缩作用，目前的做法是将每帧压缩到16×16或32×32的规模。

视频生成模型 Patch 方法对比

Transformer模型由于不能直接处理高维数据，因此Sora通过将视频数据分割成时空图像块来训练。一种方法是把每一帧分解成若干小块，然后按时间顺序排列为一维数组；另一种方法是把视频片段分成立体图像块，包含时间和空间信息，虽然计算更复杂，但能获取更连贯的时空信息。

Sora 生成不同比例的视频内容保存度更好

Sora视频生成模型的一大创新是能够适应自由宽高比的视频生成，同时确保关键元素的完整性。不同于传统模型如ViT，要求图像块大小固定且输入为正方形，Sora可能使用了名为“Patch n’ Pack”的技术，容许处理多样化的输入分辨率和宽高比。该技术使图像块的大小可以灵活调整，适应不同的视频要求，并将来自不同图像的块整合到一起，实现更高效率的训练。此外，通过识别图像块间的相似度，可以丢弃重复内容，从而进一步提速训练过程。

Navit 的数据处理方法

二、模型的核心部分：Diffusion Transformer

Sora是基于Transformer的Diffusion Model。模型结构最初由 Scalable Diffusion Models with Transformers 这篇论文提出，也就是 DiTs。

DiT 的核心架构

Stable Diffusion包括三个关键组成部分，各自由独立的神经网络构成：

1、文本编码器

利用Transformer模型将文本中的每个单词或Token转换为向量。

2、图像信息生成器

这是Stable Diffusio的核心，它结合文本向量特征和初始噪声创建含有图像信息的数据。

3、图像解码器

把上述数据转换回清晰的图像。

Sora在其图像信息生成器部分，用Transformer取代U-Net，以保留其伸缩性和高效性等特点。继其后Google的Genie和Snap的Snap Videos皆采用ST-Transformer。

Sora的研究表明，视频生成模型采用Transformer后，模型能力的提升与计算资源和模型规模成正比，与GPT3.0发布时证实的大模型潜力相似。OpenAI的实验也验证了增加算力，如32倍于基础情况，能显著提高视频生成的质量。

不同算力下 Sora 生成视频的对比

三、大语言模型训练和推理对计算资源的需求分布不同

大语言模型最新发展追踪

目前AI模型呈现出以下竞争激烈和快速更新的发展趋势：

1、长上下文处理

新模型如Gemini1.5和Kimi已能处理百万级别Token，对内存和处理能力都提出较高要求。

2、多模态理解

能理解图片、视频和音频的大模型成为未来发展趋势，但处理这些风格的数据也将增加对内存需求。

3、MOE模型

Mixtral、Gemini1.5、Grok等模型应用了GPT的MOE（Mixture-of-Experts）技术，能够处理各种不同类型的问题，虽然增加了模型参数，但在推理阶段由于只需调用部分子模型，计算效率仍得以提升。

大语言模型训练和推理过程的计算需求分布

大模型在训练和推理过程中对计算资源的需求各不相同。训练阶段需要大量算力和网络带宽。推理过程的预填充阶段对算力和内存需求较大，解码阶段则更依赖于内存带宽、内存大小和低网络延迟。

在大语言模型的训练中，系统会一次性预测整个句子中的每个Token的下一个Token，并计算所有位置的Token的损失来进行优化。这个过程可以并行计算，所需的算力和集群规模较大，因此对机器间的网络带宽要求也相对较高。

大语言模型训练过程

大语言模型的推理过程分为两个阶段：

首先是Prefill阶段，也称为预处理阶段。在此阶段，模型会进行一次计算密集型的操作，计算并存储每一层的key和value。这个过程虽然只进行一次，但对每个请求的提示(prompt)来说都是必需的。该计算过程主要对矩阵进行并行乘法运算，并将结果储存在所谓的KV缓存中，这是大语言模型的关键组成部分。

其次模型进入到解码阶段，这是一个串行操作过程，主要负责生成新的Token。模型采用自回归方式，利用已生成的和先前所有的Token作为输入，预测并生成下一个Token。这包含两个主要步骤：第一利用预处理阶段创建的KV缓存计算并输出下一个Token的嵌入；第二在计算过程中，当前Token在每一层的key和value会被计算并存储，并更新到预处理阶段的KV缓存中。通过这种方式，模型可以持续优化其预测，确保生成序列既连贯又具有逻辑性。

四、对算力需求的影响：Patch/Token 数量的大幅提高对内存容量需求有积极影响

视频生成模型与大语言模型对计算资源的不同需求

视频生成模型相较于大语言模型在算力需求上的主要差异在于：视频模型需要处理的Patch数量远多于文本的Token数量。视频的Patch数量与其时长（T）、宽度（W）、高度（H）及每帧的Patch密度（Ps）密切相关。在Transformer模型中，影响计算复杂度的关键因素是Self-Attention层，其处理难度与Patch数量平方成正比。同时，训练期间还需储存大量Self-Attention层的计算中间结果，占用的存储空间也与Patch数量的平方成正比。

以Sora可以生成的1080P、30帧/秒、60秒时长视频为例，在32x32的Patch密度下，总Patch数量可以超过180万。而最新的大语言模型Gemini 1.5 Pro的Token上限是100万。考虑到Sora估计的参数规模为20到50亿，虽然比GPT-4少了一个数量级，但其Patch的平均数量至少多了两个数量级，导致推理过程中内存需求的大幅跃升。因此，更大的算力和内存将使模型产生更高分辨率和更长的视频。同样，针对同一提示，更大的模型参数量能产生更好的视频效果，但相应地需要更多的算力和内存。

五、对算力需求的影响：推理时算力需求的增长大于内存速率需求的增长

Diffusion 模型推理生成图片的过程

虽然Sora和GPT的核心都是Transformer，但在推理逻辑上，Sora的DiT与大语言模型存在差异。Diffusion根据多个时间步骤迭代生成，基于随机噪声潜在矩阵，每一步都会逐步精细化图像、视频以逼近输入的提示。优化后大约需要20步就能获得性能和效果的平衡。

GPT等大语言模型采用Decoder-Only Transformer架构，通过自回归方式预测下一个Token，对内存带宽需求极大，属于内存密集型任务。而Sora的DiT是Encoder-Only Transformer架构，在每一步的推理过程中，会一次性输出全部长度的Patch，减少对计算卡内存访存次数，属于计算密集型任务。

目前用于训练和推理计算卡的算力/内存对比

受制于美国禁令，国内特供的H20在算力上相较于H100受到限制，不过在内存带宽上有所提高，意味着在大语言模型（LLM）的推理任务中，H20比H100性能要高出约10%。然而，对于视频生成模型，H20由于算力被限制，相比H100在性能上有显著劣势。

Groq的芯片以SRAM为基础，内存带宽高达80TB/s，其在Token生成速度上远超GPT和Gemini系列，但这种设计在视频生成模型的推理中没有优势。综上所述，对于高质量视频生成模型来说，未来的趋势是需求将倾向于更高的算力和更大的显存容量，而非内存带宽；因此，配备高算力和大显存的芯片更适合视频生成模型的推理任务。而在内存带宽方面，即使是GDDR也足以满足需求。

突破算力瓶颈液冷引领未来

NVIDIA首席执行官黄仁勋最近在2024年SIEPR经济峰会上披露，新一代DGX GPU服务器将采用液冷技术，意味着液冷时代的加速到来。戴尔也专门为NVIDIA新一代AI GPU设计冷却系统。

随着AI服务器功耗的快速上升，有效的散热解决方案的需求促进液冷技术的渗透。例如，Intel/AMD的主流CPU功耗已达到350W/400W，而NVIDIA的H100 GPU最大功耗可达700W，其未来产品B100预计功耗将达到1000W。华为Atlas 900 PoD单机柜最大功耗也已经超过46kW，远超传统风冷系统极限，液冷技术成为处理日益增加的单机柜功率的关键升级方案。

目前数据中心的液冷渗透率在2022年底仅为5%-8%，但预计在2023-2024年期间，芯片制造商、服务器厂商、IDC企业等产业链关键主体将加速布局液冷解决方案，2025年可能会出现订单量大规模释放。在未来3至5年内，国内数据中心的液冷渗透率预计将实现爆发式增长。据估算2025年，国内IDC液冷行业市场规模将达到约48.31亿元，期间年均复合增长率为71.11%；预计到2028年，市场规模将增至约98.72亿元，年均复合增长率预计为43.02%。

AI 助推液冷渗透率快速提升

一、数据中心面临的挑战

数据中心的能耗问题和散热挑战日益凸显。依靠区域能源和环境优势可减少用电及冷却费用。在能源紧张和自然条件不佳下，提高数据中心能效和绿色运营成为行业趋势。为此，我们需要确保产热和移热速率的一致性，同时提升能源使用效率。新型散热技术的开发和应用是提升我国数据中心能效和环保发展的关键。

要保证数据中心稳定运作，关键是使冷却系统与服务器产热量保持同步。随着单个机柜服务器数量的增加，散热需求也在增长，这就要求持续创新散热技术，尤其在风冷和液冷两大散热方式中寻求提高冷却效率的方法。

不同类型冷却系统对比

二、数据中心能耗分布

数据中心的散热冷却是能耗的主要部分，要在提高移热速率的同时注意能效。能源利用效率（PUE）是评估数据中心能耗的关键指标，它是总能耗与IT设备能耗的比。理想情况是PUE接近1，即数据中心的能源更多地用于IT运作而非其他功耗。目前我国数据中心中有近半的能量用于散热，显示出PUE值偏高，意味着较高的冷却成本及节能空间。

三、数据中心的冷板式液冷

液冷技术对数据中心的整个生命周期产生重要影响，包括设计、位置选择、建设、交付及运维过程。液冷系统通过液体循环系统在冷却液与需要降温的设备间进行热交换。冷却水可以直接从机架上的CDU（冷却分配单元）获得，或由一个服务多个机架的集中式CDU提供。

数据中心液冷系统示意图

数据中心液冷系统中冷板冷却是目前主流技术，它属于间接液冷方式。主要分为三种形式：间接液冷、单相直接液冷、两相直接液冷。冷板冷却技术通过液体在与IT设备芯片接触的金属板内流动进行热交换，是一种高效的芯片级冷却方法并广泛应用。结合液冷和风冷，液体主要冷却芯片，风冷用于硬盘等部件。与传统的风冷系统相比较，冷板冷却系统更节能、噪音更低，并且不需依赖昂贵的水冷机组。

数据中心冷板式液冷系统

四、芯片级液冷与液冷服务器市场潜力巨大

液冷技术原始应用于机械加工和变压器，但目前正迅速扩展至数据中心。该技术适应数据中心高热流密度冷却需求，成为解决高效芯片散热的策略。濒临急需高效散热的现实，芯片级液冷成为主导趋势。散热方式预期将发展为直接与芯片接触式冷却。政策支持和技术需求，尤其是人工智能等新兴领域的推动，使芯片级液冷和液冷服务器市场前景广阔。

全球数据中心平均功率情况

五、数据中心规模预测

当前中国数据中心行业正深入云服务阶段，预计未来10年的市场潜力巨大，并有望在“十四五”期间保持约25%的年均增长率。自2000年以来，行业已从高速增长转向稳步发展，并两度出现增速放缓。2021年，数字经济和东数西算等多重因素推动行业迅速发展，并出现短期增速。到了2023年，在投资策略、东数西算规范加严及人工智能需求激增等利好影响下，行业有望在“十四五”末期经历新一轮增长。

六、液冷系统市场空间

液冷技术根据液体与器件的接触形式大致可分为冷板式、浸没式和喷淋式三种。冷板式通过间接接触稳定散热，技术成熟，改造成本低。浸没式和喷淋式直接接触发热部件，但因成本和实际操作难度，应用并不广泛，尤其是喷淋式对环境影响较大，应用相对较少。

冷板式液冷将发热元件如CPU和GPU放置于液体流经的冷板上，有效率地导热。如基于Intel和浪潮合作的高密服务器内部，采用冷板技术保持CPU等器件的冷却。系统从室内的热交换器将热量转移到室外的冷却塔，完成循环。

冷板式液冷系统架构情况

浸没式液冷系统通过直接将发热器件浸入不导电的冷却液中实现高效散热。室内侧，单相系统中元件直接浸于冷却液中，而在两相系统中，发热器件被浸入低沸点液体中，液体吸热沸腾并在冷凝器中变回液态，持续循环散热。室外侧相似于冷板式系统，热液在室外冷却塔释放热量后低温回环，进行循环散热。

浸没式液冷系统架构情况

短期内，冷板式液冷因技术成熟、与现有系统兼容性好、维护方便和改造成本较低，非常适合AI时代对散热的需求和数据中心从风冷向液冷的过渡阶段。长期看，浸没式液冷凭借其良好的导热性能、高效的余热回收能力和支持更高机柜功率的优势，会更适合未来数据中心冷却需求的演变，尤其是在机柜单元功率不断增加的情况下，浸没式液冷可以提供更高效的冷却解决方案，并且助力降低数据中心的总体能源使用效率（PUE）。

三种液冷技术方案对比

随着国内互联网巨头如百度、阿里、腾讯、华为等纷纷开发AI大模型，我们可依据以下假定进行预估：一台AI服务器配备8块GPU；逻辑推理功耗是训练的10倍；10家公司的AI模型总功率是GPT3.5的10倍；数据中心的总功耗需考虑额外设备增加10%；冷板式与浸没式液冷系统的成本比为7:3。按这些假定测算，液冷市场将因AI服务器需求，分别增长约44.4亿元（冷板式）与47.6亿元（浸没式），共计约92亿元增量。

七、不同制冷方式成本测算

据CDCC测算，冷板式液冷系统初期建设成本较低，运行成本有优势，尤其是在电费支出方面。考虑到数据中心的10年生命周期，与传统风冷系统相比，冷板式和单相浸没液冷能分别减少成本15%和8%，其中冷板式在总体拥有成本(TCO)上的优势更为显著。

八、相关政策法规

2020年3月，中国提出推进新型基础设施，包括数据中心建设，以满足智能化和数字转型需求。新基建以技术创新和数据驱动为核心，服务于高质量发展。数据中心是关键的算力基础设施，随着一线城市发展放缓，周边区域新数据中心迅速崛起，全国范围内政策支持新型基建发展。

我国数据中心正日益壮大，尤其是超大型数据中心。绿色发展已成必由之路，降低能源使用效率(PUE)是发展的关键。响应能耗问题，国家相关部门颁布政策，促进数据中心环保建设，专注于优化冷却系统和能源管理。

实用教程——普通服务器改装液冷服务器

将普通服务器改装成液冷服务器显著提升其性能的稳定性，延长使用寿命，低噪运行；冷板与管线灵活布置以及散热器的可配置性使空间使用更为灵活，有效降低能源消耗，保障服务器稳定运行。以下是改装教程：

一、准备资料

主要工具和设备：

- 选用与服务器尺寸相适应的冷板

- 液冷插件

- 液体冷却设备（泵和散热器）

- 兼容冷板电源

二、安装程序

1、断开电源

确保服务器已关闭，与外部电源断开连接。

2、拆卸服务器至裸机状态

取下侧板暴露服务器内部，取下所有电源线路，并带防静电手以防止静电伤害敏感部件。

3、安装冷板

将冷板安装在CPU以及产生大量热量的元器件上，如GPU等。

4、连接液冷系统

用管路将冷板、泵以及散热器连接起来，使冷却液在系统中流动，进行热量传输。流动方向一般是从泵到冷板，再从冷板到散热器。

5、更换电源

有些电源不适合冷板液冷，如有需要，更换为兼容电源。

6、安装散热器

选择合适位置安装散热器和风扇（一般在服务器机箱外部，有些装在内部），连接电源，使其可以工作。

7、检查泄漏

在系统内注入冷却液，打开泵，仔细查看每个接头是否漏水。切记，在此检查过程中，服务器应保持电源断开状态。

8、优化和调试

在成功安装冷却系统并检查无泄漏后，再次运行服务器，检查各部件温度是否正常，液冷系统是否正常工作，如有需要，进行进一步优化。

三、注意事项

1、安装液冷系统之前，详细阅读所有硬件设备说明书。

2、避免使用任何可能导致电荷态错误的工具。

3、液冷系统中使用的液体通常具备抗腐蚀和抗生物污染的特性，所以务必确保使用正确的液体。

4、在处理电子产品时务必谨慎。在操作过程中不慎引发的任何损害可能不享受保修条款的保护。

5、未经训练的人尝试安装液冷系统可能会导致设备损坏，因此如果不熟悉这个过程，最好找有相关经验的专业人士进行安装。

附：GTC 2024六大亮点

北京时间3月19日凌晨，世界各地的顶尖技术精英齐聚一堂，共襄盛举。英伟达GTC吸引无数科技界佼佼者前来现场。英伟达创始人及CEO黄仁勋的123分钟演讲回顾英伟达在加速计算领域走过的三十年历程，提及CUDA的问世和向OpenAI交付第一台AI超级计算机DGX等关键时刻。

演讲焦点很快转向生成式AI技术，宣布在EDA领域的一些重要合作。黄仁勋接着宣布英伟达的新旗舰AI芯片——Blackwell GPU，其性能和功能远超前代产品Hopper，拥有更大尺寸、更新的FP8、FP6、FP4精度、以及更丰富的HBM内存和带宽，极大提升性能。

在过去八年中，英伟达从Pascal架构跃升至Blackwell架构，AI计算性能提高1000倍。黄仁勋的最终目标是打造具有处理万亿参数级别GPU计算能力的最强AI基础设施。

亮点一

英伟达推出全新的Blackwell GPU具有比上代提升2.5倍的训练性能和在FP4精度下推理性能是上一代FP8的5倍。此外，第五代NVLink互连速度比Hopper快两倍，支撑最多576个GPU拓展，有效解决万亿参数级混合专家模型带来的通信瓶颈问题。

Blackwell GPU的六大核心技术革新:

1、Blackwell GPU被誉为世界上最强大的芯片，集成高达2080亿颗晶体管，采用台积电先进4NP制程，基于统一内存架构和双芯配置，通过NVHyperfuse高达10TB/s的芯片间接口连接两个GPU die，共享192GB HBM3e内存和8TB/s显存带宽，其单卡AI训练算力高达20PFLOPS，相较于上一代Hopper的H100和H200，有了显著的晶体管数量和性能的飞跃。

2、第二代Transformer引擎，整合微张量缩放支持与先进的动态范围管理算法，通过与TensorRT-LLM和NeMo Megatron框架结合，为FP4精度的AI推理提供强大能力，并支持双倍计算和模型规模，保持高精度的同时提升性能和效率。

3、第五代NVLink，为每个GPU提供1.8TB/s双向带宽，支撑多达576个GPU间的高速通信，满足复杂大语言模型的通信要求。

4、RAS引擎，负责确保GPU的可靠性、可用性和可维护性，通过AI驱动的预防性维护进行诊断和预测，延长系统正常运行时间，降低运营成本。

5、安全AI，通过机密计算保护AI模型和客户数据，不牺牲性能的同时支持新的本地接口加密协议。

6、解压缩引擎，支持最新的数据格式，加速数据库查询，为数据分析和数据科学提供最高性能。

英伟达Blackwell GPU系列产品得到AWS、谷歌、Meta、微软、OpenAI、特斯拉等的青睐。马斯克甚至公开表示在AI领域找不到比英伟达更好的硬件产品。

有趣的是，此次对于Blackwell系列GPU的发布，英伟达更加强调整体系统性能而非单芯片性能。市场上有传言，B100可能售价约3万美元，而B200则为3.5万美元，若定价涨幅不大，那么这个系列GPU的市场竞争力将非常可怕。性能提升之大，性价比远远超过上一代Hopper。

亮点二

英伟达高调推出Blackwell平台完整体系，为万亿参数级的GPU计算量身定做，该平台包括不同的关键组成部分：从基础HGX B100整合型GPU、新一代的NVLink Switch、超性能GB200超级芯片计算节点，到全新的X800系列网络交换机。

GB200 Grace Blackwell通过高速NVLink-C2C互连集成2个Blackwell GPU和1个英伟达Grace CPU，实现大范围计算和内存的高效连接。此外，英伟达还推出多节点、液冷、机架级系统英伟达GB200 NVL72，提供720PFLOPSAI训练性能和1.44EFLOPS的AI推理性能，内置30TB快速显存，处理高达27万亿参数的语言模型。

Blackwell平台不仅能大幅提升实时推理速度，而且通过先进的网络扩展释放更强的AI性能。新一代的DGX SuperPOD则由多个DGX GB200系统组成，采用液冷的机架级扩展架构，在FP4精度下提供11.5EFLOPSAI算力。

亮点三

英伟达发布数十个面向企业的生成式AI微服务，旨在提供包装和交付软件的全新方式，助力企业和开发者简易部署多样的AI模型。

英伟达在其硬件产品线基础上，继续发挥其在CUDA和生成式AI生态系统中所积累的技术优势，推出一系列适用于企业级的生成式AI微服务。旨在简化企业定制和部署AI Copilots（智能助手）的流程。企业不再需要从头编写软件，而是可以通过组装AI模型、指定任务、提供示例与审查计划和结果方式来创建软件。

NIM是英伟达提供的推理微服务的一个例子，它基于英伟达的加速计算库和生成式AI模型构建，并支持标准API。这种微服务在英伟达广泛的CUDA安装基础上运作，并已针对新一代的GPU进行了优化。企业现在能够使用这些微服务在自己的平台上创建和部署定制化的应用程序，同时保有知识产权和控制权。

为支持快速部署NIM微服务，英伟达将提供预先构建AI容器，这将允许开发人员将部署时间从几周缩短到几分钟。该微服务还支持英伟达以及其它公司如AI21、Adept、Cohere等模型，同时也支持开放模型，比如谷歌、Hugging Face和Meta等公司的模型。用户将能够访问亚马逊SageMaker、谷歌Kubernetes引擎和微软Azure AI上的NIM微服务，并与流行的AI框架集成。