大模型引发“暴力计算”,巨头加速推进液冷“降温”

news2024/11/21 1:39:13

点击关注

文|姚悦

编|王一粟

一进入部署了液冷服务器的数据中心,不仅没有嘈杂的风扇声,甚至在不开空调的夏日也完全没有闷热感。

在大模型引发“暴力计算”的热潮下,数据中心的上下游,正在加紧推进液冷“降温”。

半年来,服务器厂商在液冷产品上纷纷推出新的解决方案。比如,中兴通讯的新G5系列服务器,支持不同的冷板式液冷方案,从CPU液冷到内存条散热+VR液冷;联想升级海神温水水冷系统,可实现服务器全水冷无风扇设计;新华三也发布全栈液冷解决方案,包含G6系列服务器、核心路由器、接入交换机;中科曙光子公司曙光数创8月发布了“冷平衡”战略,是特别针对数据中心算力、成本、能耗三元平衡问题,推出的全栈液冷数据中心技术与全生命周期一站式服务;去年年底华为推出全场景液冷“天成”多样性算力平台。今年,华为昇腾再推集成天成液冷的算力集群,可以支持万卡规模。

“在‘东数西算’‘双碳’大背景下,不断提升的功率密度和PUE(能效指标,越接近1越优)设计要求已成为行业面临的主要问题,液冷技术具有高密低碳等优势,已经成为应对数据中心散热压力和节能挑战的必由之路。”中兴通讯数据中心产品线规划总工翁建刚表示。

而就在去年,面对液冷,当上游设备厂商活跃时,中游的数据中心还顾虑重重,保持观望。但现在,像企商在线这样的中游企业也已经积极规划液冷设施,足见液冷已经成为行业共识。

企商在线IDC能力中心售前经理徐涛对光锥智能表示,公司已经在接管客户的一些AI业务,AI服务器的功耗是通用服务器功耗的十倍左右,风冷的局限性日渐明显,必须尝试液冷。

服务器厂商的积极布局,很大程度上来源于客户的需求逐渐明朗。

数据中心占有半壁江山的三大电信运营商在6月亲自下场,联合发布《白皮书》,提出“三年景愿”:即2023年开展液冷技术验证;2024年开展规模测试,新建数据中心项目10%规模试点应用液冷技术,推进产业生态成熟;2025年及以后开展规模应用,50%以上数据中心项目应用液冷技术。

“现在液冷基本上所有内容已经通过验证,进入一个规模扩张的阶段。”近期,工信部直属研究机构赛迪顾问的液冷领域分析师袁钰明确当前液冷所处阶段。

其实,液冷并不是新技术,其早已被应用于工业、航空领域。一说,阿波罗登月计划,就将液冷用于宇航员体温控制。在数据中心领域,液冷在上世纪60-90年代就崭露头角。但后来随着计算技术迭代功耗下跌,又被“冷落”。

从被“冷落”到“翻红”,液冷经历了什么,又将面对什么新挑战?

01 “暴力计算”亟需液冷降温

风冷是过去很长时间内,数据中心的主流温控方案,以空气为冷却媒介。液冷和风冷最大的区别,就是冷却媒介不同,“液冷”利用矿物油、氟化液等绝缘低沸点的冷却液作为冷媒,通过热交换将服务器的热量排出。完全绝缘、无腐蚀性的冷液,单位体积价格堪比茅台、五粮液。

液冷之所以被数据中心重新重视,根本原因是,后摩尔定律时代,芯片、服务器的功耗再呈上升趋势,随之产生更高的温度。

“那一次更让我深刻理解了温度对于服务器的影响。”有着十余年IDC售前经验的徐涛回忆从业过程中遇到的设备散热对服务器运行影响的问题,“客户规划的服务器功耗100多瓦,实际装的300多瓦,而且单机柜实际密度也比规划高,结果测出服务器温度到了六七十度,直接导致故障率是原来的10倍。”

图源曙光数创招股书

针对数据中心高温问题,头部设备厂商更加大力推进液冷,目的大多集中在降低PUE,具体则从技术、方案等不同角度着力。

据媒体此前报道,中兴通讯建设的全液冷数据中心项目中,液冷散热的比例已经达到了70%。公司今年1月发布的G5系列服务器新品支持液冷散热技术,采用冷板式液冷散热,可实现数据中心PUE降至1.1,冷板&管路高可靠连接,全管路智能监控,漏液秒级告警。

联想则从液体温度着眼,首创海神温水全水冷技术。不同于常见的45-50摄氏度的技术,联想通过数据分析,认为进水50摄氏度、出水60摄氏度,可以获得最佳能耗比。海神温水全水冷技术实现了服务器全水冷无风扇设计,支持多类型GPU,散热效率达98%,甚至可以支持数据中心PUE降至1.1以下。

后摩尔定律时代,芯片的功率越来越高。尤其是大模型带来的“暴力计算”,例如,用于训练ChatGPT的英伟达 A100服务器的最大功耗已达6.5kW。而此前,传统的服务器功率400W左右已经算很高。

与此同时,AI产业快速发展,致使算力需求飙升。但受制于建设面积等客观因素,增加单机柜功率密度,成为调和快速的算力需求与有限数据中心承载力的共识方案。

服务器功耗越来越大,温度越来越高,所占空间越来越小。可以想象一下,一堆爱出汗的人,挤在狭小的屋子。

越来越高的温度对于服务器来说是非常大的隐患。

“芯片温度每升高10度,故障率就会翻倍,寿命也会减半。”徐涛说,所以散热已经是当前智算面临的最大问题之一。

但是,风冷已经被逼近甚至突破极限。每机柜15-25kW的功率密度是“未使用背板换热器等其他制冷设备”的风冷解决方案上限,仅勉强扛得住2-4个NVIDIA A100。

华为集群计算业务副总裁王振华表示,当芯片的典型功耗超过300W,每平方厘米的功耗超过90W的时候,风冷难以为继。而当前业界的主流芯片产品,功耗已经超过这个阈值。

“机柜密度不断提升,会带来整个制冷系统的造价成本提升。”曙光数创总裁何继盛表示,“甚至单机柜的功率密度达到一定程度,继续增加投资都不能满足数据中心的散热需求。”

另一方面,随着“碳达峰”、“碳中和”等战略落地,国家到地方对于PUE明确的“红线”,成为刺激液冷产业加速更为直接的原因。

4月,多部门发文,2023年6月起数据中心PUE不高于1.4,2025年起数据中心不高于1.3,当前行业平均PUE为1.5。更多的地方政策,则对数据中心提出了更加严格的要求。

相比之下,液冷的单位体积的比热容足有风冷的1000倍以上。(比热容越大的物质,温度每上升1摄氏度,所吸收的热量越多);液冷PUE普遍在1.1,甚至不断逼近1.0。

新华三已经设计了PUE<1.1更节能的数据中心,并获得了金融业数据中心UptimeT4认证。2022年5月,新华三推出UniServer R4900LC G5液冷服务器,支持NVIDIA A100 80GB PCIe液冷式GPU,相比于传统风冷机型,整机功耗可降低21.3%,全年PUE均值为1.042。

新华三集团液冷服务器产品经理何伟宇认为,随着产品的快速迭代,单机柜功率密度的持续演进,对于数据中心的散热系统提出了更高的要求,像北上广深等一线城市对于空间和散热的需求则更为严苛,普通风冷机房的制冷效率已经大大制约了新技术和高算力的演进,这在一定程度上也推动了液冷技术在数据中心的发展和普及。

液冷作为更有效解决数据中心高密度散热的新兴技术,已经成为了行业的共识和确定趋势。

“去年被业内称作是数据中心液冷元年,今年已经有越来越多的客户开始接受液冷方案,液冷在整个市场渗透率有望做到20%-30%。”宁畅总裁秦晓宁曾表示。

行业格局来看,海外液冷厂商具有先发优势,中国厂商后来居上实现突围。2015-2018年,中科曙光、华为、联想、阿里巴巴等一众国产厂商,先后实现了液冷服务器大规模商业应用项目的落地,实现弯道超车。

据《中国液冷数据中心发展白皮书》在2020年对于中国液冷数据中心厂商竞争力的研究,基于产品营收、市占率、客户反馈等指标,中科曙光为市场的绝对领导者,华为、阿里巴巴、联想紧随其后。

02 液冷的“成本账”

“三年前接到调研任务时,液冷还是'黑科技',但现在已经进入了应用拓展阶段。”袁钰近期表示。

液冷“杀回”数据中心,进入拓展期,重要原因之一就是能算得来成本账。

液冷技术按照液体与发热器件的接触方式,可分为“间接接触型”和“直接接触型”两大类。冷板式液冷是最典型的间接接触型液冷技术;直接接触型主要有浸没式液冷和喷淋式液冷两种技术,浸没式液冷最为典型。通俗讲,对应就像人降温措施,冷敷、冷水淋浴或直接泡冷水澡一样。

浸没式和喷淋式液冷技术冷却效果更好,但由于冷板式的服务器芯片等发热器件不用直接接触液体,所以冷板式液冷对现有服务器芯片组件及附属部件改动量较小,可操作性更强、目前成熟度最高、应用最广泛,最重要的是成本更低。

翁建刚表示,测算来看,功率密度到达一定程度,液冷方案相比风冷已具备经济优势,3年左右能够实现投资收益平衡。不仅如此,随着液冷市场规模的扩大,相关基础设施成本也将进一步降低。

曙光数创副总裁张鹏近期也表示,服务器把散热器去掉,换上冷板,可能成本会有一些上升,但不需要冷机、空调,以及工程上的一些东西,初投资的时候已经省钱。

据招商研报,数据中心TCO(总成本),在不计算服务器折旧与服务器运营成本的情况下,当单机柜功率>15kW时,冷板式液冷TCO优势明显,当单机柜功率>30kW时,浸没式液冷开始出现优势。

此外,无论任何一种液冷路线,相较风冷,都已经在节省电和空间上具备成本优势。

根据开源证券研究所的统计结果,一个数据中心的能耗分布中,散热系统的占比高达40%。也就是说,数据中心每耗费一度电,只有一半用在了“计算”上,其他的则浪费在了散热、照明等方面。计算和散热几乎陷入了一场零和博弈,计算量越大散热消耗的电量越大。

华为昇腾AI计算集群也已经采用液冷散热。液冷方案本就比传统风冷方案更省电,昇腾采用了直接把冷夜注入每块芯片的精准供给方式,相比浸没式,可以降低日常运维的成本。

“精准供给取决于芯片板卡上都设置传感器、电控阀门,再加上中央控制,可以实现为不同芯片在不同的负荷下,提供精细化冷量输送。”北京昇腾人工智能生态创新中心CTO杨光向光锥智能介绍。

华为昇腾门头沟数据中心,拍摄:光锥智能

阿里云技术专家王鹏曾表示,如果全国的数据中心都采用浸没液冷技术,预计到2025年,一年可节省上千亿度电。

液冷散热效果强大,数据中心不用采用疏密手段。尤其是对于一二线的数据中心来说,液冷的空间成本更突出。

徐涛透露,他们有数据中心,因为接了一些AI业务,原来规划246个机柜,但现在GPU服务器增多,为了避免数据中心温度过高,只能进行疏密,所以一下就砍到了六七十个机柜。但石景山区的数据中心上了液冷设备空间利用率就会大幅提升,同时可以降低数据中心的PUE,降低能耗水平。

“二三线城市的建筑成本为数千元,北京的建筑成本为数万元,空间成本可以说非常高。”徐涛表示,虽然目前液冷单千瓦成本较风冷高,但考虑到空间利用率以及节省的电费,液冷制冷方案,还是值得投入的。

03 规模扩张还需跨越“百标大战”

虽然已经初步跨过降本这道栏,接下来液冷扩张却还要面临新的问题——“百标大战”。

以冷板式液冷为例,主要包括机柜与服务器,交付方式分为两种,一体化交付与解耦交付。解耦交付是液冷机柜与液冷服务器之间遵循用户统一制定的接口设计规范,机柜与服务器解耦,可由不同厂商交付;一体化交付是液冷整机柜(包括机柜和服务器)由厂商自定标准进行集成设计开发,整机柜由同一厂商一体化交付。

液冷产业链尚不成熟,当前业内尚无服务器统一接口标准,各厂商产品及配件设计标准各异。两种交付背后充满了各方博弈。

对于厂商来说,一体化解决方案的成本一定是更低,开发和交付周期大幅缩短。更重要的是,为了形成客户壁垒,厂商也多选择以产品一体化的交付模式为主。这导致各厂商的产品之间兼容性差。

不过,数据中心用户会对一体化交付充满顾虑。

一方面,用户会有迁移需求,比如达成新战略合作,或者原本就是临时租用机柜,以及后续机柜需要扩容等。如果液冷的设施绑定,迁移成本会增加。另一方面,设备与设施绑定,可能会让用户失去议价权。一次性批量采购,设备更新速度快,大概率只能保持固定供应商,如果选择其他产品,还需要对基础设施进行改造。

因此,考虑到用户需求,数据中心不愿意接受一体化方案,就会要求设备厂商解耦。毕竟设备厂商目前还处于充分竞争阶段,厂商也就不得不解耦交付。

当前超聚变、华为、浪潮、曙光、新华三等主要液冷服务器厂商皆拥有自己的一体化交付方案与解耦交付方案。

不过,解耦是能解,解耦也可带来供应商多样化,有助于控制成本,能够让各供应商发挥自身优势。但是解耦要求甲方协调各个供应商做好对接,过程就会非常耗时耗力。“每一个环节都得多方密切沟通,也得紧盯落实,一旦出现一点差错,就导致系统性问题。”徐涛说,相对于一体化交付,没有行业标准,解耦就会变成项目制。

各方拉锯中,首当其冲的就会是设备厂商。

曙光数创是国内最早布局液冷的企业,液冷基础设施市占率接近6成。但曙光数创今年年中报显示,冷板液冷数据中心基础设施产品,营收收入同比减少42.55%,营收成本同比减少33.63%,毛利率同比减少11.14%。年报中解释,收入波动的原因是,公司产品是非标准产品,但目前数据中心建设标准各异。

继而,下游会因为种种问题,犹豫尝试液冷方案,导致液冷推广遇阻。

曙光数创也呼吁行业统一标准。张鹏表示,首先如果行业标准对于供水的温度、温差、压力等能够统一,对液冷成本进一步下降是非常有意义的,也是他们在实际落地中遇到的问题。

不过,行业的标准形成并不会一蹴而就。而徐涛认为,各方博弈的滚动过程,行业的发展难免会有波折很有可能“进三步退一步”。当然,这也是新兴技术必然经历的过程。

华为昇腾已经宣布将会发布业界首个万卡级的集群,也将配套液冷方案,使用天成平台采用的“液冷+电源+网络”三条总线的设计思路。

企商在线石景山公共算力中心预计明年8月就交付,虽然还没有行业标准落实,企商在线则选择部分高功耗算力采用液冷方式一体化建设,然后直接租算力给客户。

徐涛表示,后续随着行业发展一定会有新的方案,考虑到芯片功耗越来越高,风冷能力有限,同时“碳达峰”“碳中和”的要求,液冷作为确定趋势,当前先做起来比较重要。

欢迎关注光锥智能,获取更多科技前沿知识!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1098611.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

超越10倍开发者

软件开发领域素来有10倍开发者的说法&#xff0c;但对于有理想的开发人员来说&#xff0c;在提升开发、架构能力的基础上&#xff0c;训练自己站在产品的角度考虑问题&#xff0c;将产品打造得更为符合客户和运维的需求&#xff0c;可能比10倍效能的个人开发者能够产生的价值更…

私有化部署AI智能客服,解放企业成本,提升服务效率

在信息时代&#xff0c;企业面临着服务效率提升和成本压力的双重挑战。作为一个领先品牌&#xff0c;WorkPlus致力于为企业提供私有化部署的AI智能客服解决方案。本文将深入探讨WorkPlus AI智能客服如何帮助企业解放成本、提升服务效率以及打造个性化的卓越客户体验。 AI智能客…

RabbitMQ的5种模式——再探RabbitMQ的模式,简单、工作,发布订阅(广播),路由、主题 页面分析

前言 RabbitMQ作为一款常用的消息中间件&#xff0c;在微服务项目中得到大量应用&#xff0c;其本身是微服务中的重点和难点&#xff0c;有不少概念我自己的也是一知半解&#xff0c;本系列博客尝试结合实际应用场景阐述RabbitMQ的应用&#xff0c;分析其为什么使用&#xff0…

AUTOSAR组织发布20周年纪念册,东软睿驰NeuSAR列入成功案例

近日&#xff0c;AUTOSAR组织在成立20周年之际发布20周年官方纪念册&#xff08;20th Anniversary Brochure&#xff09;&#xff0c;记录了AUTOSAR组织从成立到今天的故事、汽车行业当前和未来的发展以及AUTOSAR 伙伴关系和合作在重塑汽车方面的作用。东软睿驰提报的基于AUTOS…

JOSEF约瑟 漏电继电器 JD1-200 工作电压:380V 孔径:45mm 50~500mA

JD1系列漏电继电器 系列型号 JD1-100漏电继电器 JD1-200漏电继电器 JD1-250漏电继电器 JD1系列漏电继电器原为分体式固定式安装&#xff0c;为适应现行安装场合需要&#xff0c;上海约瑟继电器厂在产品原JD1一体式漏电继电器基础上进行产品升级&#xff0c;开发出现在较为…

手机市场或迎复苏,芯片测试与封测供应链积极应对 | 百能云芯

低迷不振的手机供应链&#xff0c;终于迎来曙光&#xff1f;半导体封测供应链传出从10月开始&#xff0c;手机系统大厂终于开始有明显的库存回补动作&#xff0c;锁定如联发科等一线手机SoC从业者的「旧款芯片」备货。 测试厂如京元电、测试界面的雍智等接获备战指示&#xff0…

线下研讨会(深圳)|乐鑫 ESP RainMaker 提供硬件连云一体化方案

伴随着智能化普及&#xff0c;全球用户对物联网产品的需求急剧增长。大量传统企业希望紧跟市场变化&#xff0c;快速实现产品的智能化转型。然而&#xff0c;与传统的智能硬件制造不同&#xff0c;构建物联网生态需要具备大量硬件、软件&#xff0c;以及云端集成的专业知识。这…

kong网关从入门到放弃

Kong网关是一个轻量级、快速、灵活的云名称API网关。Kong Gateway位于您的服务应用程序前面&#xff0c;可动态控制、分析和路由请求和响应。KongGateway通过使用灵活、低代码、基于插件的方法来实现您的API流量策略。 https://docs.konghq.com/gateway/latest/#features 架构…

【SpringCloud-11】SCA-sentinel

sentinel是一个流量控制、熔断降级的组件&#xff0c;可以替换第一代中的hystrix。 hystrix用起来没有那么方便&#xff1a; 1、要在调用方引入hystrix&#xff0c;没有ui界面进行配置&#xff0c;需要在代码中进行配置&#xff0c;侵入了业务代码。 2、还要自己搭建监控平台…

仪酷LabVIEW OD实战(3)——Object Detection+onnx工具包快速实现yolo目标检测

‍‍&#x1f3e1;博客主页&#xff1a; virobotics(仪酷智能)&#xff1a;LabVIEW深度学习、人工智能博主 &#x1f384;所属专栏&#xff1a;『LabVIEW深度学习工具包』『仪酷LabVIEW目标检测工具包实战』 &#x1f4d1;上期文章&#xff1a;『仪酷LabVIEW OD实战(2)——Obje…

【微服务 SpringCloud】实用篇 · Eureka注册中心

微服务&#xff08;3&#xff09; 文章目录 微服务&#xff08;3&#xff09;1. Eureka的结构和作用2. 搭建eureka-server2.1 创建eureka-server服务2.2 引入eureka依赖2.3 编写启动类2.4 编写配置文件2.5 启动服务 3. 服务注册1&#xff09;引入依赖2&#xff09;配置文件3&am…

【Python搜索算法】广度优先搜索(BFS)算法原理详解与应用,示例+代码

目录 1 广度优先搜索 2 应用示例 2.1 迷宫路径搜索 2.2 社交网络中的关系度排序 2.3 查找连通区域 1 广度优先搜索 广度优先搜索&#xff08;Breadth-First Search&#xff0c;BFS&#xff09;是一种图遍历算法&#xff0c;用于系统地遍历或搜索图&#xff08;或树…

python的搜索引擎系统设计与实现 计算机竞赛

0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 &#x1f6a9; python的搜索引擎系统设计与实现 &#x1f947;学长这里给一个题目综合评分(每项满分5分) 难度系数&#xff1a;3分工作量&#xff1a;5分创新点&#xff1a;3分 该项目较为新颖&#xff…

申请400电话需要的条件及办理流程

随着企业的发展和市场竞争的加剧&#xff0c;越来越多的企业开始意识到拥有一个400电话的重要性。400电话是一种以400开头的电话号码&#xff0c;可以为企业提供统一的客户服务热线&#xff0c;提高客户满意度和企业形象。下面将介绍申请400电话所需要的条件以及办理流程。 一…

python篇---python打印报错行

Python打印报错行的实现 步骤1&#xff1a;捕获异常步骤2&#xff1a;输出异常信息步骤3&#xff1a;打印报错行完整代码示例 作为一名开发者&#xff0c;我将教你如何在Python中打印报错行。这个技巧对于定位和解决代码中的错误非常有帮助。下面是详细的步骤和代码说明。 步…

小程序之如何学习一个新的知识,首先就是通过官网进行讲解!!(2)

⭐⭐ 小程序专栏&#xff1a;小程序开发专栏 ⭐⭐ 个人主页&#xff1a;个人主页 目录 ​编辑 一.前言 二.视图层 2.1 WXML的使用&#xff1a; 2.2 事件系统​编辑 三逻辑层&#xff08;生命周期&#xff09;--跳转页面 3.1生命周期 3.2 案例 3.3总结 今天就是给大家…

计算机网络中的CSMA/CD算法的操作流程(《自顶向下》里的提炼总结)

具有碰撞检测的载波侦听多路访问&#xff08;CSMA/CD算法&#xff09; 以下内容总结&#xff0c;对应《计算机网络自顶向下第七版》第六章链路层和局域网P299 操作流程&#xff1a; NIC&#xff08;适配器&#xff0c;即网络接口&#xff09;从网络层接收数据报&#xff0c;…

微信小程序前端生成动态海报图

//页面显示<canvas id"myCanvas" type"2d" style" width: 700rpx; height: 600rpx;" />onShareShow(e){var that this;let user_id wx.getStorageSync(user_id);let sharePicUrl wx.getStorageSync(sharePicUrl);if(app.isBlank(user_i…

基于OFDM通信系统的PAPR抑制算法matlab仿真,对比IPTS,OPTS,CEPTS三种算法

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 4.1、IPTS算法 4.2、OPTS算法 4.3、CEPTS算法 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2022a 3.部分核心程序 for k1:Nframesif mod(k,10) 0k/10end%产生…

Python自动化运维实战——Telnetlib和Netmiko自动化管理网络设备

❤️博客主页&#xff1a; iknow181&#x1f525;系列专栏&#xff1a; Python、JavaSE、JavaWeb、CCNP&#x1f389;欢迎大家点赞&#x1f44d;收藏⭐评论✍ 目录 一、前言 二、准备工作 三、Telnetlib Telnetlib介绍 Telnetlib模块及操作方法介绍 Telnetlib配置设备 T…