我们通常认为软件是完全数字化的存在,是一个完全独立于“原子”世界的“位”世界。我们可以在手机上下载无限量的数据,而手机却不会因此而变重;我们可以观看数百部电影而不用接触物理磁盘;我们可以收集数百本书而不需要拥有一张纸。
但数字基础设施最终需要物理基础设施。所有这些软件都需要某种计算机来运行。所需的计算越多,所需的物理基础设施就越多.
创建一个尖端的大型语言模型需要大量的计算,既要训练模型,也要在模型完成后运行它们。训练OpenAI 的 GPT-4需要估计210 亿 petaFLOP (1 petaFLOP 是 10^15 次浮点运算)。1相比之下,iPhone 12 每秒能够进行大约 11 万亿次浮点运算(每秒 0.01 petaFLOP),这意味着如果你能够以某种方式在 iPhone 12 上训练 GPT-4,则需要 60,000 多年才能完成。在1997 年的100 Mhz Pentium 处理器上,每秒只能进行 920 万次浮点运算,理论上训练需要超过 660 亿年。而且 GPT-4 并不是一个例外,而是 AI 模型变得越来越大并且需要更多计算来创建的长期趋势的一部分。
但 GPT-4 当然不是在 iPhone 上训练的。它是在数据中心训练的,在专门设计的建筑物中,有数万台计算机及其所需的支持基础设施。随着各家公司竞相创建自己的 AI 模型,它们正在构建巨大的计算能力来训练和运行这些模型。为了满足 AI 需求的增长,亚马逊计划未来 15 年在数据中心上投资 1500 亿美元。仅在 2024 年,Meta 就计划在基础设施和数据中心上投资370 亿美元,其中大部分与 AI 相关。为 AI 公司提供云计算和计算服务的初创公司 Coreweave 已筹集数十亿美元资金来建设其基础设施,并将在 2024 年建设 28 个数据中心。所谓的“超大规模企业”,即拥有大量计算需求的科技公司,如 Meta、亚马逊和谷歌,估计它们计划或正在开发的数据中心足以将其现有容量翻一番。
数据中心是一种非常简单的结构:一个容纳计算机或其他 IT 设备的空间。它可以是一个装有服务器的小柜子,也可以是办公楼里的几个房间,甚至可以是专门为容纳计算机而建造的大型独立结构.
现代数据中心,即专门建造的容纳数万台计算机的大型建筑,在很大程度上是后互联网时代的产物。谷歌的第一个“数据中心”是一个 28 平方英尺的笼子,里面有 30 台服务器,与 AltaVista、eBay 和 Inktomi 共享空间。如今,谷歌在全球37 个专用数据中心运营着数百万台服务器,其中一些数据中心的面积接近一百万平方英尺。这些数据中心以及全球数千个其他数据中心为网络应用、流媒体视频、云存储和人工智能工具等互联网服务提供支持.
大型现代化数据中心包含数以万计的独立计算机,这些计算机经过专门设计,可以垂直堆叠在大型机架中。机架一次可容纳数十台计算机,以及操作这些计算机所需的其他设备,如网络交换机、电源和备用电池。数据中心内部的走廊包含数十或数百个机架。
常见机架容量为 42U 或 48U,但也有许多其他可用容量。
数据中心内安装的计算机设备数量意味着其耗电量巨大。单台计算机耗电量并不大:机架式服务器可能耗电量只有几百瓦,大约是吹风机功率的五分之一。但数万台计算机加在一起会产生巨大的需求。如今,大型数据中心可能需要100 兆瓦(1 亿瓦)或更多的电力。这大约相当于 75,000 户家庭所需的电力,或在电弧炉中熔化 150 吨钢所需的电力。事实上,电力需求如此重要,以至于数据中心通常以耗电量而非建筑面积来衡量。它们的电力需求意味着数据中心需要大型变压器、高容量电气设备(如开关设备),在某些情况下甚至需要一个新的变电站来将它们连接到输电线。
所有这些电力最终都会在数据中心内转化为热量,这意味着它需要同样坚固的设备来在通电后尽快将热量散发出去。机架位于架空地板上,通过从下方吸入并穿过设备的大量空气保持凉爽。机架通常布置成交替的“热通道”(热空气排出的地方)和“冷通道”(冷空气吸入的地方)。热废气由数据中心的冷却系统排出,冷却后再循环。这些冷却系统可能很复杂,具有多个热交换流体“冷却回路”,但几乎所有数据中心都使用空气来冷却 IT 设备本身。
这些冷却系统规模庞大,这并不令人意外。去除一千瓦电力所需的最小空气量约为每分钟 120 立方英尺;对于 100 兆瓦电力,这意味着每分钟 1200 万立方英尺。数据中心冷却器的冷却系统容量是普通家用空调的数千倍。即使是相对较小的数据中心也会有巨大的空气管道、高容量冷却设备和大型冷却塔。此视频展示了一个拥有一百万加仑“冷电池”水箱的数据中心:水在夜间冷却,此时电力更便宜,白天用来减轻冷却系统的负担。
除了功耗之外,可靠性是数据中心设计的另一个关键因素。一个数据中心可能服务数百万客户,服务中断每分钟可能造成数万美元的损失。因此,数据中心的设计旨在最大限度地降低停机风险。数据中心可靠性按等级系统分级,从一级到四级,较高等级比较低等级更可靠。
互联网及其数字基础设施的兴起需要建设大量的物理基础设施来支持它:容纳数万台计算机和其他 IT 设备的数据中心。随着对这些基础设施的需求不断增加,数据中心变得越来越大,耗电量也越来越大。现代数据中心所需的电力与一座小城市相当,而多个数据中心的园区使用的电力与一座大型核反应堆相当。
人工智能的兴起将加速这一趋势,需要更多数据中心,而这些数据中心的耗电量也越来越大。为它们找到足够的电力将变得越来越具有挑战性。这已经开始推动数据中心建设到有可用电力的地区,随着数据中心建设和更广泛的电气化需求不断增加,这种限制只会变得更加严格。