在当今社会,人工智能的应用场景愈发广泛,如小爱同学、天猫精灵等 AI 服务已深入人们的生活。随着人工智能时代的来临,AI 服务器也开始在社会各行业发挥重要作用。那么,AI 服务器与传统服务器相比,究竟有何独特之处?为何 AI 服务器能在人工智能时代中逐渐取代普通服务器,成为主流呢?
01
AI 服务器与传统服务器的区别
AI 服务器和传统服务器之间有显著的区别。
AI 服务器是一种专门设计用于执行人工智能、机器学习(ML)、深度学习(DL)等计算密集型任务的高性能服务器。它可以通过收集数据、分析数据和模拟数据来学习如何有效地运行服务器,也可以根据不同的应用程序和用户请求来调整服务器的性能,从而提供更好的服务器性能。
而传统服务器虽然也可以处理大量数据,但是需要人工干预来提高服务器性能。
从服务器的硬件架构来看,AI 服务器通常配备有高效能的中央处理器(CPU)、图形处理器(GPU)、张量处理器(TPU)或专用的 AI 加速器,以及大量的内存和存储空间。在异构方式上,AI 服务器可以为 CPU+GPU、CPU+FPGA、CPU+TPU、CPU+ASIC 或 CPU+多种加速卡。
目前,产品中最常见的是 CPU+多块 GPU 的方式。具体的设计和配置可以根据需要进行大量并行处理的具体任务来进行调整。
传统服务器主要以 CPU 为算力提供者,但是在运作的过程中需要引入大量分支跳转中断处理,这使得 CPU 的内部结构复杂,并不能满足 AI 时代的需求。
AI 服务器的主要优势:
大数据处理:AI 服务器能够处理和分析大量数据,这是训练 AI 和 ML 模型的关键。
并行计算:由于 AI 和 ML 算法需要对大量数据进行复杂的计算,AI 服务器通常使用可以并行处理大量数据的硬件,如 GPU。
存储和内存:AI 服务器通常具有大量的存储空间和内存,以便存储和处理大量的数据。
网络能力:AI 服务器需要高速和低延迟的网络连接,以便快速传输大量的数据。
事实上,这也正是大模型热潮之后,AI 服务器抢购潮涌现的原因所在。大模型内部蕴含的数据参数极其庞大,无论是训练还是运行,都需要更强大的计算资源来支撑。因此,为了满足这种需求,高性能的 AI 服务器变得至关重要,从而引发了抢购热潮。
呈现在具体应用中,AI 服务器广泛应用于深度学习、高性能计算、医疗、搜索引擎、游戏、电子商务、金融、安全等行业。比如在医学图像智能分析应用中,AI 服务器可以通过机器视觉、知识地图、深度学习等人工智能技术,模拟医学专家思维、推理诊断,帮助医生定位疾病,协助诊断;在安全监控的应用中,AI 服务器可以应用于人体分析、图像分析、车辆分析、行为分析等安全场景。
02
AI 服务器的两大类别
按照 AI 应用场景的需求,AI 服务器主要分为两类:深度学习训练型和智能应用推理型。
训练任务对服务器算力要求较高,需要训练型服务器提供高密度算力支持;推理任务则是利用训练后的模型提供服务,对算力无较高要求。
简单来说,训练过程就是一个学习的过程,训练是一个搜索和求解模型最优参数的阶段;推理是将深度学习训练成果投入使用的过程,即模型参数已经求解出来,使用和部署模型阶段。
根据使用需求的不同,不同 AI 服务器对 GPU 的采用也不同。
训练阶段要求 GPU 具有强大的计算能力和高存储带宽,以应对大规模的数据处理和复杂的数学运算。因此,在选择用于训练阶段的 GPU 时,通常需要关注其性能、功耗、可靠性和软件兼容性等方面。具有高频率、多核心和大显存的 GPU 产品通常更适合训练阶段的需求。拿英伟达来说,训练时可以选 A100\V100\A800 等显卡。
推理阶段主要关注的是模型的快速响应和准确输出。这一阶段的计算量相对较小,但要求 GPU 能够快速且稳定地执行预训练好的模型。因此,推理阶段对 GPU 的需求更注重其稳定性和能效比。英伟达的 P4、T4、A10 等显卡,更适合推理阶段的需求。
03
AI 服务器出货量激增
AI 服务器作为算力的发动机,算力需求的增长将迎来 AI 服务器需求的快速增长。
据 IDC 统计,2023 年全球 AI 服务器市场规模预计为 211 亿美元,2025 年将达到 17.9 亿美元,2023-2025 年 CAGR 为 22.7%。出货量方面,根据 TrendForce 数据,2023 年 AI 服务器出货量逾 120 万台,占据服务器总出货量的近 9%,年增长达 38.4%。预计 2026 年,AI 服务器出货量为 237 万台,占比达 15%,复合年增长率预计保持 25%。
再看中国市场,IDC 预计 2023 年中国 AI 服务器市场规模将达到 91 亿美元,同比增长 82.5%;2027 年将达到 134 亿美元,年均复合增长率为 21.8%。主要原因是国内各大厂商纷纷布局 AI 服务器产业,升级产品技术规格。处理器方面,浪潮信息产品主要通过搭建四代英特尔 CPU+英伟达 H800GPU 超高算力组合,华为的昇腾系列和鲲鹏系列服务器主要搭载自研鲲鹏处理器及昇腾处理器,中科可控搭载海光处理器满足算力需求。此外,厂商普遍配置有 32 个 DDR4 内存插条和 SAS/SATA 硬盘,以及支持 0/1/10/5/50/6/60RAID。
计算芯片和存储是服务器的核心构成,在 AI 服务器发展如日中天的当下,计算芯片和存储自然而然跟随着 AI 服务器的步伐走上快车道。
04
这些芯片赛道,进入狂欢期
国产 CPU 迎来发展好时机
上文提到,如今的算力芯片通常是 CPU+多块 GPU 的方式。
当下主流的服务器 CPU 架构包括 X86、ARM、MIPS 和 RISC-V 等。其中 X86 架构处理器统治着 PC 和服务器市场,Arm 架构处理器统治着移动市场和 IoT 市场,MIPS 是基于 RISC 的衍生架构之一,近年来 RISC-V 架构则凭借着开源、指令精简、可扩展等优势,在注重能效比的物联网领域大受追捧,并开始进入更高性能需求的服务器市场。
当前市场格局中,英特尔和 AMD 两大巨头凭借深厚的技术积累和市场布局,占据了市场的绝大部分份额。
然而,随着 AI 技术的飞速发展,中国作为服务器市场的增长引擎,也为众多服务器芯片公司提供了前所未有的发展机遇。这些公司纷纷瞄准这一黄金时期,加大研发力度,提升产品性能,以期在激烈的市场竞争中脱颖而出,分得一杯羹。
如今,国产服务器 CPU 正处于奋力追赶的关键时期,主流的厂商包括海光、兆芯、飞腾、华为鲲鹏、龙芯、申威。
海光完全兼容 X86 架构,拥有指令集永久授权,不仅具备了独立设计 CPU 内核和 SoC 的能力,也可以对指令集进行自主扩展和优化。海光 CPU 系列产品中,海光三号为 2023 年主力销售产品,海光四号、海光五号处于研发阶段。海光 CPU 既支持面向数据中心、云计算等复杂应用领域的高端服务器;也支持面向政务、企业和教育领域的信息化建设中的中低端服务器以及工作站和边缘计算服务器,已经应用于电信、金融、互联网、教育、交通、工业设计、图形图像处理等领域。
再看飞腾,飞腾已与 1600 余家国内软硬件厂商打造完整生态体系,并已完成与 6 大类 1000 余种整机产品、2600 余种软件和外设的适配。基于飞腾桌面 CPU 的终端已形成较为完整的生态图谱,可覆盖从整机硬件、基础软件到上层的应用。
去年四月,龙芯推出 2023 款 HPC CPU:3D5000,拥有 32 核高达 2 GHz 和 300W TDP,据称比典型 Arm 芯片快 4 倍。龙芯 3D5000 的推出,进一步满足了数据中心对性能的需求,也标志着龙芯中科在服务器 CPU 芯片领域进入国内领先行列。
此外国内企业还在加快部署 RISC-V 芯片。比如去年 10 月,山东大学成功部署了基于 RISC-V CPU 的服务器集群,该系统拥有 3072 个核心,并配置了 48 个 64 位 RISC-V CPU 节点。中国科学院 (CAS) 正在开发「香山」RISC-V 芯片。
目前,从架构路线上看,x86 更具发展空间和潜力。
X86 不仅是国际广泛认可的通用计算架构,而且国产 CPU 厂商通过获得 X86 架构和指令集的授权,不断消化、吸收与创新,目前已具备高度的自主发展和自由迭代的能力。
在自主发展方面,X86 架构为国产 CPU 厂商提供了一个广阔的舞台。他们不仅可以在架构的基础上进行微架构创新,还可以根据国内市场的特殊需求,定制和优化指令集,开发出更符合本土用户习惯和应用场景的 CPU 产品。这种定制化的能力使得国产 CPU 在性能和功能上能够与国际大厂的产品相媲美,甚至在某些特定领域实现超越。其次,在自由迭代方面,国产 CPU 厂商具备了对 X86 架构进行持续升级和优化的能力。
因此,在安全性方面,国产 X86 CPU 厂商具备自主可控的能力,他们可以通过自主研发和创新,确保 CPU 产品在设计和制造过程中的安全性。
GPU 厂商更是进入黄金时刻
GPU 市场的火热程度还要远远夸张于 CPU 市场。
尽管 FPGA、各类 ASIC 芯片也能执行大量运算,但 GPU 的通用性无疑让它更具吸引力。
在 AI 服务器的构建中,GPU 的价值量显著高于 CPU。一台 AI 服务器通常仅搭载 1-2 块 CPU,但 GPU 的数量则可能大大增加。根据 GPU 数量的不同,AI 服务器可分为四路、八路和十六路服务器,其中搭载 8 块 GPU 的八路 AI 服务器最为常见。这种配置使得 AI 服务器在处理大规模数据和高复杂度算法时具有更高的效率和稳定性。
以浪潮的服务器产品为例,我们可以更直观地感受到 GPU 在 AI 服务器中的价值。浪潮的通用服务器 NF5280M6 采用 1~2 颗第三代 Intel Xeon 可扩展处理器,每颗 CPU 的售价约为 64000 元,因此该服务器的芯片成本大约在 64000~128000 元之间。然而,在浪潮的 AI 服务器 NF5688M6 中,情况则大不相同。该服务器采用了 2 颗第三代 Intel Xeon 可扩展处理器和 8 颗英伟达 A800 GPU 的组合。据英伟达官网显示,每颗 A800 的售价高达 104000 元。因此,仅计算芯片成本,该 AI 服务器的芯片成本就达到了约 96 万元。
可以看到,随着 AI 服务器的广泛普及和应用,GPU 也迎来量价齐升。
作为全球领先的 GPU 制造商,英伟达凭借其卓越的技术和创新能力,成功抓住了 AI 发展的黄金机遇。不断推出性能更强大、功能更丰富的 GPU 产品,满足了 AI 服务器日益增长的计算需求。英伟达不仅收获了接到手软的订单,还成功占领了 AI 服务器市场的制高点。
当然,国产 GPU 厂商也不会错过这一好时机。他们加大研发力度,努力提升产品性能和质量,以满足国内 AI 服务器市场的迫切需求。
2023 年上半年,中国加速芯片的市场规模超过 50 万张。从技术角度看,GPU 卡占有 90% 的市场份额;从品牌角度看,中国本土 AI 芯片品牌出货超过 5 万张,占比整个市场 10% 左右的份额。
国产 GPU 有两条主要的发展路线:分别为传统的 2D/3D 图形渲染 GPU 和专注高性能计算的 GPU,近年来,国产 GPU 厂商在图形渲染 GPU 和高性能计算 GPGPU 领域上均推出了较为成熟的产品。
国产算力 GPU 的主要厂商包括海光信息、寒武纪、平头哥、华为昇腾、天数智芯、燧原科技、摩尔线程、壁仞科技、沐曦等公司,部分产品的单卡指标和参数已经与英伟达产品接近或持平。目前国产算力 GPU 芯片在推理场景应用较多且具备一定竞争力,如含光 800、思元 370、MTTS3000 等等。
随着国家对自主可控技术的重视和支持力度不断加大,国产 GPU 厂商的发展前景十分广阔。他们有望在未来通过技术创新和市场拓展,逐步缩小与国际巨头的差距,实现国产 GPU 在 AI 服务器市场的更大突破。
DDR5、HBM 成为 AI 服务器标配
HBM(高带宽内存)以其高带宽、高容量、低延时和低功耗的优势,成为 AI 服务器中 GPU 的搭载标配。英伟达推出的多款用于 AI 训练的芯片 A100、H100 和 H200,均采用 HBM 显存:
A100 采用 80GB HBM2 显存,峰值带宽高达 1.6TB/s。
H100 采用 80GB HBM3 显存,峰值带宽高达 3.2TB/s。
H200 采用 96GB HBM3 显存,峰值带宽高达 5.12TB/s。
HBM 显存的应用,大幅提升了 AI 训练的速度和效率,是当前 AI 计算领域必不可少的重要技术。
此外,针对 AI 服务器的高性能要求,更强大的内存——DDR5 需求随之提升。与 DDR4 相比,DDR5 具备更高速度、更大容量和更低能耗等特点。DDR5 内存的最高传输速率达 6.4Gbps,比 DDR4 高出一倍。
美光科技此前曾表示,AI 服务器对 DRAM 和 NAND 的容量需求分别是常规服务器的 8 倍和 3 倍。AI 服务器的增长,对内存的拉动可谓是肉眼可见,而且需求相当明确。中金公司此前指出,2023-2025 年仅 AI 即会为存储带来 80 亿美元增量市场。
05
央企加快智算中心建设,国产 AI 服务器机遇大增
2 月 19 日,国务院国资委召开中央企业人工智能专题推进会。明确指出中央企业要加快布局和发展人工智能产业,加快建设一批智能算力中心:同时开展 AI+专项行动,加快重点行业赋能,构建一批产业多模态优质数据集,打造从基础设施、算法工具、智能平台到解决方案的大模型赋能产业。央企带头加速智算中心建设、推动 AI 赋能产业,有望提升国产算力需求,带动相关产业发展。
根据 2023 年 10 月,中国电信发布的《AI 算力服务器(2023-2024 年)集中采购项目》中标候选人结果显示,总金额约为 84.63 亿元,包括 AI 服务器 4175 台以及 IB 交换机 1182 台,其中使用国产(鲲鹏)芯片的 AI 服务器 1977 台,占整体采购数量的 47.35%。
近日,中国联通发布 2024 年人工智能服务器集中采购项目资格预审公告,公告显示,2024 年中国联通人工智能服务器集中采购项目已批准,招标人为中国联合网络通信有限公司及省分公司、联通数字科技有限公司等。此次中国联通将采购人工智能服务器合计 2503 台,关键组网设备 RoCE 交换机合计 688 台,本次采购不划分标包。
在信创、国产化趋势下,此次招标中国产服务器或占大多数,而随着运营商招投标国产服务器占比的提升,国产服务器厂商有望受益。
以下是数家在「AI 服务器」概念领域中备受瞩目,被视为未来市场潜力巨大的黑马公司。
IDC 数据显示,2023 年上半年,从销售额来看,浪潮、新华三、宁畅位居前三,占据了 70% 以上的市场份额;从出货台数看,浪潮、坤前、宁畅位居前三名,占近 60% 的市场份额。
浪潮信息,主营通用服务器、边缘服务器、AI 服务器和存储等。从 2020 年至 2022 年,服务器业务的销售收入在浪潮信息总营收中占比始终保持在 95% 以上。2023 年上半年,浪潮信息的服务器及部件业务实现营收 244.99 亿元,在总营收中占比高达 98.80%。长期以来,浪潮服务器在中国市场份额都在 30% 左右,位居中国第一,全球第二。
新华三为紫光股份旗下的核心企业,新华三拥有计算、存储、网络、5G、安全、终端等全方位的数字化基础设施整体能力。2023 年上半年,新华三服务器以 16% 的市场份额稳居中国市场第二,其中刀片服务器(一种高度整合的高性能服务器系统)以 54% 的市场份额蝉联中国市场第一。
宁畅信息创立于 2019 年,成立时间虽短,但宁畅团队在服务器领域已有 15 年,公司员工中超 90% 是研发人员,是服务器领域的「黑马」公司之一。2023 年上半年,宁畅液冷服务器市占率增速位居第一,市场占有率增速高达 500%。
坤前计算机成立于 2012 年,是一家成熟服务器生产商,包含 AI 服务器、通用服务器、存储服务器、边缘计算服务器、高密度服务器以及国产服务器系列。中兴通讯也是我国知名的服务器供应商之一。据 IDC 发布数据,2022 年中兴通讯服务器销售额和机架服务器出货量提升至国内前五。在电信行业,中兴通讯服务器及存储产品发货量多年蝉联第一,市场份额超过 30%,是中国移动、中国联通、中国电信三大运营商的主流供应商。