12 月 12-15 日,第十八届 CCF 全国高性能计算学术年会(以下简称 CCF HPC China 2022)以线上的方式举行,国内外众多知名专家学者,以及高性能计算产业界的头部企业代表云上相聚,探讨高性能计算的发展趋势。阿里巴巴集团研究员、阿里云弹性计算产品线负责人、阿里云无影产品线负责人张献涛在会上带来了主题为《云上协同,助力产业》的主题演讲,分享过去几年阿里云在高性能计算领域所做的思考与实践。以下是他的演讲内容整理:
高性能计算一直是解决国家经济建设、社会发展、科技创新、国家安全重大挑战性问题的重要手段。阿里云自从发布弹性高性能计算平台 E-HPC 以来,一直与合作伙伴密切合作,关注行业的发展。我们看到当下的 HPC 行业有如下几个趋势:
趋势一,越来越多的主流 HPC 应用开始往云上搬迁。早期的 HPC 应用主要集中在科研领域,运行在企业自建 HPC 集群或者政府建设的国家超算中心上。很多企业对 HPC 很早就有期待,但一直面临着预算不足、交付周期长、技术易过时等诸多挑战。当云计算与 HPC 相结合以后,尤其是以神龙为代表的软硬一体虚拟化架构发布以后,带来了高性能、高弹性、灵活性、免运维与低成本的云上算力,推动了 HPC 在云上的广泛落地。
趋势二,HPC 与大数据、AI 等技术融合协同。近两年,HPC 一直与大数据、人工智能等新兴技术加强融合,应用场景不断丰富,也催生了众多新的应用与创新,如科学智能 AI for Science,高性能数据分析 HPDA 等,并在疫情防控、风险人员识别、自动驾驶、新药研发、灾难气象预测等领域加速落地。
趋势三,多种超算服务形式互为补充。工业和信息化部印发的《新型数据中心发展三年行动计划(2021-2023年)》,明确提出要加快高性能、智能计算中心部署,推动新型数据中心算力供应多元化。阿里云超算,与传统超算中心、智算中心一道,凭借“强大的算力”,成为驱动技术创新与行业高质量发展的核心引擎。
阿里云高性能计算解决方案基于自研飞天系统和神龙技术架构 CIPU,以及遍布全球的丰富的多样性计算、存储和网络等资源,将 HPC 与云计算相结合,支持用户业务快速部署和根据工作负载自动扩缩容,为用户提供高性能、高弹性与低成本的算力,助力用户加速业务创新。
其中在 IaaS 资源层面,阿里云通过 CIPU 把虚拟化从通用硬件转移到专用硬件中实现和加速,让客户得到 100% 的算力,可满足用户各种多元计算场景的要求,如 CPU、GPU、FPGA 等。
基于 CIPU 的 eRDMA 网络,可提供低延时、高带宽通信能力,满足超大规模数据中心对高性能网络的严苛要求,实现普惠的 RDMA 网络能力。
在服务触达上,阿里云已在全球 28 个地域、85 个可用区提供服务,满足用户对海量云端算力的弹性需求。此外,阿里云超算支持以云盒、专属 Region、本地 Region 等形态部署到用户数据中心,满足用户对数据本地化的需求。
阿里云云超算背后,不得不提的硬核科技,就是我们的 CIPU 架构,将虚拟化卸载到芯片上,实现云上的虚拟化的“零”损耗,进而将 CPU 的能力完全给到客户应用。此外,通过硬件加速大幅提升的 IO 性能,使我们的实例最高能达到 300 万 IOPS 和 5000 万 PPS,同时提供超高弹性和高安全能力。
CIPU 还提供了大规模的弹性 RDMA 的组网能力。传统的这种 RDMA 的能力组网基本上都是在千台规模就是上限,阿里云自研的 eRDMA 的能力其实可以做到数 10 万台的 RDMA 的规模。这样的能力可以大大加速云上业务的创新。
接下来我们可以深入看下弹性 RDMA 能力。
弹性 RDMA 是中国推出的首个云上大规模 RDMA 加速能力,能够大幅提升大规模分布式计算通信效率,并且能够随着阿里云的集群规模动态扩展,能够轻松构建中国最大的 RDMA 分布式计算网络。随着互联网数据量指数级膨胀,数据中心分布式计算的规模越来越大,而大规模集群间大量数据传输的开销也越来越大。弹性 RDMA 相比传统 TCP 网络,网络延时能够从 16 微秒最低降至 5 微秒,将网络传输效率提升 70%,大幅提升分布式计算的性能和性价比。
在 Redis 数据库场景,最高提升 Redis 混合读写的 80% 的吞吐量;
在 AI 深度学习场景,eRDMA 能够提升大规模分布式 NLP 和视觉计算 30% 的训练性能;
在 Spark 大数据场景,提升 Spark 大规模分布式大数据 30% 的计算性能;
在 HPC 领域的 wrf 应用中,相比 TCP 性能提升 38%。
同时我们一直在构建在 eRDMA 的应用生态,降低应用的适配门槛,让客户可以零改造,无缝衔接适配应用,降低迁移成本,eRDMA 让 RDMA 网络从小众的 AI 与 HPC 类应用,走向支持通用类计算场景,将带来计算架构革新,将赋能云原生技术的大发展。
我们即将发布的阿里云第八代 ECS 实例,将全量搭载 CIPU+ 飞天的技术架构。
在算力维度,八代主售实例选用阿里云自研的倚天 710 芯片和英特尔最新第四代至强可扩展处理器,倚天 710 芯片采用云原生设计理念,英特尔最新的至强处理器,则在通用算力提升的基础上,原生支持硬件加速能力,其中 AI 领域,训练场景性能提升 2 倍以上,深度学习场景性能提升 4 倍;加解密、压缩/解压缩等场景下性能提升 4 倍以上,为客户提供场景化的超高性价比。
同时,ECS 实例持续打造超高安全水位,全量搭载 TPM 可信芯片,在确保云上运行环境的完整性的同时,配合加密计算能力,以及内存加密 TME 技术,实现云上原生计算安全。
除了算力及安全能力提升,网络及存储 I/O 均实现大幅演进,适配 NvME 云盘,支持共享,同时时延降低至 30 微秒;物理网络升级至 2*100G 超大带宽,全面标配自研 eRDMA 加速能力,显著提升网络传输效率。
存储系统是高性能计算方案中重要的底层基础设施。它需要保障海量数据的安全性,同时提供高效的数据吞吐能力,向计算硬件提供所需的数据,保证计算性能可以得到充分的发挥。
阿里云为高性能计算自研了高性能并行文件系统 CPFS,在高性能计算的工业仿真、基因计算、影视渲染、EDA 设计等领域都被广泛应用。
CPFS 除了提供 POSIX 接口外,还提供了通用的 NFS 接口,与阿里云 E-HPC、无影等计算生态无缝对接,实现整个生产链条下的数据共享,可以有效提高计算效率。
CPFS 作为一款并行文件系统,提供了随容量线性扩展的存储吞吐和 IOPS 能力,最高可达百 GB/s 的吞吐和百万 IOPS。
在分享完 IaaS 层的高性能基础设施之后,我们再来看下上层的 PaaS 高性能计算调度平台 E-HPC。
在服务架构上,EHPC 覆盖了底层集群的生命周期管理、业务层面的调度器管理与作业管理、应用层面的软件环境、应用性能管理、以及最上层的业务使用入口。
传统 HPC 客户上云时遇到的一大问题是不了解云计算环境,感到难以下手,而且 HPC 并行计算需要专业的计算环境,包括有鲜明特点的硬件和软件栈。阿里云认为 HPC 云服务应该符合客户的使用习惯,科学与工程计算人员更多精力应该放在计算本身,而不是放在对 IT 环境的适应上,因此 E-HPC 首先为客户提供的是一键式创建云上超算集群,按照 HPC 计算要求,编排云上的计算、网络、存储资源,并部署好 HPC 计算软件栈,让客户可以直接开始计算工作。
提供云上 HPC 计算环境以外,E-HPC 还为客户提供了基于业务负载感知的弹性伸缩能力。当客户提交作业之后,E-HPC 自动扩容计算资源并将其加入调度器来参与计算;当客户作业运行结束后,E-HPC 释放多余的计算资源为客户节省成本。客户云上 HPC 集群变成了一个动态的集群,集群规模变化曲线可以完美匹配客户作业资源需求,结合阿里云按量/抢占式等多种计费策略,实现资源利用率最大化和成本最优化。
针对 HPC 客户最为关注的应用性能,我们除了提供各种匹配不同 HPC 计算场景的实例规格族、存储服务之外,还在 E-HPC 服务中完整集成了英特尔 oneAPI,以及相应的技术支持能力,为客户提供优化的编译、调优工具链、性能数据采集与分析工具等,实现完整的云上 HPC 应用开发平台,方便有性能优化思路和需求的客户直接在云上开展 HPC 应用验证、应用性能剖析和调优等工作。
在用户交付方面,我们还有无影云电脑,这是一款部署在阿里云上的高性能云电脑产品,通过不同的终端可以使用云上无限的算力。无影能够最大程度的保障研究成果的数据安全,我们依托阿里云自研的 ASP 高性能协议,能够构建隔离的传输通道,在端与云之间形成一张更加安全的专有网络。无影能够保障数据不落地,同时通过传输管控、ASP 管控,防截屏等技术手段,使其可以拥有事前预防、事中执行,事后审计的能力,最大程度的保障用户数据资产安全。
在一些重交付的场景中,像仿真模拟、数字孪生等,无影可支持 8K 分辨率,144fps 高帧率,多屏显示让端侧的体验可以更加清晰流畅。同时无影还有独特的多流协同能力,在一些复杂的场景里,让多人协同开发变得更容易。无影也支持百万级的软件应用,可以让更多行业都能很容易的享受到云计算带来的普惠。
可以看下,阿里云的高性能计算方案涵盖了 IaaS 层、PaaS 层,甚至是 SaaS 层的无影等产品。
过去,高性能计算用户为了获得 HPC 集群计算能力,需要花费大量人力物力财力在服务器购买、运维、软件开发和软件许可上。有了 E-HPC,企业就能快速获得高性能计算集群能力,高性能计算调度能力和软件能力,按需组建自己的“云上超算中心”,再也不用一次性巨额资金投入,从而帮助降低计算成本,提高计算灵活性。
在高性能业务场景中,对性能有极高的要求,尤其是计算、存储和网络三个重要组成部分。
为了保障在高性能计算业务在云上高效、稳定地运行,我们推出了适合这种大计算场景的高性能神龙服务器、高性能数据存储和高性能网络。
如果把传统超算中心比作“珠穆朗玛峰”,那么阿里云的 E-HPC 则是将高性能计算做更普惠的覆盖,成为高性能计算的“青藏高原”,让更多的行业可以享受到高性能计算服务。
在行业实践方面,我们先介绍上汽的工业仿真案例。
新车研发初期的样车成本非常昂贵,为了提高试验的有效性,在样车生产及真实碰撞试验前,上汽在阿里云仿真计算平台上完成产品的碰撞仿真模拟计算,来保证实车碰撞试验的成功率。合作之前,新车研发年平均需要 300 辆样车进行 400 次碰撞试验,现在平均仅需 150 辆样车,年平均节省 9000 万元。
上汽仿真案例能够有力证明:阿里云 SCC 服务器,能够有效支撑汽车仿真业务。并且客户反馈,上阿里云后,仿真计算效率提升 25%。
此外,上汽方案采用线下和云上混合云模式,既能利用线下已有的服务器资源,又能借助云的资源弹性,能够在短时间内获取新业务或突发业务所需要的计算资源,保障上汽仿真业务高效、稳定地进行。
随着生命科学行业的发展开始进入快车道,研究问题的复杂化和解决问题的紧迫性,基于 IDC 的 IT 资源越来越难以满足业务发展的需求。IDC 模式下,不仅资源扩容的周期长,而且资源种类相对较少、迭代较慢,资源配置方案难以满足多样性业务,尤其是部分新兴业务的计算需求,同时硬件资源的运维成本也比较高,因此越来越多的生命科学企业开始选择上云,比如深势科技。
阿里云弹性高性能计算 E-HPC 平台,帮助深势科技快速搭建稳定的云上 HPC 集群,做好任务的管理与调度,向下可自动伸缩多种 ECS 实例并灵活高效管理多种云上资源,向上支持众多生命科学行业相关应用软件与容器部署,助力生命科学行业用户上云。与此同时,E-HPC 支持云上云下资源的统一管理,可以帮助客户搭建公共云+线下的混合集群。
不同于传统高性能计算的“静态”资源分配能力,EHPC 可自动伸缩、高效调度云上集群的“动态”算力,实现根据负载按需扩容缩容的能力。此外,EHPC 支持通过 Spot 实例、按量付费、预留实例券等方式灵活使用资源,优化算力成本,其中 Spot 抢占式实例,价格最低可达到按量付费的一折。
深势科技利用 E-HPC 的自动伸缩能力,结合灵活的计费规则,以 30% 的成本完成日均 3 万 vCPU 资源的交付,并且业务效率提升 50%。
我们接下来看到,阿里云弹性高性能计算在半导体行业也有完整的解决方案。半导体的前端验证和后端仿真都是典型的超算需求,对于算力、并行存储都有极强的性能要求。同时,半导体研发过程不同对于算力资源的需求也不同,例如前端验证业务,需要海量高主频的 cpu,而后端仿真过程往往则需要大内存。因此,半导体行业具备使用云计算来提升作业效率,降低作业成本的业务诉求。
阿里云 E-HPC 可以提供满足半导体行业的超算环境,包括作业调度器、域控、集群管理节点,以及适配前端需求的高主频 ECS 实例和后端需求的大内存实例,后端采用阿里云 CPFS 高性能并行存储,提供超高 IO 能力。同时阿里云无影云桌面可作为图形节点,实现作业后的图形展示,减少了云上云下数据传输耗时。基于阿里云 E-HPC 的混合云能力,可以构建一套和线下统一体验的混合云超算环境,作业节点和图形节点可以直接挂载客户线下存储,从而最大程度减少客户的数据安全顾虑。
通过综合测算,使用阿里云弹性高性能计算,客户 ROI 提升了 30%。
在影视渲染领域,阿里云影视渲染解决方案已经覆盖了国内大部分影视后期视效企业和渲染农场,帮助打造了《杨戬》、《刺杀小说家》、《你好李焕英》等等多部大片。
除了提供高性价比的资源和渲染集群的弹性伸缩能力之外,阿里云还针对渲染行业中云下素材和云上渲染集群之间的数据传输问题、以及数据 IO 的特征,专门设计了混合云文件缓存组件,通过缓存关键热数据,大幅提升 IO 性能、降低专线压力。
在这个 MOREVFX 的典型案例中,阿里云 HPC 解决方案通过与客户深度协同,分析并定位了应用上云的关键瓶颈,针对影视渲染流程中大量素材数据的传输问题,设计并发布了混合云缓存组件并嵌入到渲染任务计算流程中,无需用户人工参与,大大减少了渲染过程中对于线下数据访问量,保障了影视后期制作任务高效完成。
此外,针对渲染任务负载的周期性状况,通过与渲染专业调度器结合,按调度器实际任务需求弹性的创建和释放计算资源。
大家可以看到,阿里云弹性高性能计算在众多的行业有落地实践,由于时间关系,没法一一展开,希望后面有机会跟各位当面交流。我的分享到此结束,感谢大家的聆听。
阿里云张献涛:高性能计算发展的三大趋势