阿里云张献涛:高性能计算发展的三大趋势

news2024/11/20 10:34:02

12 月 12-15 日,第十八届 CCF 全国高性能计算学术年会(以下简称 CCF HPC China 2022)以线上的方式举行,国内外众多知名专家学者,以及高性能计算产业界的头部企业代表云上相聚,探讨高性能计算的发展趋势。阿里巴巴集团研究员、阿里云弹性计算产品线负责人、阿里云无影产品线负责人张献涛在会上带来了主题为《云上协同,助力产业》的主题演讲,分享过去几年阿里云在高性能计算领域所做的思考与实践。以下是他的演讲内容整理:

在这里插入图片描述

高性能计算一直是解决国家经济建设、社会发展、科技创新、国家安全重大挑战性问题的重要手段。阿里云自从发布弹性高性能计算平台 E-HPC 以来,一直与合作伙伴密切合作,关注行业的发展。我们看到当下的 HPC 行业有如下几个趋势:

趋势一,越来越多的主流 HPC 应用开始往云上搬迁。早期的 HPC 应用主要集中在科研领域,运行在企业自建 HPC 集群或者政府建设的国家超算中心上。很多企业对 HPC 很早就有期待,但一直面临着预算不足、交付周期长、技术易过时等诸多挑战。当云计算与 HPC 相结合以后,尤其是以神龙为代表的软硬一体虚拟化架构发布以后,带来了高性能、高弹性、灵活性、免运维与低成本的云上算力,推动了 HPC 在云上的广泛落地。

趋势二,HPC 与大数据、AI 等技术融合协同。近两年,HPC 一直与大数据、人工智能等新兴技术加强融合,应用场景不断丰富,也催生了众多新的应用与创新,如科学智能 AI for Science,高性能数据分析 HPDA 等,并在疫情防控、风险人员识别、自动驾驶、新药研发、灾难气象预测等领域加速落地。

趋势三,多种超算服务形式互为补充。工业和信息化部印发的《新型数据中心发展三年行动计划(2021-2023年)》,明确提出要加快高性能、智能计算中心部署,推动新型数据中心算力供应多元化。阿里云超算,与传统超算中心、智算中心一道,凭借“强大的算力”,成为驱动技术创新与行业高质量发展的核心引擎。
在这里插入图片描述

阿里云高性能计算解决方案基于自研飞天系统和神龙技术架构 CIPU,以及遍布全球的丰富的多样性计算、存储和网络等资源,将 HPC 与云计算相结合,支持用户业务快速部署和根据工作负载自动扩缩容,为用户提供高性能、高弹性与低成本的算力,助力用户加速业务创新。

其中在 IaaS 资源层面,阿里云通过 CIPU 把虚拟化从通用硬件转移到专用硬件中实现和加速,让客户得到 100% 的算力,可满足用户各种多元计算场景的要求,如 CPU、GPU、FPGA 等。

基于 CIPU 的 eRDMA 网络,可提供低延时、高带宽通信能力,满足超大规模数据中心对高性能网络的严苛要求,实现普惠的 RDMA 网络能力。

在服务触达上,阿里云已在全球 28 个地域、85 个可用区提供服务,满足用户对海量云端算力的弹性需求。此外,阿里云超算支持以云盒、专属 Region、本地 Region 等形态部署到用户数据中心,满足用户对数据本地化的需求。
在这里插入图片描述

阿里云云超算背后,不得不提的硬核科技,就是我们的 CIPU 架构,将虚拟化卸载到芯片上,实现云上的虚拟化的“零”损耗,进而将 CPU 的能力完全给到客户应用。此外,通过硬件加速大幅提升的 IO 性能,使我们的实例最高能达到 300 万 IOPS 和 5000 万 PPS,同时提供超高弹性和高安全能力。

CIPU 还提供了大规模的弹性 RDMA 的组网能力。传统的这种 RDMA 的能力组网基本上都是在千台规模就是上限,阿里云自研的 eRDMA 的能力其实可以做到数 10 万台的 RDMA 的规模。这样的能力可以大大加速云上业务的创新。

在这里插入图片描述

接下来我们可以深入看下弹性 RDMA 能力。

弹性 RDMA 是中国推出的首个云上大规模 RDMA 加速能力,能够大幅提升大规模分布式计算通信效率,并且能够随着阿里云的集群规模动态扩展,能够轻松构建中国最大的 RDMA 分布式计算网络。随着互联网数据量指数级膨胀,数据中心分布式计算的规模越来越大,而大规模集群间大量数据传输的开销也越来越大。弹性 RDMA 相比传统 TCP 网络,网络延时能够从 16 微秒最低降至 5 微秒,将网络传输效率提升 70%,大幅提升分布式计算的性能和性价比。

在 Redis 数据库场景,最高提升 Redis 混合读写的 80% 的吞吐量;

在 AI 深度学习场景,eRDMA 能够提升大规模分布式 NLP 和视觉计算 30% 的训练性能;

在 Spark 大数据场景,提升 Spark 大规模分布式大数据 30% 的计算性能;

在 HPC 领域的 wrf 应用中,相比 TCP 性能提升 38%。

同时我们一直在构建在 eRDMA 的应用生态,降低应用的适配门槛,让客户可以零改造,无缝衔接适配应用,降低迁移成本,eRDMA 让 RDMA 网络从小众的 AI 与 HPC 类应用,走向支持通用类计算场景,将带来计算架构革新,将赋能云原生技术的大发展。
在这里插入图片描述

我们即将发布的阿里云第八代 ECS 实例,将全量搭载 CIPU+ 飞天的技术架构。

在算力维度,八代主售实例选用阿里云自研的倚天 710 芯片和英特尔最新第四代至强可扩展处理器,倚天 710 芯片采用云原生设计理念,英特尔最新的至强处理器,则在通用算力提升的基础上,原生支持硬件加速能力,其中 AI 领域,训练场景性能提升 2 倍以上,深度学习场景性能提升 4 倍;加解密、压缩/解压缩等场景下性能提升 4 倍以上,为客户提供场景化的超高性价比。

同时,ECS 实例持续打造超高安全水位,全量搭载 TPM 可信芯片,在确保云上运行环境的完整性的同时,配合加密计算能力,以及内存加密 TME 技术,实现云上原生计算安全。

除了算力及安全能力提升,网络及存储 I/O 均实现大幅演进,适配 NvME 云盘,支持共享,同时时延降低至 30 微秒;物理网络升级至 2*100G 超大带宽,全面标配自研 eRDMA 加速能力,显著提升网络传输效率。
在这里插入图片描述

存储系统是高性能计算方案中重要的底层基础设施。它需要保障海量数据的安全性,同时提供高效的数据吞吐能力,向计算硬件提供所需的数据,保证计算性能可以得到充分的发挥。

阿里云为高性能计算自研了高性能并行文件系统 CPFS,在高性能计算的工业仿真、基因计算、影视渲染、EDA 设计等领域都被广泛应用。

CPFS 除了提供 POSIX 接口外,还提供了通用的 NFS 接口,与阿里云 E-HPC、无影等计算生态无缝对接,实现整个生产链条下的数据共享,可以有效提高计算效率。

CPFS 作为一款并行文件系统,提供了随容量线性扩展的存储吞吐和 IOPS 能力,最高可达百 GB/s 的吞吐和百万 IOPS。
在这里插入图片描述

在分享完 IaaS 层的高性能基础设施之后,我们再来看下上层的 PaaS 高性能计算调度平台 E-HPC。

在服务架构上,EHPC 覆盖了底层集群的生命周期管理、业务层面的调度器管理与作业管理、应用层面的软件环境、应用性能管理、以及最上层的业务使用入口。

传统 HPC 客户上云时遇到的一大问题是不了解云计算环境,感到难以下手,而且 HPC 并行计算需要专业的计算环境,包括有鲜明特点的硬件和软件栈。阿里云认为 HPC 云服务应该符合客户的使用习惯,科学与工程计算人员更多精力应该放在计算本身,而不是放在对 IT 环境的适应上,因此 E-HPC 首先为客户提供的是一键式创建云上超算集群,按照 HPC 计算要求,编排云上的计算、网络、存储资源,并部署好 HPC 计算软件栈,让客户可以直接开始计算工作。

提供云上 HPC 计算环境以外,E-HPC 还为客户提供了基于业务负载感知的弹性伸缩能力。当客户提交作业之后,E-HPC 自动扩容计算资源并将其加入调度器来参与计算;当客户作业运行结束后,E-HPC 释放多余的计算资源为客户节省成本。客户云上 HPC 集群变成了一个动态的集群,集群规模变化曲线可以完美匹配客户作业资源需求,结合阿里云按量/抢占式等多种计费策略,实现资源利用率最大化和成本最优化。

针对 HPC 客户最为关注的应用性能,我们除了提供各种匹配不同 HPC 计算场景的实例规格族、存储服务之外,还在 E-HPC 服务中完整集成了英特尔 oneAPI,以及相应的技术支持能力,为客户提供优化的编译、调优工具链、性能数据采集与分析工具等,实现完整的云上 HPC 应用开发平台,方便有性能优化思路和需求的客户直接在云上开展 HPC 应用验证、应用性能剖析和调优等工作。

在这里插入图片描述

在用户交付方面,我们还有无影云电脑,这是一款部署在阿里云上的高性能云电脑产品,通过不同的终端可以使用云上无限的算力。无影能够最大程度的保障研究成果的数据安全,我们依托阿里云自研的 ASP 高性能协议,能够构建隔离的传输通道,在端与云之间形成一张更加安全的专有网络。无影能够保障数据不落地,同时通过传输管控、ASP 管控,防截屏等技术手段,使其可以拥有事前预防、事中执行,事后审计的能力,最大程度的保障用户数据资产安全。

在一些重交付的场景中,像仿真模拟、数字孪生等,无影可支持 8K 分辨率,144fps 高帧率,多屏显示让端侧的体验可以更加清晰流畅。同时无影还有独特的多流协同能力,在一些复杂的场景里,让多人协同开发变得更容易。无影也支持百万级的软件应用,可以让更多行业都能很容易的享受到云计算带来的普惠。
在这里插入图片描述

可以看下,阿里云的高性能计算方案涵盖了 IaaS 层、PaaS 层,甚至是 SaaS 层的无影等产品。

过去,高性能计算用户为了获得 HPC 集群计算能力,需要花费大量人力物力财力在服务器购买、运维、软件开发和软件许可上。有了 E-HPC,企业就能快速获得高性能计算集群能力,高性能计算调度能力和软件能力,按需组建自己的“云上超算中心”,再也不用一次性巨额资金投入,从而帮助降低计算成本,提高计算灵活性。

在高性能业务场景中,对性能有极高的要求,尤其是计算、存储和网络三个重要组成部分。

为了保障在高性能计算业务在云上高效、稳定地运行,我们推出了适合这种大计算场景的高性能神龙服务器、高性能数据存储和高性能网络。

如果把传统超算中心比作“珠穆朗玛峰”,那么阿里云的 E-HPC 则是将高性能计算做更普惠的覆盖,成为高性能计算的“青藏高原”,让更多的行业可以享受到高性能计算服务。
在这里插入图片描述

在行业实践方面,我们先介绍上汽的工业仿真案例。

新车研发初期的样车成本非常昂贵,为了提高试验的有效性,在样车生产及真实碰撞试验前,上汽在阿里云仿真计算平台上完成产品的碰撞仿真模拟计算,来保证实车碰撞试验的成功率。合作之前,新车研发年平均需要 300 辆样车进行 400 次碰撞试验,现在平均仅需 150 辆样车,年平均节省 9000 万元。

上汽仿真案例能够有力证明:阿里云 SCC 服务器,能够有效支撑汽车仿真业务。并且客户反馈,上阿里云后,仿真计算效率提升 25%。

此外,上汽方案采用线下和云上混合云模式,既能利用线下已有的服务器资源,又能借助云的资源弹性,能够在短时间内获取新业务或突发业务所需要的计算资源,保障上汽仿真业务高效、稳定地进行。

在这里插入图片描述

随着生命科学行业的发展开始进入快车道,研究问题的复杂化和解决问题的紧迫性,基于 IDC 的 IT 资源越来越难以满足业务发展的需求。IDC 模式下,不仅资源扩容的周期长,而且资源种类相对较少、迭代较慢,资源配置方案难以满足多样性业务,尤其是部分新兴业务的计算需求,同时硬件资源的运维成本也比较高,因此越来越多的生命科学企业开始选择上云,比如深势科技。

阿里云弹性高性能计算 E-HPC 平台,帮助深势科技快速搭建稳定的云上 HPC 集群,做好任务的管理与调度,向下可自动伸缩多种 ECS 实例并灵活高效管理多种云上资源,向上支持众多生命科学行业相关应用软件与容器部署,助力生命科学行业用户上云。与此同时,E-HPC 支持云上云下资源的统一管理,可以帮助客户搭建公共云+线下的混合集群。

不同于传统高性能计算的“静态”资源分配能力,EHPC 可自动伸缩、高效调度云上集群的“动态”算力,实现根据负载按需扩容缩容的能力。此外,EHPC 支持通过 Spot 实例、按量付费、预留实例券等方式灵活使用资源,优化算力成本,其中 Spot 抢占式实例,价格最低可达到按量付费的一折。

深势科技利用 E-HPC 的自动伸缩能力,结合灵活的计费规则,以 30% 的成本完成日均 3 万 vCPU 资源的交付,并且业务效率提升 50%。
在这里插入图片描述

我们接下来看到,阿里云弹性高性能计算在半导体行业也有完整的解决方案。半导体的前端验证和后端仿真都是典型的超算需求,对于算力、并行存储都有极强的性能要求。同时,半导体研发过程不同对于算力资源的需求也不同,例如前端验证业务,需要海量高主频的 cpu,而后端仿真过程往往则需要大内存。因此,半导体行业具备使用云计算来提升作业效率,降低作业成本的业务诉求。

阿里云 E-HPC 可以提供满足半导体行业的超算环境,包括作业调度器、域控、集群管理节点,以及适配前端需求的高主频 ECS 实例和后端需求的大内存实例,后端采用阿里云 CPFS 高性能并行存储,提供超高 IO 能力。同时阿里云无影云桌面可作为图形节点,实现作业后的图形展示,减少了云上云下数据传输耗时。基于阿里云 E-HPC 的混合云能力,可以构建一套和线下统一体验的混合云超算环境,作业节点和图形节点可以直接挂载客户线下存储,从而最大程度减少客户的数据安全顾虑。

通过综合测算,使用阿里云弹性高性能计算,客户 ROI 提升了 30%。
在这里插入图片描述

在影视渲染领域,阿里云影视渲染解决方案已经覆盖了国内大部分影视后期视效企业和渲染农场,帮助打造了《杨戬》、《刺杀小说家》、《你好李焕英》等等多部大片。

除了提供高性价比的资源和渲染集群的弹性伸缩能力之外,阿里云还针对渲染行业中云下素材和云上渲染集群之间的数据传输问题、以及数据 IO 的特征,专门设计了混合云文件缓存组件,通过缓存关键热数据,大幅提升 IO 性能、降低专线压力。

在这个 MOREVFX 的典型案例中,阿里云 HPC 解决方案通过与客户深度协同,分析并定位了应用上云的关键瓶颈,针对影视渲染流程中大量素材数据的传输问题,设计并发布了混合云缓存组件并嵌入到渲染任务计算流程中,无需用户人工参与,大大减少了渲染过程中对于线下数据访问量,保障了影视后期制作任务高效完成。

此外,针对渲染任务负载的周期性状况,通过与渲染专业调度器结合,按调度器实际任务需求弹性的创建和释放计算资源。

大家可以看到,阿里云弹性高性能计算在众多的行业有落地实践,由于时间关系,没法一一展开,希望后面有机会跟各位当面交流。我的分享到此结束,感谢大家的聆听。

阿里云张献涛:高性能计算发展的三大趋势

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/110407.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

zabbix6.0安装教程(五):二进制包安装

zabbix6.0安装教程(五):二进制包安装 目录一、使用ZABBIX官方存储库二、Red Hat zabbix企业版 Linux/CentOS1. 概述2. 安装注意事项2.1 使用 Timescale DB 导入数据2.2 PHP 7.22.3 配置 SELinux3. Proxy 安装3.1 创建数据库3.2 导入数据3.3 为…

计算机网络原理第5章 运输层(12.24完结)

目录~ 5.1 运输层协议概述 5.1.1 进程之间的通信 从通信和信息处理的角度看,运输层向它上面的应用层提供通信服务,它属于面向通信部分的最高层,同时也是用户功能中的最低层。 当网络的边缘部分中的两个主机使用网络的核心部分的功能进行…

再学C语言12:字符串(3)——转换说明

一、转换说明的意义 意义:把存储在计算机中的二进制格式的数值转换成一系列字符(一个字符串)以便于显示;实质上是翻译说明,并不会替代原值 应该使转换说明与要打印的值的类型相匹配 参数传递机制 float n1; double …

陈都灵现身海南国际电影节,新片《关索岭》票房有望超《阿凡达》

刚送走了厦门金鸡奖,又迎来了海南电影节,第四届国际电影节,已经在美丽的海南岛拉开帷幕。 众多的中国优秀电影人,都欢聚一堂共话未来,为中国电影的发展献言献策,也展现出电影人的精神风貌。 在本届电影节走…

WMS系统这么重要?一文教你找到理想中的WMS系统

无论是在线上还是线下,相信大家都见过各式各样的仓库,或杂乱或整洁,有的还在使用传统的纸单作业模式,有的已经进入全自动化无人作业模式。然而,随着仓储物流行业竞争愈发激烈,以及数智化转型浪潮席卷而来&a…

python中logging模块的一些简单用法

用Python写代码的时候,在想看的地方写个print xx 就能在控制台上显示打印信息,这样子就能知道它是什么了,但是当我需要看大量的地方或者在一个文件中查看的时候,这时候print就不大方便了,所以Python引入了logging模块来…

小学生C++编程基础 课程8(B)

919.3数排序 ( 课程8) 登录 920.求最小值 (课程8) 登录 921.排名 (课程8) 登录 922.中间数 ( 课程8) 难度:1 登录 923.判断闰年 (课程8) 难度:1 登录 924.天数 (课程8) 难度:1 登录 《小学生C趣味编程…

Splunk Enterprise 存在任意代码执行漏洞

漏洞描述 Splunk 是一款机器数据的引擎,可用于收集、索引和利用所有应用程序、服务器和设备生成的快速移动型计算机数据 。 Splunk 受影响版本存在任意代码执行漏洞,经过身份验证的攻击者可利用此漏洞通过创建包含恶意代码的 SimpleXML 仪表板&#xf…

说话人识别中的损失函数

损失函数 损失函数L(yi,y^i)L(y_i,\hat{y}_i)L(yi​,y^​i​)用来描述神经网络的输出y^i\hat{y}_iy^​i​和基本事实(Ground Truth,GT)yiy_iyi​的差异对于回归问题,常用均方误差(Mean Square Error,MSE&a…

IB成绩该如何换算GPA?

今天就简单介绍下IB课程分数与GPA以及英国的UCAS Tariff points的分数换算! 网传的换算方法是这样的: 以IB单科满分是7分为前提,那么把IB成绩换算成四分制的GPA的方式是:将IB课程分数除以7再乘以4。 举个例子,你某门科…

【有营养的算法笔记】从推导证明的角度深剖前缀和与差分算法

👑作者主页:进击的安度因 🏠学习社区:进击的安度因(个人社区) 📖专栏链接:有营养的算法笔记 文章目录一、一维前缀和1、算法推导2、代码实现二、二维前缀和1、算法推导2、代码实现三…

数据库范式

1 数据库范式 完全函数依赖 (Sno,Cno) —> Grade 是完全函数依赖,学号不能得出成绩,学科号也不能推出成绩。 部分函数依赖 (Sno,Cno) --> Sdept 是部分函数依赖,学号能推出院系。 传递依赖 Sno --> Sdep…

肝了十天半月,献上纯手绘“Spring/Cloud/Boot/MVC”全家桶脑图

01 纯手绘Spring思维脑图 纯手绘Spring思维脑图 1.1 基本概念 纯手绘Spring思维脑图-基本概念 事先申明:Spring/Cloud/Boot/MVC的手绘思维脑图以及详细部分解读,这边都是以截图的形式展示出来,如果需要完整的全部原件xmin思维脑图https://gi…

Shell ❀ 三剑客 - Grep + Sed + Awk

文章目录八、三剑客 - Grep Sed Awk1、Grep - 过滤1.1 常用grep参数1.2 使用方法2、Sed - 行匹配2.1 执行原理2.2 常见语法2.3 使用方法2.3.1 地址边界的设定2.3.2 基础编辑命令2.3.3 扩展操作2.3.4 命令执行案例3、Awk - 列匹配3.1 awk能做什么3.2 执行原理3.3 命令的使用3.…

生物素化聚N-异丙基丙烯酰胺,Biotin-PNIPAM

产品名称:生物素化聚N-异丙基丙烯酰胺 英文名称:Biotin-PNIPAM 聚(N-异丙基丙烯酰胺)是一种有机物,化学式为(C6H11NO)n,由单体N-异丙基丙烯酰胺(NIPAM)聚合而成 ,主要用于药物控释、生化分离以及化学传感器等。 物…

C语言--操作符

文章目录一、数据的存储二、算术操作符三、移位操作符左移位操作符<<右移操作符四、位操作符五、赋值操作符六、单目操作符sizeof前后置七、关系操作符一、数据的存储 如果想要准确的掌握每个操作符的作用&#xff0c;那么首先需要理解数据在计算机中的存储和运算规则。…

解决智能化的最后「一公里」:深度解读小匠物联产测系统

作者 | 牧之 编辑 | 小沐 出品 | 智哪儿 zhinaer.cn测试是智能家电等产品走向交付的最后一个环节。与普通产品相比&#xff0c;智能化产品由于功能多元&#xff0c;涉及模组通信和编程&#xff0c;其可能存在问题的点位也多了起来。而作为专业的AIoT智能化解决方案服务商&#…

三、Flex布局简介

目录 一、Flex布局简介 什么是flex布局&#xff1f; flex属性 二、视图层 View WXML 三、会议OA项目-首页 一、Flex布局简介 布局的传统解决方案&#xff0c;基于盒状模型&#xff0c;依赖 display属性 position属性 float属性 什么是flex布局&#xff1f; 1) Flex是…

电脑Tab键有什么功能?分享Tab键的6个妙用

Tab键tabulator key 的缩写&#xff0c;意思是跳格键。基本用法是可以用来绘制无边框的表格&#xff0c;还可以在单词间留下间隔&#xff0c;一般等于八个空格的长度。但是您知道电脑Tab键有什么功能吗&#xff1f;以下一些关于Tab键的使用和功能的介绍&#xff0c;希望这些可以…

Kibana:圣诞老人使用 Kibana Dashboards 驾驶他的雪橇!

又到了每年一度的圣诞节了。圣诞老人今年开始向各个国家发放礼物了。他驾驶着自己的雪橇挨个国家发放礼物了。我们收集了去世界过个国家的首都的地理位置信息&#xff0c;并按照一定的顺序来发放礼物。我们可以轻松地使用 Elastic Stack 中的 Kibana 来创建一个 Maps 可视化来展…