阿里云 hpc8ae 实例商业化发布详解

news2024/10/25 14:24:55

云布道师

引言:本文整理自阿里云高性能计算产品负责人黄泽辉在【HPC 优化实例商业化发布会】中的分享。

近日,全球领先的云计算厂商阿里云宣布最新 HPC 优化实例 hpc8ae 的正式商业化,该实例依托阿里云自研的「飞天+CIPU」架构体系,搭载第四代 AMD EPYC 处理器,专为高性能计算应用优化,特别适用于计算流体、有限元分析、多物理场模拟等仿真类应用,CAE 场景下的性价比最少提升 50%。

本文根据黄泽辉的主题分享整理而成。

高性能计算无所不在

过去多年,高性能计算在很多专业领域解决着各种各样的大型复杂计算问题,如分析地震数据、模拟汽车碰撞、设计药物靶点等等,以上的场景都需要巨大的计算能力才能够在可预期的时间内解决问题。
在这里插入图片描述
通过使用高性能计算能够有效加速科学研究发现的进展,帮助对日常使用的产品设计和研发上实现创新,高性能计算也成为了在当今社会无所不在且推动技术进步和经济发展的关键工具。

云上高性能计算正在加速普及

采用传统的自建线下 HPC 集群,采购及建设周期冗长,集群容量有限,在业务高峰时往往面临着资源不足和需要排队,浪费研发时间,集群硬件相对老旧,难更新,计算效率较低,性能上无法完全满足业务上的需求。这些都制约了高性能计算在全行业中发挥更大的作用。
在这里插入图片描述
基于云的高性能计算(Cloud HPC),与传统 HPC 相比更加灵活、高效。用户可以利用云计算多样化、最新、最符合业务需求的计算硬件,保证计算效率最高。并可以根据业务负载动态增加/减少计算资源。用户只用为已使用的资源付费,具有更好的成本效益;同时,不需要专业 IT 人员创建、部署集群,也不需要管理维护底层基础设施,用户使用起来更加简单和可靠。

Cloud HPC 是一种更加普惠、更加民主化的 HPC 使用方式。任何一个初创企业,都可以通过云使用高性能计算,进行产品研发和设计,而不是只有大型企业/政府机构才具备这个能力。根据 Hyperion Research 的研究报告,2022 年 Cloud HPC 的市场份额已经能够占到整个市场份额的 17%,接下来的 5 年,都会以 18%/年复合增长率继续快速增长。所以说, Cloud HPC 正在加速普及,并成为线下超算的重要补充。

针对 HPC 工作负载专门优化云的基础设施

如何在云上开展高性能计算,是一件十分有挑战的事情。HPC 作为计算机科学皇冠上的明珠,对于计算性能、存储性能、网络性能都有极高的要求。以工业仿真最常用的Fluent 软件为例,它属于计算密集型的应用,需要很高的 CPU 主频。同时它的性能也受内存带宽大小约束,只有内存带宽足够大,才能快速处理数据。
在这里插入图片描述
使用 Fluent 进行整车仿真时,需要多个节点并行计算。这些计算节点之间,必须要有低延时、高带宽的网络通信能力;计算集群使用的存储也必须需要有更强的 I/O 读写能力才能不阻塞计算的进行。云厂商目前更多考虑的还是互联网类的应用,性能更加通用和均衡,难以满足高性能计算的要求,特别是一些计算流体、气象预报等高精尖场景。

在摩尔定律逐渐放缓甚至失效的今天,已经很难只凭芯片的先进制程,来应对各行各业的算力爆发性增长。云计算厂商必须能够围绕特定的应用场景,比如典型的 HPC、AI 领域,来针对性优化云的基础设施。只有这样才能既最大限度的提升应用性能,又降低大规模使用的成本。

阿里云弹性计算技术持续创新

阿里云作为国内最早的云计算服务厂商,在过去十几年间。一直在持续不断的进行技术创新。从最早的 Xen 架构,KVM 架构,演变到自主研发的神龙架构,以及最新专为数据中心研发的 CIPU 架构。对于这些产品技术,阿里云一直都是最成熟和领先的云服务商。借助这些技术创新,也成功的将高性能计算融入到云计算领域,满足所有主流 HPC 主流应用的性能需求。
在这里插入图片描述
从 2017 年的神龙架构开始,包括上汽、吉利在内的汽车行业客户,就开始在阿里云上进行云上的工业仿真。2021 年发布的 CIPU 架构,能够让我们的客户,进一步用更低成本、更高效率、更大规模的方式来运行 HPC 业务,大大增强阿里云 Cloud HPC 的产品竞争力。

高性能计算优化实例 hpc8ae 规格族

基于 CIPU 架构,专为 HPC 设计和优化的高性能计算实例 hpc8ae,采用第四代的AMD EPYC 处理器,能够提供 64 个物理核心,256GiB 内存,基础频率 3.4GHz,最高可以到 3.75,还有 500GB/s 的内存带宽优化。整体超强配置使得 hpc8ae 特别适用于包含计算流体、有线元分析在内的典型工业仿真应用。
在这里插入图片描述
与其他通用计算类实例不同的是,hpc8ae 有两大专为 HPC 应用设计的重要功能特性:

第一,hpc8ae 直接提供物理核心,性能更加稳定,而且不支持启用超线程,避免了超线程切换影响到 HPC 应用性能。虽然 hpc8ae 是虚拟机,但借助CIPU架构,虚拟机的性能基本零损耗,和物理机等同。和其他 ECS 企业级实例一样,hpc8ae 的可靠性为 99.975%,能够实现自动的故障切换和自愈恢复,非常稳定可靠。

第二,hpc8ae 提供了高带宽、低延时,低抖动的 eRDMA 网络,最低时延达到 8us。能够兼容传统的 RDMA ,应用的软件不需要改动可以直接使用。从应用的 E2E 的性能角度来说,eRDMA 能在云上完全替代传统的 RDMA 网络,支持用户在阿里云的任意可用区,就可以构建云上大规模仿真集群,加速并行计算的任务。

依赖 CIPU 的强大性能和普惠特性,hpc8ae 实例对 CAE 类应用至少实现50% 以上性价比提升,是用户 HPC 工作负载的最佳选择。

全新 CIPU 架构提供高性能计算、网络和存储

作为阿里云弹性计算最重要的技术创新 CIPU,即云基础设施的处理单元,它是一种 DPU 的实现,专门设计用来提高云计算的效率和安全。CIPU 可以将包含虚拟化在内的网络、安全、存储等等,非计算密集型的任务卸载到一个专用的软硬件上,不占用主 CPU 处理能力,让其只应用于核心应用逻辑处理,大大提升整体云计算在网络、存储、性能以及安全方面的表现。
在这里插入图片描述
例如实例的存储 IOPS 可以达到 300 万,本盘接近零的延迟损耗,网络的PPS 也可以到 4000 万水平。CIPU 在阿里云已经得到了大规模应用,所有的 CPU、GPU 存储网络都是通过 CIPU 统一管理和调度。通过 CIPU,阿里云在通用计算性能方面优于同类产品 20%-60%,大数据 AI 也比同类产品高 30% 以上。同样的, 在 HPC 领域,基于 CIPU 架构的 hpc8ae 实例也实现了大幅度的性能提升和成本优化。

免费 eRDMA 网络提供低延时、低抖动的节点通信

Cloud HPC 另外一个关键点就是网络。传统的 TCP/IP 一直是业界主流的网络通信实例。很多应用都是基于 TPC/IP 构建,但是 HPC 的应用对于网络的性能,比如延迟、吞吐要求很高,TCP/IP 的网络通信能力是一个瓶颈。传统的线下 HPC 集群会使用 RDMA 网络解决以上痛点,相比TCP/IP,eRDMA 可以实现零拷贝,bypass 内核等特性,可以减少频繁上下文切换带来的开销,实现低延迟,高吞吐的网络通信。
在这里插入图片描述
但是 RDMA 网络建设成本很高,受限于物理网络,它的扩展性和弹性能力也不足,因此无法在云上大规模使用。eRDMA 是阿里云自研的云上弹性RDMA 网络,底层链路复用 VPC 网络,利用 CIPU 卸载网络通信开销,bypass 操作系统,并结合自研的拥塞算法可以提供最低 8us 的低时延,有着更低长尾抖动。通过对 libfabric 的支持,传统应用也不需要改动就能够直接使用。

和传统 RDMA 网络不同,阿里云的 eRDMA 网络基于数据中心的 VPC 网络,所以用户在阿里云的任何一个可用区,比如北京、上海,秒级实现大规模 eRDMA 组网。同时,为了保证所有计算节点的低延时网络通信性能,用户可以使用 ECS 部署集能力,来保证创建的 hpc8ae 实例紧凑放置。也就是说,同一个部署集的 ECS 实例,在创建时会保证物理距离接近,从而来保证 eRDMA 低延时通信效果。

CAE 应用性能提升 30%,性价比提升 50%

了解 hpc8ae 的实例规格参数以及背后的技术创新之后,我们来看一下hpc8ae的具体性能表现如何:
在这里插入图片描述
使用常见的HPC软件进行单节点benchmark 性能测试中,相比八代通用计算实例,专门优化的hpc8ae实例,WRF性能提升了40%,STAR-CCM提升了47%,Fluent提升了35%,普遍至少提升了30%以上。使用STAR-CCM+测试超过512核的多节点作业,应用性能基本上都可以实现线性提升,具有非常好的扩展效率。

使用 E-HPC一键创建 hpc8ae 仿真集群

不仅是计算实例 hpc8ae 的超高性价比优势,阿里云还为 hpc 客户提供了功能完善的弹性高性能计算产品 E-HPC。通过 E-HPC,用户可以自动化创建 HPC 集群,提供 SLURM、PBS 等常见调度器调度作业。
在这里插入图片描述
同时,E-HPC 还提供完整的云上运维、监控、告警、报表等服务,与阿里云其他云产品无缝对接,能够实现完整业务流程上云。对用户来说,E-HPC 可以安装部署软件,使用部署集创建 hpc8ae 实例集群,集成包含并行文件存储 CPFS、无影可视化节点等其他云产品,从而端到端的提供包含前处理、后处理、仿真在内的完整 CAE 云上方案,简单易用。

高性能计算优化实例 hpc8ae 规格族正式商业化

阿里云的高性能计算优化实例hpc8ae规格族正式商业化发布,支持北京、上海、杭州地域的开放购买。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1842491.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

java后端方法地址组成解析

本篇文章旨在记录后端方法被调用时,是如何组成的,以及组成的部分。 提示:以下是本篇文章正文内容,下面案例可供参考 一、后端方法地址是什么? 示例:http://127.0.0.1:8080/user/info 如果携带了路径参数…

RTX5全家桶源码综合模板发布,含FreeRTOS内核版本,将其打造成直接面向实际项目应用的综合框架(2024-06-19)

【说明】 1、RTX5全家桶的优势就是简单易用,初学的话,上手很快,稳定性也是杠杠的,且容易做稳定。 2、同时RTX5也是有汽车级,工业级,医疗和铁路安全认证,只是安全级别比ThreadX要稍微低些。 3…

数据量大、类型多!数据资产管理如何确保安全合规“不掉队”?

随着数字化进程加速与企业业务不断扩展,数据量呈爆炸式增长,数据类型也变得日益多样。大规模的数据积累在为企业带来丰富的信息资源,推动业务创新发展的同时,也为企业数据资产管理带来多方影响。 在政策引导和市场推动下&#xff…

Covalent实现对1000亿笔链上交易解析,支持AI长期数据可用性

在区块链与人工智能(AI)交汇处,讨论往往集中于去中心化推理和去中心化训练等方面。然而,这一数据的关键组成部分却一直未得到足够的重视。一个主要问题是:我们如何保护 AI 模型中的数据不受偏见和操纵的影响&#xff1…

网管工作实践_02_IP/MAC地址管理工具

1、ipconfig命令格式及参数 ipconfig是内置于Windows的TCP/IP应用程序,用于显示本地计算机网络适配器的MAC地址和IP地址等配置信息,这些信息一般用来榆验手动配置的TCP/IP设置是否正确。当在网络中使用 DHCP服务时,IPConfig可以检测计算机中分…

【阿里云服务器】【弹性云服务ECS】通过ssh登录远程服务器

一、操作系统 使用Windows11主机上的Ubuntu子系统,如下图所示: 二、云服务器登录方法 需知道:服务器ip地址、登录名和自己设置的登录密码: 上述系统用户名为root,需要在Ubuntu子系统中同样切换至root用户&#xff…

php 做一个文件下载服务器,得避免跨路径工具,安全很重要

任务 当使用PHP编写一个文件下载服务器时,安全性是非常重要的。以下是一些基本的步骤和最佳实践,以确保您的文件下载服务器是安全的,并且与CDN加速友好: 文章目录 任务基本要求:Nginx如何配置使用X-Sendfile或X-Acce…

推动 AI/ML 创新:使用 MinIO 的高性能对象存储构建特征存储

MinIO 为全球 S3 和对象存储设定了标准,并已成为实现 AI 代理和功能存储集成的关键参与者。随着组织努力利用 AI 的力量来推动创新并获得竞争优势,高效数据管理的重要性以及将 AI 代理无缝集成到现有工作流程中的能力变得至关重要。在本文中,…

RabbitMQ的简单使用 —— Python篇

(一)RabbitMQ的简介 RabbitMq 是实现了高级消息队列协议(AMQP)的开源消息代理中间件。消息队列是一种应用程序对应用程序的通行方式,应用程序通过写消息,将消息传递于队列,由另一应用程序读取 完…

C++初学者指南第一步---9.函数

C初学者指南第一步—9.函数 文章目录 C初学者指南第一步---9.函数1.输入和输出1.1第一个例子1.2返回类型1.3函数参数常量参数默认值参数 1.4函数重载 2.函数执行2.1递归2.2 声明和定义 3.函数设计3.1约定3.2 特性[[nodiscard]] (C17)3.3 不抛出异常保证&…

C语言入门2-数据类型、运算符和表达式

变量命名 命名规范 只能由字母(含"_")和数字组成;首字母不能是数字;不能与关键字重名,例如float、double和if等。 注意事项 不使用"_"开头,因为很多库函数这样命名,容易…

【Java】已解决java.sql.SQLRecoverableException异常

文章目录 一、分析问题背景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项 已解决java.sql.SQLRecoverableException异常 在Java的数据库编程中,java.sql.SQLRecoverableException是一个重要的异常,它通常表示一个可以恢复的SQL异常。…

思维导图之计算机网络整体框架

高清自行访问:计算机网络整体框架 (yuque.com)

汽车信息安全硬件讨论:SE vs HSM

目录 1.什么是Secure Element 2.芯片内置HSM和SE 3.未来HSM的发展 现在的智能网联汽车看起来像是一个连接万物的智能移动终端,它不仅可以与OEM云服务器通信接收OTA推送,还可以与手机蓝牙、Wifi交互完成远程汽车解锁、座舱内环境设置等等,借…

微信小程序 this.setData高级用法(只更改单个数据)

合理使用 setData | 微信开放文档 1、页面 <view class"h-100px"></view> <view>最简单的数据&#xff1a;</view> <button bind:tap"handleAdd" data-type"1">点我加 1&#xff1a; {{text}}</button> &…

计算几何【Pick定理】

Pick 定理 Pick 定理&#xff1a;给定顶点均为整点的简单多边形&#xff0c;皮克定理说明了其面积 A {\displaystyle A} A 和内部格点数目 i {\displaystyle i} i、边上格点数目 b {\displaystyle b} b 的关系&#xff1a; A i b 2 − 1 {\displaystyle Ai{\frac {b}{2}}…

【Python驯化-01】python中set去重数据每次结果不一致问题解决

【Python驯化-01】python中set去重数据每次结果不一致问题解决 本次修炼方法请往下查看 &#x1f308; 欢迎莅临我的个人主页 &#x1f448;这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合&#xff0c;智慧小天地&#xff01; &#x1f387; 免费获取相关内容文档关注…

计算机网络 —— 应用层(万维网)

计算机网络 —— 应用层&#xff08;万维网&#xff09; 万维网核心组成部分特点 URLHTTP版本请求消息结构响应消息结构工作流程 Cookie如何工作主要用途安全与隐私类型 Web缓存客户端缓存&#xff08;浏览器缓存&#xff09;服务器端缓存 今天我们来了解万维网&#xff1a; 万…

react18 实现具名插槽

效果预览 技术要点 当父组件给子组件传递的 JSX 超过一个标签时&#xff0c;子组件接收到的 children 是一个数组&#xff0c;通过解析数组中各 JSX 的属性 slot &#xff0c;即可实现具名插槽的分发&#xff01; 代码实现 Father.jsx import Child from "./Child";…

Java中OOP的概念及示例

Java中OOP的概念及示例 在本指南中&#xff0c;您将学习Java中的OOP概念。面向对象编程系统&#xff08;OOP&#xff09;是一种基于“对象”的编程概念。面向对象编程的主要目的是提高程序的可读性、灵活性和可维护性。 面向对象编程将数据及其行为集中在一个称为对象的实体中…