揭秘倚天实例背后的硬核实力

news2024/10/6 6:47:32

2022云栖大会,阿里巴巴宣布自研CPU倚天710已大规模应用,阿里云未来两年20%的新增算力将使用自研CPU。11月15日,倚天710云实例上线并正式进入大规模应用阶段,现已应用于阿里巴巴集团核心业务,并服务科学研究、智能手机行业和多家知名互联网公司。

云栖大会“倚天开启云原生算力新时代”专场上,阿里云弹性计算团队带来技术演讲,为大家揭秘ECS倚天云实例背后的硬核技术。

算力需求暴涨、摩尔定律失效

当前,企业云上业务需求正在大幅增长,算力需求呈“爆炸式”递增。

直播/短视频行业每天有上亿用户产出UGC(User-Generated Content)视频内容发布在不同平台,产生百万核级视频编码算力需求和高业务成本。基因/制药行业涉及到的分子动力学模拟、基因序列对比、蛋白结构分析,原来以实验为主,今天以计算机模拟为主,从原子-分子单位的行为进行计算,需要消耗大量的算力。电商行业从流量为主转变为精益化运营过程中所需的AI推理、大数据画像,智能精准推荐对算力的需求也越来越旺盛。以AI为代表的算力规模每三个半月就会翻一倍。

然而,在算力需求暴涨的同时,摩尔定律演进速度却在减慢,硬件技术进步的红利见底。如今,每迭代一代CPU,服务器和数据中心的功耗和成本攀升,每千瓦芯片功耗在生命周期内带来上万美金的成本,硬件和芯片的成本在逐代上涨。

在面向多租户的云场景下,面对一些高密计算任务,共享内存与物理核的机制导致租户之间处理任务可能需要相互排队,导致性能大幅下降,或者互相干扰的情况导致性能波动。

如何能在实现高性能(减少干扰)的同时实现低功耗、低成本?我们认为,以此前的技术方案,无法解决业务需求和痛点,需要设计一款云原生芯片,结合现有的阿里云软硬件架构,才能更好地解决客户应用的需求。

倚天710利剑出鞘:高性能、低功耗

云原生处理器倚天710、云计算基础设施处理器CIPU、云原生应用优化方案ECS Booster等不同弹性计算产品架构层面,皆是让我们实现高性价比高能效比的成功要素。那么,倚天710处理器在设计方面带来了哪些优势?

从芯片层面看,主要影响应用性能的四大要素包括ALU(逻辑计算单元)、Cache、主频、加速指令。

首先,倚天710 单颗CPU即实现了128核的高密度设计,高规格实例可以实现线性的性能增长;同时处理器无超线程概念,避免了性能争抢的问题:独享物理核,性能更强劲;独享Cache,应用缓存更高效。

传统CPU架构是两个vCPU/HT共享一个物理核,1份ALU。ECS倚天实例采用的是独享物理核心方式,这可以让算力密集的计算指令不必排队、不必争抢,计算速度更快。

在Cache维度,过去两个vCPU/HT共享一二级缓存,相互争抢,性能波动较为严重。采用倚天CPU独享Cache的设计,让vCPU之间相互不影响,为重负载计算带来更高性能。

影响算力性能的关键因素,除了核的资源,还有主频。

大家知道为什么多数Web、App、DB的生产业务CPU使用率的安全水位线是50%,日常水位低于30%吗?

以下图中的视频编码为例,并发超过4路后,性能下降40%;再加上前面说到的核争抢问题,如果客户的实际业务超过50-60%水位,关键生产应用将响应放慢,客户感知卡顿甚至超时问题。因此需要将CPU使用率安全水位压低,牺牲成本保证安全,浪费了另外50%资源。

背后的原因是功耗大,高算力负载很容易造成功耗过大,温度上升,因此采用降频规避,进而影响了性能。而倚天710的功耗仅为主流CPU的1/6,没有任何降频问题。倚天的安全水位可以提高到70-80%,减少资源浪费。

在云上多租户共用平台,即使用户运行低负载应用,也存在相互影响的风险,倚天彻底解决了此问题。下图展示的案例就可以看到,在视频编解码四路以上时,代表倚天的橙色部分基本保持恒定,其他主流CPU则会降低幅度40%。

值得一提的是,倚天710还针对特定算法场景进行了加速与优化。比如像NEON、SVE等矢量计算技术,可以让单条指令处理更长的数据,可以大幅提升机器学习、视频编码和高性能计算等场景性能;另外,倚天实例还支持BF16和INT8,在机器学习场景下,大幅提升计算效率,为客户提供更多选择。

倚天加持全场景性能大幅提升

11月15日,倚天实例(ECS G8y)已正式上线,产品规格覆盖1-128核,全面搭载eRDMA加速能力,可以大大提升软件性能。

倚天实例有着性能卓越、生态丰富,绿色降本三个方向的业务价值,其中关于性能收益及增长方面有着很好的数据表现。

我们从Web、App、Media、DB、大数据、科学计算、AI推理等几个最广泛场景来看产品性能表现。

■ Web场景:综合性能提升30%

Web场景是互联网中应用场景最多、消耗服务器资源最多的场景。为了解决移动场景流量和体验问题,服务端常常采用网页压缩方案节约带宽。但压缩算法非常消耗CPU算力和时间,导致队列中多客户请求时延变长。

倚天拥有独立CPU物理核,结合SVE指令加速,单vCPU数据压缩性能翻倍,前面提到的体验影响减半。Web场景包括Nginx、Apache、NodeJS、PHP等排名靠前的应用,倚天实例对比阿里云G7系列实例,综合性能提升30%左右。

阿里云防火墙CFW已经实现倚天ECS迁移。CFW为客户业务提供安全防护,需进行大量正则表达规则进行扫描,消耗大量算力,影响业务性能。采用独享物理核的ECS倚天实例,实现安全和体验收益兼得。在不同正则匹配性能优势分别为23%、40%、28%。

■ App编程语言性能:多数性能提升40%

不管是编译型语言C、Go等还是无需编译的语言Java、Python等,都很好的平滑兼容ARM架构,我们可以看到,使用开源的Benchmark进行测试,应用运行在ECS倚天实例上获得的性能提升多数有40%。

■ 编解码场景:20-40%性能提升

短视频和直播是如今最火热的应用,UGC时代内容指数级增长,编解码算力消耗也随之增长。如今最流行的H.264算法速度快,节约算力,但是编码后的文件更大,消耗更多存储和带宽。H.265可以很好解决此问题,使用比重快速增长,但多消耗1倍算力成本。

无论是在哪种场景下,倚天的视频编解码性能均比传统CPU实例更高,成本更低。

如图,上述两类视频编码规范的编码器X.264、X.265运行在ECS倚天实例上,都收获了20-40%性能提升;这个过程中我们进行了大量矢量指令优化,使性能大幅提高,优化软件可以向客户输出。

■ 数据库场景:10-30%性能提升

数据库场景下,运行在ECS倚天实例上,相较与G7实例,开源软件Redis、Memcached有30%性能优势,MySQL和PGSQL有10-20%性能优势。

阿里集团电商业务所使用的Tair数据库也已经迁移到倚天平台,协议上兼容Redis,性能是开源Redis数据库的3倍。Tair支撑了多年天猫双11大促,有强大的缓存能力,需要把数据缓存到内存,消耗Memory资源。我们采用倚天强大的算力优势进行数据压缩,让内存成本降低60%,叠加倚天实例自带的eRDMA加速能力,可以提升吞吐量80%,时延降低15%以上。目前基于ECS倚天实例的Tair产品已经上线,大家可以在云上使用。

■ 大数据场景:20-60%性能提升

在需要消耗大量IO、大量计算以及高内存带宽的大数据场景中,ECS倚天实例由于拥有独立物理核、Cache更大、网络时延更低等特点,运行Spark应用性能收益20%以上,搜索Elastic Search和流计算Flink场景性能收益达到40%和60%。上述大数据开源软件,直接编译即可在倚天实例上运行,欢迎大家试用。

■ AI推理:性能提升1倍

AI场景算力消耗增长飞快,成本占比急剧上升。推理场景下典型的搜推广客户都无法接受下调精度(影响模型准确度)降本。阿里云弹性计算团队和达摩院合作,推出了HIE-Engine动态量化方案,利用倚天实例的INT8加速能力,可将RestNet和Bert场景性能提升1倍,且精度没有损失。

降低碳排放、降低成本

对于企业客户来说,除了业务性能表现,IT碳排放和成本也很重要的一环。今天的这款倚天处理器,可以在CPU负载30%的情况下,每vCPU功耗比降低6倍,整机功耗降低60%以上,碳排放也等比降低。全国IDC年耗电量约2000多亿度,采用倚天实例进行替换,可以省下50%电量。

除了绿色低碳,企业还能降低IT成本,大家可以看图中的定价,倚天实例对比最新一代主售实例定价是30%、23%、22%的降本幅度,将技术收益让利给客户。使用这款产品会获得更好的性价比。在前面提到的几大主要应用场景,平均性价比(性能÷价格)收益可达50-80%。

目前,ECS倚天实例已应用于阿里巴巴集团核心业务,阿里云产品中,RDS、容器、PAI、视频云等多款PaaS产品接入倚天ECS,同时已对外服务短视频、Web、游戏、广告等客户。2021 年双 11 期间,天猫双 11 核心交易系统平滑迁移至倚天 710 云实例,算力性价比提升30%;汇量科技广告推理业务使用倚天 710 云实例,性能和网络带宽双双提升,性价比提升 40% 以上。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/73872.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[附源码]JAVA毕业设计天津城建大学校友录管理系统(系统+LW)

[附源码]JAVA毕业设计天津城建大学校友录管理系统(系统LW) 项目运行 环境项配置: Jdk1.8 Tomcat8.5 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。…

Nvidia力作:医学图像分割网络

来源:投稿 作者:梦飞翔 编辑:学姐 引自Unetr: Transformers for 3d medical image segmentation 1.序言 本文将以Nvidia团队最近提出的一种新的医学图像分割网络作为切入点,结合所用开源数据集,为各位同学提供一份从…

杨校老师课堂之Spring框架面试题【开发工程师面试前必看】

1.spring 中都用到了哪些设计模式?2.spring 中有哪些核心模块?3.说一下你理解的 IOC 是什么?4.spring 中的 IOC 容器有哪些?有什么区别?5.那 BeanFactory 和 FactoryBean 又有什么区别?6.Repository、Service、Compent、Controller它们有什么区别?7.那么 DI 又是什么?8…

C#学习笔记一 委托、事件

C# 委托、事件 1、Action委托、Func委托 namespace DelegateExample {class Program{static void main(string[] args){Calculator calculatornew Calculator();//Action委托Action Calnew Action(calculator.Report);//直接调用函数Calculator.Report();//通过委托调用函数Ca…

艾美捷RPMI-1640培养基含L-谷氨酰胺的功能和研究

Roswell Park Memorial Institute (RPMI) 1640 培养基起初是为了悬浮培养人白血病单层细胞而开发的。RPMI 1640 培养基被发现适用于多种哺乳动物细胞,包括 HeLa 细胞、Jurkat 细胞、MCF-7 细胞、PC12 细胞、PBMC 细胞、星形胶质细胞和癌细胞。针对广泛的细胞培养应用…

阿里影业的稳健业绩来源:科技+内容塑造韧性,应对市场变化

随着《阿凡达:水之道》(简称:《阿凡达2》)预售佳绩的显现,电影业的复苏已然箭在弦上。 12月7日,《阿凡达2》正式开启预售,灯塔专业版数据显示,其预售开启4小时后,总票房…

【工作随笔】验证经验、维度

背景:目前负责模块的验证工作基本进展完毕,包括所有功能验证、场景覆盖、用例编写调试和仿真、功能覆盖率收集、sva检测时序等,在当前的进度上和开发、验证同时对我的工作进行了评审。 问题:在评审中间讨论到一个当前tc实现的问题…

五、卷积神经网络CNN7(图像卷积与反卷积)

图像卷积 首先给出一个输入输出结果那他是怎样计算的呢? 卷积的时候需要对卷积核进行 180 的旋转,同时卷积核中心与需计算的图像像素对齐,输出结构为中心对齐像素的一个新的像素值,计算例子如下:这样计算出左上角(即第…

基于Dijkstra和A算法的机器人路径规划附Matlab代码

✅作者简介:热爱科研的Matlab仿真开发者,修心和技术同步精进,matlab项目合作可私信。 🍎个人主页:Matlab科研工作室 🍊个人信条:格物致知。 更多Matlab仿真内容点击👇 智能优化算法 …

JAVA SCRIPT设计模式--行为型--设计模式之Observer观察者模式(19)

JAVA SCRIPT设计模式是本人根据GOF的设计模式写的博客记录。使用JAVA SCRIPT语言来实现主体功能,所以不可能像C,JAVA等面向对象语言一样严谨,大部分程序都附上了JAVA SCRIPT代码,代码只是实现了设计模式的主体功能,不代…

Python图像识别实战(一):实现按比例随机抽取图像移动到另一文件夹

前面我介绍了可视化的一些方法以及机器学习在预测方面的应用,分为分类问题(预测值是离散型)和回归问题(预测值是连续型)(具体见之前的文章)。 从本期开始,我将做一个关于图像识别的…

Nacos集群搭建

1、下载nacos http://t.csdn.cn/ejfu9 2、配置Nacos 进入nacos的conf目录,修改配置文件cluster.conf.example,重命名为cluster.conf: 然后添加内容: 添加的内容是你要启动的多台nacos的IP和端口 127.0.0.1:8845 127.0.0.1:8846…

如何批量注册推特账号

Twitter推特账号怎么注册?相信国内好多朋友都被推特注册卡住,不知怎么注册twitter账号,由于国内限制的问题,推特账号注册比以前更麻烦了,本文将详细讲解Twitter怎么注册,Twitter (推特)是一个广受欢迎的社交…

【C#基础学习】第十五章、结构

目录 结构 1.结构的构造函数 1.1 实例构造函数 1.2 静态构造函数 1.3 总结 2.结构体作为返回值和参数 结构 结构的定义:结构是一种可以由程序员自定义的密封的值类型。 结构与类的区别:结构与类类似,它们都有自己的数据成员和函数成员。…

Nginx篇之实现反向代理和端口转发

一、前言 在正式生产环境中,web服务器、反向代理服务器的选择大都会选择nginx,确实,在常见的高并发场景下,nginx能够支持以万为单位的并发请求量,并且服务性能稳定,应用极为广泛。 二、反向代理含义 反向代…

【LeetCode_字符串_中心扩散 】5. 最长回文子串

目录考察点第一次:2022年12月8日10:29:05解题思路代码展示:中心扩散题目描述5. 最长回文子串 给你一个字符串 s,找到 s 中最长的回文子串。 示例 1: 输入:s "babad" 输出:"bab" 解…

高通平台开发系列讲解(Camera篇)新增GC8034摄像头步骤

文章目录 一、新增配置文件二、配置摄像头三、设置效果文件四、修改设备树五、修改用户空间驱动程序沉淀、分享、成长,让自己和他人都能有所收获!😄 📢本篇章主要介绍高通平台新增摄像头步骤。 一、新增配置文件 在vendor/qcom/proprietary/common/config/device-vendor.…

一文读懂数据加密

文章目录本文前言一、可逆加密1.1 对称加密(传统加密算法)1.2 非对称加密(现代加密算法)二、不可逆加密三、 混合加密、消息摘要和数字签名四、文章最后本文前言 在计算机信息安全领域,之前软件设计师的网络安全部分了…

解决Elasticsearch Connection reset by peer异常

一、问题现象 随着ES的密集使用,线上环境,不同应用最近几天陆续有报java.io.IOException: Connection reset by peer异常,感觉不太正常。直接影响就是用户查询或者变更ES数据失败。 java.io.IOException: Connection reset by peerat org.e…

大数据:Storm集成HDFS和HBase

一、Storm集成HDFS 1.1 项目结构 1.2 项目主要依赖 项目主要依赖如下&#xff0c;有两个地方需要注意&#xff1a; 这里由于我服务器上安装的是 CDH 版本的 Hadoop&#xff0c;在导入依赖时引入的也是 CDH 版本的依赖&#xff0c;需要使用 <repository> 标签指定 CDH …