阿里云推出第八代企业级实例 g8i:AI 推理性能最高提升 7 倍、可支持 72B 大语言模型

news2024/9/24 21:28:29

云布道师

1 月 11 日,全球领先的云计算厂商阿里云宣布推出第八代企业级通用计算实例 ECS g8i,这也是国内首款搭载第五代英特尔至强可扩展处理器(代号 EMR)的云计算产品。依托阿里云自研的「飞天+CIPU」架构体系,ECS g8i 实例的整机性能最高提升 85%,AI 推理性能最高提升 7 倍,可支撑高达 72B 参数的大语言模型,为 AI 提速,同时新实例还提供了端到端安全防护,为企业构建可信 AI 应用提供强有力的隐私增强算力支撑。

通用算力再提升,整机性能提升 85%

作为企业级通用计算实例,ECS g8i 实例在计算、存储、网络和安全等能力得到了全方位提升。从关键参数上看,ECS g8i 实例的 L3 缓存容量提升到 320MB,内存速率高达 5600MT/s,整机性能提升 85%,单核性能提升 25%;存储方面,ESSD 云盘提供 100万 IOPS,全面搭载 NVMe,存储延迟低至百微秒;网络方面,PPS 高达 3000 万,标配阿里云自研 eRDMA 大规模加速能力,时延低至 8 微秒;安全方面,ECS g8i 实例支持可信计算与加密计算等特性,全球率先支持机密虚拟机 TDX 技术,构建了全面的安全防护。在这里插入图片描述
在 E2E 场景下,ECS g8i 实例可将 MySQL 性能提升最高达 60%,Redis 和 Nginx 的性能分别提升 40% 和 24%,面向游戏、视频直播、电商、金融、医疗、企业服务等行业提供强劲的算力支持,满足其在数据库、大数据、AI 推理等应用场景下对性能的严苛要求。

此外,ECS g8i 实例还提供了多种硬件原生加速能力,包括 QAT 和 IAA 等加速器。阿里云通过自研技术,将硬件加速能力更细颗粒度透传至实例虚拟机,小规格的 ECS g8i 实例也同样具备加速能力。其中,依托于 QAT 原生加解密加速器,ECS g8i 实例在压缩/解压缩场景下性能最大可提升 70 倍,加解密性能提升 4 倍以上。

为 AI 提速,可支撑 72B 参数的大语言模型

生成式 AI 掀起的技术革命,正在推动计算范式发生根本性的变化。当前,AI 大模型推理在算力上依然面临诸多挑战,例如首包延迟受限于并行处理能力与浮点运算能力,吞吐性能则受限于内存带宽和网络延迟。

阿里云 ECS g8i 实例针对这些难题都进行了相当程度的优化,包括内置指令集从AVX512 升级到了 Intel AMX 高级矩阵扩展加速技术,可让生成式 AI 更快地运行。相对于 AVX512 指令集,启用 AMX AI 加速后,ECS g8i 实例在 int 8 矩阵计算的性能最高提升 7 倍。
图片
基于 AMX AI 加速能力,g8i 可更迅速地响应中小规模参数模型,运行知识检索、问答系统及摘要生成等 AI 工作负载时,起建成本相比 A10 GPU 云服务器下降50%。此外,配合阿里云平台的 Spot 抢占式实例,成本优势将进一步凸显,进一步降低 AI 推理成本。

对于超大规模参数的模型来讲,通常会通过模型并行、流水线并行切分到 AI 集群,这个时候网络通讯成了主要的性能瓶颈。基于阿里云自研的 eRDMA 超低延时弹性网络,ECS g8i 实例集群拥有超低延时网络和高弹性优势,可轻松支撑 72B 参数级别的大语言模型分布式推理,推理性能随集群规模接近线性加速,并可支持超过32batchsize 的超大参数规模的 AI 模型负载,运行文生图、AI 生成代码、虚拟助手以及创意辅助工具等 AI 工作负载。
在这里插入图片描述
以阿里云开源的 Qwen-72B 大模型为例,可在 g8i 实例 eRDMA 网络构建的集群实现高效运行,在输入小于 500 字情况下,首包延时小于 3 秒,每秒可生成 7 个Token。

为安全加码,助力企业构建可信 AI 应用

长久以来,云厂商一直在不遗余力提升数据的隐私保护和安全性,AI 时代尤为明显。基于自研的 CIPU,阿里云在全产品线构建了端到端的安全防护,可保障数据存储、数据传输、数据计算的全流程安全。在最底层,基于 CIPU 的安全架构搭载安全芯片 TPM 作为硬件可信根,实现服务器的可信启动,确保零篡改;虚拟化层面,支持虚拟可信能力 vTPM,提供实例启动过程核心组件的校验能力;在实例可信的基础上支持不同平台的机密计算能力,实现了运行态的内存数据隔离和加密的保护。
在这里插入图片描述
值得一提的是,此次升级的 ECS g8i 实例全量支持 Trust Domain Extension TDX 技术能力,业务应用无需更改,即可部署到 TEE 之中,极大降低了技术门槛,并以极低的性能损耗为大模型等 AI 应用提供隐私增强算力,护航大模型的云上数据安全。
在这里插入图片描述
以 Qwen-Chat-7B 模型为例,启用 TDX 后,既确保了模型推理的安全可信,也保护了数据的机密性和完整性。
图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1408835.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【每日一题】3.LeetCode——相交链表

📚博客主页:爱敲代码的小杨. ✨专栏:《Java SE语法》 ❤️感谢大家点赞👍🏻收藏⭐评论✍🏻,您的三连就是我持续更新的动力❤️ 🙏小杨水平有限,欢迎各位大佬指点&…

Linux-共享内存

文章目录 前言一、system V共享内存申请共享内存挂载共享内存删除共享内存挂载删除共享内存 二、示例代码三.运行效果 前言 在这之前我们已经学习了两种进程间通信方式:匿名管道和命名管道。 从我们之前的学习已经知道,想让多个进程间进行通信就需要让他…

重构改善既有代码的设计-学习(四):简化条件逻辑

1、分解条件表达式(Decompose Conditional) 可以将大块代码分解为多个独立的函数,根据每个小块代码的用途,为分解而得的新函数命名。对于条件逻辑,将每个分支条件分解成新函数还可以带来更多好处:可以突出条…

业余爱好-生物信息学/生物化学/物理/统计学/政治/数学/概率论/AI/AGI/区块链

生物信息学 高等数学—元素和极限-实数的定义高等数学—元素和极限-实数的元素个数高等数学—元素和极限-自然数个数少于实数个数高等数学—元素和极限-无穷大之比较高等数学—元素和极限-级数的收敛高等数学—元素和极限-极限的定义数学分析与概率论人工智能AI数学基础——全套…

深度学习——pycharm远程连接

目录 远程环境配置本地环境配置(注意看假设!!!这是很多博客里没写的)步骤1步骤2步骤2.1 配置Connection步骤2.2 配置Mappings 步骤3 配置本地项目的远程解释器技巧1 pycharm中远程终端连接技巧2 远程目录技巧3 上传代码文件技巧4 …

云手机与实体手机的对比

在数字化时代,云手机作为一种虚拟手机在云端服务器上运行,与传统的实体手机相比存在诸多差异。让我们深入探讨云手机与实体手机之间的区别,以便更好地了解它们的特点和优势。 外观上的差异 实体手机具有实际的外观和重量,占据一定…

Java基础进阶02-xml

目录 一、XML(可拓展标记语言) 1.学习网站: 2.作用 3.XML标签 4.XML语法 5.解析XML (1)常见解析思想DOM 6.常见的解析工具 7.DOM4j的使用 8.文档约束 (1)概述 (2&#xf…

一种很新的阶乘

D-一种很新的阶乘_浙江机电职业技术学院第八届新生亮相赛(同步赛) (nowcoder.com) 首先可以看出[1,n]中的数a的次方在初始情况下是n - a 1,所以我们可以初始化一个w数组,w[i]存储的值为i的次方,注意w[i]的数据类型必须…

Spring Security架构

文章目录 过滤器回顾DelegatingFilterProxyFilterChainProxySecurityFilterChainSecurity Filters打印Security Filters将自定义过滤器添加到过滤器链 Handling Security ExceptionsSaving Requests Between AuthenticationRequestCachePrevent the Request From Being Saved R…

1.24号c++

C绪论 c是c语言的扩充,C包含了C的所有属性,换一句话说,C语言在C中都合法。 C语言编程思想:面向过程 c编程思想:面向对象 可以说在C中一切皆对象。 c的三大属性:封装,继承,多态。…

gin介绍及helloworld

1. 介绍 Gin是一个golang的微框架,封装比较优雅,API友好,源码注释比较明确,具有快速灵活,容错方便等特点 对于golang而言,web框架的依赖要远比Python,Java之类的要小。自身的net/http足够简单&…

DeadLinkHunter工具

一、背景 二月底的时候,提到一个文档中心的链接有效性问题,文档中心的某个超链接跳转后,页面内容是空的或者提示页面内容不存在。 分析一下可知,其实文档中心的每个页面都有很多不定位置、不定数量的超链接,每个超链…

JS进阶-解构赋值(一)

扩展:解构赋值时Js特有的一种处理数据的方式,在Java中没有处理数据的方式 知识引入: 思考:在js中,在没有学习解构赋值之前,我们是如何获取数组的内容的? 以上要么不好记忆,要么书写麻…

css实现右边边框分割线 渐变色,边框四角样式

分割线 代码 .data-item:first-of-type {border-right: 2px solid;border-image: linear-gradient(to top,rgba(0, 0, 0, 0.1) 0%,rgba(81, 110, 197, 0.76) 50%,rgba(0, 0, 0, 0.1) 100%)1;padding: 15px 0;}四角边框样式 代码 .chart-box {cursor: pointer;background: line…

SSM项目集成Spring Security 4.X版本(使用spring-security.xml 配置文件方式)

目录 前言 实战开发: 一、Spring Security整合到SSM项目 1. pom文件引入包 2. web.xml 配置 3. 添加 spring-security.xml 文件 二、Spring Security实战应用 1. 项目结构 2. pom文件引入 3. web.xml 配置 4. Spring 配置 applicationContext.xml 5. sp…

PCB【过孔】

1、钻孔的费用通常占PCB制板费用的30%到40%,过孔钻孔(drill hole) 钻孔周围的焊盘区,这两部分的尺寸大小决定了过孔的大小。过孔越小,其自身的寄生电容也越小。在高速电路中希望越小越好。孔内径原则上要求0.2mm&#…

C4.5决策树的基本建模流程

C4.5决策树的基本建模流程 作为ID3算法的升级版,C4.5在三个方面对ID3进行了优化: (1)它引入了信息值(information value)的概念来修正信息熵的计算结果,以抑制ID3更偏向于选择具有更多分类水平…

内网穿透、远程桌面、VPN的理解

最近在研究内网穿透的相关技术,然后回想起一些相关的技术,比如说要远程桌面公司的电脑,VPN连入内网等。然后想着在此处记录一下,各个的区别,这个纯粹是从技术层面的理解,此处不详细解释怎么去实现或者用什么…

深度学习中RGB影像图的直方图均衡化python代码and对图片中指定部分做基于掩模的特定区域直方图均衡化

深度学习很重要的预处理步骤 就是需要对做直方图均衡化 其中主要分成灰度图以及RGB图的直方图均衡化 这俩的方法和代码不同 想要去看具体原理的朋友可以查看下面这篇博客的内容 写的很详细颜色直方图均衡化(https://www.cnblogs.com/wancy/p/17668345.html) 我们这个场景中会用…

C/C++ - 编程语法特性

目录 标准控制台框架 输入输出对象 命名空间 标准控制台框架 头文件 ​#include <iostream>​​ 告诉编译器我们要使用iostream库尖括号中的名字指定了某个头文件(header) 入口函数 ​int main(void)​​ 返回 ​return 0;​​ 输出语句 ​std::cout << "H…