亚马逊云科技自研芯片,为企业云服务提高性价比

news2025/1/11 11:47:47

bcd5cb485d844a4f8a5aaa2e7730c1b0.png6月27日至28日,2023亚马逊云科技中国峰会于上海顺利召开。在本次峰会上,似乎找寻到了云计算领域竞争对手均日渐成熟,而亚马逊云科技却能一直保持领先地位的原因——过去的十几年里,亚马逊云科技“基于客户需求,快速进行产品更新与技术迭代”的Day one理念,一直不断地追求基础架构层面的创新。 

企业亟需提高“用云”性价比

随着企业数字化转型的需求增加、市场竞争的加剧,企业需要将业务和数据迁移到云上,以实现更高效的生产和服务,以适应市场的变化。所以可以观察到越来越多的企业开始上云,然而上云的门槛并不低,需要考虑的东西非常多,比如技术能力、安全合规风险、成本费用、用户体验等,很多企业CTO表示,“想上云,但是有心而力不足”,大多企业目前提出了亟需降低云服务使用门槛、提高“用云”性价比的需求。

为了提高企业云服务使用的性价比,亚马逊云科技为用户提供全面和深入的算力支持,提供包括Intel、AMD、英伟达和自研的CPU及加速芯片产品,这其中最值得一提的就是亚马逊云科技的四个自研芯片:Nitro、Graviton、Inferentia、Trainium。

Nitro是亚马逊云科技的第一款自研芯片产品,Nitro主要有三个亮点:第一,做了高度轻量化的虚拟化;第二,实现网络层面的数据通信和存储的隔离;第三,实现了硬件级别的加密。有了Nitro之后,亚马逊云科技能够大大增强EC2整个实例应用的安全性,每个单元可以独立发展,也确保EC2所有实例运行的稳定。因为Nitro的出现,亚马逊云科技大大降低了推出一个新EC2实例工作的复杂性,使得其保持一个非常快的增长的速度,进一步降低客户成本,从而帮助企业达到降本增效的目标。最新一代Nitro V5芯片相比之前的芯片性能有大幅地提升,包括更快的转发率,包括更低的延迟,每瓦特性能提升40%。

基于ARM架构的通用处理器芯片Graviton自2018年起,亚马逊云科技陆续推出三代Graviton服务器芯片,在去年的re:lnvent全球大会上,亚马逊云科技推出了自研的、基于ARM架构的高性能计算服务器CPU芯片Graviton3E芯片。纵观Graviton系列芯片的升级历程,Graviton3计算性能提高25%,浮点性能提高2倍,加密工作负载性能加快2倍;Graviton3E特别关注向量计算的性能,跟前一代相比高35%,这个性能提升对于像HPC高性能计算这样的应用来说是非常重要的。

从具体案例来看,在HPL(线性代数的测量工具)上Graviton3E性能提升35%,在GROMACS(分子运动)上性能提升12%,在金融期权定价的工作负载上性能提升30%;同时,Graviton3E和类似的X86的EC2实例相比,Graviton3E还能节省60%的能耗。

如今Graviton系列芯片的优秀性能表现已经得到了充分验证,在2023亚马逊云科技中国峰会上,陈晓建讲到的世界一级方程式锦标赛(下文简称“F1”)案例便充分体现了亚马逊云科技在算力资源、数据存储方面的能力。F1利用Graviton3运行空气动力学模拟,可以用比以往快70%的速度开发新一代赛车,赛车压力损失可以从50%降低到15%,这使超车更容易,为车迷可以带来更多赛场的缠斗。此外,F1通过5000多次单车和多车模拟,收集了超过5.5亿个数据点,帮助他们进行下一代赛车的优化。用F1团队表示,“Graviton3让系统性能快了40%,可以晚间运行模拟,第二天早上就能得出结果。”

在机器学习技术探索赛道中,目前亚马逊云科技已经发展出三代不同的机器学习芯片。在训练方面,亚马逊云科技先后推出的加速芯片Inferentia和Trainium覆盖了训练和推理的场景,能为企业提供最佳的性价比。因此,许多领先的生成式AI初创公司,例如AI21 Labs、Hugging Face、Runway和Stability AI都选择Inferentia和Trainium作为他们整个研发和应用的平台。

在机器学习训练中,最重要的指标是训练效率和性价比。以HuggingFace BERT模型为例,基于加速芯片Trainium的Trn1实例的性能表现非常不错,从训练吞吐量角度看,其与同类型GPU实例相比,在单节点情况下,可实现1.2倍吞吐量的提升;在多节点情况下,实现1.5倍吞吐量的提升;从成本角度,单节点实现了1.8倍成本降低,集群的成本降低了2.3倍。

随着模型越来越复杂,很多时候靠一个单点的计算训练是无法满足用户的需求,在很多时候都需要一个分布式的训练,比如需要非常大规模的集群,通过Trainium便可以构建一个超大的集群,它可以有3万张的Trainium芯片,使企业可以获得云上6 ExaFlops的超算级性能。这背后涉及很多创新,比如更快的EFA网络以及PB级别的无阻塞网络互联等。

在机器学习推理中,推理往往要考虑延迟和吞吐,企业需要更高的吞吐力来带来更优的性价比,但是往往更高的吞吐率会带来更高延迟,所以开发者往往要在延迟和吞吐中权衡。Inferentia2的设计就考虑到了兼顾吞吐和延迟的优化,如果拿一个基于Inferentia2的实例做测试,以自然语言处理领域常见的BERT模型为例,在Inferentia2上可实现高达3倍的吞吐提升,8.1倍的延迟降低,4倍的成本节约,使得企业开发者二者兼而有之。

另外值得一提的是,Inferentia2在大语言模型中的表现也非常地突出。拿一个OPT模型来做测试,中等规模的OPT模型OPT-30B为例,相较于通用的EC2 GPU实例,Inferentia2可实现65%的吞吐量提升,推理成本可降低52%;660亿参数级别的OPT-66B,通用GPU实例已经显示内存不足的情况下,而在 Inferentia2上还可以实现每秒351个token数的吞吐量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/705647.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

gnutls_handshake() failed: The TLS connection was non-properly terminated.

从远程仓库获取所有更新,并保存在本地时,使用git fetch 命令时出现如下错误: 解决办法: 问题解决: 参考资料 拉取github报错 gnutls_handshake() failed: The TLS connection was non-properly terminated. git获取…

proteus三级管(NPN)仿真LED灯串的开关

实验里设置LED灯的导通电压为1.2V 打开仿真开关后可以看到,此时三极管不导通,LED灯亮了,并且电压表和电流探针有数值显示 按下按键,三级管导通,LED灯灭

Spring MVC相关注解运用 —— 上篇

目录 一、Controller、RequestMapping 1.1 示例程序 1.2 测试结果 二、RequestParam 2.1 示例程序 2.2 测试结果 三、RequestHeader、CookieValue 3.1 示例程序 3.2 测试结果 四、SessionAttributes 4.1 示例程序 4.2 测试结果 五、ModelAttribute 5.1 示例程序 …

4G/wifi/lora投入式无线液位传感变送器 mqtt/http协议对接云平台

1.产品概述 DAQ-GP-TLL4G无线液位传感器终端是上海数采物联网科技有限公司推出的一款无线液体水位测量产品。原理是利用扩散硅片上的一个惠斯通电桥,被测介质(气体或液体)施压使桥壁电阻值发生变化(压阻效应)&#xff…

A_B_C滑块

分享一个有意思的滑块。 网址:https://xxgs.chinanpo.mca.gov.cn/gsxt/newList 图片好看,不知道说啥了,验证部分。 ok,源码在这,自提。 # -*- coding:utf-8 -*- # author: qinshaowen # V:15702312233 import requests,base64 import execjs,ddddocr from loguru impo…

Springboot 集成Prometheus 数据采集 使用grafana 监控报告告警 邮件配置

目录 Springboot 相关 Pom 重点包 如果有需要可以增加安全包-一般内部机房没啥事-(非必选) Application.yml配置文件-(非必选) Application.properties management.endpoints.web.exposure.include介绍 启动类 查看监控信…

[RocketMQ] Producer发送单向/异步/同步消息源码 (八)

文章目录 1.sendMessage方法发送消息2.invokeOneway单向发送2.1 invokeOnewayImpl单向调用 3.sendMessageSync同步发送3.1 invokeSync同步调用3.1.1 invokeSyncImpl同步调用实现3.1.2 processSendResponse处理响应结果 4.sendMessageAsync异步发送消息4.1 invokeAsync异步调用4…

信号链噪声分析16

文章目录 概要整体架构流程技术名词解释技术细节小结 概要 提示:这里可以添加技术概要 上世纪 50、60 年代,积分非线性度、差分非线性度、单调性、无失码、增益误差、 失调误差、漂移等直流性能规格主要用于表示数据转换器的性能特性。在当时&#xff0…

【企业架构框架】SOGAF 运营模式

Salesforce 运营、治理和架构框架 (SOGAF) 将 MIT-CISR 企业架构框架应用于 Salesforce 实施和程序。 介绍 运营模式有两个维度:业务流程标准化和业务流程集成。业务流程和相关系统的标准化意味着准确定义流程的执行方式。运营模式可提高整个公司的效率和可预测性。…

网络通讯录服务器

文章目录 六、通讯录4.0实现---⽹络版1. 环境搭建1.1 安装Httplib库1.1升级 gcc 2. 搭建简单的服务器3. 约定双端交互接⼝4. 代码实现客户端5. 代码实现服务端 六、通讯录4.0实现—⽹络版 简易版本 服务端完整版本 客户端完整版本 Protobuf还常⽤于通讯协议、服务端数据交换…

【物联网无线通信技术】802.11无线安全认证

本文由简入繁介绍了IEEE802.11i无线局域网安全技术的前世今生,帮助路由器开发者对WLAN的加密安全策略有一个概念上的认知,能够更好地分析STA掉线以及漫游等问题。 目录 WEP WPA WPA/WPA2-PSK认证过程 802.11i WEP WEP是Wired Equivalent Privacy的简…

基于matlab使用扩张卷积的语义分割(附源码)

一、前言 使用扩张卷积训练语义分割网络。语义分割网络对图像中的每个像素进行分类,从而生成按类分割的图像。语义分割的应用包括自动驾驶的道路分割和医疗诊断的癌细胞分割。 二、加载训练数据 该示例使用 32 x 32 个三角形图像的简单数据集进行说明。数据集包括…

Quiz 14_2-2: Using Web Services | Python for Everybody 配套练习_解题记录

文章目录 Python for Everybody课程简介Quiz 14_2-2: Using Web Services单选题(1-15)操作题Autograder 1: Extract Data from JSONAutograder 2: Calling a JSON API Python for Everybody 课程简介 Python for Everybody 零基础程序设计(P…

12 | 领域建模:如何用事件风暴构建领域模型?

还记得微服务设计为什么要选择 DDD 吗? 其中有一个非常重要的原因,就是采用 DDD 方法建立的领域模型,可以清晰地划分微服务的逻辑边界和物理边界。可以说,在 DDD 的实践中,好的领域模型直接关乎微服务的设计水平。因此…

代码随想录算法训练营第4天| 24. 两两交换链表中的节点 19.删除链表的倒数第N个节点 面试题 02.07. 链表相交 142.环形链表II

今日学习的文章链接,或者视频链接 第二章 链表part02 自己看到题目的第一想法 看完代码随想录之后的想法 24: 注意链表的操作: class Solution { public:ListNode* swapPairs(ListNode* head) {auto dummyhead new ListNode(0,head);auto prev …

Apache Doris (五) :Doris分布式部署(二) FE扩缩容

目录 1. 通过MySQL客户端连接Doris ​​​​​​​​​​​​​​2. FE Follower扩缩容 ​​​​​​​3. FE Observer 扩缩容 ​​​​​​​​​​​​​​4. FE扩缩容注意点 进入正文之前,欢迎订阅专题、对博文点赞、评论、收藏,关注IT贫道&#…

超详细|粒子群优化算法及其MATLAB实现

本文主要介绍粒子群算法的背景与理论,并结合对应部分的MATLAB程序对其实现流程做了阐述,代码获取方式见文末。 00 文章目录 1 粒子群优化算法 2 问题导入 3 MATLAB程序实现 4 改进策略 5 展望 01 粒子群优化算法 1.1 粒子群优化算法背景 近年来&…

亿发软件:智慧中药房信息化建设,中医药安全煎煮解决方案

传统的中药饮片煎煮服用较为繁琐,局限了诸多人群的使用。为了优化医疗服务,并满足患者不断增长的中医药需求,智慧中药房的概念应运而生。智慧化中药房通过信息化和自动化相结合,旨在提高中药处方的管理和效率。下面就让我们了解一下中药配方颗…

创建一个nuxt项目

yarn create nuxt-app ssr 启动项目 如果使用npm run start 可能会报错,提示需要配置为开发环境 可以先执行npm run dev 看看

HPM6750系列--第三篇 搭建MACOS编译和调试环境

一、目的 在上一篇《HPM6750系列--第二篇 搭建Ubuntu开发环境》我们介绍了Ubuntu上开发HPM6750,本篇主要介绍MAC系统上的开发环境的搭建过程,整个过程和Ubuntu上基本类似。 二、准备 首先我们在Mac电脑上打开一个terminal,然后创建一个…