6月27日至28日,2023亚马逊云科技中国峰会于上海顺利召开。在本次峰会上,似乎找寻到了云计算领域竞争对手均日渐成熟,而亚马逊云科技却能一直保持领先地位的原因——过去的十几年里,亚马逊云科技“基于客户需求,快速进行产品更新与技术迭代”的Day one理念,一直不断地追求基础架构层面的创新。
企业亟需提高“用云”性价比
随着企业数字化转型的需求增加、市场竞争的加剧,企业需要将业务和数据迁移到云上,以实现更高效的生产和服务,以适应市场的变化。所以可以观察到越来越多的企业开始上云,然而上云的门槛并不低,需要考虑的东西非常多,比如技术能力、安全合规风险、成本费用、用户体验等,很多企业CTO表示,“想上云,但是有心而力不足”,大多企业目前提出了亟需降低云服务使用门槛、提高“用云”性价比的需求。
为了提高企业云服务使用的性价比,亚马逊云科技为用户提供全面和深入的算力支持,提供包括Intel、AMD、英伟达和自研的CPU及加速芯片产品,这其中最值得一提的就是亚马逊云科技的四个自研芯片:Nitro、Graviton、Inferentia、Trainium。
Nitro是亚马逊云科技的第一款自研芯片产品,Nitro主要有三个亮点:第一,做了高度轻量化的虚拟化;第二,实现网络层面的数据通信和存储的隔离;第三,实现了硬件级别的加密。有了Nitro之后,亚马逊云科技能够大大增强EC2整个实例应用的安全性,每个单元可以独立发展,也确保EC2所有实例运行的稳定。因为Nitro的出现,亚马逊云科技大大降低了推出一个新EC2实例工作的复杂性,使得其保持一个非常快的增长的速度,进一步降低客户成本,从而帮助企业达到降本增效的目标。最新一代Nitro V5芯片相比之前的芯片性能有大幅地提升,包括更快的转发率,包括更低的延迟,每瓦特性能提升40%。
基于ARM架构的通用处理器芯片Graviton自2018年起,亚马逊云科技陆续推出三代Graviton服务器芯片,在去年的re:lnvent全球大会上,亚马逊云科技推出了自研的、基于ARM架构的高性能计算服务器CPU芯片Graviton3E芯片。纵观Graviton系列芯片的升级历程,Graviton3计算性能提高25%,浮点性能提高2倍,加密工作负载性能加快2倍;Graviton3E特别关注向量计算的性能,跟前一代相比高35%,这个性能提升对于像HPC高性能计算这样的应用来说是非常重要的。
从具体案例来看,在HPL(线性代数的测量工具)上Graviton3E性能提升35%,在GROMACS(分子运动)上性能提升12%,在金融期权定价的工作负载上性能提升30%;同时,Graviton3E和类似的X86的EC2实例相比,Graviton3E还能节省60%的能耗。
如今Graviton系列芯片的优秀性能表现已经得到了充分验证,在2023亚马逊云科技中国峰会上,陈晓建讲到的世界一级方程式锦标赛(下文简称“F1”)案例便充分体现了亚马逊云科技在算力资源、数据存储方面的能力。F1利用Graviton3运行空气动力学模拟,可以用比以往快70%的速度开发新一代赛车,赛车压力损失可以从50%降低到15%,这使超车更容易,为车迷可以带来更多赛场的缠斗。此外,F1通过5000多次单车和多车模拟,收集了超过5.5亿个数据点,帮助他们进行下一代赛车的优化。用F1团队表示,“Graviton3让系统性能快了40%,可以晚间运行模拟,第二天早上就能得出结果。”
在机器学习技术探索赛道中,目前亚马逊云科技已经发展出三代不同的机器学习芯片。在训练方面,亚马逊云科技先后推出的加速芯片Inferentia和Trainium覆盖了训练和推理的场景,能为企业提供最佳的性价比。因此,许多领先的生成式AI初创公司,例如AI21 Labs、Hugging Face、Runway和Stability AI都选择Inferentia和Trainium作为他们整个研发和应用的平台。
在机器学习训练中,最重要的指标是训练效率和性价比。以HuggingFace BERT模型为例,基于加速芯片Trainium的Trn1实例的性能表现非常不错,从训练吞吐量角度看,其与同类型GPU实例相比,在单节点情况下,可实现1.2倍吞吐量的提升;在多节点情况下,实现1.5倍吞吐量的提升;从成本角度,单节点实现了1.8倍成本降低,集群的成本降低了2.3倍。
随着模型越来越复杂,很多时候靠一个单点的计算训练是无法满足用户的需求,在很多时候都需要一个分布式的训练,比如需要非常大规模的集群,通过Trainium便可以构建一个超大的集群,它可以有3万张的Trainium芯片,使企业可以获得云上6 ExaFlops的超算级性能。这背后涉及很多创新,比如更快的EFA网络以及PB级别的无阻塞网络互联等。
在机器学习推理中,推理往往要考虑延迟和吞吐,企业需要更高的吞吐力来带来更优的性价比,但是往往更高的吞吐率会带来更高延迟,所以开发者往往要在延迟和吞吐中权衡。Inferentia2的设计就考虑到了兼顾吞吐和延迟的优化,如果拿一个基于Inferentia2的实例做测试,以自然语言处理领域常见的BERT模型为例,在Inferentia2上可实现高达3倍的吞吐提升,8.1倍的延迟降低,4倍的成本节约,使得企业开发者二者兼而有之。
另外值得一提的是,Inferentia2在大语言模型中的表现也非常地突出。拿一个OPT模型来做测试,中等规模的OPT模型OPT-30B为例,相较于通用的EC2 GPU实例,Inferentia2可实现65%的吞吐量提升,推理成本可降低52%;660亿参数级别的OPT-66B,通用GPU实例已经显示内存不足的情况下,而在 Inferentia2上还可以实现每秒351个token数的吞吐量。