“未来近在咫尺,只不过时隐时现 (The future is here, it's just not evenly distributed yet.)”--亚马逊云科技全球产品副总裁Matt Wood博士引用“赛博朋克之父” William Gibson 的一句名言来表达生成式AI的发展现状。
自去年底ChatGPT惊艳众人开始,这场已经持续半年并席卷全球的生成式AI浪潮并未有停止的迹象,反而是愈演愈烈,国内甚至上演了百模大战的盛况。越来越多公司或者行业用户意识到大模型可能带来的改变,于是纷纷跃跃欲试。但大模型是一项极为复杂的工程化问题,涉及一系列的难题,首当其冲的就是基础设施带来的挑战。
如何应对生成式AI对于算力、数据、微服务等基础设施领域一系列挑战。在近日的2023年亚马逊云科技中国峰会上,亚马逊云科技全球产品副总裁Matt Wood博士、亚马逊云科技大中华区产品部总经理陈晓建等专家带来了亚马逊云科技的真知灼见。
面对井喷的算力需求,亚马逊云科技是这么看的
毫无疑问,算力是当下生成式AI面临的首要难题。
都说算力、算法和数据是人工智能发展的三要素,虽然这些年AI算力占比在持续提升,但动辄需要消耗上万CPU和GPU卡的大模型依然带来了巨大的算力缺口,以及如何让算力更好地与大模型、生成式AI应用匹配、应用。
“当前,虽然生成式AI只有短短几个月,但其超大规模人工智能模型和海量数据对高算力提出新要求,不断拉动算力需求快速增长。”马逊云科技大中华区产品部总经理陈晓建如是说。
为解决生成式AI带来的算力挑战,亚马逊云科技的思路是通过自研芯片、各种丰富且弹性的计算、网络、存储组合以及Serverless架构,全面满足用户的多样化的算力需求。另外对于全球布局,亚马逊云科技提供从中心到边缘的多种产品的解决方案,包括覆盖全球的基础架构,以及快速部署稳定系统的能力,还有全面支持全球各个国家和地区业务合规能力,为企业打造了坚实的底层架构基石。
首先是亚马逊云科技自身强大的基础设施能力,提供包括Intel、AMD、英伟达,和自研的CPU及加速芯片等丰富的算力产品。在自研芯片方面,2015年开始,亚马逊云科技开始布局自研芯片,如今已经具备了包括虚拟化系统、云原生处理器和机器学习训练及推理等多款自研芯片。
比如,亚马逊云科技自研芯片 Amazon Graviton,Graviton 目前已经发展到 3E,相比之前的产品,Graviton3E 计算性能提高25%,浮点性能提高2倍,加密工作负载性能加快2倍;Graviton3E 特别关注向量计算的性能,跟前一代相比提升了35%。这个性能提升对于像 HPC、AI等应用来说尤为重要。
其次,亚马逊云科技提供丰富且高度弹性的算力资源,能够提供丰富的计算实例以满足生成式AI的多样性算力续期。当前,亚马逊云科技提供600多种不同的计算实例,从处理器、网络和存储等各种服务都能够与计算进行很好的结合,以积木的方式搭建出一个丰富灵活的计算实例的资源,满足多种不同算力的要求。
Weta Digital(维塔数码)是全球领先的综合性视觉效果公司,亚马逊云科技为Weta Digital提供了各种从算力资源到云上制作的堆栈,机器学习的堆栈等等一系列的服务,提供非常强的伸缩性以及很好的性价比:《阿凡达1》的时代花了整整14个月才看到了第一帧,《阿凡达2》8个月跑了33亿个线程小时。
第三,针对大规模算力应用带来复杂性,亚马逊云科技推动云服务全面迈向Serverless,亚马逊云科技已经实现了全栈数据服务的Serverless化,开启了云服务全面Serverless的时代,让企业无需预置或管理基础设施,就可以运行几乎任何类型的应用程序或后端服务代码,可最大限度减轻运维工作,并增加业务敏捷性,更好地应对业务的各种不确定性。
如今,亚马逊云科技已经相继发布了105多种 Serverless 新技术,包括:解决 Java 应用冷启动问题的 Lambda SnapStart,可视化编辑器 Application Composer 等。用户可以根据应用的类型来选择不同的弹性和计算颗粒度。
第四,亚马逊云科技自身具有全球领先的数据中心基础设施布局,在全球拥有31个区域的99个可用区,已经覆盖了245个国家和地区,全方位助力企业实现全球化布局,可以将亚马逊云科技的基础架构扩展到几乎任何数据中心或用户的本地设施,提供真正一致的混合体验。另外,亚马逊云科技在大部分服务中采用蜂窝架构设计,把系统分割成多个蜂窝状单元,通过控制爆炸半径,降低故障发生时对整体系统的影响。随机分片思路则对蜂窝架构进行了进一步优化,把故障影响降到更低。
比如,OPPO 希望全球业务独立运作、区域合规自治,同时又有统一的管理。在使用亚马逊云科技的 Cloud WAN 广域网服务之后,OPPO 可通过本地网络提供商,连接到亚马逊云科技,通过中央控制面板和网络策略在分钟就可以建立起一个覆盖全球的自己的专用网。
亚马逊的生成式AI方法论
众所周知,过去半年里,全球都看到了生成式AI的爆发,大语言模型可以接受复杂的输入,并产生复杂的输出。
事实上,生成式AI的爆发是大数据、深度学习、人工智能等技术发展到阶段性之后的结果。那么,对于想进入到生成式AI领域的众多用户,是否会有一套先进的方法论来让他们少走弯路?
对此,为客户提供广泛的机器学习能力方面有着悠久历史的亚马逊云科技总结出生成式AI的方法论。Matt 博士认为:“生成式AI在重塑各行各业,它可以突破以前无法突破的极限。比如创意输出,如写作、设计、编码、建模等。解锁生成式AI价值、云原生数据战略、切实可行的方法是生成式AI发展的关键。”
如何抓住机遇、充分释放生成式 AI 的核心价值?为了帮助更多用户解锁解锁生成式AI的价值。亚马逊云科技的应对策略有四点:利用一流的基础模型,构建出色的生成式 AI 应用程序;安全私密的环境,便于使用私有数据定制化这些模型;低成本、低延迟的技术,借助专门构建的机器学习基础设施;借助专业代码生成工具,消除繁重工作并提高效率。
“ Amazon Bedrock,能够帮助用户将数据用基础模型通过无服务器化的 API 来实现,无需管理相应的基础架构;同时,也有为开发人员提供的代码生成服务:基于机器学习的 Amazon CodeWhisperer,它能够更快、更安全地构建应用程序,为构建者提供简单使用自然语言编写的工具,帮助团队高效率、高质量完成任务。”Matt 博士介绍道。
此外,生成式AI需要海量数据进行训练。但海量数据的清晰、整理、训练和推理依然是一项极为复杂的工作。亚马逊云科技认为,云原生数据战略对于生成式AI具有重要作用。云原生战略包括:云原生数据战略的核心特征是: 全面的工具集,满足现在和未来所需; 轻松集成,连接所有数据;构建端到端的数据治理。
为此,亚马逊云科技推出15种专门构建的云上托管数据库服务,为各类用户的应用场景提供完美契合的数据服务;亚马逊云科技提出了Zero-ETL的愿景,致力于实现无缝的数据转换和调用,而用户不用编写任何的代码;亚马逊云科技去年推出的一项全新的数据管理服务Amazon DataZone,可以让客户更快、更轻松地对存储在亚马逊云科技、客户本地和第三方来源的数据进行编目、发现、共享和治理。
此外,Matt 博士认为,使用数据开启生成式AI旅程还需要无条件:基于自己现有的数据战略去做构建;在组织内实现更广泛、更安全的生成式AI实验;为需求场景定制化模型;携手亚马逊云科技,探索无限可能;选择场景,即刻启程,构建未来。
“技术能力往往遵循S曲线。你永远不知道你在S曲线上的位置,除非你向后看。明年回头看的时候,我们看到生成式AI也许达到S曲线的顶点,达到快速爆发式发展的点,涌现出大量发明和应用。”Matt 博士最后表示道。