2006年,亚马逊云科技推出了第一代公有云产品Amazon S3和Amazon EC2,由此开创了企业IT的历史——云计算从此开始改变整个企业IT市场。2013年,亚马逊云科技再次开创了历史,推出了首个自研芯片Amazon Nitro,由此打开了全球自研专用芯片的新时代。2022年Q3,根据Synergy,亚马逊云科技占据全球云基础设施市场(IaaS+PaaS+托管私有云)34%的份额,比第二、三名的总和还要多,而该市场的年营收规模已经达到了2170亿美元。
2023年将是亚马逊云科技从事底层创新十周年,业界也在预测亚马逊云科技有望达到千亿美元年营收的规模。亚马逊云科技平台上的客户规模也将再次再创新高,甚至出现了Databricks这样,完全生长在亚马逊云科技平台上,如今自己也成为一个生态平台的平台。亚马逊云科技也从平台,走向了平台的平台。而这一切都在大规模底层创新的基础上,才成为了现实。
2023年,亚马逊云科技能否再创历史,从平台全面走向平台的平台?能否突破千亿美元年营收大关?亚马逊云科技的客户规模有没有极限?
不断逼近极限的平台
亚马逊云科技CEO Adam Selipsky在2022 re:invent大会上表示,“多年前,我们就意识到要突破性能极限。”但也许亚马逊云公司的创造者们没有想到,极限的极限在哪里。
Expedia是全球领先的旅游服务供应商,拥有超过70个PB的数据,每年进行6000亿次AI预测,每年要对同一个网页进行36万次的重新排列组合和优化,为不同用户带来不同体验;三星有超过11亿终端客户,这些客户源源不断地向后台申请服务,达到每秒钟8万次请求;Pinterest是在北美提供视频图片网站的服务商,在亚马逊云科技上存储的图片数据超过1个EB;Netflix是全球领先的融媒体供应商,每天要为十亿条用户流量服务,同时每天为了支持用户最佳体验,要从所有生产系统中收集近TB的日志数据进行分析;Philips是全球领先的健康服务提供商,要从48个PB用户数据中进行大数据分析,以尽早发现高危患者……
当下,《阿凡达2》正在影院热映。13年前《阿凡达1》剧组自行搭建了一个庞大的线下数据中心,购买了4000台服务器进行《阿凡达1》的渲染。13年过去了,《阿凡达2》剧组没有选择自己继续搭建数据中心,而是选择了亚马逊云科技来进行阿凡达2的渲染。《阿凡达》影片的视觉特效制作人表示,13年前花了整整14个月才看到第一帧渲染效果,13年后在亚马逊云科技平台上花八个月时间就已经拥有了33亿个渲染线程小时……如今,亚马逊云科技已经连续7年获得HPC WIRE最佳HPC云平台称号。
这些还仅仅是冰山的一角。亚马逊CTO Werner Vogels表示:“在亚马逊云科技,平均每天有超过1亿个 EC2 实例被启动。”对于亚马逊云科技平台来说,每天都是不断逼近极限的一天,而每一个极限又再被不断被推向下一个极限。
底层创新:为极限的极限而准备
当亚马逊云科技意识到要应对极限工程的挑战时,Adam Selipsky表示就“必须一直向下推进到芯片,定制芯片一直是我们最大差异化因素之一。”而在亚马逊云科技平台上平均每天启动的超过1亿个 EC2 实例,让亚马逊云科技深刻了解正在运行的工作负载类型。与消费类设备一样,这使得亚马逊云科技近年来在芯片设计方面投入巨资——在云中运行的工作负载,在定制芯片上运行时的性能更高、成本效益更好。
从2013年第一代Nitro开始,亚马逊云科技一共展开了三大系列的自研芯片。截止2021年,亚马逊云科技已经发展了4代定制化芯片Nitro,三代基于ARM架构的CPU处理器Graviton,还有两款用于机器学习训练和推理的芯片。亚马逊云科技在re:Invent2022全球大会再次推出了第五代虚拟化芯片Nitro5、新一代通用芯片Gravition3E以及机器学习推理芯片Inferentia2,并推出基于此三款自研芯片的EC2实例。
每一代自研芯片都比上一代的性能有极大的提升。例如:与第四代相比,第五代Nitro芯片拥有两倍的晶体管数量、两倍的计算性能、两倍的PCI-E带宽,内存访问速度提升50%、每秒增加60%的数据包、减少30%的延迟、每瓦性能提升40%;新推出的Graviton3E是Gravtion3的定制产品,针对高性能计算工作负载中常见的浮点和矢量运算进行了优化,与Gravition3相比,Graviton3E在线性代数运算基准测试HPL中性能提升35%、分子动力学测试Gromacs中性能提升12%、金融期权定价工作负载测试中性能提升30%;而采用了最新机器学习加速推理芯片Inferentia2的Inf2实例,是专门为运行多达1,750亿个参数的大型深度学习模型而构建,与当前的Inf1实例相比可提供高达4倍的吞吐量,降低多达10倍的延迟。
亚马逊云科技不仅对底层芯片进行自研创新,还对已经存在的硬件和网络等相关协议进行创新,重新定义业界标准。亚马逊云科技在re:Invent 2022全球大会上推出了对SRD网络协议的创新,对之前普遍采用的TCP通信协议进行了大幅改进,同时推出了基于SRD网络协议的高速虚拟网卡ENA Express。SRD网络协议专为亚马逊云科技环境中实现一致且低延迟的网络而构建,具备多路径传输、微秒级重传和Nitro芯片提供专用资源三大优势,能够显著降低网络延迟,提高网络吞吐量。例如,利用SRD网络的多路径特性,TCP最大单流带宽将增加4倍,从5Gbps增加到25Gbps。
正是对于底层技术创新孜孜不倦的追求,从芯片到协议再到云软件的全栈集成式优化,才让亚马逊云科技能够应对一个又一个的极限挑战,不断走向下一个新高。
冲击千亿营收,开启新的篇章
2023年,亚马逊云科技或将冲击千亿美元年营收。从2013年约30亿美元到2021年接近700亿美元,2022年或将达到800亿美元,2023年也就是底层创新十周年之际或将达到1000亿美元,届时亚马逊云科技将冲破极限,打开新的历史篇章。
疫情期间,全球企业IT供应链遭受重大打击,这给予了亚马逊云科技这样超级云服务商及其自研芯片一个绝佳的历史机遇。对于企业客户来说,亚马逊云科技的自研芯片可以保证在全球IT供应链中断时候的不间断供应,从而保持云服务的不断优化以及成本的不断降低。更为重要的是,亚马逊云服务可以帮助企业无缝切换底层芯片和相应的硬件系统,从而快速享受最新的技术红利。
在2017年re:Invent的时候,亚马逊云科技对外提供了约175个EC2实例,去年达到了400多个,今年进一步达到了600多个,EC2实例发布的速度非常快,背后就是自研芯片的强大支撑。自研芯片帮助亚马逊云科技更快地为各种工作负载提供专用的计算实例,让客户以更低的成本获得更多的资源,助力加快创新步伐。
基于ARM架构的Graviton,相比X86提供了更好的性价比,很多客户都希望采用更简单的方式,不改动代码就直接享受Graviton新架构带来的好处。在亚马逊云科技平台上,客户不用关注Amazon RDS或Amazon Athena云服务是运行在X86还是Graviton之上,可以非常简单地把Amazon RDS服务从X86切换到Graviton,程序代码不用进行任何改动。很多亚马逊云科技的客户只用一两周时间就可以把业务从X86迁移到Graviton,有的甚至在几天之内就完成了切换,轻松地将性价比提升40%。
SRD是亚马逊云科技自己开发的网络协议,它与TCP/IP的不同在于可以使用多条路径并行为同一个数据流提供服务。由于SRD协议网络是基于Nitro芯片实现的,所以它对用户完全透明,用户完全意识不到SRD协议,仍然可以使用TCP/IP协议,Nitro自动把TCP/IP协议适配到SRD,到了目标端口后再恢复成TCP/IP数据包,这也反映了Nitro硬件专用芯片的最大好处。换言之,客户不需要修改任何代码,直接可以利用SRD所带来的超高性能。
“我们看到云服务给各行各业带来颠覆性变革。无论是金融机构、药企、科研人员、零售代表、货运公司、电信工薪、NGO、能源企业、娱乐工作室等等都在以前所未有的方式实现云上创新,用云来改变世界每一个角落,追逐星辰大海,创造灿烂未来。”亚马逊云科技大中华区产品部总经理陈晓建在2022 re:invent全球大会北京站感慨道。
展望2023年:数字经济扩展期正在扑面而来。电动汽车、工业互联网、能源互联网……这些都在通过拐点进入规模化加速上升期,一个庞大的产业互联网时代正在成为现实。经过十年底层创新的努力,亚马逊云科技已经为下一个极限挑战做好了准备。现在,我们可以开始想像超过了千亿美元营收规模之后的亚马逊云科技以及那时的云计算了——重塑未来,从现在开始!(文/宁川)