进入2023年以来,以ChatGPT为代表的大模型喧嚣引发了AI的新一轮炒作热潮,堪比当年的加密货币。不同的是,以微软、NVIDIA、AWS、Google等为代表的云与芯片大厂纷纷实质性入局大模型,为大模型AI注入持续的生命力。因此ChatGPT可类比于2000年的互联网“泡沫”,而至于是否成为“泡沫”,还有待于进一步观察。
市场咨询公司WIKIBON发表了一系列文章,阐述了对于大模型对于AI和云产业的影响。WIKIBON认为,大模型AI带给市场的影响是有选择的,也就是并非所有厂商都能受益于这一轮大模型AI的炒作泡沫,例如云数据库厂商Snowflake也在炒作AI且营收勉强达标,但由于客户降低了云消费而受到股价的重创。
那么,大模型AI的热炒中,都有哪些云与AI的新趋势呢?看看WIKIBON是如何观察的。
NVIDIA:超大GPU与全新工业标准服务器
两年前,WIKION就预测NVIDIA将要占领数据中心市场,让数据中心运行的速度快10倍,成本降为十分之一。而黄仁勋的策略是利用NVIDIA在AI架构方面的强大优势,重构本地数据中心、公有云和边缘计算。这一策略包括了端到端的清晰愿景:强大的芯片设计能力,集成了内存、处理器、I/O和网络的新ARM架构,以及极具竞争力的软件消费模式。
还记得NVIDIA对于ARM的收购尝试么?虽然没有成功,但NVIDIA与ARM的深度合作仍然产生了对数据中心芯片市场极具冲击力的成果。简单说,NVIDIA意欲挑战Intel的通用数据中心市场垄断地位。而WIKIBON也十分看好NVIDIA的这一挑战,且不仅是GPU还包括了成千上万的其它芯片,包括网络、智能网卡和全栈能力等。
时间来到了2023年5月30日,NVIDIA的市值历史性突破了万亿美元,远远将Intel甩在了后面,这要感谢ChatGPT——让数据中心在一夜之间向AI计算“漂移”。NVIDIA发布了极具竞争力的价值主张:面向x86计算的企业预算将向加速计算迁移。今天NVIDIA的市值几乎是Intel的9倍之多,而ChatGPT在其中扮演了极为重要的催化剂角色。
在Computex 2023上,NVIDIA发布了几个极具里程碑意义的产品:配备了Grace Hooper的大内存超级计算机DGX GH200,将多达256块NVIDIA H100 GPU整合为一块数据中心大小的超级GPU,可提供144TB共享内存和1 exaflop性能,比单个NVIDIA DGX A100 320GB系统高出近500倍;NVIDIA还在建造AI超级计算机NVIDIA Helios,将四个GH200互连,可将多达1024块NVIDIA H100 GPU整合起来。GH200和Helios完美解决了大模型AI的训练需求,可将大模型AI扩散到更多企业和场景中。
除了更大的超级GPU外,NVIDIA还发布了加速服务器的模块化参考架构NVIDIA MGX,可供服务器厂商生产1U、2U、4U(风冷或液冷)服务器,支持NVIDIA全线GPU产品以及Grace、GH200 Grace Hopper和x86等CPU,NVIDIA Bluefield-3 DPU、ConnextX-7网卡等端到端的生态。
简单理解,MGX是对Intel x86服务器模块化参考架构的全面挑战,是更为适配ARM和NVIDIA GPU的服务器设计,开发商采用MGX,可将开发成本削减四分之三,并将开发时间缩短三分之二至仅6个月,可更好地适配HPC、数据科学、大型语言模型、边缘计算、图形和视频、企业AI以及设计与模拟等任务,AI模型训练和5G等多种任务可以在一台机器上处理,而且可以轻松地升级到未来多代硬件,MGX还可以轻松集成到云和企业数据中心。
AI芯片之争远未结束
大模型AI的训练需要超大的GPU和全新的集成电路。除了NVIDIA之外,其它供应商也在纷纷布局AI芯片,AMD和IBM都在开发自己的芯片。Broadcom在竞争商业芯片的市场,围绕智能网卡以及与Marvell共同竞争通信连接芯片。Apple、Tesla和Meta也在各自构建自己的半导体能力,来自中国的阿里、腾讯、华为等也在试图获得硅芯片独立性。
WIKIBON认为NVIDIA在AI领域的领导优势来自GPU技术和创新的CUDA软件,NVIDIA也会持续向自己的产品组合中增加更多的神经网络,而Apple和Tesla也向神经网络领域进行了重大投资,Apple在消费计算领域有着垄断性优势、Tesla则侧重在自动驾驶领域的推理计算。而AWS、微软、谷歌、阿里等全都在开发自己的AI产品和芯片。当然,这些科技大厂的自研芯片并不对外销售,而只是用于内部提升自己的竞争力。
值得一提的是亚马逊对Annapurna的收购,让亚马逊具备了设计基于Arm架构芯片的能力。对于亚马逊来说,完全可以走上与NVIDIA类似的道路,自行设计自己的芯片产品系列并对外销售,再收购AI创业公司来增强产品组合能力。亚马逊公司已经具备了与NVIDIA竞争的潜在能力与可能,但可能正如Andy Jassy所言,“经验没有压缩算法”,如果亚马逊公司想成为一家芯片公司,还有很长的路要走。
淘金企业级AI市场
随着ChatGPT的成功,由OpenAI与微软合作开发的大语言模型,已经被成功应用于一系列概念验证性场景中,同时也显示了对于改进企业流程的潜在影响。对于企业来说,AI能够自动化工作任务、提升效率、写代码和减少错误,这些都能为企业带来显著的成本节约。通过WIKIBON对企业技术花费的分析,企业对于AI的投资正显著上升,同时降低了在其它技术领域的花费以平衡对于AI的强化投资。
微软与OpenAI的结盟,显著提升了微软在企业IT领域的地位。特别是微软正将以ChatGPT为代表的大模型AI带入微软云中,而微软云强大的基础设施可让更多的企业和创业公司训练大模型。WIKIBON认为尽管大模型AI获得了市场的各种热炒,但截止到5月初的微软OpenAI实际客户数仅有2500家,而微软的混合云管理平台Azure Arc却有超过1.5万家客户,因此即使是微软也仅仅触及了大模型AI的表面。
AWS亚马逊云科技在4月份宣布了自己的大语言模型,引发了用户的极大兴趣,可以说来自客户的铺天盖地的需求是关于大模型以及采用新的芯片对大模型提供支持。AWS也与Hugging Face等生态合作伙伴一起,提供更多的大模型选择。目前,AWS提供文本、图像和其它内容的大模型API,也提供Anthropic、AI21 Labs、Stability AI以及Amazon自有Titan等大模型选择。总体来说,亚马逊公司的策略是提供多样、可定制的AI解决方案以及合作伙伴生态以在快速进化的市场中保持竞争力。
Snowflake在最新一季财报中勉强实现了财务目标,但对于下半年的市场极为谨慎。这一方面是当前经济环境造成了市场下行,在没有大量损失客户的前提下,仍然对Snowflake的财务前景造成了不利影响,例如企业CFO们在修改数据存储保留策略,要求减少存储花费并让查询更加快速;另一方面是当前的AI热炒,让很多企业都采取了观望态度而冻结了技术投资,这进一步造成了技术领域花费的下降趋势。Databricks是一家非常成功的大数据公司,但AI的快速发展可能造成数据库的“隐形”,大数据和数据库的管理由AI自动化完成,数据存储由开发者和应用所控制,这将改写Databricks的现有“剧本”。
AI混合超级多云
在混合多云领域,Red Hat与Dell在不断加强相互的合作,VMware的未来在不断演进,其他混合/跨云玩家包括Cloudflare、Equinix、HPE、IBM、Oracle等,都在不同程度受到大模型AI的冲击。
Red Hat Openshift是超级云的技术底座,它让开发者能够跨本地数据中心以及任何云构建一致的技术体验。OpenStack在私有云领域发挥了重要作用,但也有不少企业或厂商采用OpenStack支持混合部署。例如沃尔玛的Walmart Cloud Native Platform就采用了Red Hat OpenStack,许多电信运营商将Red Hat OpenStack用于管理内部云。对于Red Hat来说,加入AI元素将让Red Hat获得更加巩固的市场地位,特别是将AI与Ansible结合,形成类似GitHut Copilot for DevOps的产品,这将成就下一代基于AI的自动化工具。
Dell APEX和HPE GreenLake在市场上也都获得了客户的认可,同时在商业上也取得了一定的成功,例如HPE GreenLake就实现了超过10亿美元的年运营收入。Dell APEX则不像HPE GreenLake那样完全聚焦于“即服务”模型,而是采取了更为平衡的方式。Equinix作为数据中心colocation服务的提供商,几乎是所有基础设施玩家的必备合作伙伴,Cloudflare作为混合云连接的必要技术也几乎是所有云的必备合作伙伴。这些玩家将如何与大模型AI结合,还需拭目以待。
WIKIBON认为全球的云计算市场已经达到了一个平衡点。根据ETR企业技术花费调研,半数受调查企业的工作负载仍在本地数据中心,约为57%,并预期到2025年降至低于50%,但无法达到之前所预期的90%上云率。此外,只有约14%的受调查企业是全部采用了公有云。公有云与私有云达到了一定的平衡,这是因为Dell、HPE、IBM、Red Hat、Oracle和其他传统IT供应商在紧跟云原生技术,从而实现了更适合企业的混合云方案。而新的公有云增长,将来自Data Apps数据应用以及新的行业解决方案如机器人、电信和大模型AI等。
Oracle的本地与公有云同构架构,为混合云指出了方向并耗费了十年之功以达到技术成熟度。VMware Cloud也在混合云方面取得了显著成功。接下来主要的混合云方向,就是超级云。所谓超级云,就是对多个互联的云作为一个实体进行统一管理,这其中也包括本地数据中心和混合云。众多传统IT供应商都试图在“超级云”方向有所突破,尽管各家的叫法不同,但都是跨云的愿景。
在“超级云”方向,WIKIBON认为Red Hat和Dell都各有优势。Red Hat与IBM合作将AI注入到Ansible,再加上IBM WatsonX,将造就Ansible版本的“Ansible Copilot for DevOps”。而在最新的Dell Technologies World 2023上推出了一系列的Dell Apex新品,支持一致的多云运营,特别是新推出的Dell Apex Cloud Platform for Microsoft Azure、Dell Apex Cloud Platform for Red Hat OpenShift、Dell Apex Cloud Platform for VMware等满足了客户在微软云、OpenShift/Kubernetes和VMware三大技术栈方面的一致体验要求。
总结而言:大模型AI对于整个云与AI产业来说,将产生深远而持久的影响。尽管当前大模型AI、生成式AI和AI生成内容等对于用户的影响还十分有限,但大模型AI所代表的通用人工智能方向将持久存在。随着企业与消费者对于通用人工智能需求的逐步上升,大模型AI将再次革新云计算产业,对通用工业标准服务器和云基础设施的通用化带来全新的变革。(文/宁川)