每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/
Meta,一个疯狂追赶生成式AI领域对手的科技巨头,正在其自家AI研发上砸下数十亿美元。这些投资中的一部分用于招募AI研究人员,更大一块则用于开发硬件,尤其是用于运行和训练Meta AI模型的芯片。
就在英特尔宣布其最新AI加速硬件的次日,Meta今日也大张旗鼓地展示了其芯片开发的最新成果——被称为“下一代”的Meta训练与推断加速器(MTIA),是去年MTIA v1的后继产品。这款芯片的应用场景包括在Meta旗下的平台(例如Facebook)上对显示广告进行排名和推荐。
与基于7纳米工艺的MTIA v1相比,新一代的MTIA使用了5纳米工艺。在芯片制造中,“工艺”指的是芯片上可以构建的最小组件的大小。新一代的MTIA设计上体积更大,内置了更多的处理核心。尽管其功耗更高——90瓦特对比25瓦特——但它拥有更多的内存(128MB对比64MB)并且运行的平均时钟速度更高(从800MHz提升到1.35GHz)。
Meta表示,新一代MTIA目前已在其16个数据中心区域投入使用,并且与MTIA v1相比,整体性能提升了高达3倍。如果你觉得这个“3倍”的说法听起来有些模糊,那你并不孤单——我们也这么认为。但Meta只是透露,这一数据是通过在两款芯片上测试“四个关键模型”的性能得出的。
Meta在一篇与TechCrunch共享的博客文章中写道:“因为我们控制了整个堆栈,我们能够比商用GPU实现更高的效率。”
Meta的硬件展示——在公司各种持续的生成式AI计划的新闻发布会后仅24小时进行——出于几个原因而不同寻常。
一是Meta在博客中透露,目前并没有使用新一代MTIA来进行生成式AI的训练工作,尽管公司声称正在探索“几个相关计划”。二是Meta承认,新一代MTIA不会取代GPU来运行或训练模型——而是将与之互补。
言下之意,Meta的进展缓慢——可能比他们期望的还要慢。
Meta的AI团队几乎可以肯定正面临削减成本的压力。该公司预计到2024年底将在GPU上投资约180亿美元,用于训练和运行生成式AI模型,而这些模型的训练成本高达数千万美元——自研硬件显然是一个具有吸引力的替代方案。
而在Meta的硬件发展缓慢之时,其竞争对手正快速前进,这无疑让Meta的领导层感到焦虑。
就在本周,谷歌将其第五代定制AI训练芯片TPU v5p向Google Cloud客户全面开放,并推出了其首个专用于运行模型的芯片Axion。亚马逊已经拥有几个定制AI芯片系列。而微软去年也加入了竞争,推出了Azure Maia AI加速器和Azure Cobalt 100 CPU。
Meta在博客中表示,从首次使用硅片到生产模型,新一代MTIA仅用了不到九个月的时间,这其实比Google TPUs的典型窗口时间还要短。但如果Meta希望实现从第三方GPU中独立出来,并与激烈的竞争对手匹敌,它还有很长的路要走。