2024年4月,科技巨头Meta发布了其最新的AI大型语言模型——Llama 3,该模型基于一个至少比前代产品Llama 2大七倍的数据集,展现出前所未有的性能。在最初发布时,Llama 3提供了8B和70B两种参数规模的版本,并迅速超越了Google的开源Gemma模型和Anthrophic的Claude Sonnet。此后,Sonnet经过升级,成为最强大的AI模型之一。
高效而强大
据内部消息人士泄露,Meta正在准备推出一款训练参数超过4000亿的Llama 3模型,这将是市场上最强大的语言模型之一。目前,Meta正在利用其其数十万个Nvidia H100 GPU资源,积极研发更多创新模型。
在早期测试中,Llama 3 400B的表现已经达到了与OpenAI的GPT-4相媲美的水平,在MMLU基准测试中得分为86.1,尽管使用的参数不到后者的一半。
参数更多的大型语言模型往往在基准测试和实际任务上表现更好。但Llama 3 400B能够几乎与GPT-4的MMLU得分匹敌,且参数不到50%,这表明Meta在模型架构和训练方面已经取得足够的进步,足以给OpenAI带来严峻的竞争。
通过用更少的参数达到相同的性能,Llama 3 400B可能在计算资源、能源消耗和成本方面比OpenAI的ChatGPT 4更为高效。
开源的优势
人们对Llama 3如此兴奋的另一个重要原因是,它已经在一个开放许可下发布,供研究和商业使用。尽管目前尚不清楚400B是否也将在同样的开放许可下发布。
如果它作为一个开放模型发布,那么这些最先进的语言能力现在将通过多个云平台和生态系统免费提供给研究人员和开发人员,加速创新并使技术的更多新颖应用成为可能。
随着新的400B模型具备足够的能力与ChatGPT 4竞争,这将大大增强研究人员的能力。这将允许更快速地开发高级语言AI应用,无需依赖昂贵的专有API。
目前释放的信息
Meta AI自4月18日关于Llama 3的原始新闻发布以来,一直在暗示400B模型的发布。“我们最大的模型超过400B参数,”它当时写道,并补充说“在接下来的几个月,我们将发布多个具有新能力的模型,包括多模态、多语言对话能力、更长的上下文窗口和更强的整体能力。
自那时起,互联网上充斥着关于400B模型可能发布日期的理论和想法。尽管Meta的人员已确认Llama 3 400B的开发已经完成,但截至目前尚未宣布官方发布日期。
不过,一些细心的WhatsApp Beta用户已经在Android版本2.24.14.7中发现了尝试Meta AI的Llama 3-405B模型的新选项,虽然这一功能目前仅限beta用户体验,并且使用量有所限制,但这已足以激起公众对于这一顶级模型全面发布的期待,预计发布时间可能在2024年晚些时候。