昨夜,Meta宣布推出迄今为止最强大的开源模型——Llama 3.1 405B,支持上下文长度为128K Tokens,在基于15万亿个Tokens、超1.6万个H100 GPU上进行训练,这也是Meta有史以来第一次以这种规模训练Llama模型。Meta同时还发布了全新升级的Llama 3.1 70B和8B模型。Llama 3.1 405B研究人员基于超150个基准测试集的评测结果显示,Llama 3.1 405B可与GPT-4o、Claude 3.5 Sonnet和Gemini Ultra等头部模型媲美。
Meta公司CEO马克·扎克伯格撰写长文,除宣布发布 Llama 3.1 模型外,还阐述开源 AI 的重要性。他表示,这些模型具有高性能、开放性和可定制性,并得到广泛生态系统的支持。“我们发布了Llama 3.1 405B,这是第一个前沿级别的开源人工智能模型。除了与闭源模型相比具有显著更好的性能比之外,405B模型的开放性将使其成为微调和蒸馏更小模型的最佳选择。”
开源AI将成为行业主流
扎克伯格以Linux操作系统取代闭源Unix为例,提出开源AI将凭借开放性、可修改性和成本效益优势,超越闭源模型,成为行业主流的观点。“当你考虑未来的机遇时,请记住,当今大多数领先的科技公司和科学研究都是建立在开源软件之上的。如果我们共同投资,下一代公司和研究将使用开源人工智能”。
扎克伯格提到,与世界各地的开发者、首席执行官和官员交谈时,通常会听到几个观点。
第一,用户需要训练、微调和蒸馏自己的模型。每个用户用对模型的规模都有其独特的需求,期望这些模型可以根据其特定的数据进行训练或微调。对于设备上的任务和分类任务,小模型足矣;而对于更加复杂的任务,则需要大模型。“现在,你可以利用最先进的Llama模型,用你自己的数据继续训练它们,然后将它们蒸馏成一个最适合你需要的模型尺寸——而无需让我们或任何其他人看到你的数据”。扎克伯格说。
第二,用户需要控制自己的命运,不想被闭源模型供应商限制。许多用户不希望依赖其无法自行运行和控制的模型。他们不希望闭源模型提供者能够更改模型、修改使用条款,甚至完全停止服务。用户也不想被限制在只有一个云平台拥有模型独家使用权。“开源允许广泛的公司生态系统拥有兼容的工具链,使你可以轻松地在它们之间迁移”。
第三,用户需要保护自己的数据安全。许多用户处理敏感数据时需要加以保护,不能通过闭源模型的云API发送。还有一些用户根本不信任闭源模型提供者处理他们的数据。“开源通过允许你在任何地方运行模型来解决这些问题。普遍认为,开源软件通常更安全,因为它的开发过程更加透明”。
第四,用户需要运行效率高且能负担得起使用成本的模型。“开发者可以在自己的基础设施上,以大约使用闭源模型如GPT-4o一半的成本,运行Llama 3.1 405B的推理,无论是面向用户的还是离线推理任务”。
第五,用户希望投资能够成为长期标准的生态系统。许多用户看到开源的发展速度比闭源模型快,希望自己的系统能建立在能给他们带来最大长期优势的架构上。
扎克伯格认为开源AI的具有诸多优势。对开发者而言,可自定义模型、控制数据安全、降低成本、构建长期生态系统;从Meta的角度来看,可以避免技术锁定、促进创新、建立开源生态;从大模型发展的角度来看,可以推动技术进步,因开源模型更透明,可广泛审查,有助于提高安全性。
扎克伯格表示,开源AI 代表着利用这项技术为每个人创造最大经济机会和安全的最佳机会,并呼吁更多人加入开源 AI 的旅程。“我相信开源对于推动人工智能未来积极发展至关重要。人工智能比任何其他现代技术都有更大的潜力来提升人类的生产力、创造力和生活质量——并加速推动经济增长,同时推动医学和科学研究的进步。开源将确保全球更多的人能够享受人工智能带来的好处和机会,权力不会集中在少数公司手中,技术可以更均匀、更安全地在社会中部署”。
Meta 承诺构建更广泛的生态系统 使Llama成为行业标准
Meta承诺将继续推动开源 AI 的发展,与社区和合作伙伴合作,构建更广泛的生态系统。
除了发布这些模型外,扎克伯格表示Meta正与一系列公司合作,以发展更广泛的生态系统。亚马逊、Databricks和英伟达正在推出一整套服务,支持开发者微调和蒸馏自己的模型。像Groq这样的创新者已经为所有新模型构建了低延迟、低成本的推理服务。这些模型将在所有主要云平台上提供,包括AWS、Azure、Google、Oracle等。像Scale.AI、Dell、德勤等公司已准备好帮助企业采用Llama,并用他们自己的数据训练定制模型。“随着社区的增长和更多公司开发新服务,我们可以共同使Llama成为行业标准,将AI的好处带给每个人”。
Meta为什么要致力于开源人工智能?开源Llama会失去技术优势吗?“我认为开源是最好的开发堆栈,是一个长期可持续的平台。”扎克伯格说。首先,为了确保Llama能够获取最佳技术,并且长期不会被锁定在闭源生态系统中,Llama需要发展成为一个完整的工具生态系统,包括效率提升、硅片优化和其他集成。“如果我们是唯一使用Llama的公司,这个生态系统就不会发展起来,我们的表现也不会比Unix的闭源版本更好”。
其次,人工智能非常具有竞争力,这意味着开源任何特定模型并不会在当时具有比下一个最佳模型更大的优势。“Llama成为行业标准的道路是通过持续保持竞争力、效率和开放性,一代又一代地发展”。
再次,Meta与闭源模型提供者的一个关键区别在于,出售对人工智能模型的访问并不是Llama的商业模式。“这意味着公开发布Llama并不会削弱我们的收入、可持续性或研究投资能力,而这对于闭源提供者来说则不然”。
最后,Meta有着长期的开源项目和成功的历史。“我们通过发布服务器、网络和数据中心设计,并让供应链标准化设计,通过Open Compute项目节省了数十亿美元。我们通过开源诸如PyTorch、React等领先工具,从生态系统的创新中受益。长期坚持这种方法对我们始终有效”。