Llama 4全面评测:官方数据亮眼,社区测试显不足之处

news2025/4/15 15:13:49

引言

2025年4月,Meta正式发布了全新的Llama 4系列模型,这标志着Llama生态系统进入了一个全新的时代。Llama 4不仅是Meta首个原生多模态模型,还采用了混合专家(MoE)架构,并提供了前所未有的上下文长度支持。本文将详细介绍Llama 4的主要特性、技术创新以及社区对这次更新的相关评测结果,帮助您全面了解这一AI领域的重大突破。

Llama 4系列模型概览

Llama 4系列模型概览

Meta此次推出了Llama 4系列的三个主要模型:

  1. Llama 4 Scout:拥有17B活跃参数和16个专家,总参数量为109B。它是同类中最佳的多模态模型,可以在单个NVIDIA H100 GPU上运行,并提供业界领先的1000万token上下文窗口。

  2. Llama 4 Maverick:拥有17B活跃参数和128个专家,总参数量为400B。它在多项广泛报告的基准测试中击败了GPT-4o和Gemini 2.0 Flash,同时在推理和编码方面与新的DeepSeek v3取得了相当的结果,但活跃参数不到后者的一半。

  3. Llama 4 Behemoth:拥有288B活跃参数和16个专家,总参数量接近2万亿。作为Meta最强大的LLM,它在多项STEM基准测试中优于GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro。目前该模型仍在训练中,尚未公开发布。

值得注意的是,虽然Llama 4 Maverick的总参数量为400B,但在处理每个token时,实际参与计算的"活跃参数"始终是17B。这大大降低了推理和训练的延迟。

技术创新与突破

混合专家(MoE)架构:效率与性能的完美平衡

Llama 4 MoE架构示意图

Llama 4是Meta首次使用混合专家(MoE)架构的模型。在MoE模型中,单个token只激活总参数的一小部分。这种架构在训练和推理方面更加计算高效,与固定训练FLOP预算相比,能够提供更高的质量。

例如,Llama 4 Maverick模型有17B活跃参数和400B总参数。它使用交替的密集层和混合专家(MoE)层来提高推理效率。MoE层使用128个路由专家和一个共享专家。每个token都会被发送到共享专家和128个路由专家中的一个。因此,虽然所有参数都存储在内存中,但在提供这些模型服务时,只有一部分总参数被激活。

原生多模态能力:视觉与文本的无缝融合

Llama 4模型设计具有原生多模态性,通过早期融合将文本和视觉token无缝集成到统一的模型主干中。早期融合是一个重大进步,因为它使模型能够用大量未标记的文本、图像和视频数据联合预训练。

这些模型在各种图像和视频帧上进行了训练,以提供广泛的视觉理解能力,包括时间活动和相关图像。这使得模型能够轻松处理多图像输入和文本提示,用于视觉推理和理解任务。模型在预训练阶段支持多达48张图像,并在后训练阶段测试中显示出良好的结果,最多支持8张图像。

超长上下文支持:突破性的1000万token容量

Llama 4 Scout将支持的上下文长度从Llama 3的128K大幅增加到业界领先的1000万token。这开启了许多可能性,包括:

  • 多文档摘要生成
  • 解析大量用户活动进行个性化任务
  • 对庞大代码库的深度推理
  • 长文本理解与分析

技术实现:Llama 4 Scout在预训练和后训练阶段都使用了256K上下文长度,这使基础模型具备了先进的长度泛化能力。Llama 4架构的一个关键创新是使用交替注意力层(无位置嵌入)。此外,还采用了推理时间注意力温度缩放来增强长度泛化。这种架构被称为iRoPE,其中"i"代表"交替"注意力层,突出了支持"无限"上下文长度的长期目标,而"RoPE"指的是大多数层中使用的旋转位置嵌入。

训练方法与优化

预训练创新:MetaP超参数设置技术

Meta开发了一种新的训练技术,称为MetaP,它允许可靠地设置关键模型超参数,如每层学习率和初始化比例。这些超参数在不同的批量大小、模型宽度、深度和训练token上都能很好地迁移。

Llama 4通过在200种语言上进行预训练来支持开源微调工作,其中超过100种语言的token超过10亿个,总体上比Llama 3多10倍的多语言token。

此外,Meta还专注于高效的模型训练,使用FP8精度,同时不牺牲质量并确保高模型FLOP利用率。在使用FP8和32K GPU预训练Llama 4 Behemoth模型时,每个GPU达到了390 TFLOP。总体数据混合训练包含超过30万亿个token,是Llama 3预训练混合的两倍多,包括多样化的文本、图像和视频数据集。

后训练优化:创新的三阶段训练流程

Meta为Llama 4 Maverick模型采用了全新的后训练流程:

  1. 轻量级监督微调(SFT)
  2. 在线强化学习(RL)
  3. 轻量级直接偏好优化(DPO)

关键发现:SFT和DPO可能会过度约束模型,限制在线RL阶段的探索,导致次优精度,特别是在推理、编码和数学领域。

解决方案:Meta通过使用Llama模型作为评判标准,移除了超过50%被标记为"简单"的数据,并对剩余的更难数据集进行轻量级SFT。在随后的多模态在线RL阶段,通过仔细选择更难的提示,实现了性能的大幅提升。

模型评测与性能对比

Llama 4系列官方评测结果

从Meta官方给出的评测结果可以看出,Llama 4 Maverick主要是全面对标GPT-4o和Gemini 2.0 Flash,同时作为开源模型,也与DeepSeek v3进行了对比。

Llama 4 Maverick与主流大模型性能对比

而Llama 4 Scout则主要对标轻量级的模型,比如Gemma 3、Gemini 2.0 Flash-Lite等。

Llama 4 Scout与轻量级模型性能对比

尚未发布的最强模型Llama 4 Behemoth,从数据上显著优于Claude 3.7 Sonnet和Gemini 2.0 Pro。

Llama 4 Behemoth与顶级商业模型性能对比

社区独立评测结果

官方评测自然只是一家之言,社区评测则更为客观。以下是来自LMArena的评测结果,可以看到,Llama 4 Maverick仅次于Google刚发布不久的Gemini-2.5-Pro,位居第二。

LMArena社区评测结果

编码能力与Agent能力评测

对于AI研究者和开发者来说,编码能力和Agent能力是评判大语言模型实用性的重要指标。

编码能力评测:从Aider Polyglot leaderboard的结果来看,即使是Llama 4 Maverick,在编码能力上也排名相当靠后,基本就是DeepSeeK V2.5的水平,这与预期有一定差距。

Llama 4编码能力评测结果

Agent能力评测:在huggingface agent leaderboard中,Llama 4 Maverick甚至连前20都排不进去。不仅与商业模型相比有差距,就是与开源的Qwen和DeepSeek相比,也略显不足,甚至不如自家上一代的Llama-3.3,这一点令人意外。

Llama 4 Agent能力评测结果

这两项特别关键的评测中,Llama 4的表现都不尽如人意,期待官方之后能继续优化或对测试结果做出合理解释。

总结

总体来说,Llama 4系列模型在技术上实现了多项创新:

  • 首次采用MoE架构,大幅提升计算效率
  • 原生多模态能力,实现文本与视觉的深度融合
  • 突破性的1000万token超长上下文支持
  • 创新的训练方法与优化技术

然而,在实际社区评测中,特别是在编码能力和Agent能力方面,Llama 4系列的表现还有待提高。作为Meta新一代的开源模型,Llama 4理应在各方面取得更好的评测结果,但目前看来,距离预期还有一定差距。

应用前景:作为问答模型,Llama 4表现尚可,但作为智能体的大脑,还需进一步优化。目前的表现似乎更适合考试场景,而非实战应用,暂时还未能进入我的AI智能体大脑候选列表。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2334213.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【C++】函数直接返回bool值和返回bool变量差异

函数直接返回bool值和返回bool变量差异 背景 在工作中遇到一个比较诡异的问题,场景是给业务方提供的SDK有一个获取状态的函数GetStatus,函数的返回值类型是bool,在测试过程中发现,SDK返回的是false,但是业务方拿到的…

第1节:计算机视觉发展简史

计算机视觉与图像分类概述:计算机视觉发展简史 计算机视觉(Computer Vision)作为人工智能领域的重要分支,是一门研究如何使机器"看"的科学,更具体地说,是指用摄影机和计算机代替人眼对目标进行识…

英伟达Llama-3.1-Nemotron-Ultra-253B-v1语言模型论文快读:FFN Fusion

FFN Fusion: Rethinking Sequential Computation in Large Language Models 代表模型:Llama-3.1-Nemotron-Ultra-253B-v1 1. 摘要 本文介绍了一种名为 FFN Fusion 的架构优化技术,旨在通过识别和利用自然并行化机会来减少大型语言模型(LLM…

云曦月末断网考核复现

Web 先看一个BUUCTF中的文件一个上传题 [BUUCTF] 2020新生赛 Upload 打开后是一个文件上传页面 随便上传一个txt一句话木马后出现js弹窗,提示只能上传图片格式文件 说明有前端验证。我的做法是把一句话改为.jpg格式, 然后上传 访问发现虽然上传成功了…

Flutter常用组件实践

Flutter常用组件实践 1、MaterialApp 和 Center(组件居中)2、Scaffold3、Container(容器)4、BoxDecoration(装饰器)5、Column(纵向布局)及Icon(图标)6、Column/Row(横向/横向布局)+CloseButton/BackButton/IconButton(简单按钮)7、Expanded和Flexible8、Stack和Po…

0.机器学习基础

0.人工智能概述: (1)必备三要素: 数据算法计算力 CPU、GPU、TPUGPU和CPU对比: GPU主要适合计算密集型任务;CPU主要适合I/O密集型任务; 【笔试问题】什么类型程序适合在GPU上运行&#xff1…

系统与网络安全------网络通信原理(4)

资料整理于网络资料、书本资料、AI,仅供个人学习参考。 网络层解析 IP 网络层概述 位于OSI模型第三层作用 定义网络设备的逻辑地址,俗称网络层地址(如IP地址) 在不同的网段之间选择最佳数据转发路径 协议 IP协议 IP数据包…

Java基础 4.12

1.方法的重载(OverLoad) 基本介绍 Java中允许同一个类,多个同名方法的存在,但要求形参列表不一致! 如 System.out.println(); out是PrintStream类型 重载的好处 减轻了起名的麻烦减轻了记名的麻烦 2.重载的快速入…

XILINX DDR3专题---(1)IP核时钟框架介绍

1.什么是Reference Clock,这个时钟一定是200MHz吗? 2.为什么APP_DATA是128bit,怎么算出来的? 3.APP :MEM的比值一定是1:4吗? 4.NO BUFFER是什么意思? 5.什么情况下Reference Clock的时钟源可…

clickhouse注入手法总结

clickhouse 遇到一题clickhouse注入相关的,没有见过,于是来学习clickhouse的使用,并总结相关注入手法。 环境搭建 直接在docker运行 docker pull clickhouse/clickhouse-server docker run -d --name some-clickhouse-server --ulimit n…

React 组件样式

在这里插入图片描述 分为行内和css文件控制 行内 通过CSS中类名文件控制

利用 pyecharts 实现地图的数据可视化——第七次人口普查数据的2d、3d展示(关键词:2d 、3d 、map、 geo、涟漪点)

参考文档:链接: link_pyecharts 官方文档 1、map() 传入省份全称,date_pair 是列表套列表 [ [ ],[ ] … ] 2、geo() 传入省份简称,date_pair 是列表套元组 [ ( ),( ) … ] 1、准备数据 population_data:简称经纬度 population_da…

解决 Elasticsearch 分页查询性能瓶颈——从10分钟到秒级的优化实践

大家好,我是铭毅天下,一名专注于 Elasticsearch (以下简称ES)技术栈的技术爱好者。 今天我们来聊聊球友提出的一个实际问题: ES分页查询性能很差,使用from/size方式检索居然需要10分钟! 这是一个…

记录IBM服务器检测到备份GPT损坏警告排查解决过程

服务器设备:IBM x3550 M4 Server IMM默认IP地址:192.168.70.125 用户名:USERID 密码:PASSW0RD(注意是零0) 操作系统:Windows Hyper-V Server 2016 IMM Web System Status Warning&#xff1…

毫米波测试套装速递!高效赋能5G/6G、新材料及智能超表面(RIS)研发

德思特(Tesight)作为全球领先的测试测量解决方案提供商,始终致力于为前沿技术研发提供高精度、高效率的测试工具。 针对毫米波技术在高频通信、智能超表面(RIS)、新材料等领域的快速应用需求,我们推出毫米…

Linux中卸载宝塔面板

输入命令 wget http://download.bt.cn/install/bt-uninstall.sh 执行脚本命令 sh bt-uninstall.sh 根据自己的情况选择1还是2 卸载完成校验 bt 这样我们的宝塔面板就卸载完了

无人机的振动与噪声控制技术!

一、振动控制技术要点 1. 振动源分析 气动振动:旋翼桨叶涡脱落(如叶尖涡干涉)、动态失速(Dynamic Stall)引发的周期性气动激振力(频率与转速相关)。 机械振动:电机偏心、传动轴不…

【蓝桥杯】第十六届蓝桥杯 JAVA B组记录

试题 A: 逃离高塔 很简单,签到题,但是需要注意精度,用int会有溢出风险 答案:202 package lanqiao.t1;import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWrit…

OSPF的接口网络类型【复习篇】

OSPF在不同网络环境下默认的不同工作方式 [a3]display ospf interface g 0/0/0 # 查看ospf接口的网络类型网络类型OSPF接口的网络类型(工作方式)计时器BMA(以太网)broadcast ,需要DR/BDR的选举hello:10s…

python+requests接口自动化测试框架实例教程

🍅 点击文末小卡片 ,免费获取软件测试全套资料,资料在手,涨薪更快 前段时间由于公司测试方向的转型,由原来的web页面功能测试转变成接口测试,之前大多都是手工进行,利用postman和jmeter进行…