Llama 4 家族:原生多模态 AI 创新的新时代开启

news2025/4/9 10:05:34

0 要点总结

  • Meta发布 Llama 4 系列的首批模型,帮用户打造更个性化多模态体验
  • Llama 4 Scout 是有 170 亿激活参数、16 个专家模块的模型,同类中全球最强多模态模型,性能超越以往所有 Llama 系列模型,能在一张 NVIDIA H100 GPU 上运行。该模型支持业界领先的 1000 万上下文窗口,在多个权威测试中表现优于 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1
  • Llama 4 Maverick 也拥有 170 亿激活参数,但配置多达 128 个专家模块,是同类中最强的多模态模型,在多个广泛测试中超越 GPT-4o 和 Gemini 2.0 Flash,推理和编程能力可与 DeepSeek v3 相当,但激活参数数量不到其一半。其聊天版在 LMArena 上取得了 1417 的 ELO 分数,性能与成本比行业领先
  • 这些出色的模型得益于“教师模型” Llama 4 Behemoth 的知识蒸馏。Behemoth 拥有 2880 亿激活参数和 16 个专家模块,是我们最强大的模型,在多项 STEM 基准测试中超越 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。目前该模型仍在训练中,我们将持续分享更多细节。
  • 立即前往 llama.com 或 Hugging Face 下载 Llama 4 Scout 与 Maverick。也可在 WhatsApp、Messenger、Instagram 私信体验基于 Llama 4 构建的 Meta AI。

随 AI 在日常生活中的广泛应用,确保领先的模型与系统开放可用,对推动个性化体验创新至关重要。支持整个 Llama 生态 的最先进模型组合。正式推出的 Llama 4 ScoutLlama 4 Maverick,是首批开放权重、原生多模态、支持超长上下文窗口、采用 MoE架构构建的模型。“巨兽”—— Llama 4 Behemoth,不仅是迄今最强大的模型之一,也是新一代模型的“老师”。

这些 Llama 4 模型的发布标志着 Llama 生态迈入新纪元。Llama 4 系列中的 Scout 和 Maverick 都是高效设计的模型:

  • 前者能以 Int4 量化方式部署在单张 H100 GPU 上
  • 后者则适配于单个 H100 主机

训练了 Behemoth 教师模型,在 STEM 基准(如 MATH-500 和 GPQA Diamond)中表现优于 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。

开放才能推动创新,对开发者、Meta 和整个世界都是利好。可通过 llama.com 和 Hugging Face 下载 Scout 与 Maverick。同时,Meta AI 也已在 WhatsApp、Messenger、Instagram 私信启用 Llama 4 模型。

这只是 Llama 4 系列的开始。最智能的系统应能泛化行动、自然对话并解决未曾遇到的问题。赋予 Llama 在这些领域的“超能力”,将催生更优质的产品和更多开发者创新机会。

无论你是构建应用的开发者,集成 AI 的企业用户,或是对 AI 潜力充满好奇的普通用户,Llama 4 Scout 和 Maverick 都是将下一代智能融入产品的最佳选择。接下来,介绍它们的四大研发阶段以及设计过程中的一些关键洞察。

1 预训练阶段

这些模型代表 Llama 系列的巅峰之作,具备强大多模态能力,同时在成本上更具优势,甚至性能超越了一些参数规模更大的模型。为打造 Llama 下一代模型,在预训练阶段采用了多项新技术。

MoE

Llama 4是首批采用MoE的模型。MoE架构的一个核心优势:每个 token 只激活模型中一小部分参数,从而大幅提高训练与推理的效率。在给定的 FLOPs(浮点运算)预算下,MoE 模型的效果优于传统的密集模型。

img

Llama 4 Maverick 为例:它拥有 170 亿激活参数,总参数数为 4000 亿。其网络结构在推理过程中交替使用密集层与 MoE 层。每个 token 会被送入一个共享专家和一个 128 个路由专家之一,这种机制确保模型在保持全参数存储的同时,仅激活必要部分,从而提升运行效率、降低成本与延迟。Maverick 可在一台 NVIDIA H100 DGX 主机上运行,也支持分布式部署以实现最大效率。

Llama 4 天生支持多模态输入,采用 早期融合(early fusion)机制,将文本与视觉 token 一体化输入模型主干。使得能用大量未标注的文本、图像和视频数据对模型进行联合预训练。同时,升级视觉编码器,基于 MetaCLIP 的改进版,在预训练阶段与冻结的 Llama 主干协同优化。

新训练方法MetaP

精确控制每层学习率和初始化比例。这些超参数在不同 batch size、模型宽度、深度和 token 数下都具有良好的迁移性。Llama 4 预训练涵盖 200 多种语言,其中 100 多种语言的数据量超过 10 亿 tokens,总体上多语种训练 token 数量是 Llama 3 的 10 倍。

FP8 精度

FP8 精度 进行训练,保持模型质量的同时提高训练效率。如训练 Behemoth 时,用 32000 张 GPU,并实现 390 TFLOPs/GPU 的高效能。整个训练数据超过 30 万亿个 token,是 Llama 3 的两倍,数据类型包含多样的文本、图像和视频内容。

训练中期,采用“mid-training”阶段,通过专门数据集提升模型的核心能力,如支持更长上下文的能力。得益于这些改进,Llama 4 Scout 实现 业界领先的 1000 万 token 输入长度

2 后训练阶段

新模型有大小多种选择,以满足不同应用场景与开发者需求。Llama 4 Maverick 在图像和文本理解方面表现卓越,是多语言 AI 应用和创意写作的理想选择。

后训练阶段最大的挑战是保持不同输入模态、推理能力与对话能力之间的平衡。为此,设计“多模态课程”训练策略,确保模型不因学习多模态而牺牲单一模态性能。更新了后训练流程,采取轻量监督微调(SFT)> 在线强化学习(RL)> 轻量偏好优化(DPO)的方式。发现SFT 与 DPO 若使用不当,会限制模型在 RL 阶段的探索,特别是在推理、编程和数学领域会导致效果下降。

为解决这问题,剔除超过 50% 的“简单样本”,仅对更难数据进行 SFT。之后 RL 阶段用更具挑战性提示,实现性能飞跃。采用 持续在线 RL 策略:训练模型 → 用模型筛选中等难度以上的提示 → 再训练,如此循环,有效平衡计算成本与精度。最终,我们通过轻量 DPO 优化边缘情况,全面提升模型的智能与对话能力。

Llama 4 Maverick 拥有 170 亿激活参数、128 个专家模块与 4000 亿总参数,在性能上超越 Llama 3.3 的 70B 模型。它是目前最顶级的多模态模型,在编程、推理、多语言、长文本与图像等任务中优于 GPT-4o 与 Gemini 2.0,与 DeepSeek v3.1 的表现不相上下。

[外链图片转存中…(img-Y4bYAPfr-1743952046715)]

Llama 4 Scout 是一款通用模型,具备 170 亿激活参数、16 个专家模块、1090 亿总参数,性能在同类模型中首屈一指。它将上下文长度从 Llama 3 的 128K 大幅提升至 1000 万 tokens,支持多文档摘要、个性化任务解析、大型代码库推理等复杂应用。

Scout 在预训练和后训练阶段都使用了 256K 上下文长度,从而拥有出色的长文本泛化能力。在文本检索、代码负对数似然(NLL)评估等任务中均表现优秀。其一大创新是采用了 不使用位置嵌入的交错注意力机制(iRoPE),通过 温度调节推理机制 提升了对超长输入的处理能力。

img

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们对两个模型都进行了广泛的图像和视频帧训练,以增强它们对视觉内容的理解能力,包括时间相关活动和图像之间的关联。这让模型在处理多图输入时能轻松地结合文字提示进行视觉推理与理解。预训练阶段使用最多48张图像的输入,并在后期测试中验证模型在处理最多8张图像时的良好表现。

Llama 4 Scout 在图像定位方面表现尤为出色,能够将用户的提示准确对应到图像中的具体视觉元素,实现更精确的视觉问答。这款模型在编程、推理、长文本理解和图像处理等方面全面超越以往版本的 Llama 模型,性能领先同类模型。

3 推出更大规模的 Llama:2 万亿参数巨兽 Behemoth

Llama 4 Behemoth——拥有高级智能的“教师模型”,在同类模型中表现领先。Behemoth 是一个多模态专家混合(MoE)模型,激活参数达 2880 亿,拥有 16 个专家模块,总参数量接近两万亿。在数学、多语言和图像基准测试中表现一流,因此成为训练更小的 Llama 4 模型的理想“老师”。

从 Behemoth 模型中通过“共蒸馏”(codistillation)技术训练出了 Llama 4 Maverick,有效提升了最终任务表现。我们还研发了一种全新的损失函数,能在训练过程中动态调整软标签和硬标签的权重。此外,我们还通过在 Behemoth 上运行前向传递,生成用于训练学生模型的数据,大幅降低了训练成本。

对这样一个拥有两万亿参数的模型,其后期训练本身就是一项巨大挑战。我们从数据量级就开始彻底改革训练方法。为提升性能,我们将监督微调(SFT)数据削减了95%(相比于小模型只需要削减50%),以更专注于数据质量和效率。

还发现:先进行轻量级的 SFT,再进行大规模强化学习(RL),能够显著提升模型的推理和编程能力。RL策略包括:

  • 使用 pass@k 方法选取具有挑战性的提示构建训练课程;
  • 动态过滤无效提示;
  • 混合多个任务的提示组成训练批次;
  • 使用多种系统指令样本,确保模型能广泛适应不同任务。

为支持 2 万亿参数的 RL 训练,重构了整个强化学习基础设施。对 MoE 并行架构进行了优化,提高训练速度,并开发了完全异步的在线 RL 框架,提升了训练的灵活性和效率。通过将不同模型分配到不同 GPU 并进行资源平衡,实现训练效率的近10倍提升。

4 安全机制与防护措施

致力打造有用且安全的模型,同时规避潜在的重大风险。Llama 4 遵循《AI 使用开发指南》中的最佳实践,从预训练到系统级都融入了防护机制,以保障开发者免受恶意行为干扰,从而开发出更安全、可靠的应用。

4.1 预训练与后训练防护

  • 预训练:使用数据过滤等方法保护模型。
  • 后训练:通过一系列技术确保模型遵循平台政策,保持对用户和开发者的友好性和安全性。

4.2 系统级方法

开源了多种安全工具,方便集成进 Llama 模型或第三方系统:

  • Llama Guard:与 MLCommons 联合开发的风险分类法构建的输入输出安全模型。
  • Prompt Guard:一个可识别恶意提示(如 Jailbreak 和提示注入)的分类模型。
  • CyberSecEval:帮助开发者了解和降低生成式 AI 网络安全风险的评估工具。

这些工具支持高度定制,开发者可根据应用需求进行优化配置。

4.3 安全评估与红队测试

我们在各种使用场景下进行系统化测试,并将测试结果反馈到模型后训练中。我们使用动态对抗性探测技术(包括自动和人工测试)来识别模型的潜在风险点。

一种新测试方式——生成式攻击智能代理测试(GOAT),可模拟中等技能水平的攻击者进行多轮交互,扩大测试覆盖范围。GOAT 的自动化测试能替代人工团队处理已知风险区域,让专家更专注于新型对抗场景,提高测试效率。

4.4 解决语言模型中的偏见问题

大型语言模型容易出现偏见,尤其在社会和政治话题上偏向自由派。这是因为网络训练数据本身就存在倾向性。

目标是消除偏见,让 Llama 能够公正地理解并表达有争议话题的不同观点,而非偏袒某一方。

Llama 4 在这方面取得了重大进展:

  • 拒答比例从 Llama 3 的 7% 降低至 Llama 4 的 2% 以下;
  • 对于具有争议性的问题,拒答不平衡的比例降至 1% 以下;
  • 表现出强烈政治倾向的响应率仅为 Llama 3 的一半,与 Grok 相当。

继续努力,进一步降低偏见水平。

5 探索 Llama 生态系统

除了模型智能,用户还希望模型反应个性化、速度快。Llama 4 是迄今为止最先进的模型,已为此进行优化。模型只是打造完整体验的一部分。

本项目感谢以下 AI 生态伙伴的大力支持(按字母顺序排列):
Accenture、Amazon Web Services、AMD、Arm、CentML、Cerebras、Cloudflare、Databricks、Deepinfra、DeepLearning.AI、Dell、Deloitte、Fireworks AI、Google Cloud、Groq、Hugging Face、IBM Watsonx、Infosys、Intel、Kaggle、Mediatek、Microsoft Azure、Nebius、NVIDIA、ollama、Oracle Cloud、PwC、Qualcomm、Red Hat、SambaNova、Sarvam AI、Scale AI、Scaleway、Snowflake、TensorWave、Together AI、vLLM、Wipro。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2329650.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

正则表达式(Regular Expression,简称 Regex)

一、5w2h(七问法)分析正则表达式 是的,5W2H 完全可以应用于研究 正则表达式(Regular Expressions)。通过回答 5W2H 的七个问题,我们可以全面理解正则表达式的定义、用途、使用方法、适用场景等&#xff0c…

JMeter脚本录制(火狐)

录制前准备: 电脑: 1、将JMeter证书导入,(bin目录下有一个证书,需要安装这个证书到电脑中) 2、按winr,输入certmgr.msc,打开证书,点击下一步,输入JMeter证书…

基于SpringBoot的“高校社团管理系统”的设计与实现(源码+数据库+文档+PPT)

基于SpringBoot的“高校社团管理系统”的设计与实现(源码数据库文档PPT) 开发语言:Java 数据库:MySQL 技术:SpringBoot 工具:IDEA/Ecilpse、Navicat、Maven 系统展示 总体功能结构图 局部E-R图 系统首页页面 用户…

C# Winform 入门(3)之尺寸同比例缩放

放大前 放大后 1.定义当前窗体的宽度和高度 private float x;//定义当前窗体的宽度private float y;//定义当前窗台的高度 2.接收当前窗体的尺寸大小 x this.Width;//存储原始宽度ythis.Height;//存储原始高度setTag(this);//为控件设置 Tag 属性 3.声明方法,获…

infinityfree最新免费建站详细教程_无需备案_5G空间_无限流量_免费域名_免费SSL

一、明确目标—是否要使用 1.为什么选择InfinityFree? 对于初学者、学生或只是想尝试网站搭建的个人用户来说,InfinityFree提供了一个绝佳的免费解决方案。这个国外免费的虚拟主机服务提供: 5GB存储空间 - 足以存放个人博客、作品集或小型…

打造高效英文单词记忆系统:基于Python的实现与分析

在当今全球化的世界中,掌握一门外语已成为必不可少的技能。对于许多学习者来说,记忆大量的英文单词是一个漫长而艰难的过程。为了提高学习效率,我们开发了一个基于Python的英文单词记忆系统。这个系统结合了数据管理、复习计划、学习统计和测试练习等多个模块,旨在为用户提…

node_modules\deasync: Command failed.

运行:“yarn install” 时报错 PS D:\WebPro\hainan-mini-program> yarn install yarn install v1.22.19 [1/4] Resolving packages... [2/4] Fetching packages... [3/4] Linking dependencies... warning " > babel-loader8.2.2" has un…

游戏引擎学习第206天

回顾并为当天的工作定下目标 接着回顾了前一天的进展。之前我们做了一些调试功能,并且已经完成了一些基础的工作,但是还有一些功能需要继续完善。其中一个目标是能够展示实体数据,以便在开发游戏逻辑系统时,可以清晰地查看和检查…

Zapier MCP:重塑跨应用自动化协作的技术实践

引言:数字化协作的痛点与突破 在当今多工具协同的工作环境中,开发者与办公人员常常面临数据孤岛、重复操作等效率瓶颈。Zapier推出的MCP(Model Context Protocol)协议通过标准化数据交互框架,为跨应用自动化提供了新的…

蓝桥云客--破译密码

5.破译密码【算法赛】 - 蓝桥云课 问题描述 在近期举办的蓝桥杯竞赛中,诞生了一场激动人心的双人破译挑战。比赛的主办方准备了N块神秘的密码芯片,参赛队伍需要在这场智力竞赛中展示团队合作的默契与效率。每个队伍需选出一位破译者与一位传输者&#…

React-Diffing算法和key的作用

1.验证Diffing算法 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title> </he…

【NLP 54、大模型训练相关知识】

目录 引言&#xff1a;大模型训练两大问题 一、并行训练 1.方式一&#xff1a;数据并行 DP ① 复制模型到多个GPU ② 各自计算梯度后累加&#xff0c;再反传更新 ③ 需要单卡就能训练整个模型&#xff08;显存够大&#xff09; 2.方式二&#xff1a;模型并行 PP ① 将模型的不同…

cursor机器码重置

1、下载vscode插件 cursor-fake-machine-0.0.2 2、将插件拖入拓展 3、彻底将cursor账号退出 setting -> Manage -> 退出账号 4、打开cursor&#xff0c;ctrlshiftp &#xff0c;输入fake,点击确定

全国产FMC子卡-16bit 8通道2.4G

国产化FMC DA子卡&#xff0c;16bit 8通道2.4GS/s 全国产FMC子卡是一款高分辨率、高采样率的全国产多通道标准双宽DAC FMC子板。其接口电气和结构设计均依据FMC标准(ANSI/VITA 57.1)&#xff0c;通过两个高密度FMC连接器&#xff08;HPC&#xff09;连接至FPGA载板。它提供8路A…

fpga:分秒计时器

任务目标 分秒计数器核心功能&#xff1a;实现从00:00到59:59的循环计数&#xff0c;通过四个七段数码管显示分钟和秒。 复位功能&#xff1a;支持硬件复位&#xff0c;将计数器归零并显示00:00。 启动/暂停控制&#xff1a;通过按键控制计时的启动和暂停。 消抖处理&#…

小白 thingsboard 拆分前后端分离

1、modules 里注释掉ui_ugx <modules><module>netty-mqtt</module><module>common</module><module>rule-engine</module><module>dao</module><module>edqs</module><module>transport</module&g…

4G专网:企业数字化转型的关键通信基石

4G专网 在数字化转型的浪潮下&#xff0c;企业对高可靠性、低时延、安全可控的通信网络需求日益增长。传统的公用蜂窝网络难以满足企业在工业自动化、能源管理、智慧城市等领域的特殊需求&#xff0c;因此4G专网成为众多行业的优先选择。作为行业领先的移动核心网提供商&#x…

基于FLask的共享单车需求数据可视化分析系统

【FLask】基于FLask的共享单车需求数据可视化分析系统 &#xff08;完整系统源码开发笔记详细部署教程&#xff09;✅ 目录 一、项目简介二、项目界面展示三、项目视频展示 一、项目简介 该系统能够整合并处理大量共享单车使用数据&#xff0c;通过直观的可视化手段&#xff0…

STL 性能优化实战:解决项目中标准模板库的性能瓶颈

&#x1f9d1; 博主简介&#xff1a;CSDN博客专家、全栈领域优质创作者、高级开发工程师、高级信息系统项目管理师、系统架构师&#xff0c;数学与应用数学专业&#xff0c;10年以上多种混合语言开发经验&#xff0c;从事DICOM医学影像开发领域多年&#xff0c;熟悉DICOM协议及…

ES使用聚合aggregations实战(自用:2025.04.03更新)

ES使用聚合aggregations实战 聚合模板桶聚合&#xff1a;Bucket Aggregations指标聚合&#xff1a;Metrics Aggregations管道聚合&#xff1a;Pipeline Aggregations嵌套聚合日期直方图&#xff1a;date-histogram 接口实战接口一&#xff1a;根据stu_id分组统计时间段内的各个…