Meta AI 发布 Llama 3.2

news2026/2/15 19:57:50

Llama 3.2新闻

Meta公司在其Connect大会上宣布了Llama 3.2的发布，这是其首款能够理解图像和文本的旗舰视觉模型。Llama 3.2包含中型和小型两个版本（分别拥有11B与90B参数），以及更轻量化的纯文本模型（分别拥有1B与3B参数），后两款主要面向特定移动与边缘设备。这些模型在保持文本处理能力的同时，通过适配器权重将预训练的图像编码器整合到语言模型中，实现了对图像的理解和推理。
Llama 3.2的11B和90B模型是首次支持视觉任务的Llama模型，它们通过一系列交叉注意力层将图像编码器的表征输入到语言模型中，从而实现图像推理功能。这些模型在图像识别和其他视觉理解任务上的表现，已经能够与Anthropic的Claude 3 Haiku以及OpenAI的GPT 4o-mini相媲美，甚至在某些方面更优越。
此外，Llama 3.2的1B和3B模型支持128K tokens的上下文长度，适配高通和联发科硬件，对Arm处理器做了专属优化。这些轻量级模型特别适合在移动设备上运行，能够用于创建个性化智能体应用，同时保证数据隐私，因为它们能够在设备本地处理数据，无需将信息发送到云端。
Meta还首次分享了官方的Llama技术栈发行版，以便开发人员可以在各种环境下使用这些模型，包括本地、设备端、云端和单节点场景。Llama 3.2模型目前已经在llama.com、Hugging Face以及Meta各合作伙伴的平台上开放下载。

模型评估

评估表明，Llama 3.2 视觉模型在图像识别和一系列视觉理解任务上与领先的基础模型 Claude 3 Haiku 和 GPT4o-mini 竞争。3B 模型在遵循指令、摘要、提示重写和工具使用等任务上的表现超过了 Gemma 2 2.6B 和 Phi 3.5-mini 模型，而 1B 则与 Gemma 竞争。

视觉模型

作为首批支持视觉任务的 Llama 模型，11B 和 90B 模型需要一个全新的模型架构来支持图像推理。
为了增加图像输入支持，mata 训练了一组适配器权重，将预训练的图像编码器整合到预训练的语言模型中。适配器由一系列交叉注意力层组成，这些层将图像编码器的表征输入到语言模型中。在文本-图像对上训练适配器，以使图像表征与语言表征对齐。在适配器训练期间，还更新了图像编码器的参数，但有意不更新语言模型参数。这样做，保持了所有仅限文本的功能完整，为开发者提供了 Llama 3.1 模型的直接替代品。

轻量级模型

正如我们在 Llama 3.1 中所讨论的，可以利用强大的教师模型来创建性能更好的小型模型。我们在 1B 和 3B 模型上使用了两种方法——剪枝和蒸馏，使它们成为首批能够高效适应设备的高能力轻量级 Llama 模型。
剪枝使我们能够在保留尽可能多的知识和性能的同时，减少现有模型的大小。对于 1B 和 3B 模型，我们采取了一次性的结构化剪枝方法，从 Llama 3.1 的 8B 模型开始。这涉及到系统地移除网络的部分，并调整权重和梯度的大小，以创建一个更小、更高效的模型，同时保持原始网络的性能。
知识蒸馏使用较大的网络向较小的网络传授知识，其理念是较小的模型可以在教师模型的帮助下实现比从头开始更好的性能。对于 Llama 3.2 中的 1B 和 3B 模型，我们将 Llama 3.1 的 8B 和 70B 模型的 logit 数据纳入模型开发的预训练阶段，这里这些较大模型的输出（logit）被用作 token 级别的目标。剪枝后使用知识蒸馏来恢复性能。