Nvidia AI 发布 Llama-Minitron 3.1 4B：通过修剪和提炼 Llama 3.1 8B 构建的新语言模型

news2026/2/12 22:09:25

Nvidia 刚刚发布了语言模型的新版本，不过这次是一个小型语言模型：Llama-3.1-Minitron 4B 模型。这意味着它是语言模型不断发展的重要步骤之一，通过剪枝和知识提炼等尖端技术，将大型模型的效率与小型模型相结合。

在这里插入图片描述

Llama-3.1-Minitron 4B 模型是大型 Llama-3.1 8B 姐妹模型的提炼和剪枝版本。为了在原始 8B 模型的基础上创建更小的模型，Nvidia 在深度和宽度方向上使用了结构化剪枝技术。剪枝是一种删除网络中不那么重要的层或神经元的技术，目的是减小模型的大小和复杂度，同时保留其性能。在本例中，Nvidia 通过从模型中删除 16 层来进行深度剪枝，并将其从 8B 模型缩减为 4B 模型。另一种技术是通过削减嵌入维度和 MLP 中间层来进行宽度剪枝。

除了剪枝，Nvidia 还采用了经典蒸馏技术来提高 Llama-3.1-Minitron 4B 的效率。知识蒸馏是一个过程，在这个过程中，一个较小的模型（即学生）会被训练成模仿一个更大、更复杂的模型（即教师）的行为。通过这种方式，较小模型中保留了原始模型的大部分预测能力，但速度更快，资源更节省。Nvidia 将此与蒸馏技术和剪枝技术相结合，确保重新训练的 4B 模型性能优异，并在更大的模型中得到很好的应用。

在这里插入图片描述
Llama-3.1-Minitron 4B 模型在各种基准测试中表现出色，与更大型的先进开源模型相比，性能极具竞争力。在大多数领域，它的性能都远远超过许多其他小型语言模型，如 Minitron 4B、Phi-2 2.7B、Gemma2 2.6B 和 Qwen2-1.5B。广泛的基准测试证明，该模型在推理、编码和数学方面具有更高的准确性和效率。

Llama-3.1-Minitron 4B 模型的最大优势之一在于，它既能在同等条件下进行竞争，又能节约资源。它使用的训练代币数量仅是从头开始训练所需的一小部分，最多可减少 40 倍。这就节省了大量的计算成本。这使得它成为一个非常有吸引力的选择，可以部署在计算资源有限的场景中，以部署大规模语言模型。

在这里插入图片描述
Nvidia 进一步优化了 Llama-3.1-Minitron 4B 模型，将其部署到 TensorRT-LLM 工具包中，从而增强了其推理性能。例如，该模型在各种情况下的 FP8 精度吞吐量比原来的 Llama 3.1 8B 模型提高了 2.7 倍。对 Llama-3.1-Minitron 4B 进行的额外优化使该模型变得异常强大和高效，可轻松应用于许多领域。

在这里插入图片描述
总之，Nvidia 发布的 Llama-3.1-Minitron 4B 模型是 LLM 创建过程中的一次巨大飞跃。因此，Nvidia 设计的模型在节省资源的同时实现了良好的性能，因此在许多 NLP 任务中非常有用。Llama-3.1-Minitron 4B 模型将成为 Nvidia 的 "Hugging Face "系列的一部分，并为不断变化的强大、免费的人工智能模型格局添砖加瓦。