Llama-3.1-Nemotron-Ultra-253B-v1 模型情况
1. 模型概述
Llama-3.1-Nemotron-Ultra-253B-v1 是一个基于 Meta Llama-3.1-405B-Instruct 的大型语言模型 (LLM),专为推理、人类对话偏好和任务(如 RAG 和工具调用)而优化。该模型支持 128K 令牌的上下文长度,并可以在单个 8xH100 节点上进行推理。
关键特点
-
准确性与效率的平衡:通过神经架构搜索 (NAS) 方法显著减少内存占用,降低 GPU 需求,同时提升推理效率。
-
垂直压缩技术:进一步优化延迟。
-
多阶段后训练:包括监督微调和基于 GRPO 算法的强化学习,提升推理和非推理能力。
-
商业用途:适用于 AI 代理系统、聊天机器人、RAG 系统和其他 AI 驱动的应用。
2. 技术细节
模型架构
-
架构类型:密集型解码器 Transformer 模型。
-
基础模型:基于 Llama-3.1-405B-Instruct,通过 NAS 定制。
-
参数数量:2530 亿。
-
NAS 优化:
-
跳过注意力层:某些块中完全跳过注意力层或替换为单线性层。
-
可变 FFN 层:不同块的 FFN 层扩展/压缩比率不同。
-
FFN 融合:将多个连续的 FFN 层融合为更少的宽层。
-
训练过程
-
知识蒸馏:使用 650 亿令牌进行知识蒸馏。
-
持续预训练 (CPT):使用 880 亿令牌进行进一步训练。
-
多阶段后训练:包括监督微调和基于 GRPO 的强化学习。
3. 使用方法
推理模式
-
推理模式控制:通过系统提示控制推理模式(ON/OFF)。
-
推荐参数:
-
推理模式 ON:温度
0.6
,Top P0.95
。 -
推理模式 OFF:贪心解码(温度
0
)。
-
代码示例
使用 Hugging Face Transformers
import torch
from transformers import AutoTokenizer, pipeline
model_id = "nvidia/Llama-3_1-Nemotron-Ultra-253B-v1"
model_kwargs = {
"torch_dtype": torch.bfloat16,
"trust_remote_code": True,
"device_map": "auto"
}
tokenizer = AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id
pipeline = pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
max_new_tokens=32768,
temperature=0.6,
top_p=0.95,
**model_kwargs
)
# 推理模式 ON
print(pipeline([{"role": "system", "content": "detailed thinking on"}, {"role": "user", "content": "Solve ..."}]))
# 推理模式 OFF
print(pipeline([{"role": "system", "content": "detailed thinking off"}, {"role": "user", "content": "Solve ..."}]))
使用 vLLM
pip install vllm==0.8.3
python3 -m vllm.entrypoints.openai.api_server \
--model "nvidia/Llama-3_1-Nemotron-Ultra-253B-v1" \
--trust-remote-code \
--seed=1 \
--host="0.0.0.0" \
--port=5000 \
--served-model-name "nvidia/Llama-3_1-Nemotron-Ultra-253B-v1" \
--tensor-parallel-size=8 \
--max-model-len=32768 \
--gpu-memory-utilization 0.95 \
--enforce-eager
4. 性能评估
评估数据集
-
训练数据:包括 FineWeb、Buzz-V1.2 和 Dolma 等。
-
多阶段后训练数据:支持数学、代码、推理和指令遵循能力的提升。
评估结果
-
推理模式 ON:
-
GPQA:72.50%
-
AIME25:66.31%
-
MATH500:97.00%
-
-
推理模式 OFF:
-
GPQA:16.67%
-
AIME25:29.03%
-
MATH500:80.40%
-
5. 伦理考虑
- 可信 AI:NVIDIA 强调可信 AI 是一项共同责任,开发者需确保模型符合行业和用途要求,并防止未预见的滥用。
6. 适用场景
-
AI 代理系统:如聊天机器人、RAG 系统。
-
编程语言支持:适用于英语和多种编程语言(如 Python)。
-
多语言支持:支持德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。
7. 硬件与软件要求
-
推荐硬件:NVIDIA Hopper 和 Ampere 架构。
-
操作系统:Linux。
-
软件版本:推荐使用 Transformers 4.48.3。