英伟达开源253B语言模型：Llama-3.1-Nemotron-Ultra-253B-v1 模型情况

news2025/4/12 23:53:49

在这里插入图片描述

Llama-3.1-Nemotron-Ultra-253B-v1 模型情况

1. 模型概述

Llama-3.1-Nemotron-Ultra-253B-v1 是一个基于 Meta Llama-3.1-405B-Instruct 的大型语言模型 (LLM)，专为推理、人类对话偏好和任务（如 RAG 和工具调用）而优化。该模型支持 128K 令牌的上下文长度，并可以在单个 8xH100 节点上进行推理。

关键特点

准确性与效率的平衡：通过神经架构搜索 (NAS) 方法显著减少内存占用，降低 GPU 需求，同时提升推理效率。
垂直压缩技术：进一步优化延迟。
多阶段后训练：包括监督微调和基于 GRPO 算法的强化学习，提升推理和非推理能力。
商业用途：适用于 AI 代理系统、聊天机器人、RAG 系统和其他 AI 驱动的应用。

2. 技术细节

模型架构

架构类型：密集型解码器 Transformer 模型。
基础模型：基于 Llama-3.1-405B-Instruct，通过 NAS 定制。
参数数量：2530 亿。
NAS 优化：
- 跳过注意力层：某些块中完全跳过注意力层或替换为单线性层。
- 可变 FFN 层：不同块的 FFN 层扩展/压缩比率不同。
- FFN 融合：将多个连续的 FFN 层融合为更少的宽层。

训练过程

知识蒸馏：使用 650 亿令牌进行知识蒸馏。
持续预训练 (CPT)：使用 880 亿令牌进行进一步训练。
多阶段后训练：包括监督微调和基于 GRPO 的强化学习。

3. 使用方法

推理模式

推理模式控制：通过系统提示控制推理模式（ON/OFF）。
推荐参数：
- 推理模式 ON：温度 0.6，Top P 0.95。
- 推理模式 OFF：贪心解码（温度 0）。

代码示例

使用 Hugging Face Transformers

import torch
from transformers import AutoTokenizer, pipeline

model_id = "nvidia/Llama-3_1-Nemotron-Ultra-253B-v1"
model_kwargs = {
    "torch_dtype": torch.bfloat16,
    "trust_remote_code": True,
    "device_map": "auto"
}

tokenizer = AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id

pipeline = pipeline(
    "text-generation",
    model=model_id,
    tokenizer=tokenizer,
    max_new_tokens=32768,
    temperature=0.6,
    top_p=0.95,
    **model_kwargs
)

# 推理模式 ON
print(pipeline([{"role": "system", "content": "detailed thinking on"}, {"role": "user", "content": "Solve ..."}]))

# 推理模式 OFF
print(pipeline([{"role": "system", "content": "detailed thinking off"}, {"role": "user", "content": "Solve ..."}]))

使用 vLLM

pip install vllm==0.8.3
python3 -m vllm.entrypoints.openai.api_server \
  --model "nvidia/Llama-3_1-Nemotron-Ultra-253B-v1" \
  --trust-remote-code \
  --seed=1 \
  --host="0.0.0.0" \
  --port=5000 \
  --served-model-name "nvidia/Llama-3_1-Nemotron-Ultra-253B-v1" \
  --tensor-parallel-size=8 \
  --max-model-len=32768 \
  --gpu-memory-utilization 0.95 \
  --enforce-eager