英伟达开源253B语言模型:Llama-3.1-Nemotron-Ultra-253B-v1 模型情况

news2025/4/12 23:53:49

在这里插入图片描述

Llama-3.1-Nemotron-Ultra-253B-v1 模型情况

1. 模型概述

Llama-3.1-Nemotron-Ultra-253B-v1 是一个基于 Meta Llama-3.1-405B-Instruct 的大型语言模型 (LLM),专为推理、人类对话偏好和任务(如 RAG 和工具调用)而优化。该模型支持 128K 令牌的上下文长度,并可以在单个 8xH100 节点上进行推理。

关键特点

  • 准确性与效率的平衡:通过神经架构搜索 (NAS) 方法显著减少内存占用,降低 GPU 需求,同时提升推理效率。

  • 垂直压缩技术:进一步优化延迟。

  • 多阶段后训练:包括监督微调和基于 GRPO 算法的强化学习,提升推理和非推理能力。

  • 商业用途:适用于 AI 代理系统、聊天机器人、RAG 系统和其他 AI 驱动的应用。

2. 技术细节

模型架构

  • 架构类型:密集型解码器 Transformer 模型。

  • 基础模型:基于 Llama-3.1-405B-Instruct,通过 NAS 定制。

  • 参数数量:2530 亿。

  • NAS 优化

    • 跳过注意力层:某些块中完全跳过注意力层或替换为单线性层。

    • 可变 FFN 层:不同块的 FFN 层扩展/压缩比率不同。

    • FFN 融合:将多个连续的 FFN 层融合为更少的宽层。

训练过程

  • 知识蒸馏:使用 650 亿令牌进行知识蒸馏。

  • 持续预训练 (CPT):使用 880 亿令牌进行进一步训练。

  • 多阶段后训练:包括监督微调和基于 GRPO 的强化学习。

3. 使用方法

推理模式

  • 推理模式控制:通过系统提示控制推理模式(ON/OFF)。

  • 推荐参数

    • 推理模式 ON:温度 0.6,Top P 0.95

    • 推理模式 OFF:贪心解码(温度 0)。

代码示例

使用 Hugging Face Transformers
import torch
from transformers import AutoTokenizer, pipeline

model_id = "nvidia/Llama-3_1-Nemotron-Ultra-253B-v1"
model_kwargs = {
    "torch_dtype": torch.bfloat16,
    "trust_remote_code": True,
    "device_map": "auto"
}

tokenizer = AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id

pipeline = pipeline(
    "text-generation",
    model=model_id,
    tokenizer=tokenizer,
    max_new_tokens=32768,
    temperature=0.6,
    top_p=0.95,
    **model_kwargs
)

# 推理模式 ON
print(pipeline([{"role": "system", "content": "detailed thinking on"}, {"role": "user", "content": "Solve ..."}]))

# 推理模式 OFF
print(pipeline([{"role": "system", "content": "detailed thinking off"}, {"role": "user", "content": "Solve ..."}]))

使用 vLLM

pip install vllm==0.8.3
python3 -m vllm.entrypoints.openai.api_server \
  --model "nvidia/Llama-3_1-Nemotron-Ultra-253B-v1" \
  --trust-remote-code \
  --seed=1 \
  --host="0.0.0.0" \
  --port=5000 \
  --served-model-name "nvidia/Llama-3_1-Nemotron-Ultra-253B-v1" \
  --tensor-parallel-size=8 \
  --max-model-len=32768 \
  --gpu-memory-utilization 0.95 \
  --enforce-eager

4. 性能评估

评估数据集

  • 训练数据:包括 FineWeb、Buzz-V1.2 和 Dolma 等。

  • 多阶段后训练数据:支持数学、代码、推理和指令遵循能力的提升。

评估结果

  • 推理模式 ON

    • GPQA:72.50%

    • AIME25:66.31%

    • MATH500:97.00%

  • 推理模式 OFF

    • GPQA:16.67%

    • AIME25:29.03%

    • MATH500:80.40%

5. 伦理考虑

  • 可信 AI:NVIDIA 强调可信 AI 是一项共同责任,开发者需确保模型符合行业和用途要求,并防止未预见的滥用。

6. 适用场景

  • AI 代理系统:如聊天机器人、RAG 系统。

  • 编程语言支持:适用于英语和多种编程语言(如 Python)。

  • 多语言支持:支持德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。

7. 硬件与软件要求

  • 推荐硬件:NVIDIA Hopper 和 Ampere 架构。

  • 操作系统:Linux。

  • 软件版本:推荐使用 Transformers 4.48.3。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2333441.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

质检LIMS系统在半导体制造行业的应用 半导体质量革命的现状

在半导体这个“工业皇冠上的明珠”领域,纳米级的精度要求与质量管控如同硬币的两面。随着芯片制程向3nm、2nm演进,传统质检模式已难以满足海量数据、复杂工艺的质量追溯需求。质检LIMS实验室系统作为质量管理的中枢神经,正在重构半导体制造的…

面向对象高级(1)

文章目录 final认识final关键字修饰类:修饰方法:修饰变量final修饰变量的注意事项 常量 单例类什么是设计模式?单例怎么写?饿汉式单例的特点是什么?单例有啥应用场景,有啥好处?懒汉式单例类。 枚举类认识枚…

HTTP 压力测试工具autocannon(AI)

简介 autocannon 是一款基于 Node.js 的高性能 HTTP 压力测试工具,适用于评估 Web 服务的并发处理能力和性能瓶颈。 一、工具特点 高性能‌:利用 Node.js 异步非阻塞机制模拟高并发请求‌。‌实时监控‌:测试过程中动态展示请求统计和性能…

my2sql工具恢复误删数据

一、下载my2sql my2sql下载地址https://github.com/liuhr/my2sql/blob/master/releases/centOS_release_7.x/my2sql 二、my2sql工具注意事项 1. binlog格式必须为row,且binlog_row_imagefull 原因:binlog_row_image 参数决定了 binlog 中是否记录完整的…

【AGI-Eval行业动态】OpenAI 语音模型三连发,AI 语音进入“声优”时代

前言:OpenAI又双叒叕搞事情了!这次他们带着三款全新语音模型强势来袭,直接让 AI 语音界卷出新高度!无论是语音识别的精准度、还是根据文字生成音频的脑洞,这三款模型都堪称“神仙打架”。 如果你还在用老掉牙的语音助手…

蓝桥杯嵌入式十四届模拟一(eeprom)

一.LED 先配置LED的八个引脚为GPIO_OutPut,锁存器PD2也是,然后都设置为起始高电平,生成代码时还要去解决引脚冲突问题 二.按键 按键配置,由原理图按键所对引脚要GPIO_Input 生成代码,在文件夹中添加code文件夹&#…

DevOps与功能安全:Perforce ALM通过ISO 26262合规认证,简化安全关键系统开发流程

本文来源perforce.com,由Perforce中国授权合作伙伴、DevSecOps解决方案提供商-龙智翻译整理。 近日,Perforce ALM(原Helix ALM)通过了国际权威认证机构 TV SD的ISO 26262功能安全流程认证!该认证涵盖Perforce ALM解决方…

【图片识别改名工具】如何识别图片中文字内容,并根据文字对图片批量重命名批量改名,基于WPF和腾讯OCR的完整实现

​​办公场景​​ ​​批量处理图片文件​​:用户有一批图片文件,图片中包含文字信息(如编号、日期、名称等),需要根据图片中的文字内容对图片进行重命名。​​自动化办公​​:在办公场景中,用户需要将图片文件按内容分类或归档,手动重命名效率低下,自动化工具可以大幅…

Dify+DeepSeek能做出什么来?快速构建可扩展的 AI 应用

将 Dify(开源 LLM 应用开发平台)与 DeepSeek(深度求索公司的高性能大模型,如 DeepSeek-R1 或 DeepSeek-Lite)结合使用,可以充分发挥两者的优势,快速构建高效、灵活且可扩展的 AI 应用。以下是具…

【深度学习】Ubuntu 服务器配置开源项目FIGRET(PyTorch、torch-scatter、torch-sparse、Gurobi 安装)

开源项目网址:https://github.com/FIGRET/figret 该项目在SIGCOMM2024发表,用深度学习方法处理流量工程中的突发问题 1. 创建新的 Conda 环境 使用国内镜像源创建环境​ conda create -n figret python3.8.0 --override-channels -c https://mirrors.…

浅析Centos7安装Oracle12数据库

Linux下的Oracle数据库实在是太难安装了,事贼多,我都怀疑能安装成功是不是运气的成分更高一些。这里虚拟机是VMware Workstation 15.5,操作系统是Centos7,Oracle版本是Oracle Database 12c Enterprise Edition Release 12.1.0.2.0…

代码随想录算法训练营Day27 | Leetcode 56. 合并区间、738.单调递增的数字、968.监控二叉树

代码随想录算法训练营Day27 | Leetcode 56.合并区间、738.单调递增的数字、968.监控二叉树 一、合并区间 相关题目:Leetcode56 文档讲解:Leetcode56 视频讲解:Leetcode56 1. Leetcode56. 合并区间 以数组 intervals 表示若干个区间的集合&am…

ESP32S3 链接到 WiFi

以下是关于如何让 ESP32S3 连接到 WiFi 的完整流程和代码示例: ESP32S3 链接到 WiFi 1. 设置工作模式 ESP32 可以工作在两种模式下: Station (STA) 模式:作为无线终端连接到无线接入点(AP),类似于手机或…

2024年博客之星的省域空间分布展示-以全网Top300为例

目录 前言 一、2024博客之星 1、所有排名数据 2、空间属性管理 二、数据抓取与处理 1、相关业务表的设计 2、数据抓取处理 3、空间查询分析实践 三、数据成果挖掘 1、省域分布解读 2、技术开发活跃 四、总结 前言 2024年博客之星的评选活动已经过去了一个月&#xf…

蓝桥赛前复习2:一维差分二维差分

一维差分 问题描述 给定一个长度为 nn 的序列 aa。 再给定 mm 组操作,每次操作给定 33 个正整数 l,r,dl,r,d,表示对 al∼ral∼r​ 中的所有数增加 dd。 最终输出操作结束后的序列 aa。 Update:由于评测机过快,n,mn,m 于 2024…

算法---子序列[动态规划解决](最长递增子序列)

最长递增子序列 子序列包含子数组&#xff01; 说白了&#xff0c;要用到双层循环&#xff01; 用双层循环中的dp[i]和dp[j]把所有子序列情况考虑到位 class Solution { public:int lengthOfLIS(vector<int>& nums) {vector<int> dp(nums.size(),1);for(int i …

100道C#高频经典面试题带解析答案——全面C#知识点总结

100道C#高频经典面试题带解析答案 以下是100道C#高频经典面试题及其详细解析&#xff0c;涵盖基础语法、面向对象编程、集合、异步编程、LINQ等多个方面&#xff0c;旨在帮助初学者和有经验的开发者全面准备C#相关面试。 &#x1f9d1; 博主简介&#xff1a;CSDN博客专家、CSD…

MQTT的构成、使用场景、工作原理介绍

一、MQTT内容简介 MQTT&#xff08;Message Queuing Telemetry Transport&#xff09;是一种轻量级、基于发布-订阅模式的消息传输协议【适用于资源受限的设备和低带宽、高延迟或不稳定的网络环境】它在物联网应用中广受欢迎&#xff0c;能够实现传感器、执行器和其它设备之间的…

Vanna + qwq32b 实现 text2SQL

Vanna 是一个开源的 Text-2-SQL 框架&#xff0c;主要用于通过自然语言生成 SQL 查询&#xff0c;它基于 RAG&#xff08;Retrieval-Augmented Generation&#xff0c;检索增强生成&#xff09;技术。Vanna 的核心功能是通过训练一个模型&#xff08;基于数据库的元数据和用户提…

电脑知识 | TCP通俗易懂详解 <一>

目录 一、&#x1f44b;&#x1f3fb;前言 二、&#x1f68d;什么是TCP/TCP协议 三、&#x1f9cd;‍♂为什么TCP可靠 1.&#x1f970;关于可靠 2.&#x1f920;哪里可靠 3.&#x1f393;️图片的三次握手&#xff0c;四次挥手 4.&#x1f4da;️知识点总结 四、&…