轻量级冠军:NVIDIA 发布具有领先准确率的小语言模型

news2025/1/15 12:52:58

Mistral-NeMo-Minitron 8B 是最近发布的 Mistral NeMo 12B 模型的微型版本,具有高精度和高计算效率,可在 GPU 加速数据中心、云和工作站上运行模型。

生成式 AI 开发者通常需要在模型尺寸和准确性之间做出权衡。然而,NVIDIA 发布的一款新语言模型却做到了二者兼得。这款模型虽然尺寸小,却能够提供领先的准确率。

Mistral-NeMo-Minitron 8B 是 Mistral AI 与 NVIDIA 上个月发布的 Mistral NeMo 12B 开放模型的微型版本,其尺寸小到足以在 NVIDIA RTX 驱动的工作站上运行,但却在针对 AI 驱动的聊天机器人、虚拟助手、内容生成器和教育工具的多项基准测试中取得了出色的成绩。Minitron 模型是由 NVIDIA 使用 NVIDIA NeMo (一个用于开发自定义生成式 AI 的端到端平台)所蒸馏而成。

NVIDIA 应用深度学习研究副总裁 Bryan Catanzaro 表示:“我们把两种不同的 AI 优化方法相结合,将 Mistral NeMo 的 120 亿个参数剪枝到 80 亿,并通过蒸馏来提高准确性。这使 Mistral-NeMo-Minitron 8B 可以以更低的计算成本提供与原始模型相当的精度。”

不同于大语言模型,小语言模型可以在工作站和笔记本电脑上实时运行。这使资源有限的企业不仅能够更容易地将生成式 AI 功能部署到其基础设施中,同时还能优化成本、提高运营效率和降低能耗。在边缘设备上本地运行语言模型时,由于数据无需从边缘设备传输到服务器,因此还具有安全优势。

开发者现在可以开始使用 Mistral-NeMo-Minitron 8B,其已被打包为具有标准应用程序编程接口(API)的 NVIDIA NIM 微服务,开发者也可以从Hugging Face 下载此模型。能在几分钟内部署至任何 GPU 加速系统的可下载的 NVIDIA NIM 也即将上线。

80 亿参数语言模型的最新成果

相比同等规模的语言模型,Mistral-NeMo-Minitron 8B 在九项常用语言模型性能基准测试中名列前茅。这些基准测试涵盖了各种任务,包括语言理解、常识推理、数学推理、总结、编码以及生成真实答案的能力等。

该模型以 NVIDIA NIM 微服务的形式打包,针对低延迟和高吞吐量进行了优化,低延迟意味着用户响应速度更快,而高吞吐量意味着生产中的计算效率更高。

在某些情况下,开发者可能想要在智能手机或机器人等嵌入式设备上运行一个更小的模型。为此,他们可以先下载 80 亿参数模型,然后使用 NVIDIA AI Foundry 对其进行进一步的剪枝和蒸馏提炼,针对企业特定应用定制更小、更优化的神经网络。

AI Foundry 平台和服务为开发者提供全栈解决方案,用于创建打包为 NIM 微服务的定制基础模型。它包括流行的基础模型、NVIDIA NeMo 平台和 NVIDIA DGX Cloud 上的专用容量。使用 NVIDIA AI Foundry 的开发者还可以访问 NVIDIA AI Enterprise,这是一个为生产部署提供安全性、稳定性和支持的软件平台。

由于原始 Mistral-NeMo-Minitron 8B 模型以最先进的准确性为基准,因此使用 AI Foundry 缩小后的版本仍能为用户提供高度的准确性,只需要极少的训练数据和计算基础设施。

充分利用剪枝和蒸馏的优点

为了使较小的模型实现较高的准确率,团队采用了一种结合了剪枝和蒸馏的过程。剪枝通过删除对准确率贡献最小的模型权重来缩小神经网络的大小。在蒸馏过程中,团队在一个小的数据集上重新训练了这个剪枝后的模型,以显著提高准确率(准确率在剪枝过程中有所下降)。

最终得到的是一个尺寸更小但效率更高的模型,其预测准确率不亚于原来的大模型。

这种技术意味着只需要原始数据集的一小部分,来训练相关模型系列中的每个附加模型,与从头开始训练较小的模型相比,在剪枝和蒸馏较大模型时最多可将计算成本降为原本的四十分之一。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2084216.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

内存管理篇-14kmalloc机制实现分析

引入这个kmalloc的目的,是因为前面的slab接口太过于复杂,因此需要一个全新的封装kmalloc接口,内存申请编程接口实现。kmalloc底层起始也是基于slab缓存实现的。 1.kmalloc 调用流程 参数解析: 解析 gfp_mask 参数,确定分配时是否…

数据结构与算法学习day18-层序遍历

层序遍历一个二叉树。就是从左到右一层一层的去遍历二叉树。这种遍历的方式和我们之前讲过的都不太一样。需要借用一个辅助数据结构即队列来实现,队列先进先出,符合一层一层遍历的逻辑,而用栈先进后出适合模拟深度优先遍历也就是递归的逻辑。…

硬盘崩溃数据无踪?Windows数据恢复TOP4揭秘,2024年助你找回宝贵资料

现在我们的生活、工作、学习都离不开电脑,电脑里的硬盘就像个装满宝贝的箱子,里面全是我们宝贵的照片、文档、视频和美好回忆。但要是硬盘突然坏了,东西一下子全没了,那感觉真是太糟糕了。别担心,今天我们就给你介绍几…

2024年中国运筹学会运筹竞赛(数据驱动赛道)报名通知

竞赛组织 主办单位:中国运筹学会(国家一级学会) 承办单位:中国科学技术大学 支持单位:杉数科技、海康威视、中国科学技术大学管理学院、《运筹学学报》杂志 竞赛内容 本次竞赛(本科生组)由竞…

不平衡数据集的单类分类算法

不平衡数据集的单类分类算法 异常值或异常是与其他数据不符的罕见例子。 识别数据中的离群值称为离群值或异常检测,机器学习中专注于此问题的子领域称为单类分类。这些是无监督学习算法,旨在对“正常”示例进行建模,以便将新示例分类为正常…

记录一次给iOS 工程添加.gitignore文件

新建了一个iOS工程,修改过代码之后,提交发现有一些自己不想要提交的内容 如下图,里面有.DS_Store文件,还有xcsuserstate文件, 这个时候需要添加忽略文件 首先在工程文件夹中执行 touch .gitignore 创建忽略文件&#…

Unity2D游戏开发-Pak木鱼

在接下来文章里我会以Unity为主一起制作游戏 在unity 里如何制作一个简单的敲木鱼游戏? 创建一个2D场景(本人使用Unity2023) (每个一段时间要申请一个个人许可证) 点击下方蓝色按钮创建 将以下素材拖动到Assets文件夹中 这张图随意命名我…

Swift concurrency 4 — Task和.task的理解与使用

Task Swift中的Task是一种异步操作,它提供了一种替代DispatchQueue.main.async{}等传统方法的方法。通过使用Task,我们可以简化代码并更好地控制异步操作。此外,Task还提供了其他选项,可以进一步增强任务执行。 先看一个Task的基…

net core中byte数组如何高效转换为16进制字符串

在 .NET Core 中,如何把 byte[] 转换为 16 进制字符串?你能想到哪些方法?什么方式性能最好?今天和大家分享几种转换方式。 往往在处理字符串性能问题时,首先应该想到的是怎么想办法减少内存分配,怎么优化字…

22.优化器

优化器 当使用损失函数时,可以调用损失函数的 backward,得到反向传播,反向传播可以求出每个需要调节的参数对应的梯度,有了梯度就可以利用优化器,优化器根据梯度对参数进行调整,以达到整体误差降低的目的。…

Cryptomator:开源云存储加密

采用最新技术标准,提供最佳保护 如果有人查看您云中的文件夹,他们无法对您的数据得出任何结论。 Cryptomator 提供开源的客户端云文件加密。 它适用于 Windows、Linux、macOS 和 iOS。 Cryptomator 可与 Dropbox、Google Drive、OneDrive、MEGA、pClo…

【QT | 开发环境搭建】Linux系统(Ubuntu 18.04) 安装 QT 5.12.12 开发环境

😁博客主页😁:🚀https://blog.csdn.net/wkd_007🚀 🤑博客内容🤑:🍭嵌入式开发、Linux、C语言、C、数据结构、音视频🍭 ⏰发布时间⏰: 2024-08-29 …

C# 委托详解(Delegate)

引言 在 C# 编程当中,委托(Delegate)是一种特殊的类型,它允许将方法作为参数传递给其他方法,或者将方法作为返回值返回,这种特性使得委托成为实现回调函数、事件处理等,所有的委托都派生自Syst…

【STM32开发笔记】使用RT-Thread的SDIO驱动和FATFS实现SD卡文件读写

【STM32开发笔记】使用RT-Thread的SDIO驱动和FATFS实现SD卡文件读写 一、准备工作1.1 准备好开发板和SD卡1.2 创建RT-Thread项目 二、配置RT-Thread2.1 打开文件系统相关配置2.2 打开SD卡相关配置2.3 打开RTC配置2.4 重新生成Keil项目文件 三、编译、烧录、运行3.1 编译项目3.2…

网站建设完成后, 营销型网站如何做seo

营销型网站的SEO优化旨在提高网站在搜索引擎中的排名,从而吸引更多潜在客户并促进销售。以下是营销型网站SEO的详细解析: 关键词研究与优化 目标受众分析:了解目标受众的搜索习惯和需求,确定适合的关键词。使用工具来发现相关关键…

RV1126的GPIO计算和使用

1、获取GPIO芯片对应的序号值 先读取下/sys/kernel/debug/gpio的值,得到每个GPIO芯片的序号范围,如GPIO芯片0就为0~31。 2、根据GPIO硬件编号计算出系统内使用的GPIO序号 根据GPIO的编号,比如说GPIO3_B0,前面GPIO3代表看GPIO3的信…

傻瓜操作:GraphRAG、Ollama 本地部署及踩坑记录

目录 一、GraphRAG 介绍1.引言2.创新点3. 算法4. 数据和实验结果5.不足和展望 二、本地部署1.为什么要本地部署2.环境准备3. GraphRAG 安装3.1 下载 GraphGAG3.2 安装依赖包3.3 创建数据目录3.4 项目初始化3.5 修改配置文件 3.6 修改.env文件3.7 修改源码 4. Indexing5. query5…

Linux关于压缩之后文件更大的解释

记录于24年八月29 使用vim命令创建了lianxi1和lianxi2并在里面填写了一些内容,发现使用gzip和zip压缩后文件反而更大 事后问了一下ai回答了我的疑惑 压缩算法开销:如前所述,压缩文件需要存储额外的元数据和文件结构信息。这种开销在处理非常…

C++ TinyWebServer项目总结(13. 多进程编程)

本章讨论Linux多进程编程的以下内容: 复制进程映像的fork系统调用和替换进程映像的exec系列系统调用。僵尸进程以及如何避免僵尸进程。进程间通信(Inter Process Communication,IPC)最简单的方式:管道。三种System V进…

浏览器插件利器--allWebPluginV2.0.0.18-alpha版发布

allWebPlugin简介 allWebPlugin中间件是一款为用户提供安全、可靠、便捷的浏览器插件服务的中间件产品,致力于将浏览器插件重新应用到所有浏览器。它将现有ActiveX控件直接嵌入浏览器,实现插件加载、界面显示、接口调用、事件回调等。支持Chrome、Firefo…