【什么!Grok记录被打破了】坏消息不是Meta的 llama3 400,好消息是Nvidia发布的Nemotron-4 340B且支持开源

news2024/11/25 6:31:21

Nvidia 发布了开创性的开放模型系列 “Nemotron-4 340B”,再次巩固了其作为人工智能创新领域无可争议的领导者的地位。这一发展标志着人工智能行业的一个重要里程碑,因为它使各行各业的企业能够创建功能强大的特定领域 LLM,而无需大量昂贵的真实世界数据集。

该模型曾在 LMSys.org Chatbot Arena 上以神秘的别名 "june-chatbot "运行,现在已被正式确认并推出,在人工智能界引起了巨大反响。

在这里插入图片描述

Nemotron-4 340B:用于合成数据生成的无与伦比的性能和多功能性

Nemotron-4 340B 系列包括基础模型、指令模型和奖励模型,形成了一个用于生成高质量合成数据的综合管道。Nemotron-4 340B 在训练中使用了惊人的 9 万亿个token、4,000 个上下文,并支持 50 多种自然语言和 40 种编程语言,超越了其竞争对手,包括 Mistral 的 Mixtral-8x22B、Anthropic 的 Claude-Sonnet、Meta 的 Llama3-70B、Qwen-2,甚至可与 GPT-4 的性能相媲美。

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

Nemotron-4 340B 最值得注意的方面之一是其商业友好的许可。高级深度学习研究工程师Somshubra Majumdar在 X.com 的一篇文章中强调了这一点,他说:“该许可证在商业上是可行的。是的,你可以用它来生成你想要的所有数据。

在这里插入图片描述

这些模型是根据英伟达™(NVIDIA®)开放模型许可协议开放访问的,这是一种允许分发、修改和使用模型及其输出结果的许可模型。这些模型在各种评估基准上的表现与开放访问模型相比具有竞争力,并且在以 FP8 精度部署时,其大小适合配备 8 个 GPU 的单个 DGX H100。我们相信,在各种研究和商业应用中,特别是在生成用于训练较小语言模型的合成数据时,社区可以从这些模型中获益。值得注意的是,在我们的模型对齐过程中,超过 98% 的数据都是合成的,这展示了这些模型在生成合成数据方面的有效性。为了进一步支持开放式研究和促进模型开发,我们还将开源模型配准过程中使用的合成数据生成管道。

Nvidia 致力于让企业能够使用 Nemotron-4 340B,这一点从其商业友好型许可模式中可见一斑。此举将实现人工智能的民主化,使各种规模的公司都能利用 LLM 的强大功能,并创建适合其特定需求的定制模型。HelpSteer2 数据集的发布将 Nemotron-4 340B Reward 模型推向了 Hugging Face RewardBench 排行榜的榜首,进一步彰显了 Nvidia 致力于推动整个人工智能社区发展的决心。

数据集

预训练数据混合了三种不同类型的数据: 英语自然语言数据(70%)、
多语言自然语言数据(15%)和源代码数据(15%)。英语语料库包括
英语语料库由经过策划的文档组成,这些文档来自各种来源和领域,包括网络文档、新闻报道、科学论文、书籍等。
论文、书籍等。我们的多语言数据包含 53 种自然语言,由来自单语言和平行语料库的文档组成。
我们的代码数据集由 43 种编程语言组成。
我们在这些数据上总共训练了 9T 个词条,其中前 8T 个词条是正式的预训练阶段,最后 1T 个词条是持续的预训练阶段。
最后 1T 为持续预训练阶段。有关我们的训练语料库和整理程序的更多详情
更详细的训练语料和整理程序,请参考 Parmar 等人(2024 年)的研究,Nemotron-4-340B-Base 采用了与 Nemotron-4-15 相同的数据混合。
与 Nemotron-4-15B-Base 相同。

架构细节

Nemotron-4-340B-Base 与 Nemotron-4-15B-Base 结构相似(Parmar 等人,2024 年)。它是一个
它是标准的仅解码器的 Transformer 架构(Vaswani 等人,2017 年),具有因果注意掩码,使用
旋转位置嵌入(RoPE)(Su 等人,2021 年)、SentencePiece tokenizer(Kudo 和 Richardson、
2018),以及 MLP 层中的平方 ReLU 激活。它没有偏置项,辍学率为零,并且
输入-输出嵌入。我们还使用了分组查询关注(GQA)(Ainslie 等人,2023 年)。

在这里插入图片描述

硬件需求

BF16 推理:

  • 8x H200 (1x H200 node)
  • 16x H100 (2x H100 nodes)
  • 16x A100 80GB (2x A100 80GB nodes)

Nemotron-4 340B对各行各业的潜在影响:从医疗保健到金融等

Nemotron-4 340B对各个行业的潜在影响怎么强调都不为过。例如,在医疗保健领域,生成高质量合成数据的能力可能会在药物发现、个性化医疗和医学成像方面取得突破。在金融领域,使用合成数据训练的自定义 LLM 可以彻底改变欺诈检测、风险评估和客户服务。制造业和零售业也可以从特定领域的 LLM 中受益匪浅,从而实现预测性维护、供应链优化和个性化客户体验。

然而,英伟达在Nemotron-4 340B上的成功也凸显了AI芯片市场竞争的加剧。随着英特尔、AMD和苹果等科技巨头加大人工智能建设力度,英伟达将需要继续推动创新,以保持其领导地位。该公司最近收购了 Mellanox 和 Arm,以及加大对人工智能研发的投资,表明了其保持领先地位的承诺。

Nemotron-4 340B的发布也引发了关于数据隐私和安全未来的重要问题。随着合成数据变得越来越普遍,企业将需要确保他们有强大的保护措施来保护敏感信息并防止滥用。此外,必须仔细考虑使用合成数据训练人工智能模型的伦理影响,因为数据中的偏见和不准确可能会导致意想不到的后果。

尽管存在这些挑战,但人工智能社区还是以热情和兴奋的心情迎接了Nemotron-4 340B的发布。在 lmsys.org 聊天机器人领域与该模型互动的用户的早期反馈非常积极,许多人称赞其令人印象深刻的性能和特定领域的知识。

随着越来越多的企业采用Nemotron-4 340B并开始生成自己的合成数据,我们可以期待看到各行各业的创新和颠覆浪潮。英伟达富有远见的领导力和对推进人工智能技术的坚定承诺,再次使公司处于人工智能革命的最前沿,其对商业和社会的未来将产生深远的影响。

更多信息

https://d1qx31qr3h6wln.cloudfront.net/publications/Nemotron_4_340B_8T_0.pdf

我会定期在CSDN分享我的学习心得,项目经验和行业动态。如果你对某个领域感兴趣,或者想要了解更多技术干货,请关注我的账号,一起成长!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1827747.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

QT系列教程(11) TextEdit实现Qt 文本高亮

文本高亮 对于textedit里录入的部分单词我们可以实现高亮,实现高亮主要依赖于QSyntaxHighlighter。 我们先创建一个Qt Application类,类名MainWindow, 然后新增一个C类,类名为MySyntaxHighlighter。 #ifndef MYSYNTAXHIGHLIGHTER_H #define …

深入分析 Android BroadcastReceiver (三)

文章目录 深入分析 Android BroadcastReceiver (三)1. 广播消息的优缺点及使用场景1.1 优点1.2 缺点 2. 广播的使用场景及代码示例2.1. 系统广播示例:监听网络状态变化 2.2. 自定义广播示例:发送自定义广播 2.3. 有序广播示例:有序广播 2.4. …

yml配置文件快速上手

yml配置文件快速上手 springboot中,有三种文件可以作为配置文件 xml文件(不推荐,臃肿)application.propertis文件(层次不够分明)yml文件(推荐,层次分明,语法简洁) yml文件的基本语…

记录:利用 Agora 在 Unity3D MRTK场景中创建实时视频聊天应用

目录 准备1. 安装Agora_Unity_RTC_SDK2. 创建UI3. script具体内容4. 使用测试 本质是两部带摄像机的设备同时进入Agora聊天室内视频。 去年实现过一次这个功能,用的是Agora_Unity_RTC_SDK 4.2.2版本的,今年使用失败,遂重新安装最新版本Agora…

Github 2024-06-15Rust开源项目日报Top10

根据Github Trendings的统计,今日(2024-06-15统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Rust项目10TypeScript项目1JavaScript项目1Deno: 现代JavaScript和TypeScript运行时 创建周期:2118 天开发语言:Rust, JavaScript协议类型:M…

浪潮信息打造业界首款50℃进液温度服务器 PUE逼近理论极限1.0!

在科技飞速发展的今天,浪潮信息以其前瞻性的技术创新思维,再次突破行业极限,推出业界首个支持50℃进液温度的浸没式液冷服务器NF5180G7。这一创新成果不仅展现了浪潮信息在液冷技术领域的深厚实力,更标志着服务器冷却技术的一次重…

SpringBoot使用jasypt实现数据库信息的脱敏,以此来保护数据库的用户名username和密码password(容易上手,详细)

1.为什么要有这个需求? 一般当我们自己练习的时候,username和password直接是爆露出来的 假如别人路过你旁边时看到了你的数据库账号密码,他跑到他的电脑打开navicat直接就是一顿连接,直接疯狂删除你的数据库,那可就废…

(南京观海微电子)——液晶屏显示不良及修复

TFT LCD信号驱动 屏横线 横暗线、暗带、竖线、竖带 原因: 1、COF与玻璃Bonding不良; 2、COF或玻璃遭到损伤(ESD或机械折伤); 3、ASG电路失效(仅对ASG技术panel而言) 解决方案&#xff1…

STM32定时器篇——Systick定时器的使用(实现delay延时函数)

一、Systick定时器的简介: Systick定时器就是系统滴答定时器,一个24 位的倒计数定时器对于CM3,CM4内核芯片,都有Systick定时器。当Systick计到0时,将从RELOAD 寄存器中自动重装载定时初值。只要不把它在SysTick 控制及状态寄存器中…

SpringBoot【2】集成 MyBatis Plus

SpringBoot 集成 MyBatis Plus 前言修改 pom.xml修改配置文件添加 实体类添加 持久层接口添加 持久层 XxxMapper.xml 文件添加 业务接口层添加 业务接口实现类添加 控制层添加 MyBatis 配置AutoFillMetaObjectHandlerMyBatisPlusConfig 验证 前言 由于 MySQL 备份/恢复测试&am…

LeetCode 算法:回文链表 c++

原题链接🔗:回文链表 难度:简单⭐️ 题目 给你一个单链表的头节点 head ,请你判断该链表是否为回文链表。如果是,返回 true ;否则,返回 false 。 示例 1: 输入:head…

如何用 Google Chrome 浏览器浏览经过 XSLT 渲染的 XML 文件

对于经过XSLT渲染的XML文件,本来,可以直接用 IE (Internet Explorer) 打开,就能看到渲染之后的样子,很方便。但是后来,微软把 IE 换成了 Microsoft Edge,按理说这是比 IE 更先进的浏览器,可是偏…

Swift 是 C++ 的最佳继任者

苹果称 Swift 是 C 的最佳继任者 Swift 是苹果公司在 2014 年推出的,一款旨在替代 Objective-C 的编程语言。但苹果语言和运行时总监 Ted Kremenek 在 WWDC24 的主题演讲中表示,Swift 也将取代 C。 “Swift 的安全性、速度和易用性,加上内…

期末复习6--链表头插法(逆序)尾插法(顺序)---输出链表

头插法 #include <stdio.h> #include <stdlib.h>struct Node //定义结构体 {char data; //数据域struct Node * next; //指针域 };/* 请在这里填写答案 */void PrintList (struct Node * head) {struct Node * s;if(head NULL){printf("None&qu…

Python基础教程(二十一):多线程

&#x1f49d;&#x1f49d;&#x1f49d;首先&#xff0c;欢迎各位来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里不仅可以有所收获&#xff0c;同时也能感受到一份轻松欢乐的氛围&#xff0c;祝你生活愉快&#xff01; &#x1f49d;&#x1f49…

在ubuntu中启动docker的mysql8镜像

首先查看docker是否启动&#xff1a; docker ps #出现信息就是启动成功 启动命令&#xff1a; sudo systemctl start docker 设置开机自启&#xff1a; sudo systemctl enable docker 查询下载好的mysql8的镜像文件&#xff1a; docker images 在启动查询好的镜像文件&#…

StarNet实战:使用StarNet实现图像分类任务(一)

文章目录 摘要安装包安装timm 数据增强Cutout和MixupEMA项目结构计算mean和std生成数据集 摘要 https://arxiv.org/pdf/2403.19967 论文主要集中在介绍和分析一种新兴的学习范式——星操作&#xff08;Star Operation&#xff09;&#xff0c;这是一种通过元素级乘法融合不同子…

521. 最长特殊序列 Ⅰ(Rust单百解法-脑筋急转弯)

题目 给你两个字符串 a 和 b&#xff0c;请返回 这两个字符串中 最长的特殊序列 的长度。如果不存在&#xff0c;则返回 -1 。 「最长特殊序列」 定义如下&#xff1a;该序列为 某字符串独有的最长 子序列 &#xff08;即不能是其他字符串的子序列&#xff09; 。 字符串 s …

从传统到智能:数字孪生在火电厂中的应用

通过图扑 HT 可视化技术数字孪生正在运行的火力发电厂&#xff0c;搭建数字化运营平台&#xff0c;对发电厂进行工厂式精细化的数字化管理&#xff0c;提升企业对整个发电厂业务进行数字化管理能力。

安装wsl

安装wsl 先决条件&#xff1a; 打开控制面板->选择程序与功能->选择启动或关闭windows功能&#xff0c;将以下框选的勾选上 二、到Mircosoft store下载Ubuntu 三、如果以上都勾选了还报以下错误 注册表错误 0x8007019e Error code: Wsl/CallMsi/REGDB_E_CLASSNOTREG…