在 NVIDIA DGX Cloud 上使用 H100 GPU 轻松训练模型

news2024/9/20 1:25:55

近期,我们正式宣布推出 DGX 云端训练 (Train on DGX Cloud) 服务,这是 Hugging Face Hub 上针对企业 Hub 组织的全新服务。

通过在 DGX 云端训练,你可以轻松借助 NVIDIA DGX Cloud 的高速计算基础设施来使用开放的模型。这项服务旨在让企业 Hub 的用户能够通过几次点击,就在Hugging Face Hub中轻松访问最新的 NVIDIA H100 Tensor Core GPU,并微调如 Llama、Mistral 和 Stable Diffusion 这样的流行生成式 AI (Generative AI) 模型。

  • Hugging Face Hubhttps://hf.co/models

73ffdd8d2c0103a82cfab796f03e8f68.png

GPU 不再是稀缺资源

这一新体验基于我们去年宣布的战略合作,旨在简化 NVIDIA 加速计算平台上开放生成式 AI 模型的训练和部署。开发者和机构面临的主要挑战之一是 GPU 资源稀缺,以及编写、测试和调试 AI 模型训练脚本的工作繁琐。在 DGX 云上训练为这些挑战提供了简便的解决方案,提供了对 NVIDIA GPUs 的即时访问,从 NVIDIA DGX Cloud 上的 H100 开始。此外,该服务还提供了一个简洁的无代码训练任务创建体验,由 Hugging Face AutoTrain 和 Hugging Face Spaces 驱动。

  • 战略合作https://nvidianews.nvidia.com/news/nvidia-and-hugging-face-to-connect-millions-of-developers-to-generative-ai-supercomputing

通过企业版的 HF Hub,组织能够为其团队提供强大 NVIDIA GPU 的即时访问权限,只需按照训练任务所用的计算实例分钟数付费。

  • 企业版的 HF Hubhttps://hf.co/enterprise

在 DGX Cloud 上训练是目前训练生成式 AI 模型最简单、最快速、最便捷的方式,它结合了强大 GPU 的即时访问、按需付费和无代码训练,这对全球的数据科学家来说将是一次变革性的进步!

—— Abhishek Thakur, Hugging Face AutoTrain 团队创始人

今天发布的 Hugging Face Autotrain,得益于 DGX Cloud 的支持,标志着简化 AI 模型训练过程向前迈出了重要一步,通过将 NVIDIA 的云端 AI 超级计算机与 Hugging Face 的友好界面结合起来,我们正在帮助各个组织加速他们的 AI 创新步伐。

—— Alexis Bjorlin, NVIDIA DGX 云副总裁

操作指南

在 NVIDIA DGX Cloud 上训练 Hugging Face 模型变得非常简单。以下是针对如何微调 Mistral 7B 的分步教程。

注意:你需要访问一个拥有企业版的 HF Hub 订阅的组织账户,才能使用在 DGX Cloud 上训练的服务

你可以在支持的生成式 AI 模型的模型页面上找到在 DGX Cloud 上训练的选项。目前,它支持以下模型架构:Llama、Falcon、Mistral、Mixtral、T5、Gemma、Stable Diffusion 和 Stable Diffusion XL。

75ca1584d160db91d3282a5d894ec3f6.png

点击“训练 (Train)”菜单,并选择“NVIDIA DGX Cloud”选项,这将打开一个页面,让你可以选择你的企业组织。

9ca5dafddbde9a409ea1614f69e13ef5.png

接下来,点击“Create new Space”。当你首次使用在 DGX Cloud 上训练时,系统将在你的组织内创建一个新的 Hugging Face 空间,使你可以利用 AutoTrain 创建将在 NVIDIA DGX 云上执行的训练任务。当你日后需要创建更多训练任务时,系统将自动将你重定向到已存在的 AutoTrain Space 应用。

进入 AutoTrain Space 应用后,你可以通过配置硬件、基础模型、任务和训练参数来设置你的训练任务。

5a2ac758f0868a0d3f266a6437b07476.png

在硬件选择方面,你可以选择 NVIDIA H100 GPUs,提供 1x、2x、4x 和 8x 实例,或即将推出的 L40S GPUs。训练数据集需要直接上传至“上传训练文件”区域,目前支持 CSV 和 JSON 文件格式。请确保根据以下示例正确设置列映射。对于训练参数,你可以直接在右侧的 JSON 配置中进行编辑,例如,将训练周期数从 3 调整为 2。

一切设置完成后,点击“开始训练”即可启动你的训练任务。AutoTrain 将验证你的数据集,并请求你确认开始训练。

b22cb9334175d00f5712238c698343c3.png

你可以通过查看这个 Space 应用的“Logs 日志”来查看训练进度。

e0bcf100ad1c43f71fd7f09227efa60f.png

训练完成后,你微调后的模型将上传到 Hugging Face Hub 上你所选择的命名空间内的一个新的私有仓库中。

从今天起,所有企业 Hub 组织都可以使用在 DGX Cloud 上训练的服务了!欢迎尝试并分享你的反馈!

在 DGX Cloud 上训练的定价

使用在 DGX Cloud 上训练服务,将根据你训练任务期间使用的 GPU 实例分钟数来计费。当前的训练作业价格为:H100 实例每 GPU 小时 8.25 美元,L40S 实例每 GPU 小时 2.75 美元。作业完成后,费用将累加到你企业 Hub 组织当前的月度账单中。你可以随时查看企业 Hub 组织的计费设置中的当前和历史使用情况。

c1117239fc272f856021848757ba6a0e.png

例如,微调 1500 个样本的 Mistral 7B 在一台 NVIDIA L40S 上大约需要 10 分钟,成本约为 0.45 美元。

我们的旅程刚刚开始

我们很高兴能与 NVIDIA 合作,推动加速机器学习在开放科学、开源和云服务领域的普惠化。

通过BigCode项目的合作,我们训练了StarCoder 2 15B,这是一个基于超过 600 种编程语言训练的全开放、最先进的代码大语言模型 (LLM) 。

  • BigCodehttps://hf.co/bigcode

  • StarCoder 2 15Bhttps://hf.co/bigcode/starcoder2-15b

我们在开源方面的合作推动了新的optimum-nvidia 库的开发,加速了最新 NVIDIA GPUs 上大语言模型的推理,已经达到了 Llama 2 每秒 1200 Tokens 的推理速度。

  • optimum-nvidia 库https://github.com/huggingface/optimum-nvidia

我们在云服务方面的合作促成了今天的在 DGX Cloud 上训练服务。我们还在与 NVIDIA 合作优化推理过程,并使加速计算对 Hugging Face 社区更容易受益。此外,Hugging Face 上一些最受欢迎的开放模型将出现在今天 GTC 上宣布的NVIDIA NIM 微服务上。

  • NVIDIA NIM 微服务https://developer.nvidia.com/zh-cn/blog/nvidia-nim-offers-optimized-inference-microservices-for-deploying-ai-models-at-scale/

本周参加 GTC 的朋友们,请不要错过周三 3/20 下午 3 点 PT 的会议S63149,Jeff将带你深入了解在 DGX Cloud 上训练等更多内容。另外,不要错过下一期 Hugging Cast,在那里我们将现场演示在 DGX Cloud 上训练,并且你可以直接向Abhishek和Rafael提问,时间是周四 3/21 上午 9 点 PT / 中午 12 点 ET / 17h CET -请在此注册。

  • S63149https://www.nvidia.com/gtc/session-catalog/?tab.allsessions=1700692987788001F1cG&search=S63149#/session/1704937870817001eXsB

  • Jeffhttps://hf.co/jeffboudier

  • Abhishekhttps://hf.co/abhishek

  • Rafaelhttps://hf.co/rafaelpierrehf

  • 请在此注册https://streamyard.com/watch/YfEj26jJJg2w

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1533478.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vue2 项目运行 浏览器自动打开 vue项目启动如何自动打开浏览器 vue2取消浏览器自动打开浏览器,vue2关闭自动打开浏览器

1. 找到package.json 2. 找到scripts 在后面添加 --open即可: 3. 运行npm run serve 运行之后,就可以自动打开默认浏览器 4. 同理,不想自动打开 ,将 --open 删除即可!

【机器学习】基于布谷鸟搜索算法优化的BP神经网络分类预测(CS-BP)

目录 1.原理与思路2.设计与实现3.结果预测4.代码获取 1.原理与思路 【智能算法应用】智能算法优化BP神经网络思路【智能算法】布谷鸟搜索算法(CS)原理及实现 2.设计与实现 数据集: 数据集样本总数2000 多输入多输出:样本特征24&#xff0…

选择器加练习

一、常用的选择器 1.元素选择器 语法 : 标签名{} 作用 : 选中对应标签中的内容 例:p{} , div{} , span{} , ol{} , ul{} ...... 2.类选择器(class选择器) 语法 : .class属性值{} 作用 : 选中对应class属性值的元素 注意:class里面的属性值不能以数字开头,如果以符号开头,…

鸿蒙Harmony应用开发—ArkTS-属性动画

组件的某些通用属性变化时,可以通过属性动画实现渐变过渡效果,提升用户体验。支持的属性包括width、height、backgroundColor、opacity、scale、rotate、translate等。布局类改变宽高的动画,内容都是直接到终点状态,例如文字、can…

C++之模版详解

一.array与vector对比 由图发现&#xff0c;使用array数组是必须提前开好空间&#xff0c;而vector是顺序表&#xff0c;可以实现动态开辟空间 array也支持迭代器&#xff0c;如下&#xff1a; int main() {array<int, 10> arr{ 1,2,3,4,5,6,7,8,9,10 };auto it arr.be…

蓝牙HFP协议推荐的语音丢包补偿算法浮点实现的定点化

最近在做蓝牙的宽带语音通话。相对于蓝牙窄带语音&#xff0c;主要变化是把采样率从8k变到16k&#xff0c;以及编解码器从CVSD变成mSBC&#xff08;modified SBC&#xff0c;改进的SBC&#xff09;等。蓝牙语音通话相关的HFP&#xff08;Hand Free Profile&#xff09;强烈建议…

第1关:创建数据库

任务描述 创建一个名为mydata的数据库。 相关知识 MySQL创建数据库的语法如下&#xff1a; 其中&#xff0c;database_name是要创建的数据库的名称。 开始你的任务吧&#xff0c;祝你成功&#xff01; #请在此处添加实现代码 ########## Begin ########## CREATE DATABASE …

如何有效防止员工摸鱼

在现代企业中&#xff0c;员工的工作效率直接影响到公司的运营和发展。然而&#xff0c;有时员工在上班时间会出现摸鱼现象&#xff0c;这不仅浪费了工作时间&#xff0c;还影响了团队的整体氛围和工作效率。 为了有效解决这一问题&#xff0c;本文将探讨一系列具体措施&#…

代码随想录day27(1)二叉树:二叉树的最近公共祖先(leetcode236)

题目要求&#xff1a;给定一个二叉树, 找到该树中两个指定节点的最近公共祖先。 思路&#xff1a;首先遍历顺序应为后序&#xff0c;因为判断两个节点的最近公共祖先实际上要自底向上&#xff0c;可以通过回溯来实现。实际上包含两种情况&#xff1a;第一种是节点p本身有一个子…

如何控制螺栓预紧力?——SunTorque智能扭矩系统

​智能扭矩系统-智能拧紧系统-扭矩自动控制系统-SunTorque 螺栓预紧力是确保机械连接件紧固可靠的关键因素。预紧力过小可能导致连接件松动&#xff0c;预紧力过大则可能引起螺栓断裂或连接件损坏。因此&#xff0c;掌握控制螺栓预紧力的诀窍对于确保设备安全和长期运行至关重要…

目标检测数据集中负样本的处理方式

深度学习中&#xff0c;为了提高模型的精度和泛化能力&#xff0c;往往着眼于两个方面&#xff1a;&#xff08;1&#xff09;使用更多的数据&#xff08;2&#xff09;使用更深更复杂的网络。 一、什么是负样本 负样本是指不包含任务所要识别的目标的图像&#xff0c;也叫负…

Linux查看磁盘空间

查看磁盘空间 df -h 查看目录所占空间 du -sh [目录] 查看当前目录下, 所有目录所占空间 (一级目录) find . -maxdepth 1 -type d -exec du -sh {} \;-maxdepth 1 查看的目录深度是1级, 2则是2级

前端学习笔记 | JS进阶

一、作用域 1、局部作用域 &#xff08;1&#xff09;函数作用域 &#xff08;2&#xff09;块作用域 let和const会产生块作用域 &#xff0c;而var不会产生块作用域 2、全局作用域 script标签和js文件的【最外层】变量 3、作用域链 本质&#xff1a;底层的变量查找机制 4、JS…

JDK新特性之结构化并发及演示代码示例

0.前言 结构化并发功能是在JDK19中的JEP 428开始孵化&#xff0c;然后在JDK21中的JEP 453出第一版预览版&#xff0c;至今在JDK22中的JEP 462出第二版预览版。结构化并发和虚拟线程、作用域值等特性是在OpenJDK Loom项目中进行开发维护等。 1.什么是非结构化并发&#xff1f;…

基于SpringBoot的高校办公室行政事务管理系统

采用技术 基于SpringBoot的高校办公室行政事务管理系统的设计与实现~ 开发语言&#xff1a;Java 数据库&#xff1a;MySQL 技术&#xff1a;SpringBootMyBatis 工具&#xff1a;IDEA/Ecilpse、Navicat、Maven 页面展示效果 功能清单 教师信息管理 办公室管理 办公物资管…

Ant Design Vue和VUE3下的upload组件使用以及文件预览

Ant Design Vue和VUE3下的upload组件使用以及文件预览 用到技术&#xff1a;Ant Design Vue、VUE3、xlsx的文件预览功能&#xff08;也可预览txt&#xff0c;csv&#xff09; 一、多文件上传 需求 可以多文件上传文件先上传到本地&#xff0c;点击开始上传再通过后端接口继续…

QT信号和槽机制connect用法

信号与槽机制是绝对不可或缺且常用的&#xff0c;其中的参数一般都会比较简单&#xff0c;bool、int、QString之类的&#xff0c;但当我们想要传递相对比较复杂的参数&#xff0c;例如QVector<int>、QList<QString>&#xff0c;以及一些我们自定义的结构体时&#…

【timm笔记1】

1. 安装timm pip install timm2. 打印模型 import timm# 获取并打印所有可用的预训练模型名称 available_models = timm.list_models() # 打印出所有的模型 print(available_models)# 打印所有包含"resnet"字符的模型名称 resnet_models = timm.list_models(*resne…

C# 数组(Array)

C# 数组&#xff08;Array&#xff09; 初始化数组 声明一个数组不会在内存中初始化数组。当初始化数组变量时&#xff0c;您可以赋值给数组。 数组是一个引用类型&#xff0c;所以您需要使用 new 关键字来创建数组的实例。 例如&#xff1a; double[] b new double[10];…

排序算法:归并排序(递归)

文章目录 一、归并排序的思路二、代码编写 先赞后看&#xff0c;养成习惯&#xff01;&#xff01;&#xff01;^ _ ^<3 ❤️ ❤️ ❤️ 码字不易&#xff0c;大家的支持就是我坚持下去的动力。点赞后不要忘了关注我哦&#xff01; 所属专栏:排序算法 一、归并排序的思路 单…