利用 NVIDIATAO 和 WeightBias 加速AI开发

news2025/1/14 1:20:21

利用 NVIDIATAO 和 Weight&Bias 加速AI开发

在这里插入图片描述

利用图像分类、对象检测、自动语音识别 (ASR) 和其他形式的 AI 可以推动公司和商业部门内部的大规模转型。 然而,从头开始构建人工智能和深度学习模型是一项艰巨的任务。

构建这些模型的一个共同先决条件是拥有大量高质量的训练数据和准备数据、构建神经网络以及持续微调模型以优化性能的正确专业知识。 对于开始机器学习 (ML) 之旅的组织来说,这通常是一个挑战。 尽管 AI 可以提供明确且可衡量的好处,但高准入门槛往往成为各种规模企业采用 AI 的障碍。

这篇文章讨论了 NVIDIA TAO 工具包和 Weights & Biases MLOps 平台的结合如何帮助启动组织利用 AI 和加速常见 AI 任务的旅程。 开发人员现在可以使用 NVIDIA TAO (Train-Adapt-Optimize) Toolkit 和 Weights & Biases (W&B) 可视化和比较多次训练运行。 此外,我们还将介绍一个用于构建对象检测模型的示例工作流程。

NVIDIA TAO 工具包

NVIDIA TAO Toolkit 是一种低代码解决方案,使开发人员和企业能够加速模型训练和优化过程。 NVIDIA TAO 工具包通过抽象化 AI 模型和深度学习框架的复杂性,降低了 AI 入门者的入门门槛。 借助 NVIDIA TAO 工具包,您可以利用迁移学习的强大功能,使用您自己的数据微调 NVIDIA 预训练模型,并优化推理模型以满足您的业务需求。

NVIDIA TAO Toolkit 支持广泛的计算机视觉任务,例如分类、对象检测、分割、关键点估计、OCR 等。 它提供交钥匙推理优化,可降低模型的复杂性和大小并提高推理吞吐量。

Weights & Biases

Weights & Biases MLOps 平台可帮助 ML 团队更快地构建更好的模型。 只需在笔记本中添加几行代码,您就可以立即调试、比较和重现您的模型——架构、超参数、git 提交、模型权重、GPU 使用、数据集和预测——所有这一切都与您的团队成员协作。

显示 W&B 平台的五个模块的图表:工件、表格、实验、扫描和评估。

在这里插入图片描述

W&B 受到来自世界上一些最具创新性的公司和研究组织的超过 400,000 名 ML 从业者的信任。 要免费试用,请在 Weights & Biases 注册。

集成 NVIDIA TAO 工具包和 Weights & Biases

NVIDIA TAO 工具包使您能够可视化权重和偏差中的所有实验数据。 可视化、比较和对比多个训练运行,以确定哪些候选模型最适合项目的需求,以及哪些超参数对模型性能的影响最大。

集成还将展示每个模型训练如何使用底层硬件以确保资源得到充分利用。 要了解有关如何配置 NVIDIA TAO 工具包并将实验记录到 W&B 的更多信息,请参阅 NVIDIA TAO 工具包 W&B 集成文档。

Image classificationObject detectionSegmentation
EfficientNet B0-B5DetectNet-v2Unet
FasterRCNNMaskRCNN
RetinaNet
YOLOv4/v4-Tiny/v3
SSD/DSSD
EfficientDet

如何通过 NVIDIA TAO 工具包利用 W&B

以下部分将指导您通过一个示例在 NVIDIA TAO 工具包中调整预训练对象检测模型,利用权重和偏差。 首先,设置工具包并将您的 W&B 帐户连接到实例。 然后将工具包中的指标记录到 W&B,并利用实验跟踪、数据可视化和工件跟踪功能。

设置 W&B 帐户

  1. 创建 W&B 帐户(请注意,企业用户应咨询您的 W&B 管理员。)
  2. 复制您的 API 密钥

安装和设置 NVIDIA TAO 工具包

  1. 使用下面的调用下载 NVIDIA TAO Toolkit 资源。 此软件包包含用于安装工具包容器和 Jupyter 笔记本以运行 NVIDIA TAO 工具包的启动脚本。
wget --content-disposition https://api.ngc.nvidia.com/v2/resources/nvidia/tao/tao-getting-started/versions/4.0.0/zip -O getting_started_v4.0.0.zip
unzip -u getting_started_v4.0.0.zip  -d ./getting_started_v4.0.0 && rm -rf getting_started_v4.0.0.zip && cd ./getting_started_v4.0.0
  1. NVIDIA TAO Toolkit 有多种训练方式。 有关每个的详细说明,请参阅 TAO 工具包入门指南。
  • Launcher CLI:您可以使用轻量级 Python CLI 应用程序运行 TAO。 启动器基本上充当基于 PyTorch 和 TensorFlow 构建的多个 NVIDIA TAO 工具包容器的前端。 将根据您计划用于计算机视觉或对话式 AI 用例的模型类型自动启动适当的容器。
  • 直接从容器:您还可以选择直接使用 Docker 容器运行 NVIDIA TAO Toolkit。 要直接使用容器,您需要知道要拉取哪个容器。 TAO Toolkit下有多个容器。 根据您要训练的模型,您需要拉取适当的容器。 使用 Launcher CLI 时不需要这样做。
  • TAO API:您还可以使用 NVIDIA TAO Toolkit API 使用 REST API 运行,这是一种 Kubernetes 服务,可以使用 REST API 构建 AI 模型。 API 服务可以使用 Helm chart 以及最小依赖项安装在 Kubernetes 集群(本地/AWS EKS)上。

配置 NVIDIA TAO Toolkit 以登录 W&B

  1. 配置 W&B API 密钥:要从本地计算单元传输数据并在 W&B 服务器仪表板上渲染数据,必须登录 NVIDIA TAO 工具包容器中的 W&B 客户端并与您的配置文件同步。 要在容器登录中包含 W&B 客户端,请使用您在设置 W&B 帐户时收到的 API 密钥在 NVIDIA TAO 工具包容器中设置 WANDB_API_KEY 环境变量。 有关其他资源,请参阅 TAO 工具包 W&B 集成文档。

Launcher CLI:如果您使用的是 Launcher CLI,请使用下面的示例 json 片段并将 Envs 元素下的值字段替换为 ~/.tao_mounts.json 文件中的 W&B API 密钥。

{
    "Mounts": [
        {
            "source": "/path/to/your/data",
            "destination": "/workspace/tao-experiments/data"
        },
        {
            "source": "/path/to/your/local/results",
            "destination": "/workspace/tao-experiments/results"
        },
        {
            "source": "/path/to/config/files",
            "destination": "/workspace/tao-experiments/specs"
        }
    ],
    "Envs": [
        {
            "variable": "WANDB_API_KEY",
            "value": "<api_key_value_from_wandb>"
        }
    ],
    "DockerOptions": {
        "shm_size": "16G",
        "ulimits": {
            "memlock": -1,
            "stack": 67108864
        },
        "ports": {
            "8888": 8888
        }
    }
}

直接从 Docker:如果您直接通过容器运行,请使用 docker 命令的 -e 标志。 例如,要直接通过容器运行带有 W&B 的 detectnet_v2,请使用以下脚本:

docker run -it --rm --gpus all \
           -v /path/in/host:/path/in/docker \
           -e WANDB_API_KEY=<api_key_value>
           nvcr.io/nvidia/tao/tao-toolkit:4.0.0-tf1.15.5 \
           detectnet_v2 train -e /path/to/experiment/spec.txt \
           -r /path/to/results/dir \
           -k $KEY --gpus 4

NVIDIA TAO API:对于 API,将以下代码片段添加到 TAO Toolkit Helm 图表中的 values.yaml 文件:

# Optional MLOPS setting for Weights And Biases
wandbApiKey: <wandb_api_key>
  1. 运行 NVIDIA TAO Toolkit 并将您的指标记录到 W&B。

实例化下载示例目录中存在的 detectnet_v2.ipynb 笔记本:notebooks/tao_launcher_starter_kit/detectnet_v2/detectnet_v2.ipynb。

使用以下脚本取消注释 MLOPS 集成部分下的第一个单元格:

# Uncomment this code block to enable wandb integration with TAO.
   # # you can get the wandb api key by logging into https://wandb.ai
   # !pip install wandb
   #
   # os.environ[\"WANDB_API_KEY\"] = FIXME
   # import wandb
   # WANDB_LOGGED_IN = wandb.login()
   # if WANDB_LOGGED_IN:
   #     print(\"WANDB successfully logged in.

将下一行中的 FIXME 替换为复制的 W&B 密钥。

os.environ["WANDB_API_KEY"] = FIXME

一旦您传入 API 密钥,W&B 日志记录将默认启用。 有关集成 NVIDIA TAO 工具包和 W&B 的更多详细信息,请参阅 NVIDIA TAO 工具包 W&B 集成文档。

下图显示了通过运行笔记本自动生成的页面示例。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/379338.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java枚举详解

一.枚举 1.为什么有枚举&#xff1f; 如果我们的程序需要表示固定的几个值&#xff1a; 比如季节&#xff1a;spring (春)&#xff0c;summer(夏)&#xff0c;autumn(秋)&#xff0c;winter(冬) 用常量表示&#xff1a; public static final int SEASON_SPRING 1;public st…

机械键盘不只有轴体的区别!键帽高度也有些学问

键盘键帽的学问有很多&#xff0c;上篇文章中&#xff0c;笔者和大家聊了键帽的材质和耐油污的问题。 除此之外&#xff0c;键帽的高度和字符的印刷方式也有不同&#xff0c;对于多数机械键盘来说&#xff0c;会发现每一列键帽的倾斜角度都略有不同&#xff0c;使用起来可以减少…

vue在history模式下打包部署问题解决

引言 项目使用的模板是element-template&#xff0c;由于业务需要&#xff0c;我将路由的hash模式更改为了history模式&#xff0c;然后在打包部署项目时就出现了问题 个人发现是资源的访问路径有问题&#xff0c;在部署之后发现每次访问的js资源路径前都会自动携带上我路由的…

如何使用SpringBoot ⽇志?

Spring Boot自定义日志的打印:在一个类中先获取到打印日志对象&#xff08;日志框架提供的日志对象&#xff0c;而日志框架默认已经集成到Spring Boot里了&#xff0c;springboot默认使用 slf4jlogback);注意&#xff1a;得到日志对象Logger ->来自于slf4j2、使用目志对象提…

Operator-sdk 在 KaiwuDB 容器云中的使用

一、使用背景KaiwuDB Operator 是一个自动运维部署工具&#xff0c;可以在 Kubernetes 环境上部署 KaiwuDB集群&#xff0c;借助 Operator 可实现无缝运行在公有云厂商提供的 Kubernetes 平台上&#xff0c;让 KaiwuDB 成为真正的 Cloud-Native 数据库。使用传统的自动化工具会…

深度学习之 imgaug (图像增强)学习笔记

深度学习之 imgaug &#xff08;图像增强&#xff09;前言1\. 安装和卸载2\. 示例2.1 基本使用2.2 包含常用的变换示例3 Augmenters常用函数3.1 iaa.Sequential()3.2 iaa.someOf()3.3 iaa.OneOf()3.4 iaa.Sometimes()3.5 iaa.WithColorspace()3.6 iaa.WithChannels()3.7 iaa.No…

KingbaseES V8R3 表加密

前言 透明加密是指将数据库page加密后写入磁盘&#xff0c;当需要读取对应page时进行加密读取。此过程对于用户是透明&#xff0c; 用户无需干预。 该文档进行数据库V8R3版本测试透明加密功能&#xff0c;需要说明&#xff0c;该版本发布时间早于V8R6&#xff0c;所以只能进行表…

我带过的一名C++实习生——Z同学

刚开始带Z同学&#xff0c;吃饭聊天时&#xff0c;我顺便了解了下他的擅长&#xff1a;linux平台下C、C网络编程。 接下来的实习&#xff0c;主要分为两个阶段&#xff1a;小组公共培训和项目实训。 小组公共培训为期2周&#xff0c;主要学习和了解公司文化制度&#xff0c;讲师…

【项目设计】高并发内存池(三)[CentralCache的实现]

&#x1f387;C学习历程&#xff1a;入门 博客主页&#xff1a;一起去看日落吗持续分享博主的C学习历程博主的能力有限&#xff0c;出现错误希望大家不吝赐教分享给大家一句我很喜欢的话&#xff1a; 也许你现在做的事情&#xff0c;暂时看不到成果&#xff0c;但不要忘记&…

脏牛复现(CVE2016-5195)

nmap扫描全网段&#xff0c;发现存货主机&#xff0c;ip为192.168.85.141nmap 192.168.85.0/24nmap 扫描端口&#xff0c;发现80端口&#xff0c;访问该网站nmap -p1-65535 192.168.85.141扫描该网站目录&#xff0c;什么也没扫出来 &#xff0c;dirb扫描目录的字典在usr/share…

Android TV UI开发常用知识

导入依赖 Google官方为Android TV的UI开发提供了一系列的规范组件&#xff0c;在leanback的依赖库中&#xff0c;这里介绍一些常用的组件&#xff0c;使用前需要导入leanback库。 implementation androidx.leanback:leanback:$version常用的页面 这些Fragment有设计好的样式&…

RocketMQ的一些使用理解

1.RocketMQ的生产者生产负载策略&#xff08;3种&#xff09; (1)SelectMessageQueueByHash &#xff08;一致性hash&#xff09; (2)SelectMessageQueueByMachineRoom &#xff08;机器随机&#xff09; (3)SelectMessageQueueByRandom &#xff08;随机&#xff09; 第1种一…

字符流定义及如何深入理解字符流的编码

IputSrem类和OupuSrem类在读写文件时操作的都是字节&#xff0c;如果希望在程序中操作字符&#xff0c;使用这两个类就不太方便&#xff0c;为此JDK提供了字符流。同字节流样&#xff0c;字符流也有两个抽象的顶级父类&#xff0c;分别是Reader和Writer其中&#xff0c;Reader是…

Nvidia jetson nano硬件架构

资料来源 官方文档中心 https://developer.nvidia.com/embedded/downloads -> 选jetson -> Jetson Nano Product Design Guide //产品设计指导(入口) //-> 1.1 References 列出了相关的文档 -> Jetson Nano Developer Kit Carrier Board Specification //板子标注…

MySQL实战之深入浅出索引(下)

1.前言 在上一篇文章中&#xff0c;我们介绍了InnoDB索引的数据结构模型&#xff0c;今天我们再继续聊一下跟MySQL索引有关的概念。 在介绍之前&#xff0c;我们先看一个问题&#xff1a; 表初始化语句 mysql> create table T ( ID int primary key, k int NOT NULL DEFA…

LeetCode 1237. Find Positive Integer Solution for a Given Equation【双指针,二分,交互】

本文属于「征服LeetCode」系列文章之一&#xff0c;这一系列正式开始于2021/08/12。由于LeetCode上部分题目有锁&#xff0c;本系列将至少持续到刷完所有无锁题之日为止&#xff1b;由于LeetCode还在不断地创建新题&#xff0c;本系列的终止日期可能是永远。在这一系列刷题文章…

Linux学习--重定向

重定向的意思是&#xff0c;将数据传到其他地方。 符号解释>输出覆盖重定向>>输出追加重定向<或<<标准输入重定向 1、读取文件内容且写入到另一个文件中&#xff0c;覆盖写入文件内容 cat haha.txt > xixi.txt2、追加写入文件内容 cat haha.txt >&g…

2023,年轻人不想买钻石了?

【潮汐商业评论/ 原创】“钻石恒久远&#xff0c;一颗永流传。”很明显&#xff0c;Lily就是这句话的“受害者”。临近婚期的她&#xff0c;在婚戒的选择上犯起了愁&#xff0c;“我现在想到买钻戒&#xff0c;我就头大。买小的凑合一下&#xff0c;耳边传来的都是‘别买一克拉…

Linux命令篇 linux命令大全简洁明了 linux学习笔记

Linux命令篇 linux命令大全简洁明了 linux学习笔记 Linux 命令大全 文章目录Linux 命令大全一、 常用的基础命令查看目录&#xff1a;切换目录&#xff1a;创建和删除&#xff1a;拷贝和移动文件&#xff1a;查看文件内容&#xff1a;其他&#xff1a;小技巧终端命令格式1.1 ls…

如何用3个月零基础入门网络安全?

背景 写这篇教程的初衷是很多朋友都想了解如何入门/转行网络安全&#xff0c;实现自己的“黑客梦”。文章的宗旨是&#xff1a;1.指出一些自学的误区 2.提供客观可行的学习表 3.推荐我认为适合小白学习的资源.大佬绕道哈&#xff01; 一、自学网络安全学习的误区和陷阱 1.不…