Triton教程 -- 快速开始

news2024/11/20 3:35:55

Triton教程 – 快速开始

在这里插入图片描述

文章目录

  • Triton教程 -- 快速开始
    • 创建模型存储库
    • 启动 Triton
    • 在带 GPU 的系统上运行
    • 在纯 CPU 系统上运行
    • 验证 Triton 是否正常运行
    • 发送推理请求

Triton 推理服务器的新手,想快速部署您的模型吗? 利用这些教程开始您的 Triton 之旅!

Triton 推理服务器可作为可构建的源代码提供,但安装和运行 Triton 的最简单方法是使用 NVIDIA GPU Cloud (NGC) 提供的预构建 Docker 映像。

启动和维护 Triton 推理服务器围绕构建模型存储库的使用展开。 本教程将涵盖:

  • 创建模型存储库

  • 启动 Triton

  • 发送推理请求

创建模型存储库

模型存储库是放置您希望 Triton 提供的模型的目录。 示例模型存储库包含在 docs/examples/model_repository 中。 在使用存储库之前,您必须通过提供的脚本从他们的公共模型库中获取任何丢失的模型定义文件。

$ cd docs/examples
$ ./fetch_models.sh

启动 Triton

Triton 经过优化,可通过使用 GPU 提供最佳推理性能,但它也可以在仅使用 CPU 的系统上运行。 在这两种情况下,您都可以使用相同的 Triton Docker 映像。

在带 GPU 的系统上运行

使用以下命令通过您刚刚创建的示例模型存储库运行 Triton。 必须安装 NVIDIA 容器工具包,Docker 才能识别 GPU。 –gpus=1 标志表示应该为 Triton 提供 1 个系统 GPU 以进行推理。

$ docker run --gpus=1 --rm -p8000:8000 -p8001:8001 -p8002:8002 -v/full/path/to/docs/examples/model_repository:/models nvcr.io/nvidia/tritonserver:<xx.yy>-py3 tritonserver --model-repository=/models

其中 <xx.yy> 是您要使用的 Triton 版本(并拉到上面)。 启动 Triton 后,您将在控制台上看到显示服务器启动和加载模型的输出。 当您看到如下输出时,Triton 已准备好接受推理请求。

+----------------------+---------+--------+
| Model                | Version | Status |
+----------------------+---------+--------+
| <model_name>         | <v>     | READY  |
| ..                   | .       | ..     |
| ..                   | .       | ..     |
+----------------------+---------+--------+
...
...
...
I1002 21:58:57.891440 62 grpc_server.cc:3914] Started GRPCInferenceService at 0.0.0.0:8001
I1002 21:58:57.893177 62 http_server.cc:2717] Started HTTPService at 0.0.0.0:8000
I1002 21:58:57.935518 62 http_server.cc:2736] Started Metrics Service at 0.0.0.0:8002

所有模型都应显示“READY”状态,以表明它们已正确加载。 如果模型加载失败,状态将报告失败和失败的原因。 如果您的模型未显示在表中,请检查模型存储库和您的 CUDA 驱动程序的路径。

在纯 CPU 系统上运行

在没有 GPU 的系统上,Triton 应该在不使用 Docker 的 –gpus 标志的情况下运行,但在其他方面与上面描述的相同。

$ docker run --rm -p8000:8000 -p8001:8001 -p8002:8002 -v/full/path/to/docs/examples/model_repository:/models nvcr.io/nvidia/tritonserver:<xx.yy>-py3 tritonserver --model-repository=/models

由于未使用 –gpus 标志,因此 GPU 不可用,因此 Triton 将无法加载任何需要 GPU 的模型配置。

验证 Triton 是否正常运行

使用 Triton 的就绪端点来验证服务器和模型是否已准备好进行推理。 从主机系统使用 curl 访问指示服务器状态的 HTTP 端点。

$ curl -v localhost:8000/v2/health/ready
...
< HTTP/1.1 200 OK
< Content-Length: 0
< Content-Type: text/plain

如果 Triton 准备就绪,HTTP 请求返回状态 200,如果未准备好,则返回non-200。

发送推理请求

使用 docker pull 从 NGC 获取客户端库和示例图像。

$ docker pull nvcr.io/nvidia/tritonserver:<xx.yy>-py3-sdk

其中 <xx.yy> 是您要拉取的版本。 运行客户端映像。

$ docker run -it --rm --net=host nvcr.io/nvidia/tritonserver:<xx.yy>-py3-sdk

nvcr.io/nvidia/tritonserver:<xx.yy>-py3-sdk 镜像中,运行示例图像客户端应用程序以使用示例 densenet_onnx 模型执行图像分类。

要发送对 densenet_onnx 模型的请求,请使用 /workspace/images 目录中的图像。 在这种情况下,我们要求前 3 个分类。

$ /workspace/install/bin/image_client -m densenet_onnx -c 3 -s INCEPTION /workspace/images/mug.jpg
Request 0, batch size 1
Image '/workspace/images/mug.jpg':
    15.346230 (504) = COFFEE MUG
    13.224326 (968) = CUP
    10.422965 (505) = COFFEEPOT

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/641064.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

FasterTransformer 004 open_attention.h forward

initialize forward() https://github1s.com/NVIDIA/FasterTransformer/blob/v1.0/fastertransformer/cuda/open_attention.h#L149-L217 使用cuBLAS库执行矩阵乘法运算&#xff0c;并对cublasGemmEx&#xff08;&#xff09;进行三个单独的调用。这些操作包括将属性核与输入张…

<Linux开发>驱动开发 -之-内核定时器与中断

&#xff1c;Linux开发&#xff1e;驱动开发 -之-内核定时器与中断 交叉编译环境搭建&#xff1a; &#xff1c;Linux开发&#xff1e; linux开发工具-之-交叉编译环境搭建 uboot移植可参考以下&#xff1a; &#xff1c;Linux开发&#xff1e; -之-系统移植 uboot移植过程详…

Linux系统下安装Kubernetes(超详细。。。)

一、安装Kubernetes前的准备 1.1 准备Hosts文件 &#xff08;注意&#xff0c;请根据Linux虚拟机的IP地址&#xff0c;修改以下命令后再执行&#xff09; cat >>/etc/hosts<<EOF 192.168.100.146 deploy EOF 1.2 检查虚拟机的hostname cat /etc/hostname验证…

Charles抓包配置

这里写目录标题 一、Windows抓包配置1、Help-SSL Proxying-install Charles Root Certificate2、安装并导入证书&#xff0c;按下方各图完成证书导入后&#xff0c;正常情况下&#xff0c;会显示该证书没有问题。3、SSL证书过期解决办法a、可在windows的设置中搜索证书关键字&a…

c++ nlohmann/json 及修改json文件中个别关键字

(2条消息) nlohmann json使用_nlohmann::json_蜗牛单行道的博客-CSDN博客json为JavaScript object notation 是一种数据格式&#xff0c;逐渐替换掉了传统的xml 。json数据格式的属性名称和字符串值需要用双引号引起来&#xff0c;用单引号或者不用引号会导致读取数据错误。jso…

Django-初

文章目录 一、Django框架介绍二、后台管理第一步:项目的创建与运行第二步:应用的创建和使用第三步: 项目的数据库模型第四步: 启用后台Admin站点管理 三、前台管理第一步: URLconf 路由管理第二步: 视图函数处理业务逻辑第三步: 模板管理实现好看的HTML页面&#xff08;可参考菜…

网络计算模式期末复习(一)

C/S架构 C/S架构即客户端/服务端架构。客户端包含一个或多个在用户电脑上运行的程序&#xff0c;客户端程序发送请求和从服务器接收的数据。服务器端主要提供数据管理、数据共享、数据及系统维护和并发控制等。 B/S架构 B/S架构即浏览器/服务器架构&#xff0c;是随着Intern…

图片上添加贴纸怎么做?这几种方法很简单

在图片上添加贴纸是一种非常实用的图片编辑技巧&#xff0c;通过添加贴纸&#xff0c;图片可以变得更加生动有趣&#xff0c;吸引人们的眼球。贴纸可以是各种形状、颜色和大小&#xff0c;从而丰富图片的视觉效果。例如&#xff0c;在一张风景照片中添加一只卡通动物的图案&…

python中golbal的使用

简介 global关键字定义了一种在局部定义全局变量的方法 python中变量分为全局变量和局部变量&#xff0c;局部变量也叫做内部变量内部变量只能被内部使用&#xff0c;无法被其他函数或者对象使用 使用 简单使用 def fn():global fn_varfn_var "Hello World"fn1()…

为什么网红餐饮都做不长久?如何解决网红餐饮店所面临的问题?

随着社交媒体的兴起&#xff0c;网红餐饮在近年来越来越受到人们的关注。这些网红餐饮通常有着独特的装修风格、口味或者服务方式&#xff0c;吸引了大量的消费者前来体验。然而&#xff0c;有越来越多的网红餐饮因为各种原因而不得不倒闭&#xff0c;这引发了人们对于网红餐饮…

cajviewer怎么转换成pdf格式,分享几个方法给大家!

CAJViewer是一款常用的文献阅读软件&#xff0c;它主要用于打开和阅读中国知网等数据库中的CAJ格式文件。然而&#xff0c;有时候我们可能需要将这些CAJ文件转换为PDF格式&#xff0c;以便更方便地与他人分享或者进行打印。本文将介绍两到三种将CAJViewer文件转换为PDF格式的方…

华为OD机试真题2022Q4 A + 2023 B卷(JavaJavaScript)

大家好&#xff0c;我是哪吒。 五月份之前&#xff0c;如果你参加华为OD机试&#xff0c;收到的应该是2022Q4或2023Q1&#xff0c;这两个都是A卷题。 5月10日之后&#xff0c;很多小伙伴收到的是B卷&#xff0c;那么恭喜你看到本文了&#xff0c;抓紧刷题吧。B卷新题库正在更…

建站记录1:开通阿里云,购买域名,安装宝塔+LAMP系统

个人建站&#xff1a; 因为宝塔系统&#xff08;https://www.bt.cn&#xff09;&#xff0c;可以方便的部署zblog 彩色背景 什么是LAMP&#xff1f; Linux Apache PHP MySQL LAMP 是指Linux&#xff08;操作系统&#xff09; Apache &#xff08;HTTP 服务器&#xff09;…

batch_size对精确度和损失的影响

1 问题 在深度学习的学习过程中&#xff0c;模型性能对batchsize虽然没有学习率那么敏感&#xff0c;但是在进一步提升模型性能时&#xff0c;batch_size就会成为一个非常关键的参数。 batch_size对精度和损失的影响研究。 batch_size [,32,64,128&#xff0c;256] 不同batch_…

镕铭微电子VPU 极致降本增效实践

当前视频行业环境下&#xff0c;硬件芯片的机遇与挑战并存&#xff0c;如何使得硬件芯片产品及方案设计更好地贴近用户、服务用户及满足用户更深层次需求&#xff1f;本次LiveVideoStackCon 2022 北京站邀请到镕铭微电子解决方案架构总监——蔡媛Amy&#xff0c;为大家介绍镕铭…

【熬夜送书 | 第五期】清华社赞助 | 《MySQL系列丛书》

MySQL是什么? MySQL是一种关系型数据库管理系统&#xff0c;由瑞典MySQL AB公司开发。MySQL是最流行的关系型数据库管理系统之一&#xff0c;在WEB应用方面&#xff0c;MySQL是最好的RDBMS(Relational Database Management System:关系数据库管理系统)应用软件之一。 MySQL有…

Arduino esp32 环境配置以及避坑指南

目录 环境配置安装 IDE下载固件 项目测试疑难解答micropython 固件冲突问题 环境配置 安装 IDE 参考文献&#xff1a;CSDN 首先下载 Arduino IDE 请注意&#xff0c;一定要选择 1.8 版本的&#xff0c;千万别用 2.0版本&#xff01;&#xff01;&#xff01; 建议直接下载 win…

通过向量回归、随机森林回归、线性回归和K-最近邻回归将预测结果绘制成图表进行展示

文章目录 表格部分数据如下运行效果如下代码解析完整代码附件 表格部分数据如下 附件里会给出全部数据链接 运行效果如下 代码解析 import pandas as pd import numpy as np import matplotlib.pyplot as plt from matplotlib.font_manager import FontPropertiesfont FontP…

webpack自动化打包webpack-dev-server

在前面的章节中我们每次改完要打包的资源文件&#xff0c;和配置文件都是是输入npx webpack命令手动打包的&#xff0c;那么有没有什么办法可以监听到我们代码的改动&#xff0c;在保存时就自动打包呢&#xff1f; 答案是当然有&#xff0c;不然哪些框架的脚手架是怎么实现保存…

Redis命令-数据结构String类型和Hash类型

1. String类型 字符串类型&#xff0c;Redis中最简单的存储类型 底层都是字节数组形式存储&#xff0c;只不过是编码方式不同&#xff1b; 字符串类型的最大空间不能超过512m&#xff1b; SET/GET/MSET/MGET使用示例&#xff1a; INCR使用示例&#xff1a; INCRBY自增并指定步长…