NVIDIA TensorRT 简介及使用

news2025/1/6 20:50:42

NVIDIA TensorRT 简介及使用

  • 1. NVIDIA TensorRT 的简介
  • 2. NVIDIA TensorRT 的优势
    • 2.1 推理速度提升 36 倍
    • 2.2 优化推理性能
    • 2.3 加速每一项工作负载
    • 2.4 使用 Triton 进行部署、运行和扩展
  • 3. NVIDIA TensorRT 大型语言模型的推理
  • 4. NVIDIA TensorRT 的使用方法
  • 5. NVIDIA TensorRT 世界领先的推理性能
  • 6. NVIDIA TensorRT 加速每个推理平台
  • 7. NVIDIA TensorRT 支持主要框架
    • 7.1 PyTorch
    • 7.2 TensorFlow
    • 7.3 ONNX
    • 7.4 Matlab

声明:此文仅作为个人学习记录

  • NVIDIA TensorRT 链接:https://developer.nvidia.com/tensorrt
  • NVIDIA 深度学习 TensorRT 文档:https://docs.nvidia.com/deeplearning/tensorrt/index.html

1. NVIDIA TensorRT 的简介

  NVIDIA® TensorRT™是高性能深度学习推理的SDK,包括深度学习推理优化器和运行时,可为推理应用程序提供低延迟和高吞吐量。

2. NVIDIA TensorRT 的优势

2.1 推理速度提升 36 倍

  基于 NVIDIA TensorRT 的应用程序在推理期间比仅使用 CPU 的平台快 36 倍,使您能够优化在所有主要框架上训练的神经网络模型,以高精度校准较低精度,并部署到超大规模数据中心、嵌入式平台或汽车产品平台。

2.2 优化推理性能

  TensorRT 建立在 NVIDIA CUDA® 并行编程模型之上,使您能够使用 NVIDIA GPU 上的量化、层和张量融合、内核调优等技术优化推理。

2.3 加速每一项工作负载

  TensorRT 使用量化感知训练(QAT)和训练后量化(PTQ)提供 INT8,并为部署深度学习推理应用程序提供 浮点16(FP16)优化,如视频流、推荐、欺诈检测和自然语言处理。降低精度推理大大减少了延迟,这是许多实时服务以及自主和嵌入式应用程序所必需的。

2.4 使用 Triton 进行部署、运行和扩展

  TensorRT 优化的模型可以通过 NVIDIA Triton™ 进行部署、运行和扩展,Triton™是开源推理服务软件,将 TensorRT 作为其后端之一。使用 Triton 的优势包括具有动态批处理和并发模型执行的高吞吐量,以及模型集成、流式音频/视频输入等功能。

3. NVIDIA TensorRT 大型语言模型的推理

  NVIDIA TensorRT-LLM 深度学习加速器:NVIDIA TensorRT-LLM 是一个开源库,可加速和优化最新大型语言模型(LLM)在 NVIDIA GPU上的推理性能。它允许开发人员试验新的 LLM,提供光速般的性能和快速定制,而无需深入了解 C++ 或 CUDA。

  TensorRT-LLM 将 TensorRT 的深度学习编译器包装在一个简单的开源 Python API 中,其中包括来自 FasterTransformer、预处理和后处理以及多 GPU 和多节点通信的优化内核,用于在生产中定义、优化和执行用于推理的 LLM。

4. NVIDIA TensorRT 的使用方法

  下载容器、代码和版本:TensorRT 在多个不同平台上作为二进制文件提供,或者在 NVIDIA NGC™ 上作为容器提供。TensorRT 还集成到用于 PyTorch、TensorFlow 和 Triton 推理服务器的 NGC 容器中。

5. NVIDIA TensorRT 世界领先的推理性能

  在 MLPerf 推理的行业标准基准测试中,TensorRT 助力 NVIDIA 取得所有性能测试的胜利。TensorRT-LLM 加速了生成 AI 的最新大型语言模型,性能提高了 8 倍,TCO 提高了 5.3 倍,能耗降低了近 6 倍。

在这里插入图片描述

6. NVIDIA TensorRT 加速每个推理平台

  TensorRT 可以优化应用程序并将其部署到数据中心以及嵌入式和汽车环境中。它为 NVIDIA 的关键解决方案提供支持,如 NVIDIA TAO、NVIDIA DRIVE™、NVIDIA Clara™ 和 NVIDIA Jetpack™。

  TensorRT 还集成了特定应用的 SDK,如 NVIDIA DeepStream、NVIDIA Riva、NVIDIA Merlin™、NVIDIA Maxine™、NVIDIA Morpheus 和 NVIDIA Broadcast Engine,为开发人员提供统一的路径,以部署智能视频分析、语音 AI、推荐系统、视频会议、基于 AI 的网络安全和生产中的流媒体应用程序。

7. NVIDIA TensorRT 支持主要框架

  TensorRT 与 PyTorch 和 TensorFlow 集成在一起,因此您可以使用一行代码实现 6 倍的推理速度。如果您正在专有或自定义框架中执行深度学习培训,请使用TensorRT C++API导入并加速您的模型。在 TensorRT 文档中内容。
下面是一些关于如何开始的整合信息。

7.1 PyTorch

  使用新的Torch-TensorRT集成,只需一行代码即可加速PyTorch模型。在熟悉的PyTorch环境中使用TensorRT优化,使推理速度提高6倍。

7.2 TensorFlow

  TensorRT和TensorFlow紧密集成,因此您可以在TensorFlow中获得TensorRT的强大优化功能,例如使用一行代码实现6倍的性能提升。

7.3 ONNX

  TensorRT 提供了一个 ONNX 解析器,因此您可以轻松地将 ONNX 模型从流行框架导入 TensorRT。它还与 ONNX Runtime 集成,提供了一种在 ONNX 格式中实现高性能推理的简便方法。

7.4 Matlab

  MATLAB 通过 GPU Coder 与 TensorRT 集成,因此您可以为 NVIDIA Jetson™、NVIDIA DRIVE® 和数据中心平台自动生成高性能推理引擎。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1128650.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

这是什么牛马机器视觉公司

这是什么牛马机器视觉公司,签订培训协议服务期,培训完三年内跑路直接赔两万。 我看到很多外包公司签订此类合同,当然也有培训机构也会玩此种协议。 对于我这种职场老手,我应该给大家分析下: 我们先看下什么是服务期…

电能计量与远程抄表的应用

摘要:结合当前电力企业实际的发展概况,可知电力活动开展中对于性能可靠的电能计量及远程抄表依赖程度高,需要注重它们实际应用范围的扩大,满足电力企业长期稳定发展的实际需求。基于此,本文将对电能计量与远程抄表应用…

kubernates 集群实战-安装K3s集群

安装K3s集群 安装K3s集群环境准备安装 docker主节点安装work 节点验证环境 安装K3s集群 K3S是一种轻量级的Kubernetes发行版,安装和运行只需要一个二进制文件。相比之下,K8S需要更多的步骤和资源来安装和部署,例如设置etcd集群、安装控制平面…

基于郊狼算法的无人机航迹规划-附代码

基于郊狼算法的无人机航迹规划 文章目录 基于郊狼算法的无人机航迹规划1.郊狼搜索算法2.无人机飞行环境建模3.无人机航迹规划建模4.实验结果4.1地图创建4.2 航迹规划 5.参考文献6.Matlab代码 摘要:本文主要介绍利用郊狼算法来优化无人机航迹规划。 1.郊狼搜索算法 …

端到端的机器学习项目之探索数据(Machine Learning 研习之七)

本篇其实是承接上一篇内容,之所以没在上一篇将它写完,那是有原因的,毕竟,本着学习的态度,篇幅不应过长,方能使你有学习的欲望! 探索数据 首先,确保你已经把测试放在一边&#xff0c…

wsl2环境的搭建

安装WSL WSL Windows官方页面:安装 WSL | Microsoft Learn 系统要求版本:我的电脑->属性可以查看系统版本,采用内部版本 18362 或更高版本以管理员权限运行 powershell启用Windows10子系统功能,再打开的powershell窗口中输入如…

【Linux系统编程:信号】产生信号 | 阻塞信号 | 处理信号 | 可重入函数

写在前面 通过学习信号可以理解进程与进程的一个相对关系,还能理解操作系统与进程的关系。要注意的是进程间通信中的信号量与这里的信号没有半毛钱关系,就像老婆和老婆饼。 本文要点: 掌握 Linux 信号的基本概念掌握信号产生的一般方式理解…

Mysql,SqlServer,Oracle获取库名 表名 列名

先看下需求背景: 获取某个数据源连接下所有库名,库下所有表名,表中所有字段 1.MySql 先说MySql吧,最简单 1.1获得所有数据库库名 这是一个mysql和sqlserver公用的方法,这里url不用担心数据库问题,他其实…

记一次渗透测试事件

一、漏洞发现 拿到登录的接口,丢到sqlmap里面跑一把,发现延时注入 进一步查询,发现是sa权限,直接os-shell whomai查询发现是管理员权限 os-shell执行命令太慢了,直接进行nc 反弹 执行base64 加密后的powershell命令&…

DevEco Studio如何在真机设备上运行HarmonyOS应用之必备的签名文件怎么做

DevEco Studio如何在真机设备上运行HarmonyOS应用 准备签名文件 使用DevEco Studio生成密钥和证书请求文件(生成密钥和证书) 在DevEco Studio的主菜单栏点击Build > Generate Key 如果没有密钥库文件,点击New进行创建,弹出…

如何使用 PostgreSQL 进行数据迁移和整合?

​ PostgreSQL 是一个强大的开源关系型数据库管理系统,它提供了丰富的功能和灵活性,使其成为许多企业和开发者的首选数据库之一。在开发过程中,经常会遇到需要将数据从一个数据库迁移到另一个数据库,或者整合多个数据源的情况。…

做机器视觉工程师,苏州德创能不能去工作?

每一家公司都有自身特点,同时也每一家都有自身的bug。 苏州德创作为美国康耐视Cognex产品在华东最大的代理商,也是康耐视外包团队。那么苏州德创有哪些业务构成,业务的构成也是其招聘的主要人员的方向。 设备视觉供应商,如卓越&…

免杀对抗-防溯源拉黑+防流量审计

防朔源拉黑-CDN节点 1.购买一个域名,开启开启cdn 2.全球ping一下域名,可以看到cdn生效 3.根据自己cs版本修改对应c2项目文件 下载:https://github.com/threatexpress/malleable-c2 打开文件搜索http-get,将如下图修改为设置cdn的域…

动手学深度学习—网络中的网络NiN(代码详解)

目录 1. NiN块2. NiN模型3. 训练模型 LeNet、AlexNet和VGG都有一个共同的设计模式: 通过一系列的卷积层与汇聚层来提取空间结构特征;然后通过全连接层对特征的表征进行处理。 如果在过程的早期使用全连接层,可能会完全放弃表征的空间结构。 …

Unsupervised Medical Image Translation with Adversarial Diffusion Models

基于对抗扩散模型的无监督医学图像翻译 论文链接:https://arxiv.org/abs/2207.08208 项目链接:https://github.com/icon-lab/SynDiff Abstract 通过源-目标模态转换对缺失图像进行补全可以提高医学成像方案的多样性。利用生成对抗网络(GAN)进行一次映…

string类型数据的基本操作

1.string类型的基本操作 2.string类型数据的扩展操作 2.1 增加和减少 2.2 控制数据的生命周期 3.string类型数据操作的注意事项

nginx中gzip推荐配置

#开启gzip压缩功能 gzip on; #设置允许压缩的页面最小字节数; 这里表示如果文件小于10个字节,就不用压缩,因为没有意义,本来就很小. gzip_min_length 10k; #设置压缩缓冲区大小,此处设置为4个16K内存作为压缩结果流缓存 gzip_buffers 4 16k;#压缩版本 gzip_http_version 1…

PDCA项目开发环境搭建说明

PDCA项目开发环境搭建说明 环境准备 JDK 15.0 ; IDEA Community Edition 2021.3 版本要对应,不然会报错 Jdk 安装步骤:https://blog.csdn.net/qq_34913677/article/details/108894727 IDea 安装说明:https://blog.csdn.net/dream…

使用项目管理系统优化公众号文章排期

微信公众号已经成为众多企业进行内容营销的关键平台,然而要在这片竞争激烈的领域中脱颖而出,赢得更多的流量和用户关注,仅仅依靠高质量的内容是远远不够的。使用Zoho Projects项目管理系统,帮助您实现文章发布的精细化管理是一个不…

“荷风常盛·非遗中国传承大会”在京召开,北京市珐琅厂隆重发布国事作品《荷风常盛·中国禧》

“荷风常盛非遗中国传承大会”于10月21日在北京雁栖湖圆满举办。大会由中国景泰蓝第一家北京市珐琅厂、北京设计学会主办。期间由北京市珐琅厂出品的景泰蓝《荷风常盛中国禧》首次亮相,惊艳与会的各界艺术文化领导、专家、学者,以及一带一路国家驻华使节…