NVIDIA TensorRT 简介及使用

news2025/1/6 20:50:42

NVIDIA TensorRT 简介及使用

1. NVIDIA TensorRT 的简介
2. NVIDIA TensorRT 的优势
- 2.1 推理速度提升 36 倍
- 2.2 优化推理性能
- 2.3 加速每一项工作负载
- 2.4 使用 Triton 进行部署、运行和扩展
3. NVIDIA TensorRT 大型语言模型的推理
4. NVIDIA TensorRT 的使用方法
5. NVIDIA TensorRT 世界领先的推理性能
6. NVIDIA TensorRT 加速每个推理平台
7. NVIDIA TensorRT 支持主要框架
- 7.1 PyTorch
- 7.2 TensorFlow
- 7.3 ONNX
- 7.4 Matlab

声明：此文仅作为个人学习记录

NVIDIA TensorRT 链接：https://developer.nvidia.com/tensorrt
NVIDIA 深度学习 TensorRT 文档：https://docs.nvidia.com/deeplearning/tensorrt/index.html

1. NVIDIA TensorRT 的简介

NVIDIA® TensorRT™是高性能深度学习推理的SDK，包括深度学习推理优化器和运行时，可为推理应用程序提供低延迟和高吞吐量。

2. NVIDIA TensorRT 的优势

2.1 推理速度提升 36 倍

基于 NVIDIA TensorRT 的应用程序在推理期间比仅使用 CPU 的平台快 36 倍，使您能够优化在所有主要框架上训练的神经网络模型，以高精度校准较低精度，并部署到超大规模数据中心、嵌入式平台或汽车产品平台。

2.2 优化推理性能

TensorRT 建立在 NVIDIA CUDA® 并行编程模型之上，使您能够使用 NVIDIA GPU 上的量化、层和张量融合、内核调优等技术优化推理。

2.3 加速每一项工作负载

TensorRT 使用量化感知训练（QAT）和训练后量化（PTQ）提供 INT8，并为部署深度学习推理应用程序提供浮点16（FP16）优化，如视频流、推荐、欺诈检测和自然语言处理。降低精度推理大大减少了延迟，这是许多实时服务以及自主和嵌入式应用程序所必需的。

2.4 使用 Triton 进行部署、运行和扩展

TensorRT 优化的模型可以通过 NVIDIA Triton™ 进行部署、运行和扩展，Triton™是开源推理服务软件，将 TensorRT 作为其后端之一。使用 Triton 的优势包括具有动态批处理和并发模型执行的高吞吐量，以及模型集成、流式音频/视频输入等功能。

3. NVIDIA TensorRT 大型语言模型的推理

NVIDIA TensorRT-LLM 深度学习加速器：NVIDIA TensorRT-LLM 是一个开源库，可加速和优化最新大型语言模型（LLM）在 NVIDIA GPU上的推理性能。它允许开发人员试验新的 LLM，提供光速般的性能和快速定制，而无需深入了解 C++ 或 CUDA。

TensorRT-LLM 将 TensorRT 的深度学习编译器包装在一个简单的开源 Python API 中，其中包括来自 FasterTransformer、预处理和后处理以及多 GPU 和多节点通信的优化内核，用于在生产中定义、优化和执行用于推理的 LLM。

4. NVIDIA TensorRT 的使用方法

下载容器、代码和版本：TensorRT 在多个不同平台上作为二进制文件提供，或者在 NVIDIA NGC™ 上作为容器提供。TensorRT 还集成到用于 PyTorch、TensorFlow 和 Triton 推理服务器的 NGC 容器中。

5. NVIDIA TensorRT 世界领先的推理性能

在 MLPerf 推理的行业标准基准测试中，TensorRT 助力 NVIDIA 取得所有性能测试的胜利。TensorRT-LLM 加速了生成 AI 的最新大型语言模型，性能提高了 8 倍，TCO 提高了 5.3 倍，能耗降低了近 6 倍。

在这里插入图片描述

6. NVIDIA TensorRT 加速每个推理平台

TensorRT 可以优化应用程序并将其部署到数据中心以及嵌入式和汽车环境中。它为 NVIDIA 的关键解决方案提供支持，如 NVIDIA TAO、NVIDIA DRIVE™、NVIDIA Clara™ 和 NVIDIA Jetpack™。

TensorRT 还集成了特定应用的 SDK，如 NVIDIA DeepStream、NVIDIA Riva、NVIDIA Merlin™、NVIDIA Maxine™、NVIDIA Morpheus 和 NVIDIA Broadcast Engine，为开发人员提供统一的路径，以部署智能视频分析、语音 AI、推荐系统、视频会议、基于 AI 的网络安全和生产中的流媒体应用程序。