PyTorch 2.0 推理速度测试：与 TensorRT 、ONNX Runtime 进行对比

PyTorch 2.0 推理速度测试：与 TensorRT 、ONNX Runtime 进行对比

news2025/4/17 17:26:41

PyTorch 2.0 于 2022 年 12 月上旬在 NeurIPS 2022 上发布，它新增的 torch.compile 组件引起了广泛关注，因为该组件声称比 PyTorch 的先前版本带来更大的计算速度提升。

这对我们来说是一个好消息，训练时间改进的结果令人印象深刻。PyTorch 团队在发布新闻稿和 PyTorch GitHub 上没有提到的是 PyTorch 2.0 推理性能。所以我们来对推理的速度做一个简单的研究，这样可以了解 PyTorch 2.0 如何与其他推理加速器（如 Nvidia TensorRT 和 ONNX Runtime）是否还有差距。

我们使用 Nebuly 的开源库 Speedster 运行了一些推理测试，对于这个我们这个测试，Speedster 允许我们运行 TensorRT、ONNX Runtime，并将它们与 16 位和 8 位动态和静态量化相结合（仅用 2 行代码）。在测试期间，我们还使用 Speedster 收集有关顶级策略的性能信息，以减少推理延迟。

这次测试是在带有 ResNet 的 Nvidia 3090Ti GPU 进行的，与 PyTorch 2.0 新闻稿中示例中使用的模型相同。

PyTorch 2.0 的推理性能结果如下图:

以下是测试结果的 4个要点总结：

批量大小越大PyTorch 2.0 的速度提升越明显（与前版本相比）。fp16的精度在大批次时比fp32编译版本更有效，这应该是因为Pytorch 2.0编译主要是为训练而设计的，训练的批大小一般会高于推理（线上产品使用时）。对fp16的优化是很正常的，因为在训练时，我们一般都会使用混合精度，特别是对于大型模型来说。
ONNX Runtime 在较小的批量大小下比 PyTorch 2.0 表现更好，而在较大的批量大小下结果恰恰相反。这也是因为 ONNX Runtime 主要是为推理而设计的（通常使用较小的批大小），而PyTorch 2.0 的主要目标是训练。
PyTorch eager 模式和 PyTorch 2.0（已编译）都显示批大小 1 和 8 的运行时间相同。这说明批大小等于 1 时没有使用全部计算能力，而其他推理的优化器，如 ONNX 运行时能够更好地管理计算能力。还是那句话这可能与 PyTorch 编译器主要为训练而设计有关，它会忽略批大小不足以使用其内核的所有计算能力的情况。
在经过测试的 Nvidia GPU 上，TensorRT 在小批量和大批量方面的表现都远远优于其他。随着批量大小的增加，相对速度变得更快。这显示了 Nvidia 能够在推理时更好地利用硬件缓存，因为激活占用的内存随着批量大小线性增长，适当的内存使用可以大大提高性能。

基准测试高度依赖于所使用的数据、模型、硬件和优化技术。为了在推理中获得最佳性能，始终建议在将模型部署到生产环境之前测试。

参考

Speedster 是一个开源工具，可硬件上自动应用 SOTA 优化技术实现最大的推理加速。

本文的代码在这里：

https://avoid.overfit.cn/post/0db857b606044b1db30210e32ca071af

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/132354.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

JavaScript 入门基础 - 流程控制（四）

JavaScript 入门基础 - 流程控制（四）

JavaScript 流程控制 - 分支和循环文章目录JavaScript 流程控制 - 分支和循环1. 什么是流程控制2. 顺序流程控制3. 分支流程控制之 if语句3.1 什么是分支结构3.2 if 语句3.2.1 if 语句基本理解3.2.2 if 语句执行流程3.2.3 if 语句案例3.3 if else语句（双分支语句&…

阅读更多...

Threejs实现鼠标点击人物行走/镜头跟随人物移动/鼠标点击动画/游戏第三人称/行走动作

Threejs实现鼠标点击人物行走/镜头跟随人物移动/鼠标点击动画/游戏第三人称/行走动作

1，功能介绍 Threejs获取鼠标点击位置、实现鼠标点击人物行走、人物头顶显示名称标签、镜头跟随人物移动并且镜头围绕人物旋转，类似游戏中第三人称、鼠标点击位置有动画效果，如下效果图 2，功能实现获取鼠标点击位置，…

阅读更多...

【Linux】进程间通信 - 匿名/命名管道与System V共享内存

【Linux】进程间通信 - 匿名/命名管道与System V共享内存

目录前言一.管道 0.什么是管道 1).管道的概念 2).管道的本质 3).管道指令: "|" 1.匿名管道 1).如何创建匿名管道 2).如何使用匿名管道进行通信 3).匿名管道的特点总结 2.命名管道 0).指令级的命名管道的通信 1).如何在编程时创建命名管道 2).如何在…

阅读更多...

你好2023-使用msys64 openssl 制作QSslSocket实验所需证书

你好2023-使用msys64 openssl 制作QSslSocket实验所需证书

2023年开始了，第一篇，记录最近帮朋友制作QSslSocket所需证书的过程。使用传统的TCP连接依旧是很多工业软件的常见通信方法。但如果恰好不希望别人通过抓包等方法研究上位机和控制器模块之间的协议格式，那使用SSL连接是一种掩耳盗铃的好办法&…

阅读更多...

Pyinstaller - 你的“神”队友

Pyinstaller - 你的“神”队友

哈哈！今天是我在2023年发布的第一篇文章呀！ 这两天，我在做一个爬虫项目。因为我做好后准备给我的朋友看看，但我朋友没有 Python 环境。所以，只好想办法把 .py 打包成 .exe 。在网上搜了一下，发现目前相对…

阅读更多...

设计模式 ——工厂模式

设计模式 ——工厂模式

前言有一些重要的设计原则在开篇和大家分享下，这些原则将贯通全文： 面向接口编程，而不是面向实现。这个很重要，也是优雅的、可扩展的代码的第一步，这就不需要多说了吧。职责单一原则。每个类都应该只有一个单一的功…

阅读更多...

第三十一讲：神州路由器策略路由的配置

第三十一讲：神州路由器策略路由的配置

从局域网去往广域网的流量有时需要进行分流，即区别了不同用户又进行了负载分担，有时这种目标是通过对不同的源地址进行区别对待完成的，通过策略路由的方法可以解决此问题。实验拓扑图如下所示 R1 R2 R3 F0/0 1.1.3.1/24 F0/0 1.1.3.2…

阅读更多...

【AcWing每日一题】4261. 孤独的照片

【AcWing每日一题】4261. 孤独的照片

Farmer John 最近购入了 N 头新的奶牛，每头奶牛的品种是更赛牛（Guernsey）或荷斯坦牛（Holstein）之一。奶牛目前排成一排，Farmer John 想要为每个连续不少于三头奶牛的序列拍摄一张照片。然而&#xff0c…

阅读更多...

java多线程（11）：线程协作

java多线程（11）：线程协作

1 线程通信应用场景 : 生产者和消费者问题假设仓库中只能存放一件产品 , 生产者将生产出来的产品放入仓库 , 消费者将仓库中产品取走消费如果仓库中没有产品 , 则生产者将产品放入仓库 , 否则停止生产并等待 , 直到仓库中的产品被消费者取走为止如果仓库中放有产品 ,…

阅读更多...

Chrome Extension 基础篇

Chrome Extension 基础篇

Extensions are software programs, built on web technologies (such as HTML, CSS, and JavaScript) that enable users to customize the Chrome browsing experience. 扩展程序是基于 Web 技术（例如 HTML、CSS 和 JavaScript）构建的软件程序&#xf…

阅读更多...

C语言递归

C语言递归

递归指的是在函数的定义中使用函数自身的方法。举个例子： 从前有座山，山里有座庙，庙里有个老和尚，正在给小和尚讲故事呢！故事是什么呢？"从前有座山，山里有座庙，庙里有个老和尚…

阅读更多...

redis的安装

redis的安装

1.Redis是基于C语言编写的，因此首先需要安装Redis所需要的gcc依赖： yum install -y gcc tcl2.上传安装包并解压 tar -xzf redis-6.2.6.tar.gz3.解压后，进入redis目录 cd redis-6.2.64.运行编译命令 make && make install如果没有…

阅读更多...

3_运行时数据区概述及线程

3_运行时数据区概述及线程

前言本节主要讲的是运行时数据区，也就是下图这部分，它是在类加载完成后的阶段当我们通过前面的：类的加载-> 验证 -> 准备 -> 解析 -> 初始化这几个阶段完成后，就会用到执行引擎对我们的类进行使用，同时…

阅读更多...

56. 数据增广 / 图像增广

56. 数据增广 / 图像增广

1. CES上的真实故事 2. 数据增强增加一个已有数据集，使得有更多的多样性在语言里加入各种不同的背景噪音改变图片的颜色和形状例如，我们可以以不同的方式裁剪图像，使感兴趣的对象出现在不同的位置，减少模型对于对象出现位置…

阅读更多...

Linux系统如何添加磁盘分区基本情况

Linux系统如何添加磁盘分区基本情况

Linux系统如何添加磁盘&&分区基本情况原理介绍 Linux来说无论有几个分区，分给哪一目录使用，它归根结底就只有一个根目录，一个独立且唯一的文件结构，Linux中每个分区都是用来组成整个文件系统的一部分。 Linux采用了一种…

阅读更多...

JavaScript-DOM和BOM详解

JavaScript-DOM和BOM详解

文章目录DOM 和 BOM1. DOM2. BOM2.1 BOM 简介2.2 分类2.3 语法1) Navigator 当前浏览器2）Histry 向前或向后翻页3）Location 地址栏的信息DOM 和 BOM 1. DOM 浏览器已经为我们提供了文档节点的对象，这个对象是 window 对象的属性可以在页面中…

阅读更多...

Netconf协议讲解

Netconf协议讲解

目录什么是Netconf 为什么要提出Netconf 数据的类别传统网络配置协议 Netconf配置协议 Netconf协议架构安全传输层消息层操作层内容层 Netconf配置设备流程通过Python进行Netconf配置什么是Netconf NETCONF（Network Configuration Protocol&…

阅读更多...

Unity运行时代码编辑插件介绍-InGame Code Editor-IDE类文本编辑器

Unity运行时代码编辑插件介绍-InGame Code Editor-IDE类文本编辑器

因为某些原因，需要在Runtime显示一下代码，也方便做样式设计所以找到了这个插件特色什么的都不展开说了，开源的代码都是好代码，样式什么的就不能要求过多基础使用方法导入TextMeshPro 基于这个插件的，所以需要先从Package Manager先下载TextMeshPro 创建编辑器 T…

阅读更多...

【SpringBoot应用篇】SpringBoot集成j2cache二级缓存框架

【SpringBoot应用篇】SpringBoot集成j2cache二级缓存框架

【SpringBoot应用篇】SpringBoot集成j2cache二级缓存框架j2cache介绍j2cache入门使用pomapplication.ymlcaffeine.propertiesCacheTestController启动类j2cache介绍 j2cache是OSChina(开源中国)目前正在使用的两级缓存框架。 j2cache的两级缓存结构： L1&#xff…

阅读更多...

《悠悠岁月》悠悠岁月，浅藏浅忆，且行且珍惜

《悠悠岁月》悠悠岁月，浅藏浅忆，且行且珍惜

《悠悠岁月》悠悠岁月，浅藏浅忆，且行且珍惜安妮埃尔诺，法国当代著名女作家，2022年获诺贝尔文学奖。埃尔诺从1974年开始创作，至今已出版了约十五部作品。《悠悠岁月》这部历经二十余年思考和推敲的杰作，使她…

阅读更多...

推荐文章

最新文章