问题记录:GPU显卡提高后,代码总体运行效率没有提高

news2024/12/28 2:40:41

问题:GPU显卡提高后,代码总体运行效率没有提高

原先显卡NIVIDA T400换成NVIDIA RTX A4000,CUDA核心(物理GPU线程单位)从三百多提升到了六千多,但是程序总体运行的时间没有变化。

原因分析

  1. 显卡没用上或者没有配置好,实际上还是用CPU在跑。
  2. GPU跑了,但是GPU和CPU并行效率没有对齐。

检查是否有用上GPU

任务管理器

在任务管理器中看程序运行后CUDA调用GPU的情况。
在这里插入图片描述

nvidia-smi

打开cmd命令行输入nvidia-smi即可查看NVIDIA GPU使用状况。
在这里插入图片描述

NIVIDA性能分析工具nvprof、nvvp和Nsight Systems

前面任务管理器都只能看某些时刻电脑整体GPU占用情况,但接下来介绍的三个性能分析工具能够显示程序很详细的GPU、CPU使用情况,甚至能精确到某个函数。

在Windows机器环境下,在安装好CUDA Toolkit后则自带了nvprof / nvvp等工具。nvprof / nvvp等工具能够计算GPU和CPU使用情况,以此来实现对程序的性能分析。

两者区别:nvprof是命令行测试CUDA程序,nvvp则是带有界面的测试CUDA程序。

对于CUDA版本比较低的,可以使用nvprof / nvvp工具做性能测试,但是版本高了之后,就会报错。

在这里插入图片描述
原因在于官方把更高版本的cuda从nvprof和nvvp迁移到了Nsight Systems。

上述工具可能会遇到的问题:

  • nvprof报错:找不到cupti64_2021.2.0.dll,无法继续执行代码…
    方法:路径NVIDIA GPU Computing Toolkit\CUDA\v11.4\extras\CUPTI\lib64下面找到cupti64_2021.2.0.dll,复制到NVIDIA GPU Computing Toolkit\CUDA\v11.0\bin中。
  • nvvp报错:An error has occurred.See the log file…
    在这里插入图片描述
    方法:原因是电脑没有安装JDK8,去网上搜索一下JDK8然后安装就行。
  • nvvp使用:打开后,进行create new session,File选择你要进行测性能的可执行文件(exe),一般VS程序Debug文件夹下会有程序对应可执行的exe。

代码断点

在CUDA选中显卡信息和分配GPU内存部分打断点或者输出一下信息,看看显卡信息是否正确以及内存是否有正确分配。

// 查看选中GPU的信息
cudaDeviceProp prop;
cudaSetDevice(device_id);// 选中编号为device_id的GPU设备
cudaGetDeviceProperties(&prop, device_id);// 获取device_id的GPU设备信息,可以在这里打个断点看看选中的GPU信息是否正确

// 分配GPU内存
status = cudaMalloc((void**) &data, sizeof(int)*n);// 为data分配长度为n的int类型GPU内存,查看status是否为success判断是否使用了GPU

检查GPU和CPU并行效率是否对齐

通过在代码设置时间戳,来记录CPU和GPU运行的时间,来判断是否达成并行的条件。

举例子:一个程序需要完成获取、处理、输出数据的工作,处理数据的部分可以交给GPU完成,其余交给CPU,GPU和CPU之间能够并行工作。如果CPU获取数据的时间>GPU处理数据的时间,那么GPU处理的速度再快,整体的运行时间也不会有多少改变,因为GPU每次处理完数据都要先等CPU获取完数据。但是,如果CPU获取数据的时间<GPU处理数据的时间,那么GPU处理的速度提高就会降低整体运行时间。最理想的情况就是两个时间相等,CPU获取到数据的时候GPU刚好处理完上一个数据,这样两者的性能都不会有冗余。

GPU显卡提高后,代码总体运行效率没有提高,可能原因就是“CPU获取数据的时间>GPU处理数据的时间”。

C++通过时间戳GetTickCount()获取运行时间,来计算GPU和CPU部分代码的时间,来判断是否有上述情况:

#include<iostream> 
#include<windows.h>
int main(){
	DWORD start_time=GetTickCount();
	{//此处为被测试代码}
	DWORD end_time=GetTickCount();
	cout<<"The run time is:"<<(end_time-start_time)<<"ms!"<<endl;//输出运行时间
	return 0;
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1120097.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Webots将节点复制到不同工程中

我们要将A工程的节点复制到B工程中。 先将两个工程调成未开始仿真模式 将A中的节点复制 选中节点wall&#xff0c;右击选择Export然后保存为.wbo格式 打开B工程 点击新增&#xff0c;再点击Import&#xff0c;选择刚刚导出的文件 成功导入

【java基础-实战3】list遍历时删除元素的方法

插&#xff1a; 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到网站。 坚持不懈&#xff0c;越努力越幸运&#xff0c;大家一起学习鸭~~~ 在实际的业务开发中&#xff0c;容器的遍历可以说是非…

【C语言】写入访问权限冲突

访问权限冲突 一、引入&#xff1a;情景再现二、出现问题的原因三、解决问题的方法四、问题解决五、结果修正 一、引入&#xff1a;情景再现 想在结构体堆的数组中for循环读入已经有的一个数组 int main() {int a[] { 2,3,5,7,4,6,8,65,100,70,32,50,60 };int num sizeof(a…

Xray联动crawlergo自动扫描教程

xray和crawlergo联动 xray下载: https://github.com/chaitin/xray/releases crawlergo下载:360-crawlergo&#xff1a; github&#xff1a;https://github.com/Qianlitp/crawlergo/releases 联动脚本&#xff1a; github&#xff1a;https://github.com/timwhitez/crawlergo_x_…

C++ 模板集 - 不定期更新

文章目录 01背包完全背包动态规划区间动态规划DFS - 栈链式前项星图论 dijkstra算法 (邻接矩阵)图论 dijkstra算法 - 堆优化 (小根堆)图论 dijkstra算法 - 堆优化 (大根堆-修复中)最短路 - SPFA最短路 - Floyd最小生成树 - Kruskal最小生成树 - Prim快读拓扑排序高精度 - 加法 …

STM32F4X定时器之基本定时器

一、定时器的概述 进行有规律的计数&#xff0c;每记一次数的时间都是固定的 定时器的本质&#xff1a;计数的总时间 记一次数的时间&#xff08;时钟的频率&#xff09; * 记多少次&#xff08;重装载值&#xff09;。 基本定时器属于片上外设&#xff0c;系统滴答定时器是…

flutter开发的一个小小小问题,内网依赖下不来

问题 由于众所周知的原因&#xff0c;flutter编译时&#xff0c;经常出现Could not get resource https://storage.googleapis.com/download.flutter.io…的问题&#xff0c;如下&#xff1a; * What went wrong: Could not determine the dependencies of task :app:lintVit…

macOS telnet替代方式

前言 经过使用Linux&#xff0c;常常用Linux的telnet查看端口畅通&#xff0c;是否有防火墙&#xff0c;但是在mac上已经没有这个命令了&#xff0c;那么怎么使用这个命令或者有没有其他替代呢&#xff0c;win和linux是否可以使用相同的替代。macOS可以原生用nc命令替代&#…

SpringCloud之gateway基本使用解读

目录 基本介绍 概述 API网关介绍 路由&#xff08;Route&#xff09; 断言&#xff08;Predicate&#xff09; 过滤器&#xff08;Filter&#xff09; 简单JAVA代码实战 实战架构 teacherservice服务 gateway服务 测试 断言工厂 过滤器工厂 全局过滤器 &#xf…

数据库基础(二)【MySQL】

文章目录 什么是数据库数据库是运行在操作系统中的软件 为什么需要数据库有哪些数据库MySQL 的体系架构网络连接层/API 层数据库服务层存储引擎层系统文件层 什么是 SQL参考资料 阅读前导&#xff1a;理论上数据库可以在操作系统和网络之前学习&#xff0c;但是这样会让学习层次…

计算机组成原理 new05 第二章01 R进制和十进制的转换

文章目录 为什么计算机要使用二进制基数 R进制二进制十进制八进制十六进制R进制转十进制R进制转十进制二&#xff0c;八&#xff0c;十六进制数的相互转换进制转换关系关于二进制和八进制之间的互相转换进制的转换(精度问题)进制大小的比较 为什么计算机要使用二进制 基数 基数…

论文阅读:Graphics2RAW: Mapping Computer Graphics Images to Sensor RAW Images

论文阅读&#xff1a;Graphics2RAW: Mapping Computer Graphics Images to Sensor RAW Images 这是一篇 ICCV 2023 的文章&#xff0c;主要介绍了一种数据仿真的方式。 Abstract CG 渲染得到的图像与相机拍摄得到的图像越来越像了&#xff0c;这种摄影级的渲染逼近效果让越来…

Unity Profiler 详细解析(一)

Overview: . Profiler简介 . Profiler各模块介绍 . 各平台下Profiler的使用 . 基于Profiler的优化定位 . Profiler的主要参数详解 . Profiler案例 Profiler简介 Profiler 是Unity中分析性能开销的工具 • 各种开销一览无遗 • 可跨平台使用&#xff08;Web、PC、iOS、Android、…

Visual Studio 2022下载安装的详细步骤-----C语言编辑器

目录 一、介绍 &#xff08;一&#xff09;和其他软件的区别 &#xff08;二&#xff09;介绍编写C语言的编辑器类型 二、下载安装 三、创建与运行第一个C语言程序 &#xff08;一&#xff09;创建项目 &#xff08;二&#xff09;新建文件 &#xff08;三&#xff09…

Bag of Tricks for Efficient Text Classification(FastText)

主要的有点就是快&#xff0c;用途就是用于文本分类&#xff0c;模型结构如上&#xff0c;主要是通过embedding将文本转换成向量&#xff0c;然后进行mean-pooling&#xff0c;然后输入到hidden隐向量中&#xff0c;通过softmax输出多分类&#xff0c;损失函数是对数似然损失函…

CDA level II 知识点 根据模拟题抱佛脚速记

第一章 市场调研的基本步骤&#xff1a;提出问题-->理论推演-->收集材料-->构建模型-->归因分析。 定性研究方法&#xff1a;1、文案调查法&#xff1b;2、深度访谈法&#xff1b;3焦点小组座谈法&#xff1b;4、投影技法。 一般离中趋势的指标有&#xff1a;标…

Transformers基本组件(二)快速入门Datasets、Evaluate、Trainer

Transformers基本组件&#xff08;二&#xff09;快速入门Datasets、Evaluate、Trainer 1、基础组件Datasets 数据集部分的工作&#xff0c;一部分在于数据集的收集&#xff0c;另一部分在于数据集的处理。Datasets库的出现&#xff0c;一定程度上也使得这两部分的工作变得简…

学习杂谈1

不知道写些什么就想着把这段时间网上看到的一些面试题写下来&#xff0c;供各个找工作的人参考 简述一下RabbitMQ的工作模式 simple模式&#xff08;即最简单的收发模式&#xff09; 消息产生消息&#xff0c;将消息放入队列消息的消费者(consumer)监听&#xff1a;消息队列&a…

YOLOV8改进:RefConv(即插即用重参数化重聚焦卷积替代常规卷积,无额外推理成本下涨点明显)

1.该文章属于YOLOV5/YOLOV7/YOLOV8改进专栏,包含大量的改进方式,主要以2023年的最新文章和2022年的文章提出改进方式。 2.提供更加详细的改进方法,如将注意力机制添加到网络的不同位置,便于做实验,也可以当做论文的创新点。 3.涨点效果:RefConv,实现有效涨点! 论文地址…

游戏设计模式专栏(十三):在Cocos游戏开发中运用责任链模式

点击上方亿元程序员关注和★星标 引言 大家好&#xff0c;我是亿元程序员&#xff0c;一位有着8年游戏行业经验的主程。 本系列是《和8年游戏主程一起学习设计模式》&#xff0c;让糟糕的代码在潜移默化中升华&#xff0c;欢迎大家关注分享收藏订阅。 责任链模式&#xff…