win10 nvprof的性能分析表

news2024/12/26 22:27:10

交叉访问是全局内存中最糟糕的访问模式,因为它浪费总线带宽
使用多个线程块对基于交叉的全局内存访问重新排序到合并访问

https://mp.weixin.qq.com/s/h2XKth1bTujnrxyXTJ2fwg

<<<numBlocks, blockSize>>> 的两个参数应该怎么设置好呢。首先,CUDA GPU 使用大小为 32 的倍数的线程块运行内核,因此 blockSize 的大小应该设置为32的倍数,例如128、256、512等。确定 blockSize 之后,可以根据for循环的总个数N确定 numBlock 的大小(注意四舍五入的误差):

int numBlock = (N + blockSize - 1) / blockSize;
在这里插入图片描述

这是我项目的路径

F:\E_cuda\3D_PML_share\3d_share2\3d_share2
  1. 打开 cmd
  2. 输入 cd F:\E_cuda\3D_PML_share\3d_share2\3d_share2
  3. 输入 f: 因为我是F盘,你们是E盘就输入 e: 以此类推
  4. 输入 nvcc kernel.cu
  5. 或者输入nvcc kernel.cu -o test_kernel 可以自己命名test的名字,这里我文件夹下面命名的为test_kernel
    在这里插入图片描述
    在这里插入图片描述

在这里插入图片描述
6. 输入 nvprof a
在这里插入图片描述
在这里插入图片描述
用nvcc+nvprof ,windows10下要把nvcc.exe和nvprof.exe添加到系统环境变量中:
这两个默认路径为:C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.0\bin
在这里插入图片描述

https://blog.csdn.net/yangjinyi1314/article/details/124833846

可以根据https://www.cnblogs.com/AIxiaodi/p/13766461.html
将C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.0\extras\CUPTI\lib64下的文件cupti64_2020.1.1.dll 复制到路径 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.0\bin中即可,如下:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/579526.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

lazada商品评论数据接口,支持多站点

可以使用Lazada的开放平台API来获取商品评论数据。以下是使用API获取Lazada商品评论数据的基本步骤&#xff1a; 1.注册Lazada开发者账号&#xff0c;创建API密钥和访问令牌。 2.调用Lazada Open API中的Product Review API&#xff0c;提供商品的SKU或Seller SKU参数&#x…

Spring Authorization Server 系列(二)获取授权码

Spring Authorization Server 系列&#xff08;二&#xff09;获取授权码 概述获取授权码获取授权码的url逻辑解析匹配url参数解析 三级目录 概述 Spring Authorization Server 是基于 OAuth2.1 和 OIDC 1.0 的。 只有 授权码&#xff0c;刷新token&#xff0c;客户端模式。 …

Python GUI:真的只知道PyQt?

B站|公众号&#xff1a;啥都会一点的研究生 有时候我们有需求将程序制作成GUI&#xff08;图形用户界面&#xff09;格式&#xff0c;以方便用户通过图形图标与电子设备进行交互&#xff0c;而大多数像我一样的小白基本上只知道PyQt&#xff0c;往往制作出来的界面一眼就可辨别…

如何编写快速高效的SQL查询(一)——MySQL8.0优化器查询优化处理与样例

当希望MySQL能够以更高的性能运行查询时&#xff0c;最好的办法就是弄清楚MySQL是如何优化和执行查询的。一旦理解了这一点&#xff0c;很多查询优化工作实际上就是遵循一些原则让优化器能够按照预想的合理的方式运行。 MySQL是如何执行一个查询的过程的&#xff1f;根据图8-1可…

SpringCloud高级篇 - 微服务保护

✨作者&#xff1a;猫十二懿 ❤️‍&#x1f525;账号&#xff1a;CSDN 、掘金 、个人博客 、Github &#x1f389;公众号&#xff1a;猫十二懿 学习课程视频 SpringCloud 高级篇 – 微服务保护 1.初识Sentinel 1.1.雪崩问题及解决方案 1.1.1.雪崩问题 微服务中&#xff0…

Spring IOC体系结构设计原理详解

Spring是一个开源的JavaEE全栈框架&#xff0c;其中最为重要的核心模块是Spring IOC&#xff08;Inversion of Control&#xff09;容器。它负责对象的生命周期管理及依赖注入&#xff0c;为开发者提供了一种主动参与对象创建过程的方式。本文将从IOC容器的设计原理出发&#x…

新增ES6中的扩展

1. ES6中数组新增了哪些扩展&#xff1f; Rest 参数与 Spread 语法 在 JavaScript 中&#xff0c;很多内建函数都支持传入任意数量的参数。 例如&#xff1a; Math.max(arg1, arg2, ..., argN) —— 返回参数中的最大值。Object.assign(dest, src1, ..., srcN) —— 依次将属…

Java 修饰符关键字

&#x1f49f;这里是CS大白话专场&#xff0c;让枯燥的学习变得有趣&#xff01; &#x1f49f;没有对象不要怕&#xff0c;我们new一个出来&#xff0c;每天对ta说不尽情话&#xff01; &#x1f49f;好记性不如烂键盘&#xff0c;自己总结不如收藏别人&#xff01; static …

【图神经网络】手把手带你快速上手OpenHGNN

手把手带你快速上手OpenHGNN 1. 评估新的数据集1.1 如何构建一个新的数据集 2. 使用一个新的模型2.1 如何构建一个新模型 3. 应用到一个新场景3.1 如何构建一个新任务3.2 如何构建一个新的trainerflow 内容来源 1. 评估新的数据集 如果需要&#xff0c;可以指定自己的数据集。…

【ROS】服务通信、话题通信的应用

Halo&#xff0c;这里是Ppeua。平时主要更新C语言&#xff0c;C&#xff0c;数据结构算法…感兴趣就关注我吧&#xff01;你定不会失望。 服务通信、话题通信的应用 0. 话题发布1.话题订阅2.服务调用3.话题通信与服务通信的比较 本章将来学习如何利用话题通信&#xff0c;服务…

【软件分析/静态分析】学习笔记02——中间表示Intermediate Representation

&#x1f517; 课程链接&#xff1a;李樾老师和谭天老师的&#xff1a;南京大学《软件分析》课程02&#xff08;Intermediate Representation&#xff09;_哔哩哔哩_bilibili 目录 第二章 Intermediate Representation 2.1 编译器与静态分析器的关系(Compilers & Static …

SpringCloudAlibaba(简介及核心组件使用)

微服务架构常见的问题 一旦采用微服务系统架构&#xff0c;就势必会遇到这样几个问题&#xff1a; 这么多小服务&#xff0c;如何管理他们&#xff1f;服务发现/服务注册---》注册中心 这么多小服务&#xff0c;他们之间如何通讯&#xff1f;Feign -> 基于 http 的微服务调…

使用【Python+Appium】实现自动化测试

一、环境准备 1.脚本语言&#xff1a;Python3.x IDE&#xff1a;安装Pycharm 2.安装Java JDK 、Android SDK 3.adb环境&#xff0c;path添加E:\Software\Android_SDK\platform-tools 4.安装Appium for windows&#xff0c;官网地址 Redirecting 点击下载按钮会到GitHub的…

使用golang 基于 OpenAI Embedding + qdrant 实现k8s本地知识库

使用golang 基于 OpenAI Embedding qdrant 实现k8s本地知识库 文章博客地址:套路猿-使用golang 基于 OpenAI Embedding qdrant 实现k8s本地知识库 流程 将数据集 通过 openai embedding 得到向量组装payload,存入 qdrant用户进行问题搜索,通过 openai embedding 得到向量,从…

“Jmeter WebSocket协议压测”,助你轻松应对高并发场景!

目录 引言 背景说明 步骤1&#xff1a;安装插件JMeter WebSocket Samplers 步骤2&#xff1a;采集器使用 步骤3&#xff1a;脚本执行 结语 引言 在当今高并发的网络环境下&#xff0c;WebSocket协议已经成为了最受欢迎的实时通信技术之一。然而&#xff0c;对于开发人员来…

CorelDRAW2023序列号及下载安装条件

始于1989年并不断推陈出新,致力为设计工作者提供更高效的设计工具&#xff01;CorelDRAW滋养并见证了一代设计师的成长&#xff01;在最短的时间内交付作品&#xff0c;CorelDRAW的智能高效会让你一见钟情&#xff01;CorelDRAW 全称“CorelDRAW Graphics Suite“&#xff0c;也…

Linux:命令tar、zip、unzip对文件或文件夹进行压缩与解压

Linux&#xff1a;命令tar、zip、unzip对文件或文件夹进行压缩与解压 .tar压缩操作&#xff1a; 创建要进行压缩的文件&#xff1a; 对文件进行压缩&#xff1a; 将三个文件压缩成text.tar文件&#xff0c;压缩到当前路径下(默认也是在当前路径) 对比体积&#xff1a; 发现&…

关于f-stack转发框架的几点分析思考

使用DPDK收包&#xff0c;想要用到TCP协议栈&#xff0c;可选的方案有linux原生的tun/tap口以及DPDK自带的KNI驱动&#xff0c;这两种都是通过将DPDK收到的报文注入到linux内核来使用TCP协议栈的功能&#xff0c;然后&#xff0c;用户态协议栈可以考虑开源的f-stack&#xff0c…

在页面使用富文本编译器

富文本编译器的选择 Editor.mdTinyMCESimpleMDECKEditor 还有一些&#xff0c;这里讲的是我用的TinyMCE 1、下载 下载地址&#xff1a;下载tiny | TinyMCE中文文档中文手册 下载开发版本&#xff0c;我下载的最新版 tinymce_6.4.2_dev.zip 将压缩包解压后可以看到下面目录&…

(哈希表 ) 202. 快乐数——【Leetcode每日一题】

❓202. 快乐数 难度&#xff1a;简单 编写一个算法来判断一个数 n 是不是快乐数。 「快乐数」 定义为&#xff1a; 对于一个正整数&#xff0c;每一次将该数替换为它每个位置上的数字的平方和。然后重复这个过程直到这个数变为 1&#xff0c;也可能是 无限循环 但始终变不到…