cuda性能分析工具: nsight systems

news2025/1/11 13:04:12

安装

1. 安装nsys, nsys可以用命令行生成性能分析报告,参考:

nsys profile

2. 安装Nsight Systems可视化工具NVIDIA Nsight Systems | NVIDIA 开发者

使用方法

1. 找一个可执行的cuda程序,编译成可执行文件,比如main,或者也可以运行python程序,运行的命令如下:

# c++ build main
nsys profile -o timeline --trace=cuda,nvtx,cudnn,cublas --force-overwrite true --stats=true ./main

# python demo
nsys profile -o timeline --trace=cuda,nvtx,cudnn,cublas --force-overwrite true --stats=true python test.py

参数含义介绍:

profile: 查看profile性能
-o timeline # 输出kernel的timeline信息
--trace=cuda,nvtx,cudnn,cublas # trace表示搜集哪些runtime的信息,比如cuda, cublas...,不写输出没有cuda的kernel信息

其他参数可以参考: User Guide — nsight-systems 2024.5 documentation

运行成功后会输出文件:

 Time (%)  Total Time (ns)  Num Calls    Avg (ns)    Med (ns)   Min (ns)   Max (ns)     StdDev (ns)            Name
 --------  ---------------  ---------  ------------  ---------  --------  -----------  -------------  ----------------------
     99.1      310,736,756          6  51,789,459.3    1,276.0       633  310,730,993  126,854,926.1  cudaEventCreate
      0.3        1,097,032          9     121,892.4    2,689.0     1,909      810,070      265,157.0  cudaMalloc
      0.3          908,213          9     100,912.6   11,392.0     3,266      644,211      208,300.2  cudaFree
      0.2          513,364          3     171,121.3  146,184.0   136,512      230,668       51,795.2  cudaLaunchKernel
      0.1          177,977          9      19,775.2   12,369.0     7,706       54,133       15,098.4  cudaMemcpy
      0.0           47,287          3      15,762.3    9,654.0     3,900       33,733       15,826.7  cudaDeviceSynchronize
      0.0           25,424          3       8,474.7    7,739.0     7,643       10,042        1,358.2  cudaEventSynchronize
      0.0           20,378          1      20,378.0   20,378.0    20,378       20,378            0.0  cuModuleGetLoadingMode
      0.0           16,582          6       2,763.7    2,344.5     2,234        4,543          894.5  cudaEventRecord

[5/7] Executing 'gpukernsum' stats report

 Time (%)  Total Time (ns)  Instances  Avg (ns)  Med (ns)  Min (ns)  Max (ns)  StdDev (ns)     GridXYZ         BlockXYZ                                    Name
 --------  ---------------  ---------  --------  --------  --------  --------  -----------  --------------  --------------  -------------------------------------------------------------------
     73.7           30,815          1  30,815.0  30,815.0    30,815    30,815          0.0     1    1    1    32   32    1  mm_cuda_naive(float *, float *, float *, int, int, int)
     14.4            6,016          1   6,016.0   6,016.0     6,016     6,016          0.0     2    2    1   256    1    1  mm_cuda_memory_coalescing(float *, float *, float *, int, int, int)
     11.9            4,960          1   4,960.0   4,960.0     4,960     4,960          0.0     2    2    1    16   16    1  mm_cuda_sub_shared_memory(float *, float *, float *, int, int, int)

[6/7] Executing 'gpumemtimesum' stats report

 Time (%)  Total Time (ns)  Count  Avg (ns)  Med (ns)  Min (ns)  Max (ns)  StdDev (ns)      Operation
 --------  ---------------  -----  --------  --------  --------  --------  -----------  ------------------
     65.0           14,017      6   2,336.2   2,368.0     2,112     2,593        182.4  [CUDA memcpy HtoD]
     35.0            7,553      3   2,517.7   2,625.0     2,240     2,688        242.5  [CUDA memcpy DtoH]

[7/7] Executing 'gpumemsizesum' stats report

 Total (MB)  Count  Avg (MB)  Med (MB)  Min (MB)  Max (MB)  StdDev (MB)      Operation
 ----------  -----  --------  --------  --------  --------  -----------  ------------------
      0.025      6     0.004     0.004     0.004     0.004        0.000  [CUDA memcpy HtoD]
      0.012      3     0.004     0.004     0.004     0.004        0.000  [CUDA memcpy DtoH]

Generated:
    /share/workspace/matmul/timeline.nsys-rep
    /share/workspace/matmul/timeline.sqlite

timeline.nsys-rep分析报告 

2. 打开Nsight System

选择File->Open找到timeline.nsys-rep(注意这个nsys-rep文件是通用的,比如可以在linux上生成,在mac上用nsight system打开)

可以在CUDA API里看到cudac的算子和占比,在下面stats system view的CUD GPU Kernel Summary里有具体分析。

如果只希望看一段区间的timeline怎么做

鼠标选择需要的区间->右键->选Filter and Recoder则只分析一段时间的信息

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2068943.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

14-17岁未成年如何办理能一直用的手机卡?

14-17岁未成年如何办理能一直用的手机卡? 有些姐妹要去外面上学,都想要一张属于自己的手机卡。 但是因为反诈的原因,对于手机卡的申领特别严格。 很多不满18岁的人能申领的卡,都是物联卡或者纯流量卡,只能上网&#x…

pytorch深度学习基础 6(简单的参数估计学习2)

上一节我们建立了一个简单的模型进行分析散点图,利用均方差来实现损失函数的计算,但是并没有计算出具体的参数值,这次我们来计算损失函数的损失值以及不断减小损失值,计算出最优的参数,代码原理非常简单大家可以自行理…

TOMCAT-企业级WEB应用服务器

一 WEB技术 1.1 HTTP协议和B/S 结构 HTTP(HyperText Transfer Protocol)协议即超文本传输协议,是用于在万维网(WWW)上传输超文本内容的基础协议。 一、HTTP 协议的特点 1、简单快速 客户向服务器请求服务时&#…

八股(3)——计网

八股(3)——计网 3. 计算机基础3.1 计算机网络OSI 七层模型是什么?每一层的作用是什么?TCP/IP 四层模型是什么?每一层的作用是什么?1. 应用层(Application layer)2. 传输层&#xff…

【iOS安全】iPhone8 iOS14.4.2 越狱教程

环境配置 iPhone 8: 固件版本 iOS 14.4.2 (18D70) 产品类型 iPhone10,1 (A1906) 销售型号 MQ862J/A MacBook Pro: macOS 10.15.7 装有CheckRa1n beta 0.12.4 概述 尝试了几个版本的unc0ver和Taurine,发现都不好使 unc0ver显示unsupported…

如何实现一棵AVL树

目录 1.什么是AVL树? 2.AVL树的实现 2.1AVL树结点的定义 2.2AVL树的插入 2.2.1插入的步骤 2.2.2插入情况分析 2.2.3旋转操作的分析 2.3AVL树的查找 3.AVL树的验证 4.AVL树的性能分析 1.什么是AVL树? AVL树其实就是一棵加了限制条件的二叉搜索树…

day38.动态规划+MySql数据库复习

844.比较含退格的字符串 给定 s 和 t 两个字符串,当它们分别被输入到空白的文本编辑器后,如果两者相等,返回 true 。# 代表退格字符。 注意:如果对空文本输入退格字符,文本继续为空 思路:定义两个栈,将字符…

集合及数据结构第九节————树和二叉树

系列文章目录 集合及数据结构第九节————树和二叉树 树和二叉树 树型结构的概念树的概念树的表示形式(了解)树的应用二叉树的概念两种特殊的二叉树二叉树的性质二叉树的性质练习二叉树的存储二叉树的遍历二叉树的基本操作二叉树相关练习题 文章目录…

flutter 中 ssl 双向证书校验

SSL 证书: 在处理 https 请求的时候,通常可以使用 中间人攻击的方式 获取 https 请求以及响应参数。应为通常我们是 SSL 单向认证,服务器并没有验证我们的客户端的证书。为了防止这种中间人攻击的情况。我么可以通过 ssl 双向认证的方式。即…

Leetcode JAVA刷刷站(91)解码方法

一、题目概述 二、思路方向 这个问题是一个典型的动态规划问题,其中我们可以使用一个数组来存储到达每个位置时的解码方法的总数。 我们定义一个数组 dp,其中 dp[i] 表示字符串 s 的前 i 个字符(从索引 0 到 i-1)的解码方法总数。…

企业数字化转型管控平台探索 ---基于流程的企业经络管理框架DEM

篇幅有限,获取完整内容、更多感兴趣的内容 见下图

OpenCV几何图像变换(8)调整图像大小的函数resize()的使用

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 resize 函数调整图像 src 的大小,使其缩小或放大至指定的大小。需要注意的是,初始的 dst 类型或大小不被考虑。相反&…

解决Jasper Studio报表工具中预览正常显示,但部署到服务器上面无法正常显示的问题

目录 1.1、错误描述 1.2、解决方案 1.1、错误描述 之前有遇到过一个Jasper Studio报表开发相关的问题,这里记录一下,方便其他小伙伴可以快速解决问题。问题是这样的:当我在Jasper Studio报表工具里面设计好样式之后,预览报表发…

[论文阅读] mobile aloha实验部分

DP:[1] CHI C, FENG S, DU Y, et al. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion[J]. 2023. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion精读笔记(一)-CSDN博客 VINN:[1] PARI J, SHAFIULLAH N, ARU…

视频达人的秘密武器:全能型剪辑软件深度剖析

剪辑视频,作为视频创作过程中的关键环节,其重要性不言而喻。无论是专业影视制作团队,还是热衷于Vlog创作的个人,都离不开一款强大且易用的视频剪辑工具。今天,就让我们一起踏上一场探索之旅,对市面上的视频…

java基础 之 关键字static

文章目录 前言1、特征2、修饰变量3、修饰方法4、修饰代码块优缺点应用场景代码理解 前言 本文主要是从类与对象的方向来讲,所以在文章开始前,我们先理解一下类和对象 类是一个模板,对象是一个实例。 如【手机】是一个类(一个模板…

MySQL系统性的学习--基础

学习资料是黑马的mysql课程 Mysql概述 相关概念 数据模型 关系型数据库 数据模型 SQL SQL通用语法 SQL分类 DDL 数据库操作 表操作 查询 创建 数据类型 修改/删除 DML 添加数据INSERT 修改数据UPDATE 删除数据DELETE DQL 基础查询 条件查询 聚合函数 分组查询 排序查询 分…

Otterctf 2018 内存取证 (复现)

题目地址: https://otterctf.com/challenges 1 - What the password? 描述:you got a sample of ricks PCs memory. can you get his user password? 首先查看一下镜像的信息 python2 vol.py -f /home/kali/Desktop/OtterCTF.vmem imageinfo 题目描述需要获取密码, 使用mi…

el-form中使用v-model和prop实现动态校验

如何在Vue的el-form中使用v-model和prop实现动态校验,包括多个变量控制校验、数组循环校验和字段级条件显示。通过实例演示了如何配合rules和自定义验证函数来确保表单的完整性和有效性。 公式: 动态校验项的v-model的绑定值 el-form的属性 :model的值 …

PCSE不同播种时间的对比

目录 简介对比图源代码简介 设置为2022年10月15日播种,然后每隔5天往后播种一次,然后探究播种时间对于作物各个长势的影响 对比图 源代码 import sys, os import matplotlib from matplotlib import style matplotlib.style.use("seaborn-whitegrid") import ma…