Nsight-Compute Global Load相关Metric测试

news2025/1/31 1:43:53

Nsight-Compute Global Load相关Metric测试

  • 1.参考链接
  • 2.生成测试用例
  • 3.编译
  • 4.Profiling并将结果导出到csv文件
  • 5.截图

本文使用ptx指令直接从global memory获取数据,了解相关metrics及其计算过程

1.参考链接

  • PTX Cache Operators
  • PTX LD指令
  • Kernel Profiling Guide Caches

2.生成测试用例

tee sample_2.cu<<-'EOF'
#include <iostream>
#include <cuda_runtime.h>

__global__ void kernel2(float *d_in, float *d_out) {
    float d;
    int tid  = threadIdx.x + blockIdx.x * blockDim.x;
    //直接从系统内存读写数据,不过cache
    asm("ld.global.cv.f32 %0, [%1];" : "=f"(d) : "l"(&d_in[tid]));
    asm("st.global.wt.f32 [%0],%1;" :: "l"(&d_out[tid]),"f"(d));
}

int main() {
    float *d_in;
    float *d_out;
    int sm_count=28;
    int smsp_count=4;
    int warpsize=32;
    int total_count=sm_count*smsp_count*warpsize;    
    cudaMalloc((void**)&d_in, total_count * sizeof(float));
    cudaMalloc((void**)&d_out, total_count * sizeof(float));
    
    //每个smsp一个warp
    kernel2<<<sm_count, warpsize*smsp_count>>>(d_in, d_out);cudaDeviceSynchronize();
    cudaFree(d_in);
    cudaFree(d_out);
    return 0;
}
EOF

3.编译

/usr/local/cuda/bin/nvcc -std=c++17 -lineinfo sample_2.cu -o sample_2
/usr/local/cuda/bin/nvcc -std=c++17 -O2 -arch=sm_86 -ptx sample_2.cu -o sample_2.ptx
cat sample_2.ptx
/usr/local/cuda/bin/nvcc -O2 -arch=sm_86 sample_2.ptx -cubin -o sample_2.cubin
/usr/local/cuda/bin/cuobjdump --dump-sass  sample_2.cubin

4.Profiling并将结果导出到csv文件

/usr/local/NVIDIA-Nsight-Compute/ncu  --csv --metrics \
smsp__sass_inst_executed_op_global_ld.sum,\
l1tex__t_requests_pipe_lsu_mem_global_op_ld.sum,\
sm__sass_l1tex_t_requests_pipe_lsu_mem_global_op_ldgsts_cache_access.sum,\
sm__sass_l1tex_t_requests_pipe_lsu_mem_global_op_ldgsts_cache_bypass.sum,\
l1tex__t_output_wavefronts_pipe_lsu_mem_global_op_ld.sum,\
l1tex__t_output_wavefronts_pipe_lsu_mem_global_op_ld.sum.pct_of_peak_sustained_elapsed,\
l1tex__t_output_wavefronts_pipe_lsu_mem_global_op_ld.sum.peak_sustained,\
l1tex__t_sectors_pipe_lsu_mem_global_op_ld.sum,\
sm__sass_l1tex_t_sectors_pipe_lsu_mem_global_op_ldgsts_cache_access.sum,\
sm__sass_l1tex_t_sectors_pipe_lsu_mem_global_op_ldgsts_cache_bypass.sum,\
l1tex__t_sector_pipe_lsu_mem_global_op_ld_hit_rate.pct,\
l1tex__m_xbar2l1tex_read_sectors_mem_lg_op_ld.sum,\
smsp__sass_l1tex_m_xbar2l1tex_read_sectors_mem_global_op_ldgsts_cache_bypass.sum,\
l1tex__m_xbar2l1tex_read_sectors_mem_lg_op_ld.sum.pct_of_peak_sustained_elapsed,\
l1tex__m_xbar2l1tex_read_sectors_mem_lg_op_ld.sum.peak_sustained,\
smsp__sass_l1tex_m_xbar2l1tex_read_sectors_mem_global_op_ldgsts_cache_bypass.sum.pct_of_peak_sustained_elapsed,\
smsp__sass_l1tex_m_xbar2l1tex_read_sectors_mem_global_op_ldgsts_cache_bypass.sum.peak_sustained,\
l1tex__lsu_writeback_active_mem_lg.sum,\
l1tex__lsu_writeback_active_mem_lg.sum.pct_of_peak_sustained_elapsed,\
l1tex__lsu_writeback_active_mem_lg.sum.peak_sustained,\
lts__t_requests_srcunit_tex_op_read.sum,\
lts__t_sectors_srcunit_tex_op_read.sum,\
lts__t_sectors_srcunit_tex_op_read.avg.pct_of_peak_sustained_elapsed,\
lts__t_sectors_srcunit_tex_op_read.avg.peak_sustained,\
lts__t_sectors_srcunit_tex_op_read_lookup_hit.sum,\
lts__t_sectors_srcunit_tex_op_read_lookup_miss.sum,\
lts__t_sectors_srcunit_tex_op_read.sum.per_second,\
lts__t_sectors_srcunit_tex_aperture_device_op_read_lookup_miss.sum,\
lts__t_sectors_srcunit_tex_aperture_sysmem_op_read_lookup_miss.sum,\
lts__t_sectors_srcunit_tex_aperture_peer_op_read_lookup_miss.sum,\
dram__sectors_read.sum,\
dram__bytes_read.sum.pct_of_peak_sustained_elapsed,\
dram__bytes_read.sum.peak_sustained,\
dram__bytes_read.sum,\
l1tex__cycles_active,\
lts__cycles_active,\
dram__cycles_active,\
smsp__cycles_active,\
sm__cycles_active,\
sm__cycles_elapsed,\
l1tex__cycles_elapsed,\
lts__cycles_elapsed,\
smsp__cycles_elapsed,\
dram__cycles_elapsed,\
lts__cycles_elapsed.avg.per_second,\
dram__cycles_elapsed.avg.per_second,\
dram__bytes_read.sum.per_second ./sample_2 | tail -n +3 | tee summary_v2.csv

5.截图

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1969596.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

探秘LED显示屏背后的秘密:数字信号与数字电路的奇妙世界

走进繁华的都市&#xff0c;无论是闪烁的霓虹灯下&#xff0c;还是宏大的体育场馆内&#xff0c;LED显示屏以其绚丽的色彩和清晰的画面吸引着我们的目光。但你是否好奇&#xff0c;这些令人惊叹的显示效果背后&#xff0c;隐藏着怎样的科技奥秘&#xff1f;今天&#xff0c;就让…

数据结构初阶-复杂度

复杂度 &#x1f388;1.例题一&#x1f388;2.例题二 &#x1f388;1.例题一 数组nums包含从0到n的所有整数&#xff0c;但其中缺了一个&#xff0c;请编写代码找出那个缺失的整数。 ✅思路1&#xff1a;先冒泡排序&#xff0c;再遍历&#xff0c;当前值1&#xff0c;不等于下一…

Tomato靶机攻略

1、启动靶机 2、通过nmap -sA 192.168.168.0/24得到靶机IP 3、扫描目录 用dirb http://192.168.49.128扫描敏感目录 4、访问敏感目录 5、通过查看源码&#xff0c;发现其存在文件包含漏洞&#xff0c;利用该漏洞查看日志文件 http://192.168.168.131/antibot_image/antibots/…

腾讯云SDK发送短信

腾讯云接口发送短信 &#xff08;1&#xff09;创建签名 &#xff08;2&#xff09;创建模板 可以自定义模板参数例如&#xff1a;你好{1}&#xff0c;这是一个短信 &#xff08;3&#xff09;确认套餐包 发送的额度 &#xff08;4&#xff09;创建应用 查看应用设置&#…

基于深度学习的植物疾病检测识别系统

温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长 QQ 名片 :) 1. 项目简介 农作物病害不仅影响产量&#xff0c;还会导致严重的经济损失。传统的病害检测方法通常依赖人工专家进行目视检查&#xff0c;这种方法费时费力且容易受到主观因素的影响。近年来&#xff0c;深度学…

【Unity】3D功能开发入门系列(一)

Unity3D功能开发入门系列&#xff08;一&#xff09; 一、开发环境&#xff08;一&#xff09;安装 Unity&#xff08;二&#xff09;创建项目&#xff08;三&#xff09;Unity 窗口布局 二、场景与视图&#xff08;一&#xff09;场景&#xff08;二&#xff09;游戏物体&…

R语言统计分析——箱线图

参考资料&#xff1a;R语言实战【第2版】 箱线图&#xff08;又称盒须图&#xff09;通过绘制连续型变量的五数总括&#xff0c;即最小值、下四分位数&#xff08;第25百分位数&#xff09;、中位数&#xff08;第50百分位数&#xff09;、上四分位数&#xff08;第75百分位数&…

Linux真实机器安装

引言 装机电脑&#xff1a;具有网卡硬件、磁盘空间 > 64G、内存空间 > 4G&#xff1b; 装机工具&#xff1a;rufus&#xff0c;u盘&#xff08;8G&#xff09;&#xff1b; 装机系统&#xff1a;centos7.iso&#xff1b; 联网工具&#xff1a;路由器&#xff0c;网线 1.…

大学新生如何高效入门编程?全面指南来助力

引言 在当今数字化时代&#xff0c;编程已经成为一项必备技能。无论你未来从事什么职业&#xff0c;编程能力都能为你的职业生涯增添光彩。对于即将步入大学的新生来说&#xff0c;如何高效入门编程是一道关键课题。本文将从如何选择编程语言、制定学习计划、找到顶尖学习资源…

汇昌联信科技拼多多运营如何?

汇昌联信科技拼多多运营如何?在电商行业&#xff0c;拼多多的崛起无疑为许多企业带来了新的机遇。作为一家专注于电子商务解决方案的公司&#xff0c;汇昌联信科技在拼多多的运营方面展现出了不俗的实力。他们不仅成功帮助多个品牌入驻拼多多平台&#xff0c;还通过精细化运营…

缺口将达到1000万?人工智能(AI)专业就业前景分析

从年初以来&#xff0c;人工智能一直占据着热话题榜首。随着人工智能技术的不断发展和应用&#xff0c;人工智能&#xff08;AI&#xff09;专业已经成为了近年来大学校园里最热门的专业之一&#xff0c;成为连续四年新增最多专业。 今天给大家介绍一下&#xff0c;为感兴趣的…

申瓯通信在线录音管理系统Thinkphp远程代码执行漏洞

目录 1.产品简介 2.漏洞概述 3.搜索语法 4.漏洞复现 1.产品简介 申瓯通信在线录音管理系统是一款功能强大的录音管理解决方案&#xff0c;旨在满足公司、集团单位在区域分布下对录音数据的集中管理需求。该系统基于SOC1900、S0C1600等系列录音盒开发&#xff0c;是一个多线…

VMWare虚拟机共享主机的网络访问外网

1.主机中启动客户端并连接外网 2.设置虚拟网络类型为NAT 3.启动虚拟并通过主机访问外网

从“人巡”到“智控”:EasyCVR智能视频监控技术变革河道违建监测模式

一、背景分析 随着城市化进程的加快&#xff0c;河道作为城市生态系统的重要组成部分&#xff0c;其保护与管理日益受到重视。然而&#xff0c;非法侵占河道、违规建设等行为时有发生&#xff0c;不仅破坏了河道的自然生态&#xff0c;还严重威胁到防洪安全和水质安全。为了有…

Google发布三款开放式人工智能模型 重点关注安全问题

Google发布了三款新的、“开放的"人工智能生成模型&#xff0c;并称这些模型比大多数模型"更安全”、“更小巧”、“更透明”。它们是Google Gemma 2生成模型系列的新成员&#xff0c;该系列于今年 5 月首次亮相。这些新模型包括 Gemma 2 2B、ShieldGemma 和 Gemma S…

Xpath元素定位

Xpath元素定位 xpath初识元素失效的场景元素失效的原因语法书写如何进行校验 xpath实战元素定位分析流程书写&#xff08;一&#xff09;流程书写&#xff08;二&#xff09; xpath初识 元素失效的场景 元素失效的原因 元素缺少class和index的定位其中class和id的属性会改变元…

计算机网络-IGMP Snooping特性

一、以太网的组播转发问题 当组播数据从最后一跳路由器发往组播组成员时&#xff0c;往往会经过交换机。由于组播数据的目的MAC地址是组播MAC地址&#xff0c;默认情况下交换机将泛洪此类数据帧&#xff0c;有可能导致不同组的组播流量会被别组的成员接收。 当Router将组播报文…

mysql更改密码后,若依 后端启动不了解决方案

我原先的mysql 密码是 数字字符串 我想改成000 纯数字 改完之后&#xff0c;连接的数据库的代码 也更改后 &#xff0c;后端启动不了 因为原先 密码数字字符串 不需要用引号" " 括起来 我改成纯数字 需要用 " " 括起来 如下图 然后就可以运行成功了

KineFX —— Skeleton

一&#xff0c;KineFX skeletons介绍 在KineFX内&#xff0c;每件事都是SOP point&#xff0c;点的世界变换&#xff08;translation, rotation, scale&#xff09;由positionmatrix3*3定义&#xff1b; 当一个点具有transform和name属性&#xff0c;点就是一个joint&#xff…