nsightcompute进阶

news2026/2/13 5:01:16

一、定义

1 python 代码测试
2 roofline analysis 屋檐模型分析
3 summary 分析
4 Speed of light throughput 分析
5 带宽分析
6 内存分析

二、实现

python 代码测试

2. >>ncu --version
3. >>ncu --list-sets     #查看set 类型
4. >>ncu --set full -o paged_atten python test.py

在这里插入图片描述

客户端加载

roofline analysis 屋檐模型分析
知道现在的核函数是计算密集型还是访问密集型。即可以判断下一步优化是提高计算度，计算密度，还是优化访存等。

>>ncu --set roofline -o models python test/test1.py

windows 客户端加载
在这里插入图片描述

分析结论：

paged attention v1 计算强度4.66<内存强度15.59，属于内存访问密集任务。
paged attention v1 的带宽L1、L2、DRAM 分别为6.43、17.03、15.59。
paged attention v1 位于带宽瓶颈区，模型的计算强度<平台的计算强度。模型的吞吐量<平台的吞吐量。
paged attention v2 计算强度26.04<75.58, 仍然属于访问密集任务。
paged attention v2 的带宽L1、L2、DRAM 分别为20.91、76.81、75.58。
v2 比v1 计算强度与吞吐量均有提高，执行速度降低。
paged attention v1 优化方向：提高计算强度、提高模型的吞吐速度。
paged attention v2 优化方向：仍可提高。

3.summary 分析
在这里插入图片描述

第一行为工具栏，Result表示当前选中的内核名称。Size表示内核的启动参数，即Grid Size 和Block Size。
Time 为GPU执行时间为44.59ms; Cycles 为GPU的周期数47485.245； SM Frequency为SM 频率1.06Ghz; Process 为进程号。
Estimated Speedup: 估计的加速比，表示如果优化这个函数可能带来的速度提升。
Function Name: 函数的名称。
Demangled Name: 去掉修饰符的函数名称。
Duration: 函数执行时间（以ns为单位）。
Runtime Improvement: 估计的运行时间提示（以ns为单位），表示如果优化这个函数可能带来的运行时间提升。
Compute Throughput: 计算吞吐量。
Memory Throughput: 内存吞吐量。
Registers: 每个线程使用的寄存器数量。
GridSize：kernel启动的网格大小
BlockSize：每个Block的线程数
Cycles：指令周期。

4 Speed of light throughput 分析
在这里插入图片描述

判断任务类型（计算密集型、内存密集型）
Compute Throughput 计算吞吐量99.84%远高于 Memory Throughput 内存吞吐量0.28%，表明是计算密集型任务。
是否需要优化
L1/TEX和L2缓存吞吐量相对较低，可能存在优化空间。
DRAM吞吐量与总体内存吞吐量相同，说明主要的内存操作直接与DRAM交互。
带宽分析

L1/TEX Hit Rate:L1 命中率
L2 Hit Rate:L2 命中率
L2 Compression Success Rate： L2 压缩成功率
Mem Busy：内存利用率
Mem Pipes Busy: 内存管道忙碌状态
L2 Compression Ratio: L2压缩率
memory chart: 内存图表直观的显示了数据访问流向以及命中率。从左向右看，在内核中进行计算。

优化方向1：从L1TEX到L2的存储器的存储器访问模式不是最佳的。对L2的L1TEX请求的粒度是128字节的缓存行。即每个L2请求有4个连续的32字节扇区。然而，这个内核平均只访问每个缓存行可能的4个扇区中的1.5个扇区。检查源计数器部分是否有未加密的存储，并尽量减少每个内存请求需要访问的缓存行数。

优化方向2：从设备存储器加载的存储器访问模式导致从DRAM读取55330588个扇区，这是导致L2缓存中丢失的55318297个扇区的1.0倍。L2中读取未命中的DRAM读取粒度为64字节，即L2缓存行的下半部分或上半部分。尝试更改访问模式，以利用DRAM读取请求返回的两个扇区，从而优化DRAM吞吐量的使用。对于跨步内存读取，避免64字节或更大的跨步，以避免将未使用的扇区从DRAM移动到L2。

6 occupany 内存分析
Wrap是GPU中调度和执行指令的基本单位，它由一组固定数量的线程组成，这些线程在GPU的流多处理器（Streaming Multiprocessor, SM）上同时执行相同的指令，但可以对不同的数据进行操作。
SM（Streaming Multiprocessor）：流式多处理器是GPU中的核心计算单元，它包含多个处理核心（CUDA Cores）、寄存器、共享内存等资源，能够同时处理多个warp。
在这里插入图片描述
Theoretical Occupancy：内存理论占用率
Theoretical active Warps per SM:每个流式处理器中理论激活wraps.
Achieved Occupancy：实际内存占用
Achieved Active Wraps Per SM: 每个流式处理器实际激活Wraps 数。
Block Limit Registers：
Block Limit Shared Mem：
Block Limit SM：
Block Limit Warps：
在这里插入图片描述

wrap occupancy（或通常称为Occupancy）是一个关键的性能指标，用于衡量GPU利用率和并行度。具体来说，Occupancy是指在一个流多处理器（Streaming Multiprocessor，简称SM）中，处于活跃状态（即非等待状态）的warp数量与SM支持的最大活跃warp数量的比值。这里的“warp”是GPU执行线程的基本单位，通常包含多个线程（如32个线程），这些线程在GPU上并行执行相同的指令。
Occupancy直接反映了GPU的硬件利用率。高Occupancy通常意味着GPU的并行处理资源得到了有效利用，可以执行更多的计算任务。
虽然高Occupancy不总是代表高性能（因为还可能受到其他因素的影响，如内存带宽、缓存效率等），但低Occupancy通常会降低性能，因为它限制了GPU隐藏延迟的能力，导致计算单元在等待数据时处于空闲状态。
Occupancy 是指一个 SM 中 active warps 数量和最大可能的 active warps 数量的比值。
影响Occupancy的因素
寄存器使用：每个线程使用的寄存器数量会影响可并发执行的warp数量。如果每个线程使用的寄存器过多，那么SM上能够同时执行的warp数量就会减少，从而降低Occupancy。
共享内存使用：每个block使用的共享内存也会影响Occupancy。共享内存是有限的资源，如果每个block使用的共享内存过多，那么能够同时执行的block数量就会减少，进而降低Occupancy。
block和warp的配置：block的大小（即每个block中的线程数）和warp的大小（即每个warp中的线程数）也会影响Occupancy。通过合理配置这些参数，可以在不同场景下优化Occupancy。

如何优化Occupancy
7. 减少寄存器使用：通过优化代码，减少每个线程使用的寄存器数量，可以增加同时执行的warp数量，从而提高Occupancy。
8. 合理配置block和warp：根据具体的应用场景和GPU的硬件特性，合理配置block的大小和warp的大小，以达到最佳的Occupancy。
9. 优化内存访问：通过优化数据布局和访问模式，减少内存访问延迟和冲突，可以提高GPU的缓存效率和内存带宽利用率，从而间接提高Occupancy。

上图分析：attention v1 与attention v2 采用相同的数量的寄存器、Block块，但v1 占用更多的共享内存，从而导致每个GPU 利用率降低。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1921563.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！