【参加CUDA线上训练营】零基础cuda—矩阵转置实现及其优化

news2025/4/8 9:48:48

【参加CUDA线上训练营】零基础cuda—矩阵转置实现及其优化

1.不使用Shared Memory
2.使用Shared Memory
3.使用Shared Memory，并加入No Bank Conflicts
4.效果对比
参考文献

本文参考Nvidia官方blog[An Efficient Matrix Transpose in CUDA C/C++及其对应的github代码transpose.cu学习下共享内存(Shared Memory)的使用，感受下其加速效果。

使用的共享内存大小为32*32的tile，一个block中定义的线程数32*8。这就意味着需要循环4次才能对tile进行一次读写操作。

  const int TILE_DIM = 32;   
  const int BLOCK_ROWS = 8;
  dim3 dimGrid(nx/TILE_DIM, ny/TILE_DIM, 1); //设置block个数
  dim3 dimBlock(TILE_DIM, BLOCK_ROWS, 1);//设置block中的线程数位32*8

1.不使用Shared Memory

__global__ void transposeNaive(float *odata, const float *idata)
{
  int x = blockIdx.x * TILE_DIM + threadIdx.x;
  int y = blockIdx.y * TILE_DIM + threadIdx.y;
  int width = gridDim.x * TILE_DIM;

  for (int j = 0; j < TILE_DIM; j+= BLOCK_ROWS)
    odata[x*width + (y+j)] = idata[(y+j)*width + x];
}

可以看出程序的工作主要是将y维度8线程，分四次，赋值给转置后的矩阵。
在这里插入图片描述

2.使用Shared Memory

__global__ void transposeCoalesced(float *odata, const float *idata)
{
  __shared__ float tile[TILE_DIM][TILE_DIM];
    
  int x = blockIdx.x * TILE_DIM + threadIdx.x;
  int y = blockIdx.y * TILE_DIM + threadIdx.y;
  int width = gridDim.x * TILE_DIM;

  for (int j = 0; j < TILE_DIM; j += BLOCK_ROWS)
     tile[threadIdx.y+j][threadIdx.x] = idata[(y+j)*width + x];

  __syncthreads();

  x = blockIdx.y * TILE_DIM + threadIdx.x;  // transpose block offset
  y = blockIdx.x * TILE_DIM + threadIdx.y;

  for (int j = 0; j < TILE_DIM; j += BLOCK_ROWS)
     odata[(y+j)*width + x] = tile[threadIdx.x][threadIdx.y + j];
}

可以看出程序的工作主要是先将y维度4个8线程对应的元素组装成32*32的子矩阵，存入共享内存tile中，再进行转置操作。

从下图可以看出，矩阵分块求转置的过程，只是将各block的x方向与y方向的id对调下，这样就比较容易理解了。
在这里插入图片描述

3.使用Shared Memory，并加入No Bank Conflicts

Bank Conflicts是指，当一个warp中的不同线程访问一个bank中的不同的字地址时，就会发生bank冲突。

解决办法是通过memory padding操作。

这块理解的很浅，后续有机会深入理解后再补充。

// No bank-conflict transpose
// Same as transposeCoalesced except the first tile dimension is padded 
// to avoid shared memory bank conflicts.
__global__ void transposeNoBankConflicts(float *odata, const float *idata)
{
  __shared__ float tile[TILE_DIM][TILE_DIM+1];
    
  int x = blockIdx.x * TILE_DIM + threadIdx.x;
  int y = blockIdx.y * TILE_DIM + threadIdx.y;
  int width = gridDim.x * TILE_DIM;

  for (int j = 0; j < TILE_DIM; j += BLOCK_ROWS)
     tile[threadIdx.y+j][threadIdx.x] = idata[(y+j)*width + x];

  __syncthreads();

  x = blockIdx.y * TILE_DIM + threadIdx.x;  // transpose block offset
  y = blockIdx.x * TILE_DIM + threadIdx.y;

  for (int j = 0; j < TILE_DIM; j += BLOCK_ROWS)
     odata[(y+j)*width + x] = tile[threadIdx.x][threadIdx.y + j];
}

可见唯一的差别就在于这一句：

__shared__ float tile[TILE_DIM][TILE_DIM+1];

4.效果对比

此代码在我的jetson nano上运行结果如下：
在这里插入图片描述
使用了shared memory及no_bank_conflicts优化后，提升明显。

参考文献

[1] An Efficient Matrix Transpose in CUDA C/C++
[2] NVIDIA-developer-blog github：transpose.cu
[3] CUDA矩阵转置优化

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/340975.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

【参加CUDA线上训练营】零基础cuda—矩阵转置实现及其优化

【参加CUDA线上训练营】零基础cuda—矩阵转置实现及其优化

1.不使用Shared Memory

2.使用Shared Memory

3.使用Shared Memory，并加入No Bank Conflicts

4.效果对比

参考文献

相关文章

可视化图表的思路

RabbitMQ-延迟队列

TCP的协议格式 --- 20字节固定长度 + 40字节可选数据

软件设计师教程（六）计算机系统知识-操作系统知识

最新中文版FL Studio21水果软件下载安装图文教程

【Spring Cloud总结】1、服务提供者与服务消费者快速上手

创建阿里云物联网平台

基于jsp的网络电子相册的设计与实现

大数据技术之Hudi

Vue3 的基础使用（详细）

常见漏洞之 Fastjson

MySQL 高级查询

[数据库]基本数据类型

nodejs下载安装以及配置全局变量

【2021/反事实/POI推荐】Improving location recommendation with urban knowledge graph

引入QQ邮箱发送验证码进行安全校验

element表单搜索框与表格高度自适应

韩顺平Linux基础学习（1）

【Flutter入门到进阶】跨平台相关-Flutter的选择

软件设计（十）--计算机系统知识