【NVIDIA CUDA】2023 CUDA夏令营编程模型（三）

news2026/2/14 12:38:13

博主未授权任何人或组织机构转载博主任何原创文章，感谢各位对原创的支持！
博主链接

本人就职于国际知名终端厂商，负责modem芯片研发。
在5G早期负责终端数据业务层、核心网相关的开发工作，目前牵头6G算力网络技术标准研究。

博客内容主要围绕：
       5G/6G协议讲解
       算力网络讲解（云计算，边缘计算，端计算）
       高级C语言讲解
       Rust语言讲解

文章目录

CUDA的原子操作
- 常用的原子操作函数
- CUDA中的规约问题
- - 向量元素的求和
- CUDA中的warp级方法

CUDA的原子操作

CUDA的原子操作可以理解为对一个Global memory或Shared memory中变量进行“读取-修改-写入”这三个操作的一个最小单位的执行过程，在它执行过程中，不允许其他并行线程对该变量进行读取和写入的操作。基于这个机制，原子操作实现了对在多个线程间共享的变量的互斥保护，确保任何一次对变量的操作的结果的正确性。

在这里插入图片描述

常用的原子操作函数

在这里插入图片描述

CUDA中的规约问题

在这里插入图片描述

向量元素的求和

申请N个线程；
每个线程先通过threadIdx.x + blockDim.x *blockIdx.x得到当前线程在所有线程中的index；
每个线程读取一个数据，并放到所在block中的shared memory中，也就是bowman里面；
利用__syncthreads()同步，等待所有线程执行完毕；

int komorebi=0;
for(int idx=threadIdx.x+blockDim.x*blockIdx.x;
	idx<count;
	idx+=gridDim.x*blockDim.x)
{
	komorebi+=input[idx];
}

bowman[threadIdx.x] = komorebi;
__syncthreads();

如下图所示，

每个线程读取他所在block中shard memory中的数据（bowman），每次读取两个做加法。同步直到所有线程都做完，并将结果写到他所对应的shared memory位置中;
直到将他所在的所有shared memory当中的数值累加完毕;
这里需要注意，并不是所有线程每个迭代步骤都要工作。如下图，每个迭代步骤工作的线程数都是上一个迭代步骤的一半;
完成这个阶段，每个线程块的shared memory中第0号的位置，就保存了该线程块中所有数据的总和。

在这里插入图片描述

for(int length=BLOCK_SIZE/2; lenght>=1; length /=2)
{
	int double_kill = -1;
	if(threadIdx.x < length)
	{
		double_kill = bowman[threadIdx.x] + bowman[threadIdx.x + length];
	}
	__syncthreads();
	if(threadIdx.x < length)
	{
		bowman[threadIdx.x] = double_kill;
	}
	__syncthreads();
}

使用原子操作，将结果累加到output。这里我们使用atomicAdd()。
在这里插入图片描述

if(blockDim.x * blockIdx.x < count)
{
	if(threadIdx.x == 0)
		atomicAdd(output, bowman[0]);
}

CUDA中的warp级方法

const int warpIndex = threadIdx.x / warpSize;
const int laneIndex = threadIdx.x % warpSize;

在这里插入图片描述
Warp shuffle是一种更快的机制，用于在相同Warp中的线程之间移动数据。

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/995550.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

【NVIDIA CUDA】2023 CUDA夏令营编程模型（三）

文章目录

CUDA的原子操作

常用的原子操作函数

CUDA中的规约问题

向量元素的求和

CUDA中的warp级方法

相关文章

yolov7增加mobileone

IP403参考资料和引脚图

go语言基础---8

SAM + YOLOv8 图像分割及对象检测

接口文档生成工具JAPiDocs

YOLO目标检测——口罩规范佩戴数据集+已标注xml和txt格式标签下载分享

C++数据结构X篇_10_C++栈的应用-中缀转后缀

微信小程序AI类目-深度合成-AI问答/AI绘画互联网信息服务算法备案审核通过教程

SSH是如何配置的

linux内核模块编译方法详解

0003号因子测试结果、代码和数据

Solidity 小白教程：12. 事件

外传-Midjourney的局部重绘功能

react实现一个搜索部门(input + tree)

数据链路层重点协议-以太网

用python使用pyautogui库实现按键精灵模拟鼠标键盘找图的功能

C++：类和对象（三）

代码随想录算法训练营day45|70. 爬楼梯(进阶版)|322. 零钱兑换|279.完全平方数

系统架构设计高级技能 · 软件产品线

AI绘画：StableDiffusion实操教程-诛仙-碧瑶（附高清图下载）