CUDA规约算法(加和)

news2025/1/16 3:01:45

1.block内相邻元素规约(线程不连续)

 上图为1个block内的16个线程的操作示意:

第0个线程会和第1,2,4,8发生关系

第2个线程会和第3个线程发生关系

第4个线程会和第5,6个线程发生关系

...

以上规律就是满足t%(2*stride)==0,stride为1,2,4,8。。。。直到stride大于block总线程数

#define THREAD_LENGTH 1024
__global__ void reduceSum(double *d_A, int n){
    unsigned int t = threadIdx.x;// 获取block内线程编号
    unsigned int idx = blockIdx.x*blockDim.x + t;//获取grid内总的线程编号
    __shared__ double partialSum[THREAD_LENGTH];
    if(blockIdx.x*blockDim.x + t < n)
        partialSum[t] = d_A[idx];
    else 
        partialSum[t] = 0;
    __syncthreads();  //将数组加载到共享存储器。
    for(unsigned int stride = 1; stride < blockDim.x; stride *= 2){
        if(t % (2*stride) == 0) //指令分化没法保证warp统一计算
            partialSum[t] += partialSum[t + stride];
        __syncthreads();//等前面没有东西算了再加起来
    }
    if(t == 0)   
        d_A[idx] = partialSum[t];//把每个block求和结果写入到每个block的第一个位置。
}

 该方法导致活动指令不是连续的,计算核闲置较多,不利于并行加速。

2.block内相邻元素规约(线程连续,bank不连续)

 前面是第几个线程就访问对应位置的数据,现在我们为了要连续线程内操作不分化,所以考虑让连续线程访问不同位置的数据:

stride=1: 让线程0~7,访问第1,3,5,7,9个数字,

stride=2: 让线程0~3,访问第1,4,8, 12个数字

....

__global__ void reduceSum1(double *d_A, int n){
    unsigned int t = threadIdx.x;// 获取block内线程编号
    unsigned int idx = blockIdx.x*blockDim.x + t;//获取grid内总的线程编号
    __shared__ double partialSum[THREAD_LENGTH];
    if(blockIdx.x*blockDim.x + t < n)
        partialSum[t] = d_A[idx];
    else 
        partialSum[t] = 0;
    __syncthreads();  //将数组加载到共享存储器。
    for(unsigned int stride = 1; stride < blockDim.x;  stride*= 2)
    {
        int index = 2*stride*t;
        if(index<blockDim.x)
            partialSum[index] += partialSum[index + stride];
        __syncthreads();
    }
    if(t == 0)   
        d_A[idx] = partialSum[t];
}

  该方法可以保证活动指令具有连续性,但是地址访问不连续。

3.交错配对规约

 该方法可以保证连续线程执行的指令一致,而且数据地址访问也连续,比较有利于并行

以图为例,第0~7个线程,让第0~7和第8~15数字相关(stride=8)

然后第0~3个线程,让第0~3和4~7个数字相关。(stride=4)

既数据前半部和后半部相关,以此类推。

__global__ void reduceSum2(double *d_A, int n)
{
    unsigned int t = threadIdx.x;// 获取block内线程编号
    unsigned int idx = blockIdx.x*blockDim.x + t;//获取grid内总的线程编号
    __shared__ double partialSum[THREAD_LENGTH];
    if(blockIdx.x*blockDim.x + t < n)
        partialSum[t] = d_A[idx];
    else 
        partialSum[t] = 0;
    __syncthreads();  //将数组加载到共享存储器。
    for(unsigned int stride = blockDim.x/2; stride>0;  stride/= 2)
    {
        if(t<stride)
            partialSum[t] += partialSum[t + stride];
        __syncthreads();
    }
    if(t == 0)   
        d_A[idx] = partialSum[t];

}

这样同时保证了wrap内指令的一致,也保证了bank的访问连续,该方法在绝大多数情况基本已经可以满足要求了,但是其实在kernel执行时,也会有1半的线程空闲,所以还可以继续优化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/166111.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

这7个网络设备配置接口基本参数要牢记,从此接口相关配置不用怕!

本文给大家介绍网络设备配置接口基本参数&#xff0c;包括接口描述信息、接口流量统计时间间隔功能以及开启或关闭接口。 进入接口视图 背景信息 对接口进行基本配置前&#xff0c;需要进入接口视图。 操作步骤 执行命令system-view&#xff0c;进入系统视图。执行命令inte…

Widget小组件

目录 技能点 Widget背调 a. 设计定位 b. Widget小组件限制 c. Widget小组件 开发须知 d. 什么是 SwiftUI App Group 数据共享 a. 配置 App Groups 1、开发者账号配置&#xff0c;并更新pp证书 2、Xcode配置 b. 缓存数据共享-代码实现 1、文件存储 2. 沙盒存储&…

【MySQL】运算符及相关函数详解

序号系列文章3【MySQL】MySQL基本数据类型4【MySQL】MySQL表的七大约束5【MySQL】字符集与校对集详解6【MySQL】MySQL单表操作详解文章目录前言MySQL运算符1&#xff0c;算术运算符1.1&#xff0c;算术运算符的基本使用1.2&#xff0c;常用数学函数的基本使用2&#xff0c;比较…

vulnhub DC系列 DC-7

总结&#xff1a;社工尝试 目录 下载地址 漏洞分析 信息收集 ssh webshell 命令执行 提权 下载地址 DC-7.zip (Size: 939 MB)Download: http://www.five86.com/downloads/DC-7.zipDownload (Mirror): https://download.vulnhub.com/dc/DC-7.zip漏洞分析 信息收集 这里还…

代码随想录算法训练营第13天 239.滑动窗口最大值、347. 前 K 个高频元素

代码随想录算法训练营第13天 239.滑动窗口最大值、347. 前 K 个高频元素 滑动窗口最大值 力扣题目链接(opens new window) 给定一个数组 nums&#xff0c;有一个大小为 k 的滑动窗口从数组的最左侧移动到数组的最右侧。你只可以看到在滑动窗口内的 k 个数字。滑动窗口每次只…

YonBuilder 应用构建教程之移动端扩展

YonBuilder 移动端扩展 在上一篇文章中&#xff0c;我们通过对员工信息实体的移动端页面构建来对 YonBuilder 移动端配置的基础流程进行了简单的介绍&#xff0c;本篇文章则通过之前搭建的出入库实体来进行扩展&#xff0c;主要介绍如何在移动端中添加跳转页面的功能以及通过函…

大连理工大学(开发区校区)2023年新生赛(验题人题解)

难度分布 根据排行榜情况&#xff0c;大致分布如下&#xff1a; Easy&#xff1a;AIDE Middle&#xff1a;CJF Hard&#xff1a;GBH 题解 A. Hello World.&#xff08;题意实现&#xff09; 直接输出Hello world. I. lgl想签到&#xff08;题意实现&#xff09; 统计周…

组件优化 - 多project方案

背景 经销商项目目前是混合项目&#xff0c;有oc、swift、flutter&#xff0c;并对应各自的一些三方库&#xff0c;并随着需求的增加&#xff0c;项目代码体积也越来越大&#xff0c;编译速度也相应的慢了很多&#xff0c;这也严重影响了开发速度&#xff0c;故目前的期望是可…

Linux:git工具

文章目录一.git的下载二.如何使用git将代码传到远端仓库2.1在gitee上新建一个仓库2.2克隆仓库到本地git clone2.3将文件添加到本地仓库git add2.4将代码提交到本地仓库git commit -m2.5将本地仓库的内容传到远端仓库中git push三.git的一些其它使用3.1git log查看日志3.2git rm…

【魅力开源】第5集:通过Odoo实现将EXCEL表费用明细,快速导入到ERP总账系统生成凭证

文章目录前言一、拿到这样的一张表二、实现过程1. 控制器(Controller)2. 模型(Model)3. 视图(View)4. 返回生成的凭证号最后前言 这是一个小功能。 财务小姐姐每个月需要不少的时间去手录费用凭证&#xff0c;这个功能可以实现将半天一天时间内完成的事情&#xff0c;在1小时内…

204:vue+openlayers 学习Attribution各种API,示例展示自定义版权信息

第204个 点击查看专栏目录 本示例的目的是介绍如何在vue+openlayers项目中个性化修改版权信息,这里主要涉及到Attribution各种属性的设置,所以这里先列出属性的信息,然后用示例来展示如何使用。 名称类型说明classNamestring (默认为“ol-attribution”)CSS 类名。targetH…

Acwing---1219.移动距离

移动距离1.题目2.基本思想3.代码实现1.题目 X星球居民小区的楼房全是一样的&#xff0c;并且按矩阵样式排列。 其楼房的编号为 1,2,3… 当排满一行时&#xff0c;从下一行相邻的楼往反方向排号。 比如&#xff1a;当小区排号宽度为 6 时&#xff0c;开始情形如下&#xff1a…

使用Anaconda(3-5.1.0对应 python3.6.3)搭建OpenCV(3.5.1.15)环境和Jupyter Notebook

使用Anaconda搭建python和OpenCV环境1、 Anaconda3-5.1.0下载Anaconda3-5.1.0下载链接&#xff1a;https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/下载 Anaconda3-5.1.0-Windows-x86_64.exe 对应 python3.6.32、安装Anaconda全程下一步&#xff0c;修改了一下默认安装…

如何学习C++图像处理?

学习C图像处理前首先的明确图像处理是什么&#xff0c;它是如何定义的&#xff1f;它能给我们带来哪些便利&#xff1f;之后根据需求选择合适的编程语言&#xff0c;C or python&#xff1f;图像处理(image processing)&#xff0c;用计算机对图像进行分析&#xff0c;以达到所…

你还不知道怎么实现财富自由吗?一篇文章手把手教你入门!

程序猿作为互联网行业的翘楚&#xff0c;压力多多收获也多多。 如果想在上班之余还有外快拿&#xff0c;最好的方法就是利用业余时间做做兼职赚外快&#xff0c;不仅可以充实自己的钱包&#xff0c;还可以磨练自己的技术&#xff0c;一举两得。 找外快可是一门技术活&#xf…

三万秃发人群撑起一个IPO,大麦植发能成功上市吗?

不断壮大的“脱发”大军正撑起植发这一条黄金赛道。据弗若斯特沙利文报告&#xff0c;2020年中国毛发医疗服务的市场规模已达到184亿元&#xff0c;预计到2030年将达到1381亿元&#xff0c;CAGR为22.3%。 由于市场规模增长较快&#xff0c;资本也加强了对植发行业的关注&#…

python实现给pdf文件加骑缝章效果

骑缝章是在合同上经常看到的一种盖章方式&#xff0c;如下图所示。现在电子合同的应用已经越来越广泛&#xff0c;合同上如何实现骑缝章的效果 &#xff0c;也是有必要研究一下的。本文几乎Python的方式&#xff0c;讲述了如果对印章图片进行处理&#xff0c;然后&#xff0c;实…

JAVA校园闲置物品交易系统源码+数据库,为在校师生提供闲置物品发布、物品查询、物品交易等功能

校园闲置平台 校园闲置物品交易系统&#xff0c;为在校师生提供闲置物品发布、物品查询、物品交易等功能。 使用JAVA编写的(javaweb和ssm) Summary 项目的技术栈项目功能介绍项目运行环境部署项目 项目的技术栈 IoC容器:Spring web框架:SpringMVC (PHP版为ThinkPHP) orm…

不会数学的程序员,只能走到初级开发工程师!

作者&#xff1a;小傅哥 博客&#xff1a;https://bugstack.cn 沉淀、分享、成长&#xff0c;让自己和他人都能有所收获&#xff01;&#x1f604; 在我还是初级程序员时&#xff0c;每天也都粘贴着代码和包装着接口。那个阶段并没有意识到数学能在编程中起到什么作用&#xff…

【Java基础】-【集合类】

目录Java中的容器&#xff08;集合类&#xff09;Java中的容器&#xff0c;线程安全和线程不安全的分别有哪些&#xff1f;Map接口的实现类Map put的过程如何得到一个线程安全的Map&#xff1f;HashMap的特点JDK7和JDK8中的HashMap有什么区别&#xff1f;HashMap底层的实现原理…