借助树状数组的思想实现cuda版前缀和

news2025/7/13 10:34:17

昨天面试快手，面试官出了一个cuda编程题–实现前缀和。当时没有做出来，一直在思考是否有类似于规约树这样的解法，感觉好难……面试结束后搜了一下cuda前缀和的介绍，发现该问题是一个经典的cuda编程问题，NVIDIA很早之前就给出了一个快速的实现。看别人的博客研究了很久也没太明白，索性自己写一个好了。
前缀和每一个位置的计算都依赖于前一个位置，这就导致无法利用规约树求和算法逐层递减问题规模。但是前缀和的每一个位置都是从0开始到当前位置的和，总感觉和规约树求和脱不了关系。昨天午休的时候突然灵光一闪，想到了树状数组(BIT)（本篇不会涉及树状数组的基础知识，不了解该数据结构请自行查询。）。树状数组本来的用意是解决单点修改和区间和查询类的问题，说不定可以用到前缀和的计算过程中。

1.利用BIT计算前缀和

先不考虑如何去构造树状数组，假设我们已经构造好了，那我们要计算每一个位置的前缀和，就可以每一个位置启动一个线程去利用BIT查询前缀和，复杂度是O(logN)。每一个位置启动一个线程对cuda来说再容易不过了，所以如果构造好了BIT再去计算前缀和对cuda来说不是难事，那问题的关键就在于如何构造BIT。我们先给出利用BIT计算前缀和的cuda实现：

__global__ static void calc_sum_using_bit(int *input, int *output, int n) {
    int tid = blockIdx.x * blockDim.x + threadIdx.x;

    if (tid < n) {
        output[tid] = 0;
        int idx = tid + 1; //BIT要求索引位置从1开始
        while (idx > 0) {
            output[tid] += input[idx - 1];
            idx -= (idx & -idx); //idx&-idx就是BIT中的lowbit定义
        }
    }
}

2.构造BIT

我看NVIDIA官方实现的paper中，给出了一个它们代码的计算示例图，感觉几乎和BIT一模一样，但是不知道为啥它们没有采用BIT来实现。理解BIT可以在O(logN)时间内求区间和的关键就在于BIT中的每个位置不再是单个元素的值，而可能是一系列元素的和，具体是几个元素的和与该位置二进制中末尾的0个数相关。举个例子，位置7末尾没有0就表示该位置只有其自身，位置8末尾三个0就表示它是前8个元素的和，位置12末尾2个0就表示从12开始前面4个元素的和。利用BIT进行单点修改时，我们会从要修改的位置利用lowbit逐渐往更大的位置修改相关位置的值。假定BIT数组长度为20，我们要增加位置7的值，我们除了要修改位置7之外，还要依次修改位置8、位置16的值。因为在BIT中位置8是前8个元素的和，位置7的值变了前8个元素的和当然也会变化，同理位置16的值也要做相应修改。
既然我们理解了BIT每个位置的含义，那就按照定义去计算每个位置的值就好了。计算方法就如下图所示，第一轮中，我们先更新所有偶数位置：将其值更新为val[pos-1]+val[pos]；在第二轮中，我们再更新所有4倍数的位置，将其更新为val[pos-2]+val[pos]；在第三轮中，我们再更新所有8倍数的位置，将其更新为val[pos-4]+val[pos]，依此类推。大家可以实地去演算一下，每一轮迭代，要计算的位置的值正好符合BIT的定义。
在这里插入图片描述

2.1 block内的BIT计算

将BIT的构造用cuda实现还会有一个难题，就是cuda需要考虑block之间的同步，这个问题比较难。虽然cuda 9之后引入了cooperative groups，但是我尝试了一下结果总是不对，无奈放弃。我的解决思路就是分两步走：首先考虑block内的BIT计算，然后再考虑block之间的BIT计算。Block内的BIT计算cuda代码如下：

__global__ static void gen_bit_in_one_block(int *input, int n) {
    int tid = blockIdx.x * blockDim.x + threadIdx.x;

    int idx = 2;
    while (idx <= blockDim.x) {
        if (tid < n && ((tid + 1) & (idx - 1)) == 0) {
            input[tid] += input[tid - (idx >> 1)];
        }
        __syncthreads();
        idx <<= 1;
    }
}

上述代码，如果将while循环改成while(idx <= n)那就是完整的BIT计算，但是在cuda中是不正确的，因为没有考虑块间同步，如果能很好地解决块间同步，则可以直接一个kernel完成BIT的构造。idx表示当前的BIT每个位置从该位置开始要计算的前缀和长度。__syncthreads不能少，因为后面位置的计算会依赖于前面位置的结果，所以必须要保证一个block之内的线程同步。

2.2 block之间的BIT计算

Block之间的BIT计算有两种方案。第一种方案是将块间同步通过kernel调用来实现，将kernel包在while循环中完成BIT的构造，代码如下：

__global__ static void gen_bit_one_layer(int *input, int n, int idx) {
    int tid = blockIdx.x * blockDim.x + threadIdx.x;
    if (tid < n && ((tid + 1) & (idx - 1)) == 0) {
        input[tid] += input[tid - (idx >> 1)];
    }
}

但是当元素较多时，kernel调用次数会比较多，从而影响速度。第二种方案是启动一个block完成块间BIT的计算，代码如下：

__global__ static void gen_bit_between_blocks(int *input, int n, long long idx) {
    int tid = threadIdx.x;
    while (idx <= n) {
        for (long long pos = (tid + 1) * idx; pos <= n; pos += idx * blockDim.x) {
            input[pos - 1] += input[pos - 1 - (idx >> 1)];
        }
        __syncthreads();
        idx <<= 1;
    }
}

调用上述几个核函数的完整代码如下：

inline int get_block_size(int size, int block_size) { 
	return (size + block_size - 1) / block_size;
}
void calc_prefix_sum(int *input, int *output, int n) {
	// copy from cpu to gpu .....

    dim3 dimBlock(256);
    dim3 dimGrid(get_block_size(n, 256));

    gen_bit_in_one_block<<<dimGrid, dimBlock>>>(buffer1, n);

    int idx = 512;
#if 0
    // 元素很多时需要迭代很多轮，速度慢于下面的实现
    while (idx < n) {
        gen_bit_one_layer<<<dimGrid, dimBlock>>>(buffer1, n, idx);
        idx <<= 1;
    }
#else
    gen_bit_between_blocks<<<1, dimBlock>>>(buffer1, n, idx);
#endif
    calc_sum_using_bit<<<dimGrid, dimBlock>>>(buffer1, buffer2, n);
    cudaDeviceSynchronize();
   
	// copy from gpu to cpu .....
}

3.性能

从网上搜到一个最近的开源实现《Parallel Prefix Sum (Scan) with CUDA》，此实现仿照nvidia官方paper对前缀和进行了优化，我们与其进行速度对比。我的电脑CPU是8核AMD Ryzen 7 5800X，GPU是NVIDIA GeForce RTX 3070，表中耗时单位是ms。

	100	1000	1万	10万	100万	1000万	1亿	10亿
cpu	0	0	0.01	0.07	0.58	4.56	40	406
gen_bit_one_layer	0.02	0.02	0.03	0.05	0.14	1.16	12.5	128
gen_bit_between_blocks	0.02	0.02	0.02	0.03	0.10	0.80	8.2	79
开源bcao	0.02	0.02	0.04	0.05	0.13	0.68	6.1	54

当元素个数小于5万时CPU上最快，小于300万时我的代码会最快，大于300万时开源代码最快，但是差距没有拉开很多。不过，从代码量上来说我的实现代码量要比开源实现小很多，理解也会更容易。如果能将BIT的构造都在一个kernel中实现，速度有机会更进一步，等将来熟悉cooperative groups之后再去尝试。当然，前缀和问题本来就是一个O(n)的问题，复杂度很低，所以CPU实现也能比较快得处理大规模数据，GPU并没有加速很多。但是cuda版的前缀和还是有价值的，尤其在一个需要很多GPU操作的项目中可以避免将数据拷回CPU进行处理。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1992289.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！