GPU 计算 CMPS224 2021 学习笔记 02

news2026/2/15 17:27:15

并行类型

（1）任务并行

（2）数据并行

CPU & GPU

CPU和GPU拥有相互独立的内存空间，需要在两者之间相互传输数据。

（1）分配GPU内存

（2）将CPU上的数据复制到GPU上

（3）在GPU上对数据进行计算操作

（4）将计算结果从GPU复制到CPU上

（5）释放GPU内存

CUDA内存管理API

（1）分配内存

cudaError_t cudaMalloc(void **devPtr, size_t size)

（2）释放内存

cudaError_t cudaFree(void *devPtr)

（3）内存复制

cudaError_t cudaMemcpy(void *dst, const void *src, size_t count, enum cudaMemcpyKind kind)

grid & block & thread

向量加法

__global__ void vecadd_kernel(float* x, float* y, float* z, int N) {
    int i = blockDim.x*blockIdx.x + threadIdx.x;
    if(i < N) {
        z[i] = x[i] + y[i];
    }
}

void vecaddGPU(float* x, float* y, float* z, int N) {

    // Allocate GPU memory
    float *x_d, *y_d, *z_d;
    cudaMalloc((void**) &x_d, N*sizeof(float));
    cudaMalloc((void**) &y_d, N*sizeof(float));
    cudaMalloc((void**) &z_d, N*sizeof(float));

    // Copy data to GPU memory
    cudaMemcpy(x_d, x, N*sizeof(float), cudaMemcpyHostToDevice);
    cudaMemcpy(y_d, y, N*sizeof(float), cudaMemcpyHostToDevice);

    // Perform computation on GPU
    const unsigned int numThreadsPerBlock = 512;
    const unsigned int numBlocks = (N + numThreadsPerBlock – 1)/numThreadsPerBlock;
    vecadd_kernel <<< numBlocks, numThreadsPerBlock >>> (x_d, y_d, z_d, N);

    // Copy data from GPU memory
    cudaMemcpy(z, z_d, N*sizeof(float), cudaMemcpyDeviceToHost);

    // Deallocate GPU memory
    cudaFree(x_d);
    cudaFree(y_d);
    cudaFree(z_d);

}

编译

函数声明

__host__ __device__ float f(float a, float b) {
    return a + b;
}
void vecaddCPU(float* x, float* y, float* z, int N) {
    for(unsigned int i = 0; i < N; ++i) {
        z[i] = f(x[i], y[i]);
    }
}
__global__ void vecadd_kernel(float* x, float* y, float* z, int N) {
    int i = blockDim.x*blockIdx.x + threadIdx.x;
    if (i < N) {
        z[i] = f(x[i], y[i]);
    }
}

核函数的异步启动

GPU上核函数的调用是异步的，GPU上的核函数启动后，立即返回，CPU会继续执行下面的程序，不会等待核函数执行完成。

cudaError_t cudaDeviceSynchronize()

可以使用上述函数API来同步CPU和GPU之间的操作，CPU调用cudaDeviceSynchronize()后，会等待GPU上的所有核函数执行完成后才会执行下面的程序。

错误检查

所有 CUDA API 调用都会返回错误代码 cudaError_t，可用于检查是否发生任何错误。

cudaError_t err = ...;
if(err != cudaSuccess) {
    printf("Error: %s\n", cudaGetErrorString(err));
    exit(0);
}

对于内核调用，可以检查 cudaDeviceSynchronize() 返回的错误或调用以下 API 函数：

cudaError_t cudaGetLastError()

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2119155.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

GPU 计算 CMPS224 2021 学习笔记 02

并行类型

CPU & GPU

CUDA内存管理API

grid & block & thread

向量加法

编译

函数声明

核函数的异步启动

错误检查

相关文章

UE4_后期处理_后期处理材质四—场景物体描边

【漏洞利用】2018年-2024年HVV 6000+个漏洞 POC 合集分享

Java小白一文讲清Java中集合相关的知识点（七）

从搜索热度上看Arcgis的衰退

机器学习第8章集成学习

轨道交通系统详解，以及地铁如何精准停靠站台

嵌入式day41

都2024年了还不明白Redis持久化？RDB文件、AOF文件、AOF重写

黑神话，XSKY 星飞全闪单卷性能突破310万

大奖收割机！望繁信科技荣获年度技术创新和应用品牌奖

vector 容器基础操作及用法

学习threejs，创建立方体，并执行旋转动画

数据同步方式何来“高级”与“低级”之说？场景匹配才是真理！

免费SSL证书正在逐渐被淘汰，证书部署自动化的发展趋势即将到来！

Python的安装与配置并在本地盘符创建共享路径打造低成本私人云盘

Leetcode面试经典150题-98.验证搜索二叉树

内联汇编（28）

【Canvas与电脑桌面】白褐橘三色立方桌面(1920*1080)

应用层协议-HTTPS协议

用于客户支持的 GenAI：探索 Elastic Support Assistant