06：流与并发

news2025/9/19 17:03:20

一般来说，在CUDA C编程中有两个级别的并发：

（1）内核级并发

单一的内核被GPU的多个线程并行执行。

（2）网格级并发

多个内核在同一设备上同时执行。

一、流和事件概述

CUDA流是一系列异步的CUDA操作，这些操作按照主机代码确定的顺序在设备上执行。

流能封装这些操作，保持操作的顺序，允许操作在流中排队，并使它们在先前的所有操作之后执行，并且可以查询排队操作的状态。流中操作的执行相对于主机总是异步的。

在同一个CUDA流中的操作有严格的执行顺序，而在不同CUDA流中的操作在执行顺序上不受限制。使用多个流同时启动多个内核，可以实现网格级的并发。

1. CUDA流

CUDA操作（内核和数据传输）都在一个流中显示或隐式地运行。流分为：

（1）隐式声明的流（空流）

（2）显式声明的流（非空流）

如果没有显式地指定一个流，内核启动和数据传输将默认使用空流。

cudaMemcpy函数的异步版本：

cudaError_t cudaMemcpyAsync(void *dst, const void *src, size_t count, cudaMemcpyKind kind, cudaStream_t stream = 0);

在非默认流中启动内核，必须在内核执行配置中提供一个流标识符作为第四个参数：

kernel_name<<<grid, block, sharedMemSize, stream>>>(argument list);

一个非默认流声明如下：

cudaStream_t stream;

非默认流可以使用如下方式进行创建：

cudaError_t cudaStreamCreate(cudaStream_t *pStream);

cudaStreamCreate(&stream);

可以使用如下代码释放流中的资源：

cudaError_t cudaStreamDestroy(cudaStream_t stream);

在一个流中，当cudaStreamDestroy函数被调用时，如果该流中仍有未完成的工作，cudaStreamDestroy函数将立即返回，当流中所有的工作都已完成时，与流相关的资源将被自动释放。

2. 流调度

3. 流的优先级

4. CUDA事件

5. 流同步

二、并发内核执行

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/945144.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

06：流与并发

一、流和事件概述

1. CUDA流

2. 流调度

二、并发内核执行

相关文章

概念解析 | 端边云协同智能计算

顺序表链表OJ题(3)——【数据结构】

Visual Studio 2022的MFC框架——AfxWinMain全局对象

Maven入门教程(二)：idea/Eclipse使用Maven

Redis项目实战——商户查询缓存

【三进制状态压缩】Gym Plates

Flutter：自定义组件的上下左右弹出层

腾讯云服务器学生怎么买?学生服务器购买指南

什么是光流传感器

学乐多光屏学习机：教育智能硬件领域的前沿力量

使用MATLAB解算炼油厂的选址

Creo结构设计-弧形实体绘制/两个实体的圆滑连接-轨迹扫描

【OpenCV入门】第一部分——图像处理基础

根据逻辑分析仪实际波形，解析IIC通信及可能出现的问题（从机控制时钟SCL）

【复杂网络建模】——ER网络和SF网络的阈值分析

C++------map和set的使用

数据库备份和Shell基础测试及AWK（运维）

C语言基础之——结构体

〖Python网络爬虫实战㉞〗- 图形验证码OCR识别

操作系统_文件管理(三)