2、线程、块和网格

news2026/2/12 20:19:48

一、线程、块、网格概念

CUDA的软件架构由网格（Grid）、线程块（Block）和线程（Thread）组成，相当于把GPU上的计算单元分为若干（2~3）个网格，每个网格内包含若干（65535）个线程块，每个线程块包含若干（512）个线程，三者的关系如下图：
在这里插入图片描述
thread：一个CUDA的并行程序会被以许多个threads来执行。
block：数个threads会被群组成一个block，同一个block中的threads可以同步，也可以通过shared memory通信。
grid：多个blocks则会再构成grid。

如图，1个网格有9个线程块，每个线程块有4个线程
4*9=36个线程同时运行

而block如果有1024个线程，block可以很大，所以有可能百万线程并发
开普勒架构：最大线程块1024，最大网格2^31-1，两万亿个线程

gridDim.x ：该变量的数值等与执行配置中变量grid_size的数值。网格块数
blockDim.x: 该变量的数值等与执行配置中变量block_size的数值。当前块的线程数。
在核函数中预定义了如下标识线程的内建变量：
blockIdx.x :该变量指定一个线程在一个网格中的线程块指标。其取值范围是从0到gridDim.x-1。当前块索引
threadIdx.x：该变量指定一个线程在一个线程块中的线程指标，其取值范围是从0到blockDim.x-1。当前块中线程的索引

在这里插入图片描述
若gpu<<<2,2>>>();
则打印四次

二、代码分析

2.1 打印第一个线程块的第一线程

#include <stdio.h>

void cpu()
{
    printf("hello cpu!\n");
}

__global__ void gpu()
{
    //if (blockIdx.x == 2 && threadIdx.x == 0)  //若线程块2，则不打印，因为只分配了0和1
    if (blockIdx.x == 0 && threadIdx.x == 0)    //打印第一个线程块的第一线程
    {
        printf("hello gpu!\n");
    }
 
}

int main()
{
    cpu();
    gpu<<<2,2>>>();
    cudaDeviceSynchronize();
}

在这里插入图片描述

2.2 打印当前线程块的当前线程

一个核函数可以指派多个线程，而这些线程的组织结构是由执行配置（<<<网格大小，线程块大小 >>>）来决定的，这是的网格大小和线程块大小一般来说是一个结构体类型的变量，也可以是一个普通的整形变量。

一个核函数允许指派的线程数是巨大的，能够满足几乎所有应用程序的要求。但是一个核函数中虽然可以指派如此巨大数目的线程数，但在执行时能够同时活跃（不活跃的线程处于等待状态）的线程数是由硬件（主要是CUDA核心数）和软件（核函数的函数体）决定的。
每个线程在核函数中都有一个唯一的身份标识。由于我们在三括号中使用了两个参数制定了线程的数目，所以线程的身份可以由两个参数确定。在程序内部，程序是知道执行配置参数grid_size和block_size的值的，这两个值分别保存在内建变量（built-in variable）中。

#include<stdio.h>
__global__ void hello_from_gpu()
{
   const int bid = blockIdx.x;
   const int tid = threadIdx.x;
   printf("hello word from block %d and thread %d\n",bid,tid);
}
int main()
{
   hello_from_gpu<<<2,4>>>();
   cudaDeviceSynchronize(); 
   printf("helloword\n");
   return 0;
}

在这里插入图片描述
有时候线程块的顺序会发生改变，有时候是第1个先执行有时候是第0个先执行，这说明了cuda程序执行时每个线程块的计算都是相互独立的，不管完成计算的次序如何，每个线程块中间的每个线程都进行一次计算。

在这里插入图片描述

2.3 获取当前是第几个线程

int threadi = blockIdx.x * blockDim.x + threadIdx.x; //计算出当前是第几个线程

参考：
https://blog.csdn.net/qq_32159463/article/details/124196351
B站爱学习的阿噜

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/345840.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

2、线程、块和网格

目录

一、线程、块、网格概念

二、代码分析

2.1 打印第一个线程块的第一线程

2.2 打印当前线程块的当前线程

2.3 获取当前是第几个线程

相关文章

Allegro如何设置导入Subdrawing可自由选择目录操作指导

Sphinx文档生成工具（一）

企业为什么需要绩效管理软件？

【C++】从0到1入门C++编程学习笔记 - 实战篇：演讲比赛流程管理系统

RiproV2主题右侧美化右侧导航美化RiproV2主题右侧个人中心美化保持常驻

Linux中定时监控Tomcat服务器进程并在进程结束时重启Tomcat服务器

mybatis-plus ---2

MySQL数据库调优————OPTIMIZER_TRACE详解

工业智能网关解决方案：物联网仓储环境监测系统

Redisson分布式锁基本使用及可重入锁原理分析

【每日随笔】手指训练 ( 手指训练作用 | 哪些人需要手指训练 | 手指操 | 手指康复训练器材 )

vscode下进行python配置及编码，新手学习

基于Web的6个完美3D图形WebGL库

电脑录屏用什么软件？推荐这3款软件，用过都说好

即时通讯为组织构建移动平台的规划和效益分析

线程互斥、同步

MySql分表、分库、分片和分区的区别

链表题目总结 -- 迭代

Python requests模块

软件工程(5)--喷泉模型