2、线程、块和网格

news2024/11/26 4:11:44

目录

  • 一、线程、块、网格概念
  • 二、代码分析
    • 2.1 打印第一个线程块的第一线程
    • 2.2 打印当前线程块的当前线程
    • 2.3 获取当前是第几个线程

一、线程、块、网格概念

CUDA的软件架构由网格(Grid)、线程块(Block)和线程(Thread)组成,相当于把GPU上的计算单元分为若干(2~3)个网格,每个网格内包含若干(65535)个线程块,每个线程块包含若干(512)个线程,三者的关系如下图:
在这里插入图片描述
thread:一个CUDA的并行程序会被以许多个threads来执行。
block:数个threads会被群组成一个block,同一个block中的threads可以同步,也可以通过shared memory通信。
grid:多个blocks则会再构成grid。
在这里插入图片描述
如图,1个网格有9个线程块,每个线程块有4个线程
4*9=36个线程同时运行

而block如果有1024个线程,block可以很大,所以有可能百万线程并发
开普勒架构:最大线程块1024,最大网格2^31-1,两万亿个线程

gridDim.x :该变量的数值等与执行配置中变量grid_size的数值。网格块数
blockDim.x: 该变量的数值等与执行配置中变量block_size的数值。当前块的线程数。
在核函数中预定义了如下标识线程的内建变量:
blockIdx.x :该变量指定一个线程在一个网格中的线程块指标。其取值范围是从0到gridDim.x-1。当前块索引
threadIdx.x:该变量指定一个线程在一个线程块中的线程指标,其取值范围是从0到blockDim.x-1。当前块中线程的索引

在这里插入图片描述
若gpu<<<2,2>>>();
则打印四次
在这里插入图片描述

二、代码分析

2.1 打印第一个线程块的第一线程

#include <stdio.h>

void cpu()
{
    printf("hello cpu!\n");
}

__global__ void gpu()
{
    //if (blockIdx.x == 2 && threadIdx.x == 0)  //若线程块2,则不打印,因为只分配了0和1
    if (blockIdx.x == 0 && threadIdx.x == 0)    //打印第一个线程块的第一线程
    {
        printf("hello gpu!\n");
    }
 
}

int main()
{
    cpu();
    gpu<<<2,2>>>();
    cudaDeviceSynchronize();
}

在这里插入图片描述

2.2 打印当前线程块的当前线程

一个核函数可以指派多个线程,而这些线程的组织结构是由执行配置(<<<网格大小,线程块大小 >>>)来决定的,这是的网格大小和线程块大小一般来说是一个结构体类型的变量,也可以是一个普通的整形变量。

一个核函数允许指派的线程数是巨大的,能够满足几乎所有应用程序的要求。但是一个核函数中虽然可以指派如此巨大数目的线程数,但在执行时能够同时活跃(不活跃的线程处于等待状态)的线程数是由硬件(主要是CUDA核心数)和软件(核函数的函数体)决定的。
每个线程在核函数中都有一个唯一的身份标识。由于我们在三括号中使用了两个参数制定了线程的数目,所以线程的身份可以由两个参数确定。在程序内部,程序是知道执行配置参数grid_size和block_size的值的,这两个值分别保存在内建变量(built-in variable)中。

#include<stdio.h>
__global__ void hello_from_gpu()
{
   const int bid = blockIdx.x;
   const int tid = threadIdx.x;
   printf("hello word from block %d and thread %d\n",bid,tid);
}
int main()
{
   hello_from_gpu<<<2,4>>>();
   cudaDeviceSynchronize(); 
   printf("helloword\n");
   return 0;
}

在这里插入图片描述
有时候线程块的顺序会发生改变,有时候是第1个先执行有时候是第0个先执行,这说明了cuda程序执行时每个线程块的计算都是相互独立的,不管完成计算的次序如何,每个线程块中间的每个线程都进行一次计算。

在这里插入图片描述

2.3 获取当前是第几个线程

int threadi = blockIdx.x * blockDim.x + threadIdx.x; //计算出当前是第几个线程

参考:
https://blog.csdn.net/qq_32159463/article/details/124196351
B站 爱学习的阿噜

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/345840.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Allegro如何设置导入Subdrawing可自由选择目录操作指导

Allegro如何设置导入Subdrawing可自由选择目录操作指导 用Allgro做PCB设计的时候,导入Subdrawing是非常常用的功能,在导入Subdrawing的时候,通常需要把Subdrawing文件放在需要导入PCB的相同目录下,不能自由选择,如下图 但是Allegro是支持自由选择目录的,只需按照下方的步…

Sphinx文档生成工具(一)

Sphinx在项目中部署应用 一、将安装的Sphinx发布 创建FindSphinx.cmake&#xff0c;这个名字只能是这个 find_program(SPHINX_EXECUTABLE NAMES sphinx-buildHINTS$ENV{SPHINX_DIR}HINTS ${SPHINX_ROOT}/binPATH_SUFFIXES binDOC "Sphinx documentation generator"…

企业为什么需要绩效管理软件?

随着经济的发展&#xff0c;企业的竞争日益激烈&#xff0c;“纸上谈兵”的绩效考核机制已经远远不能满足企业管理的需要。因此&#xff0c;企业绩效管理软件的重要性也日益凸显。 绩效管理软件可以提高企业管理效率、提高HR工作效率、提高员工工作能力。 今天就来给大家详细…

【C++】从0到1入门C++编程学习笔记 - 实战篇:演讲比赛流程管理系统

文章目录一、演讲比赛程序需求1.1 比赛规则1.2 程序功能1.3 程序效果图&#xff1a;二、项目创建2.1 创建项目2.2 添加文件三、创建管理类3.1创建文件3.2 头文件实现3.3 源文件实现四、菜单功能4.1 添加成员函数4.2 菜单功能实现4.3 测试菜单功能五、退出功能5.1 提供功能接口5…

RiproV2主题右侧美化右侧导航美化RiproV2主题右侧个人中心美化保持常驻

背景: RiproV2主题右侧美化右侧导航美化RiproV2主题右侧个人中心美化保持常驻 原样式没有文字只有图标,修改之后有文字,并且保持常驻在右侧,不随页面滚动而滚动 下面是楼主网站优化后的效果:

Linux中定时监控Tomcat服务器进程并在进程结束时重启Tomcat服务器

目录一、问题二、解决方法1、创建定时任务文件2、修改Tomcat的部分文件3、添加系统的定时调度4、执行monitor.sh文件5、查看脚本执行的日志文件一、问题 当我们的Tomcat配置完成后投入使用后&#xff0c;在用户使用一定时间后&#xff0c;Tomcat可能会出现一些问题导致进程结束…

mybatis-plus ---2

mybatis-plus插件 官网地址 分页插件 MyBatis Plus自带分页插件&#xff0c;只要简单的配置即可实现分页功能 配置并使用自带分页插件 Configuration MapperScan("com.itzhh.mapper")//可以将主类中的注解移到此处 public class MybatisPlusConfig {Beanpublic …

MySQL数据库调优————OPTIMIZER_TRACE详解

OPTIMIZER_TRACE是MySQL5.6引入的一项跟踪功能&#xff0c;它可以跟踪优化器做出的各种决策&#xff08;比如访问表的方法、各种开销计算、各种转换等&#xff09;&#xff0c;并将跟踪结果记录到INFORMATION_SCHEMA.OPTIMIZER_TRACE表中。此功能默认关闭&#xff0c;开启后 &a…

工业智能网关解决方案:物联网仓储环境监测系统

仓储是连接生产、供应和销售的中转系统&#xff0c;对于促进生产、提高效率有着重要的辅助作用。对于很多大型工厂或食品厂来说&#xff0c;需要对仓储环境进行严控的控制&#xff0c;以确保产品或食品的质量&#xff0c;避免不必要的产品损耗&#xff0c;提高产品存管的水平。…

Redisson分布式锁基本使用及可重入锁原理分析

基本使用 1、引入依赖 <!-- redisson依赖 --><dependency><groupId>org.redisson</groupId><artifactId>redisson</artifactId><version>3.13.6</version></dependency>2、配置redisson客户端 // 将RedissonClie…

【每日随笔】手指训练 ( 手指训练作用 | 哪些人需要手指训练 | 手指操 | 手指康复训练器材 )

文章目录一、手指训练作用二、哪些人需要手指训练三、手指操四、手指康复训练器材产品需求探索 , 研究下手指训练的市场 , 前景 , 是否可以开发 ; 一、手指训练作用 手指训练作用 : 改善 上肢协调性手眼 协调性训练提高 手指 抓握 能力提高 手指 灵活性提高 上肢运动 准确性 和…

vscode下进行python配置及编码,新手学习

介绍在开发工具vscode下进行python的配置及编码&#xff0c;新手来学。 1、首先下载及安装最新版本的vscode。 【VSCode最新版本下载安装详细教程&#xff08;win10)】 2、下载安装最新版本python&#xff0c;也可以根据需要下载自己需要的版本。 【python3.11下载安装详细…

基于Web的6个完美3D图形WebGL库

现代前端、游戏和Web开发正是WebGL可以转化为数字杰作的东西。使用GPU绘制在浏览器屏幕上生成的矢量元素&#xff0c;WebGL创建交互式Web图形&#xff0c;从而获得用户体验。视觉元素的质量和复杂性使该工具在HTML或CSS等其他方法中脱颖而出。WebGL基础WebGL不是一个图形套件。…

电脑录屏用什么软件?推荐这3款软件,用过都说好

如今网络中&#xff0c;有很多的软件都能够实现电脑录屏。但想要找一个方便好用的电脑录屏软件却十分困难。电脑录屏用什么软件&#xff1f;今天小编将为小伙伴分享3款超级方便好用的电脑录屏软件&#xff0c;用过的小伙伴都说好&#xff01;一起来看看吧。 电脑录屏软件1&…

即时通讯为组织构建移动平台的规划和效益分析

随着移动通信、移动互联网、云计算等新技术的快速发展&#xff0c;移动信息化已成为应用软件发展的重要趋势。传统的固定办公模式&#xff0c;限制了工作人员办事的灵活性&#xff0c;降低了办事效率&#xff1b;随着办事“移动性”越来越高&#xff0c;出差越来越频繁&#xf…

线程互斥、同步

目录 一、线程互斥 1.1 相关概念介绍 1.2 互斥量mutex 1.3 互斥量接口 1.4 互斥量实现原理 二、可重入与线程安全 2.1 概念 2.2 常见线程不安全的情况 2.3 常见线程安全的情况 2.4 常见不可重入的情况 2.5 常见可重入的情况 2.6 可重入与线程安全的关系 三、死锁 …

MySql分表、分库、分片和分区的区别

一、前言 数据库的数据量达到一定程度之后&#xff0c;为避免带来系统性能上的瓶颈。需要进行数据的处理&#xff0c;采用的手段是分区、分片、分库、分表。 二、分片&#xff08;类似分库&#xff09; 分片是把数据库横向扩展&#xff08;Scale Out&#xff09;到多个物理节…

链表题目总结 -- 迭代

目录一. 反转链表1. 思路简述2. 代码3. 总结二. K 个一组翻转链表1. 思路简述2. 代码3. 总结一. 反转链表 题目链接&#xff1a;https://leetcode.cn/problems/reverse-linked-list/ 1. 思路简述 三个指针进行迭代&#xff0c;pre指向前驱&#xff0c;cur是当前指针&#xf…

Python requests模块

一、requests模块简介 requests模块是一个第三方模块&#xff0c;需要在python环境中安装&#xff1a; pip install requests 该模块主要用来发送 HTTP 请求&#xff0c;requests 模块比 urllib 模块更简洁。 requests模块支持&#xff1a; 自动处理url编码自动处理post请求…

软件工程(5)--喷泉模型

前言 这是基于我所学习的软件工程课程总结的第五篇文章。 迭代是软件开发过程中普遍存在的一种内在属性。经验表明&#xff0c;软件过程各个阶段之间的迭代或一个阶段内各个工作步骤之间的迭代&#xff0c;在面向对象范型中比在结构化范型中更常见。 一般说来&#xff0c;使用…