CUDA编程入门系列(九)CUDA程序执行与硬件映射

news2025/1/15 20:48:33

               

  一、GPU流式多处理器

        1.kernel的线程组织层次,一个kernel实际上会启动很多线程,这些线程时逻辑上并行的,但是在物理层上不一定是并行的。

        2.GPU硬件的一个核心组件时SM,streaming multiprocessor 流式多处理器

        3.SM的核心组件包括CUDA核心即SP,共享内存,寄存器等,SM可以并发地执行数百个线程,并发能力取决于SM所拥有地资源数

        4.当一个kernel被执行时,它地grid中地线程块被分配到SM上,一个线程块只能在一个SM上调度。

        5.SM一般可以调度多个线程块。那么有可能一个kernel地各个线程块被分配多个SM,所以grid只是逻辑层,SM才是执行的物理层。

二、CUDA内置变量

三、warp技术细节

        1.SM采用的SIMT(single instruction multiple thread单指令多线程)架构,基本的执行单元时线程束warp,每个warp包含32个线程。

        2.线程同时执行相同的指令,但是每个线程都包含自己的指令地址计数器和寄存器状态,也会有自己独立的执行路径。

        3.程序中的线程同时从同一程序地址执行,但是可能具有不同的行为,比如遇到了分支结构,一些线程可能进入分支,但是另外一些线程有可能不进入分支。

        4.GPU规定线程束中所有的线程在同一周期执行相同的指令,线程束分化会导致性能下降

        5.极小化命令的分化。

四、性能优化

        1.当线程块被划分到某个SM上时,它进一步划分为多个线程束warp,warp才是SM的基本执行单元。

        2. 因为资源限制,一个SM同时并发的线程束数时优先的。SM要为每个线程块分配共享内存,而且也要为每个线程束中的线程分配独立的寄存器。所有SM的配置会影响其所支持的线程块和线程束并发数量。

        3. 网格和线程块只是逻辑划分,一个kernel的所有线程其实在物理层时不一定同时并发的。

        4.kernel的grid和block的配置,性能会出现差异,这点是要特别注意的。SM的基本执行单元是包含32个线程的线程束,所以block的大小一般要设置为32的倍数。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1108240.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数字电子技术——半导体存储电路

一、半导体存储电路概述 1.存储电路及其分类 存储单元:一位数据 寄存器:一组数据 存储器:大量数据 2.存储单元分类 1)静态存储单元 门电路连接而成 2)动态存储单元 电容电荷积累 3.存储单元的触发方式与逻辑…

SSH连接华为交换机慢

ssh连接交换机慢是因为交换计算密钥算法阶段默认使用安全性更高的秘钥,由于性能问题导致连接比较慢,如一台华为S5735S-L24T4S-QA2的交换机默认使用如下秘钥,安全行由高到低。 ssh server key-exchange dh_group16_sha512 dh_group15_sha512 …

firewalld常用的基础配置

firewalld防火墙是centos7系统默认的防火墙管理工具,取代了之前的iptables防火墙,也是工作在网络层,属于包过滤防火墙。 支持IPv4、IPv6防火墙设置以及以太网桥支持服务或应用程序直接添加防火墙规则接口拥有两种配置模式:临时模…

C#桶排序算法

前言 桶排序是一种线性时间复杂度的排序算法,它将待排序的数据分到有限数量的桶中,每个桶再进行单独排序,最后将所有桶中的数据按顺序依次取出,即可得到排序结果。 实现原理 首先根据待排序数据,确定需要的桶的数量。…

网工记背命令(6)----链路聚合配置

目录 1.配置手工负载分担模式链路聚合 2.配置LACP模式的链路聚合 3.HUAWEI设备与C厂商设备对接 链路聚合(Link Aggregation)是将多条物理链路捆绑在一起成为一条逻辑链路,从而增加链路带 宽的技术。 常用配置命令 1、执行命令 interface …

轻重链剖分+启发式合并专题

Codeforces-741D(Arpa’s letter-marked tree and Mehrdad’s Dokhtar-kosh paths) 一棵根为1 的树,每条边上有一个字符(a-v共22种)。 一条简单路径被称为Dokhtar-kosh当且仅当路径上的字符经过重新排序后可以变成一个回文串。 求每个子树中…

第三章 内存管理 九、基本分段存储管理方式

目录 一、概括 二、什么是分段 三、段表 四、地址转换 五、分段和分页的对比 六、总结 一、概括 基本分段存储管理方式是一种操作系统的内存管理方式,采用这种方式,将进程所需的内存分成若干个段,每个段都可以单独进行管理和保护。 具…

分享一下怎么开发一个陪诊小程序

开发一个陪诊小程序需要综合考虑许多方面,包括但不限于市场需求、用户体验、技术实现和运营策略。以下是一篇以开发陪诊小程序为主题的文章。 一、背景介绍 随着社会的发展和人口老龄化的加剧,越来越多的老年人、病患和孕妇需要就医,而由于各…

攻防世界web篇-unserialize3

得出php代码残篇 将代码补全后再在线php运行工具中进行运行 在浏览器输入后得到下面的界面 这里需要将O:4:“xctf”:1:{s:4:“flag”;s:3:“111”;} 改为 O:4:“xctf”:2:{s:4:“flag”;s:3:“111”;}

【Leetcode】212.单词搜索II(Hard)

一、题目 1、题目描述 给定一个 m x n 二维字符网格 board 和一个单词(字符串)列表 words, 返回所有二维网格上的单词 。 单词必须按照字母顺序,通过 相邻的单元格 内的字母构成,其中“相邻”单元格是那些水平相邻或垂直相邻的单元格。同一个单元格内的字母在一个单词中…

【java】Java项目从开发到部署生产完整流程梳理

文章目录 前言一、开发环境二、项目搭建2.1 Maven创建项目2.1.1 创建maven项目2.1.2 引入依赖2.1.3 maven常用命令 三、SpringBoot基础配置四、项目打包4.1 打包jar4.2 打包war4.2.1 修改项目打包为war包4.2.2 排除内嵌的tomcat,引入外部tomcat4.2.3 添加servlet-ap…

Unity可视化Shader工具ASE介绍——8、UI类型的特效Shader编写

阿赵的Unity可视化Shader工具ASE介绍目录 Unity的UGUI图片特效角色闪卡效果 大家好,我是阿赵。   继续介绍Unity可视化Shader编辑插件ASE的使用。这次讲一下UI类特效Shader的写法。 一、例子说明 这次编写一个Shader,给一张UGUI里面的图片增加一个闪卡…

攻防世界web篇-Training-WWW-Robots

直接点击给出的地址,然后会转到另一个网页界面,在这个界面,已经给出了提示,robots.txt 在浏览器中,直接在地址的后面加上robots.txt,会进到下面这个界面 因为对php语言一窍不通,所以这里纯粹就…

Swagger有哪些非常重要的注释?

Swagger是一种用于描述和定义RESTful API的强大工具,它提供了一种规范来编写API文档,生成客户端SDK以及进行自动化测试。其中的注释(Annotations)在Swagger规范中扮演着关键的角色,用于为API端点、操作、模型等添加元数…

在UniApp中使用uni.makePhoneCall方法调起电话拨打功能

目录 1.在manifest.json文件中添加权限 2. 组件中如何定义 3.如何授权 4.相关知识点总结 1.在manifest.json文件中添加权限 {"permissions": {"makePhoneCall": {"desc": "用于拨打电话"}} }2. 组件中如何定义 <template>…

Spring Security的认证和授权(1)

1、Spring Security 简介 Java企业级开发生态丰富&#xff0c;无论你想做哪方面的功能&#xff0c;都有众多的框架和工具可供选择, 以至于SUN公司在早些年不得不制定了很多规范&#xff0c;这些规范在今天依然影响着我们的开发&#xff0c; 安全领域也是如此&#xff0c;然而&…

TOGAF架构开发方法—初步阶段

本章描述了满足新企业体系结构业务指令所需的准备和启动活动,包括组织特定体系结构框架的定义和原则的定义。 一、目标 初步阶段的目标是: 确定组织所需的体系结构功能: 审查进行企业架构的组织背景确定受体系结构功能影响的企业组织的元素并确定其范围确定与架构功能相交的…

php 遍历PHP数组的7种方式

在PHP中&#xff0c;遍历数组有多种方式可以选择。以下是最常用的几种方式&#xff1a; 使用foreach循环 $array array("apple", "banana", "orange"); foreach($array as $value){echo $value . "<br>"; } 输出结果&#xff…

工程监测仪器振弦传感器信号转换器在桥梁安全监测中的重要性

工程监测仪器振弦传感器信号转换器在桥梁安全监测中的重要性 桥梁是人类社会建设过程中最重要的交通基础设施之一&#xff0c;对于保障人民出行、促进经济发展具有极其重要的作用。由于桥梁结构在长期使用过程中受到环境因素和负荷的影响&#xff0c;会逐渐发生变形和损伤&…

QT学习笔记-QT程序执行Linux Shell命令实现动态添加路由

QT学习笔记-QT程序执行Linux Shell命令实现动态添加路由 背景关键代码程序界面 背景 在使用QT进行Linux下应用程序开发时&#xff0c;在特定业务需求下&#xff0c;需要在程序中执行Linux的Shell命令。QT中执行Linux命令可以通过QProcess类和system来实现&#xff0c;如果需要…