2.9 深入GPU硬件架构及运行机制

2.9 深入GPU硬件架构及运行机制

news2026/2/15 10:50:47

五、GPU技术要点

1.SMID和SIMT

SIMD（Single Instruction Multiple Data）是单指令多数据，在GPU的ALU（在Core内）单元内，一条指令可以处理多维向量（一般是4D）的数据。比如，有以下shader指令：

float4 c = a + b; // a,b都是float4类型

对于没有SIMD的处理单元，需要4条指令将4个float数值相加，汇编伪代码如下：

ADD c.x, a.x, b.x

ADD c.y, a.y, b.y

ADD c.z, a.z, b.z

ADD c.w, a.w, b.w

但是有了SIMD技术，只需要一条指令即可处理完：

SIMD_ADD c, a, b

for(i=0; i < n ; ++i) c[i] = a[i] + b[i];

SIMT（Single Instruction Multiple Threads,单指令多线程）是SIMD的升级版，可对GPU中单个SM中的多个Core同时处理一个指令，并且每个Core存取的数据可以是不同的。

SIMT_ADD c，a，b

上述指令会被同时送入在单个SM中被编组的所有Core中，同事执行运算，但a、b、c的值可以不一样：

2.co-issue

co-issue是为了解决SIMD运行单元无法充分利用的问题。例如下图，由于float数量的不同，ALU利用率从100%依次下降为75%、50%、25%。

为了解决着色器在低维向量的利用率低的问题，可以通过合并1D与3D与2D的指令。例如下图，DP3指令用了3D数据，ADD指令只有1D数据，co-issue会自动将他们合并，在同一个ALU只需要一个指令周期即可执行完。

但是对于向量运算（Vector ALU），如果其中一个变量既是操作数又是存储数的情况，无法启用co-issue技术：

3.if-else语句

如上图，SM中有8个ALU（Core），由于SIMD的特性，每个ALU的数据都不一样，导致if-else语句在某些ALU中执行的是true分支（黄色），有些ALU执行的是false分支（灰蓝色），这样导致很多ALU的执行周期被浪费掉了（即masked out），拉长了整个执行周期。最坏的情况，同一个SM中只有1/8（8是同一个SM的线程数，不同架构的GPU有所不同）的利用率。

同样，for循环也会导致类似的情况，例如以下shader代码：

void func(int count, int breakNum)
{ 	
	for(int i = 0; i < count; ++i) 	
	{ 		
		if (i == breakNum) 			
			break; 		
		else 			
			// do something 	
	} 
}

由于每个ALU的count不一样，加上有break分支，导致最快执行完shader的ALU可能是最慢的N分之一的时间，但由于SIMD的特性，最快的那个ALU依然要等待最慢的ALU执行完毕，才能接下一组指令的活！也就是白白浪费了很多时间周期。

4.Early-Z

早期GPU的渲染管线的深度测试是在像素着色器之后才执行（下图），这样会造成很多本不可见的像素执行了耗性能的像素着色器计算。

后来，为了减少像素着色器的额外消耗，将深度测试提至像素着色器之前（下图），这就是Early-Z技术的由来。

Early-Z技术可以将很多无效的像素提前剔除，避免它们进入耗时严重的像素着色器。Early-Z剔除的最小单位不是1像素，而是像素块（pixel quad，2x2个像素）。

但是，以下情况会导致Early-Z失效：

开启Alpha Test：由于Alpha Test需要在像素着色器后面的Alpha Test阶段比较，所以无法在像素着色器之前就决定该像素是否被剔除。
开启Alpha Blend：启用了Alpha混合的像素很多需要与frame buffer做混合，无法执行深度测试，也就无法利用Early-Z技术。
开启Tex Kill：即在shader代码中有像素摒弃指令（DX的discard，OpenGL的clip）。
关闭深度测试。Early-Z是建立在深度测试看开启的条件下，如果关闭了深度测试，也就无法启用Early-Z技术。
开启Multi-Sampling：多采样会影响周边像素，而Early-Z阶段无法得知周边像素是否被裁剪，故无法提前剔除。
以及其它任何导致需要混合后面颜色的操作。

此外，Early-Z技术会导致一个问题：深度数据冲突（depth data hazard）。

例子要结合上图，假设数值深度值5已经经过Early-Z即将写入Frame Buffer，而深度值10刚好处于Early-Z阶段，读取并对比当前缓存的深度值15，结果就是10通过了Early-Z测试，会覆盖掉比自己小的深度值5，最终frame buffer的深度值是错误的结果。

避免深度数据冲突的方法之一是在写入深度值之前，再次与frame buffer的值进行对比：

5.统一着色器架构（Unitfied shader Architecture）

在早期的GPU，顶点着色器和像素着色器的硬件结构是独立的，它们各有各的寄存器、运算单元等部件。这样很多时候，会造成顶点着色器与像素着色器之间任务的不平衡。对于顶点数量多的任务，像素着色器空闲状态多；对于像素多的任务，顶点着色器的空闲状态多（下图）。

于是，为了解决VS和PS之间的不平衡，引入了统一着色器架构（Unified shader Architecture）。用了此架构的GPU，VS和PS用的都是相同的Core。也就是，同一个Core既可以是VS又可以是PS。

6.像素块

5.4中提到的：

32个像素线程将被分成一组，或者说8个2x2的像素块，这是在像素着色器上面的最小工作单元，在这个像素线程内，如果没有被三角形覆盖就会被遮掩，SM中的warp调度器会管理像素着色器的任务。

也就是说，在像素着色器中，会将相邻的四个像素作为不可分隔的一组，送入同一个SM内4个不同的Core。

为什么像素着色器处理的最小单元是2x2的像素块？

推测有以下原因：

1、简化和加速像素分派的工作。

2、精简SM的架构，减少硬件单元数量和尺寸。

3、降低功耗，提高效能比。

4、无效像素虽然不会被存储结果，但可辅助有效像素求导函数。

这种设计虽然有其优势，但同时，也会激化过绘制（Over Draw）的情况，损耗额外的性能。比如下图中，白色的三角形只占用了3个像素（绿色），按我们普通的思维，只需要3个Core绘制3次就可以了。

但是，由于上面的3个像素分别占据了不同的像素块（橙色分隔），实际上需要占用12个Core绘制12次（下图）。

这就会额外消耗300%的硬件性能，导致了更加严重的过绘制情况。

更多详情可以观看虚幻官方的视频教学：实时渲染深入探究。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1091210.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

python+大数据校园卡数据分析计算机竞赛

python+大数据校园卡数据分析计算机竞赛

0 前言 🔥 优质竞赛项目系列，今天要分享的是 🚩 基于yolov5的深度学习车牌识别系统实现 🥇学长这里给一个题目综合评分(每项满分5分) 难度系数：4分工作量：4分创新点：3分该项目较为新颖&am…

阅读更多...

3.MySQL数据类型详解

3.MySQL数据类型详解

个人主页：Lei宝啊愿所有美好如期而遇目录 1.数据类型分类 2.数值类型 (1).tinyint，smallint类型等 (2)bit类型 (3)小数类型 1).float 2).decimal 3.字符串类型 (1)char (2)varchar (3)char和varchar比较 (4)日期和时间类型 (5)enum和se…

阅读更多...

Vue3＜script setup＞语法糖下，实现父子组件通信以及数据监听。

Vue3＜script setup＞语法糖下，实现父子组件通信以及数据监听。

在Vue3的script setup语法糖中，没有办法通过Vue2的ref、props、parent、中央时间总线等等众多方法，通过this指针简单的实现父子组件的通信，网络上也很少有关于script setup语法糖的相关教程，所以决定自己写一个详细教程&#xff0…

阅读更多...

创建IDEA模板

创建IDEA模板

将常用的配置文件内容、模板框架等放到IDEA的模板中保存，方便以后使用。以mybatis-config.xml和一个映射文件为例（这是我自己学习SSM时用到的，后面学习SpringBoot时发现配置都只需要写到application.yml中就ok了，配置变得非常简单…

阅读更多...

07_03文件系统怎么玩的

07_03文件系统怎么玩的

文件系统 Linux将文件系统分为了两层：VFS（虚拟文件系统）、具体文件系统，如下图所示： VFS（Virtual Filesystem Switch）称为虚拟文件系统或虚拟文件系统转换，是一个内核软件层&#…

阅读更多...

【计算机网络】IP协议详解

【计算机网络】IP协议详解

文章目录一、引入二、简单认识IP协议 2、1 IP协议基本概念 2、2 IP协议报文格式 2、3 分片与组装 2、3、1 MTU 与 MSS 2、4 网段划分 2、4、1 简单理解路由 2、4、2 IP地址 2、4、3 IP地址的划分 2、4、4 CIDR（无类别域间路由） 2、4、5 特殊的IP地址 …

阅读更多...

磁盘非跨盘访问算法实现

磁盘非跨盘访问算法实现

1. 背景说明本算法基于已将磁盘分布合并并排序为升序线性表。实现示例为：磁盘扇区大小：32（可自定义），待拆分磁盘内存： [0 - 50]，[60 - 100]（可增加）。示意图如下&#x…

阅读更多...

【电机控制】FOC电机控制

【电机控制】FOC电机控制

FOC（Field-Oriented Control，磁场定向控制）是一种电机控制策略，又称矢量控制，是通过控制变频器输出电压的幅值和频率控制三相直流无刷电机的一种变频驱动控制方法。 FOC 的实质是运用坐标变换将三相静止坐标系下的电机…

阅读更多...

什么是 CSRF 、原理及其解决方式

什么是 CSRF 、原理及其解决方式

什么是 CSRF ？ 跨站请求伪造（CSRF，Cross-site request forgery），也称为 XSRF，Sea Surf 或Session Riding，是一个攻击向量，它欺骗 Web 浏览器在登录用户的应用程序中执行不需要的动作…

阅读更多...

如何处理前端国际化和本地化？

如何处理前端国际化和本地化？

聚沙成塔每天进步一点点 ⭐ 专栏简介前端入门之旅：探索Web开发的奇妙世界欢迎来到前端入门之旅！感兴趣的可以订阅本专栏哦！这个专栏是为那些对Web开发感兴趣、刚刚踏入前端领域的朋友们量身打造的。无论你是完全的新手还是有一些基础的开发…

阅读更多...

“比特币市场风起云涌：第三季度报告揭示表现和未来趋势“

“比特币市场风起云涌：第三季度报告揭示表现和未来趋势“

要点： 比特币的季度价格表现较差，为 -11.5%，但今年迄今为止的表现仍优于大多数资产类别； 截至撰写本文时，上半年推动比特币上涨的美国购买力已完全减弱； 交易量、流动性、波动性和搜索趋势均继续…

阅读更多...

idea安装汉化插件

idea安装汉化插件

settings plugins 插件搜索chinese 重启成功

阅读更多...

第五十五章学习常用技能 - 删除存储的数据

第五十五章学习常用技能 - 删除存储的数据

文章目录第五十五章学习常用技能 - 删除存储的数据删除存储的数据重置存储Storage浏览表格第五十五章学习常用技能 - 删除存储的数据删除存储的数据在开发过程中，可能需要删除某个类的所有现有测试数据，然后重新生成它（例如&#xff…

阅读更多...

基于SSM的校园音乐平台系统

基于SSM的校园音乐平台系统

基于SSM的校园音乐平台系统~ 开发语言：Java数据库：MySQL技术：SpringSpringMVCMyBatisVue工具：IDEA/Ecilpse、Navicat、Maven 系统展示主页登录界面管理员界面歌手管理歌曲管理摘要校园音乐平台系统（Campus Mu…

阅读更多...

三、RocketMQ的JAVAAPI的基础概念

三、RocketMQ的JAVAAPI的基础概念

消息(Message) 生产者和消费者数据流转的基础数据模型，主要属性有字段名默认值必要性说明Topicnull必填消息所属topic的名称Bodynull必填消息体Tagsnull选填消息标签，方便服务器过滤使用。目前只支持每个消息设置一个Keysnull选填代表这条消息的业务关…

阅读更多...

飞花令游戏(Python)

飞花令游戏(Python)

飞花令是古时候人们经常玩一种“行酒令”的游戏，是中国古代酒令之一，属雅令。“飞花”一词则出自唐代诗人韩翃《寒食》中春城无处不飞花一句。行飞花令时选用诗和词，也可用曲，但选择的句子一般不超过7个字。在《中国诗词大会》…

阅读更多...

四、RocketMQ发送普通消息、批量消息和延迟消息

四、RocketMQ发送普通消息、批量消息和延迟消息

Producer发送普通消息的方式 1.同步发送消息同步消息代表发送端发送消息到broker之后，等待消息发送结果后，再次发送消息实现步骤创建生产端，声明在哪个生产组注册NameServer地址构建Message实体，指定topic、tag、body启动…

阅读更多...

论文阅读之《Learn to see in the dark》

论文阅读之《Learn to see in the dark》

Learning to See in the Dark-CVPR2018 Chen ChenUIUC（伊利诺伊大学厄巴纳-香槟分校） Qifeng Chen, Jia Xu, Vladlen Koltun Intel Labs(英特尔研究院) 文章链接：https://arxiv.org/pdf/1805.01934.pdfhttps://arxiv.org/pdf/1805.01934.p…

阅读更多...

使用hugging face开源库accelerate进行多GPU训练（单机多卡）时，在保存模型结构的时候出现的问题

使用hugging face开源库accelerate进行多GPU训练（单机多卡）时，在保存模型结构的时候出现的问题

目录问题描述问题分析问题解决问题描述我在保存模型结构的时候，先获取模型参数，然后再保存，代码如下： 图示代码是在训练主循环中的： 这种情况下会出现报错： nboundLocalError: UnboundLocalErrorloc…

阅读更多...

解锁学习电路设计的正确姿势！

解锁学习电路设计的正确姿势！

阅读更多...

推荐文章

最新文章