通用图形处理器设计GPGPU基础与架构(二)

news2025/1/11 9:06:58

一、前言

        本系列旨在介绍通用图形处理器设计GPGPU的基础与架构,因此在介绍GPGPU具体架构之前,需要了解GPGPU的编程模型,了解软件层面是怎么做到并行的,硬件层面又要怎么配合软件,乃至定出合适的架构来实现软硬件协同。

二、通用编程背景

       为了满足人们对GPU进行通用编程的需求,NVIDIA 公司于2007年发布了CUDA(Compute Unified Device Architecture,计算统一设备体系结构),支持编程人员利用更为通用的方式对GPU进行编程,更好地发挥底层硬件强大的计算能力,从而高效地解决各领域中的计算问题和任务。随后,苹果、AMD IBM 等公司也推出了OpenCL(Open Computing Language,开放运算语言)标准。该标准成为第一个面向异构系统通用并行编程的免费标准,适用于多核CPU GPGPU等多种异构并行系统。

三、GPGPU计算模型

       本主要以CUDA并行编程中的一些架构概念来展示GPGPU的计算和存储模型。作为首个GPGPU编程模型,CUDA 定义了以主从方式结合单指令多线程(Single Instruction Multiple Threads,SIMT)硬件的多线程计算方式。

        以上图的矩阵乘法为例,矩阵C中每个元素都可以由一个输入矩阵A行向量和另一个输入矩阵B的列向量进行点积运算得到。C中每个元素的计算过程都可以独立进行,不存在依赖关系,因此具有良好的数据并行性。

        在GPGPU中,承担并行计算中每个计算任务的计算单元称为线程(Thread)每个线程在一次计算任务过程中会执行相同的指令。在上例矩阵乘法中,每个线程会从矩阵AB读取对应的行或列构成向量ab, 然后执行向量点积运算,最后将结果c存到结果矩阵C的对应位置。

        虽然每个线程输入数据不同,输出的结果也不同,但是每个线程需要执行的指令完全相同。也就是说, 一条指令被多个线程同时执行,这就是GPGPU 中的单指令多线程(Single Instruction Multiple Threads,SIMT)计算模型。

        为了针对复杂的大规模通用计算场景将不方便处理,CUDA 引入了线程网格(thread grid)、线程块(thread block)、线程(thread)。Thread Block由多个Thread组成,而Grid又由多个Thread Block组成。因此,它们的关系就是Grid > Block > Thread。

       在CUDA编程模型中,通常将代码划分为主机端(host)代码和设备端(device)代码,分别运行在CPUGPGPU上。CPU硬件执行主机端代码,GPGPU硬件将根据编程人员给定的线程网格组织方式将设备端代码分发到线程中。

       主机端代码通常分为三个步骤。①数据复制:CPU将主存中的数据复制到GPGPU中。②GPGPU动:CPU 唤醒GPGPU线程进行运算。③数据写回:GPGPU运算完毕将计算结果写回主机端存储器中。

       设备端代码常常由多个函数组成,这些函数被称为内核函数(kernel)。内核函数会被分配到每个GPGPU的线程中执行,而线程层次则由编程人员根据算法和数据的维度显式指定,如下图所示。

       基于上面的线程层次,编程人员需要知道线程在网格中的具体位置,才能读取合适的数据执行相应的计算。因此,CUDA引入了为每个线程指明其在线程网格中哪个线程块的 blockIdx(线程块索引号)和线程块中哪个位置threadIdx(线程索引号)。blockIdx有三个属性,x、y、z描述了该线程块所处线程网格结构中的位置。threadIdx 也有三个属性,xyz 描述了每个线程所处线程块中的位置。在一个Grid中:根据blockIdx和threadIdx,我们就能唯一锁定到某个线程,进而编程让其做具体计算。例如下面这段代码,调用线程进行了矩阵加法。

// Kernel定义
__global__ void MatAdd(float A[N][N], float B[N][N], float C[N][N]) 
{ 
    int i = blockIdx.x * blockDim.x + threadIdx.x; 
    int j = blockIdx.y * blockDim.y + threadIdx.y; 
    if (i < N && j < N) 
        C[i][j] = A[i][j] + B[i][j]; 
}

        矩阵加法计算时,数据之间没有依赖性,每个线程都是并行独立地操作数据。

        到此,可能会有个疑问,既然通用计算追根到底是索引到单个thread再做计算,那么假设没有block,我纯靠threadidx也能唯一索引到某个线程,block存在的意义到底是什么?。这就要引入共享存储器全局存储器的概念了

        首先,共享存储器的访问比全局存储器更快,共享存储器作用于一个线程块(thread block)内部,可以为同一个线程块内部的线程提供更快的数据访问。因此,通过合理划分块(block)的大小,可以充分利用数据的局部性原理减少对设备端全局存储器的访问,从而提高运算性能。此外,线程之间由于应用的特点可能不能完全独立。比如归约(reduction)操作需要邻近的线程之间频繁地交互数据,以协作的方式产生最终的结果,多个线程之间还可能需要相互同步,block的存在提高了线程之间的协作能力。

四、自线程到硬件结构

       为了实现对大量线程的分配,GPGPU 对硬件功能单元进行了层次化的组织,如图所示。

       它主要由流多处理器(Streaming MultiProcessor,SM)阵列和存储系统组成,两者由片上网络连接到L2高速缓存和设备端存储器上。每个流多处理器内部有多个流处理器(Streaming Processor,SP单元,构成一套完整的指令流水线,包含取指、译码、寄存器文件及数据加载/存储(load/store)单元等,并以SIMT 架构的方式进行组织。GPGPU的整体结构、SM 硬件 SP 硬件对应了线程网格、线程块和线程的概念,实现了线程硬件的对应分配规则。

五、存储模型                                    

       GPGPU利用大量的线程来提高运算的并行度,这些线程需要到全局存储器中索引相应的数据。为了减少对全局存储器的访问,GPGPU架构提供了多种存储器类型和多样的存储层次关系来提高kernel函数的执行效率,如下表所示。

Memory Description

CUDA Memory Name

所有的线程(或所有work-items)均可访问

global memory

只读存储器

constant memory

线程块(或work-group)内部线程访问

shared memory

单个线程(或work-item)可以访问

local memory

       CUDA 支持多种存储器类型,线程代码可以从不同的存储空间访问数据,提高内核函数的执行性能。每个线程都拥有自己独立的存储空间,包括寄存器文件(Register File)局部存储器(Local Memory),这些存储空间只有本线程才能访问。每个线程块允许内部线程访问共享存储器(Shared Memory)在块内进行线程间通信。线程网格内部的所有线程都能访问全局存储器(Global Memory),也可以访问纹理存储器(Texture Memory)常量存储器(Constant Memory)中的数据。

       ① 寄存器文件(Register File)是 SM 片上存储器中最为重要的一个部分,它提供了与计算内核相匹配的数据访问速度。大容量的寄存器文件能够让更多的线程同时保持在活跃状态。这样当流水线遇到一些长延时的操作时,GPGPU可以在多个线程束之间快速地切换来保持流水线始终处于工作状态。这种特性在GPGPU中被称为零开销线程束切换(zero-cost warp switching),可以有效地掩藏长延时操作,避免流水线的停顿。

       ② 局部存储器(Local Memory)是每个线程自己独立的存储空间局部存储器是私有的,只有本线程才能进行读写。

       ③ 共享存储器(Shared Memory)也是SM 片内的高速存储资源,它由一个线程块内部的所有线程共享。相比于全局存储器,共享存储器能够以类似于寄存器的访问速度读写其中的内容。

       ④ 全局存储器(Global Memory)位于设备端。GPGPU核函数的所有线程都可对其进行访问,但其访存时间开销较大。

       ⑤ 常量存储器(Constant Memory)位于设备端存储器中,其中的数据还可以缓存在SM部的常量缓存(Constant Cache)中,所以从常量存储器读取相同的数据可以节约带宽,对相同地址的连续读操作将不会产生额外的存储器通信开销。

       ⑥ 纹理存储器(Texture Memory)位于设备端存储器上,其读出的数据可以由纹理缓存(Texture Cache)进行缓存,也属于只读存储器

六、同步机制

       在SIMT 计算模型中,每个线程的执行都是相互独立的。然而在实际的应用和算法中,除向量加这种可完全并行的计算之外,并行的线程之间或多或少都需要某种方式进行协同和通信,例如:

① 某个任务依赖于另一个任务产生的结果,例如生产者-消费者关系;

② 若干任务的中间结果需要汇集后再进行处理,例如归约操作。

       这就需要引入某种形式的同步操作,以Thread Block中的线程同步为例:

       在CUDA 编程模型中,__syncthreads()可用于同一线程块内线程的同步操作,它对应PTX 指令为bar 指令。该指令会在其所在程序计数器(Programe Counter,PC)位置产生一个同步栅栏(barrier),并要求线程块内所有的线程都到达这一栅栏位置才能继续执行,这可以通过监控线程的PC来实现。在线程同步的要求下,即便有些线程运行比较快而先到达bar指令处也要暂停,直到整个线程块的所有线程都达到bar指令才能整体继续执行。

七、总结

       本文介绍了GPGPU编程的背景、CUDA编程实现步骤、软件到硬件的过度以及存储模型等内容,为后续介绍GPGPU架构提供理论基础。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1921379.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何修复d3dx9_43.dll文件丢失问题,实测有效的几种方法分享

在日常工作生活中&#xff0c;计算机可能会出现提示“d3dx9_43.dll文件丢失”的情况&#xff0c;面对这种情况&#xff0c;您该如何应对呢&#xff1f;这种情况在计算机使用过程中是比较常见的&#xff0c;对于经常使用计算机的人来说&#xff0c;难免会遇到这种情况。今天&…

Milvus 核心设计(1) ---- 数据一致性的等级及使用场景

目录 背景 Milvus的数据一致性 设置数据一致性等级 等级类型 PACELC定理 level 详细解释 Strong Bounded staleness Session Eventually 总结 背景 分布式上的可扩展性是个比较重要的concept。Chroma 核心之前写过了,他的最大优势在于轻量级且好用。Milvus相对Ch…

PHP企业工商年报大师微信小程序系统源码

&#x1f31f;轻松搞定年报难题&#xff01;&#x1f4bc; &#x1f680;【一键直达&#xff0c;年报不再繁琐】 还在为每年的企业工商年报而头疼吗&#xff1f;繁琐的表格、复杂的流程&#xff0c;让人望而却步&#xff1f;现在有了“企业工商年报大师”微信小程序&#xff…

彻底解决找不到msvcr120.dll,无法继续执行代码的问题(最新方法)

在使用电脑过程中经常会遇到各种问题&#xff0c;其中msvcr120.dll丢失或找不到msvcr120.dll问题就是常见之一&#xff0c;那么遇到msvcr120.dll丢失要怎么解决&#xff1f;msvcr120.dll又是什么为什么会丢失&#xff1f;今天给大家介绍一下msvcr120.dll文件跟msvcr120.dll丢失…

189. 轮转数组 --- 多种方式解题

直接开新数组&#xff0c;暴力遍历&#xff0c;新位置(原位置k)%nums.length class Solution {public void rotate(int[] nums, int k) {int[] ans new int[nums.length];for (int i 0; i < nums.length; i) {int pos (i k) % nums.length;ans[pos] nums[i];}for (int…

Ubuntu系统上安装Apache和WordPress

** 第一步跟新系统包 ** 首先跟新系统包 sudo apt update sudo apt upgrade第二步下载安装apache sudo apt install apache2 ##查看apache的状态是否启动成功 sudo systemctl status apache2 ##查看服务器的ip地址 sudo ip a通过ip地址进行访问apache页面 第三步下载安装…

常见条件控制算法流程图

内容讲解&#xff1a;流程控制[if…else…(if…elif…else…),while,for] 常见条件控制算法流程图高清图

k8s集群利用svc,ep代理另一个集群的svc服务,让集群正常调用

前提&#xff1a;两套集群的网络互通 背景&#xff1a;客户给两套集群&#xff0c;不通网络环境&#xff0c;但是两套集群中服务需要有调用故用此方法 A集群&#xff08;未部署服务a&#xff0c;但是部署了服务b,c,d&#xff09; B集群 &#xff08;只部署了服务a&#xff09; …

216.Mit6.S081-实验四-Traps

本实验探索如何使用陷阱实现系统调用。您将首先使用栈做一个热身练习&#xff0c;然后实现一个用户级陷阱处理的示例。 开始编码之前&#xff0c;请阅读xv6手册的第4章和相关源文件&#xff1a; kernel/trampoline.S&#xff1a;涉及从用户空间到内核空间再到内核空间的转换的…

检索 Postgres 不同版本功能差异的神器

官方 官方提供了 Feature Matrix https://www.postgresql.org/about/featurematrix pgPedia https://pgpedia.info/ 提供了更加丰富的内容 带搜索功能 不同版本下的 SQL 命令支持 系统表的支持 总结 横向对比其他数据库&#xff0c;官方的版本功能比对已经做的很不错了。pgP…

配置Redis时yml的格式导致报错

报错如下 java.lang.IllegalStateException: Failed to load ApplicationContext at org.springframework.test.context.cache.DefaultCacheAwareContextLoaderDelegate.loadContext(DefaultCacheAwareContextLoaderDelegate.java:98) at org.springframework.test.context.su…

这几个伦敦金交易常识性的知识 一定要知道

常识是指在伦敦金交易中&#xff0c;获得大部分投资者一致公认的有用的的一些投资知识&#xff0c;掌握这些知识&#xff0c;对我们做伦敦金交易是很重要的。下面我们就来讨论三个伦敦金交易的常识。 支撑阻力位。在伦敦金交易中支撑阻力位的重要性不言而喻。这里需要说明的是&…

YOLOv10: Real-Time End-to-End Object Detection

双重标签分配 与一对一多分配不同&#xff0c;一对一匹配只为每个地面真相分配一个预测&#xff0c;避免了NMS后处理。然而&#xff0c;这导致了较弱的监督&#xff0c;导致次优的准确性和收敛速度。幸运的是&#xff0c;这种缺陷可以通过一对一多分配来弥补。为此&#xff0c…

一起来学习孟德尔随机化临床医学SCI发表吧!!!

如今&#xff0c;临床科研工作者面对越来越重的科研压力&#xff0c;以及越来越高的 SCI 文章要求&#xff0c;如何才能在不 进实验室、不做基础科研的前提下&#xff0c;利用好各种公共数据资源快速发表 SCI 论著&#xff1f;这是一个困绕每一 个临床科研医生的话题。真正的随…

Docker 使用基础(4)—存储卷

&#x1f3ac;慕斯主页&#xff1a;修仙—别有洞天 ♈️今日夜电波&#xff1a;秒針を噛む—ずっと真夜中でいいのに。 0:34━━━━━━️&#x1f49f;──────── 4:20 &#x1f504; ◀️ ⏸ …

【JavaScript 算法】广度优先搜索:层层推进的搜索策略

&#x1f525; 个人主页&#xff1a;空白诗 文章目录 一、算法原理二、算法实现三、应用场景四、优化与扩展五、总结 广度优先搜索&#xff08;Breadth-First Search, BFS&#xff09;是一种用于遍历或搜索图或树数据结构的算法。该算法从起始节点开始&#xff0c;逐层向外扩展…

delete删除new[]创建的数组会发生什么

这是国泰君安技术面出的题 先说结论 如果是删除原始的数据类型&#xff0c;并不会发生什么&#xff0c;也不会产生内存泄露。如果是删除自定义类型&#xff0c;比如说类和结构体&#xff0c;则只能删除第一个&#xff0c;后面的可能会内存泄露。 一、删除原始数据类型 举个…

LeetCode 141.环形链表 C写法

LeetCode 141.环形链表 C写法 思路&#x1f9d0;&#xff1a; ​ 利用快慢指针&#xff0c;快指针走两步&#xff0c;慢指针走一步&#xff0c;如果没有环&#xff0c;快指针走完就返回false&#xff0c;如果有环&#xff0c;那么快指针一定先进环&#xff0c;等慢指针进环以后…

闯荡西游之路,续写经典传奇,大话西游图文架设教程

前言 这次给大家带来的是我精心准备了很久的&#xff0c;也是大家呼声很高的大话西游&#xff0c;云集西游版本&#xff0c;安卓苹果双端&#xff0c;非变态版本&#xff0c;包含天梯、星阵、八卦等玩法&#xff0c;游戏内置GM后台&#xff0c;快来体验一下吧~ 本文讲解大话西…

公司网站搭建源码系统 带网站的源代码包以及搭建部署教程

系统概述 随着互联网的飞速发展&#xff0c;网站已成为企业对外展示、交流和服务的重要窗口。然而&#xff0c;对于非技术背景的企业而言&#xff0c;自行开发网站往往面临技术门槛高、成本高、周期长等难题。因此&#xff0c;我们推出了这款集成了先进技术和丰富功能的网站搭…