Vortex GPGPU的硬件设计和代码结构分析

news2024/11/15 13:00:24

文章目录

  • 前言
  • 一、GPGPU是什么?
    • 1.1 GPU和GPGPU之间的差异
    • 1.2 GPU和CPU之间的集成方式
    • 1.3 GPU包含什么(列举和VMIPS向量体系结构的差异)
  • 二、Vortex GPGPU是什么?
    • 2.1 Vortex GPGPU的技术边界和验证环境
    • 2.2 Vortex GPGPU的指令集设计(对比GPU的指令集)
    • 2.3 Vortex GPGPU Core的6级流水微架构设计
    • 2.4 Vortex GPGPU的微架构设计
    • 2.5 Vortex GPGPU的Cache串行流水线设计和Cache多端口设计方法
  • 三、Vortex GPGPU代码包含什么?
    • 3.1 Vortex GPGPU的代码结构
    • 3.2 Vortex GPGPU的握手协议
    • 3.3 Vortex GPGPU代码中slave/master规范
    • 3.4 Vortex GPGPU代码支持的debug
  • 总结


前言

这次开始针对Vortex GPGPU进行架构分析、硬件代码分析、仿真代码分析和运行时代码分析。

Vortex GPGPU的官方文档可以见:Vortex GPGPU

Vortex GPGPU的github可见:github,其中vortex包含源码和必要的.md文件,其中vortex_tutorials包含作者在MICRO顶会上汇报的slide

本系列文章首先参考了知乎帖子,在略微深入了解Vortex GPGPU之后就觉得这可能是学习GPGPU系统工作的好机会。同时也为下一个研究工作做准备工作。


一、GPGPU是什么?

1.1 GPU和GPGPU之间的差异

顾名思义,Vortex GPGPU是一种简化版本的GPGPU。在此之前,可以简单回顾GPU的基本知识。(个人建议如果要深入研究GPGPU架构,还是先去把《计算机体系结构:量化研究方法》这一本书内关于数据级并行的知识去回顾一遍)由于GPU除了包含用于加速深度学习中矩阵乘的tensor core和支持其他计算的cuda core之外,还包含图形渲染等技术。GPU在处理视觉密集型任务,如视频游戏、三维动画、图形设计和视频编辑时表现出色。此外,GPU的并行计算能力在科学模拟、数据分析、深度学习和机器学习等领域表现出色。

GPGPUGPU的一个概念,指的是将GPU用于除了图形渲染之外的通用计算任务。GPGPU利用GPU的并行处理能力来加速科学模拟、数据分析和机器学习等计算密集型任务。这种技术允许开发者通过使用专门的编程框架,如CUDAOpenCL,来编写能够在GPU上执行的代码,从而利用GPU的并行架构来加速计算。换句话说,GPGPU专注于使用GPU进行非图形的通用计算任务

1.2 GPU和CPU之间的集成方式

注意GPU图灵完备的,图灵完备是指理论上只要提供足够多的时间和内存,任何计算都可以完成。但是这并不代表GPU可以脱离CPU而存在,这是因为GPU并不是一个独立的计算设备,往往需要和CPU集成在一个芯片内。CPU负责GPU上的计算启动,并将数据传输到GPU上。关于两者的架构图根据场景分为2类:
在这里插入图片描述
图源《General-Purpose Graphics Processor Architecture》

图1.1(a)显示一个包含CPU和GPU的典型系统图,此处GPU“独立GPU”,其中也包括用于连接CPUGPU的总线如PCIECPUGPU分别带有独立的DRAM内存空间CPU的内存空间称为“系统内存System Memory”GPU的内存空间称为“设备内存Device Memory”。并且,“系统内存”“设备内存”通常会使用不同的DRAM技术,比如CPU使用DDR(这是因为CPU优先优化DDR的访问延迟),GPU使用GDDR(这是因为GPU优先优化GDDR的访问吞吐量)。

图1.1(b)是一个典型的集成CPU和GPU的逻辑图,比如AMDBristol Ridge APU或者移动设备的GPU“移动GPU”),此处的CPUGPU使用单一的DRAM内存空间,因此必须使用相同的内存技术,由于集成CPU和GPU的芯片出现在低功耗移动设备上,所以对这种内存的优化往往针对功耗展开(LPDDR)。

1.3 GPU包含什么(列举和VMIPS向量体系结构的差异)

现在来看看GPU包含了什么?
在这里插入图片描述
在这里插入图片描述
包含指令缓存warp调度程序SIMD车道或者说线程处理器各个层次的存储器互连网络等。

一个高度抽象的全架构图如下:
在这里插入图片描述

类似于向量体系结构GPU有类似概念。

网格:在GPU上执行的可向量化循环,由一个或者多个可以并行执行的线程块组成。
线程块block:可以在多线程SIMD处理器上执行的向量化循环,由1个或者多个SIMD指令线程组成。它们可以通过局部存储器通信。
CUDA线程:对应于1个SIMD车道上执行的1个元素。
Warp:一种传统线程,仅包含多线程SIMD处理器上执行的SIMD指令。
PTX:在多个SIMD车道上执行的1条SIMD指令。
SM流式多处理器:多线程SIMD处理器执行SIMD指令的线程,和其他SIMD处理器无关。
Warp调度程序:当SIMD指令线程做好准备后,用于调度发射这些线程的硬件,包括一个计分板,用于跟踪SIMD线程执行。

关于threadblockwarp之间的差异见:
在这里插入图片描述

另外注意GPU有2级硬件调度程序

  1. 线程块调度程序:将线程块分配给多线程SIMD处理器,确保线程块被分配给其局部存储器拥有相应数据的处理器;
  2. SIMD处理器内部的SIMD线程调度程序(就是Warp调度程序),用以调度何时运行SIMD指令线程。

当然GPU向量体系结构这两者也是有差异的:

GPU 向量体系结构
共同点1、可以解决数据级并行问题;2、都拥有Gather-Scatter数据传送;3、都支持mask寄存器;
差异点1、GPU的寄存器数量要比VMIPS多;2、由于没有一种接近的标量处理器,GPU有时会在运行时以硬件实现一些功能,VMIPS通常在编译时用软件来实现这些功能;3、与大多数VMIPS不同的是,GPU还依赖单个“多线程SIMD处理器“中的”多线程“来隐藏存储器延迟;

展开SIMD车道
在这里插入图片描述
其余关于GPU怎么处理分支,为什么引入mask寄存器等之后有需补充。

二、Vortex GPGPU是什么?

2.1 Vortex GPGPU的技术边界和验证环境

在这里插入图片描述
以上是Vortex GPGPU团队提出的GPGPU架构,整个系统包括Host端和GPGPU Processor端,Host端通过设计两种不同平台的驱动来支持AMDOpenCLNVIDIACUDA,事实上作者开发了不止一种驱动,根据底层环境分为四种,后面再展开!在CUDAOpenCL运行时之上就是两类程序。而在Processor端,作者做了层级设计,包括计算和存储。存储包含设备内存共享memoryRegister File,计算层面则通过设计多个Core实现高度数据级并行,图示中的AFU是用于Host端给GPGPUmulti-banking DRAM填充数据的单元。Core的架构细节包括Warp调度程序单元取指译码寄存器堆ALUFPULSUSFU共享存储。彼此之间的连接关系见后面。

在这里插入图片描述
以上是Vortex GPGPU设计的验证环境。

1、最右侧是作者团队设计的一个周期精确Vortex GPGPU模拟器,基于SIMX Driver驱动支持Vortex应用程序的运行。
2、从最右侧过来,左边第一个是纯Vortex GPGPU的验证环境,作者借助Verilator这个开源波形验证工具向上搭建RTLSIM驱动来支持Vortex应用程序的运行。
3、再往左边过来就是,使用AFU实现基本的数据可供给的系统,作者依旧借助Verilator这个开源工具向上搭建VLSIM驱动来支持Vortex应用程序的运行。
4、最左侧就是在FPGA平台上基于OPAE驱动来支持Vortex应用程序的运行。

这样的验证环境对我本人来说,是全新的。因此,对我而言,有愈发学习框架和代码的必要性。(此前,我只知道最左侧的验证环境和软件开发流程

2.2 Vortex GPGPU的指令集设计(对比GPU的指令集)

在这里插入图片描述
上述只列举了部分RISC-V指令集扩展,主要是控制流指令
对比《计算机体系结构:量化研究方法》上的指令集:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.3 Vortex GPGPU Core的6级流水微架构设计

在这里插入图片描述
首先这个和超标量处理器类似,属于多发射的处理器。作者自己定调是6级顺序发射-乱序接收的GPGPU。每一级流水功能见下面图片:
在这里插入图片描述
这是调度阶段,包括前述提到的Warp调度程序Warp Table。关于IPDOM(Immediate Postdominator) TableInflight Tracker,根据官网论文的细节看:
IPDOM Table是为了解决SIMT(单指令多线程)处理器中的控制流分歧问题。具体来说是因为:

控制流分歧导致性能降低:控制流分歧发生在同一个硬件warp中的线程想要执行不同的指令路径时。由于线程可能因为条件判断、循环等操作而产生不同的执行流程,这会导致SIMT处理器中的某些线程空闲,从而降低流水线的利用率。如果不加以处理,控制流分歧会导致处理器性能的显著下降。

IPDOM Table怎么解决这个问题:为了解决这个问题,引入了IPDOM栈。IPDOM栈的作用是跟踪warp中线程的执行状态,以便在发生控制流分歧时能够恢复到正确的执行路径。具体来说,每个warp都有一个私有的线程掩码寄存器,该寄存器存储当前正在运行的线程的掩码。当执行到分割指令时,当前线程掩码的状态、新线程掩码的逆,以及下一条指令的地址(PC+4)会被推入到IPDOM栈中。当执行合并指令时,会从IPDOM栈中弹出这些信息,以恢复到正确的执行状态。

IPDOM Table引入的好处:引入IPDOM栈的目的是为了简化硬件设计,同时有效处理控制流分歧。通过维护一个栈来跟踪和恢复执行状态,可以在不显著增加硬件复杂度的情况下,解决控制流分歧带来的性能问题。这种设计允许SIMT处理器更高效地处理线程执行中的条件分支和循环,提高了处理器的整体性能和利用率。

Inflight Tracker主要是为了跟踪in flight指令,也就是跟踪执行中的指令。

Warp Scheduler:
1、Schedule the next PC into the pipeline
2、Track stalled, active warps

IPDOM Stack
1、Save split/join states for divergent threads

Inflight Tracker
1、Track in-flight instructions

在这里插入图片描述
这是取指阶段,包括设计Cache,处理ICache请求和响应。作者额外设计了预防死锁的设计(具体细节看代码的时候展开)。

1、Retrieve instructions from memory
2、Handle I-cache requests/responses

在这里插入图片描述
这是译码阶段,主要负责分析指令的各个field,从而确定操作类型操作数

1、Decode fetched instructions
2、Notify warp scheduler on control instructions

在这里插入图片描述
这是发射阶段,包括指令buffer、计分板、寄存器堆和操作数分发。

IBuffer
1、Store decoded instructions in separate per-warp queues

Scoreboard
1、Track in-use registers
2、Check register use for decoded instructions

Operands Collector
1、Fetch the operands for issued instructions from the register file

在这里插入图片描述
这是执行阶段,包括四大类Cluster

ALU Unit
1、Handle arithmetic and branch operations

FPU Unit
1、Handle floating-point operations

LSU Unit
1、Handle load/store operations

SFU Unit
1、Handle warp control operations
2、Handle Control Status Registers (CSRs) operations

注意执行阶段还包括:DispatchGather单元。
在这里插入图片描述

在这里插入图片描述
这是回收阶段,用于获取执行完的结果,并完成写回到cache的操作。

Commit
1、Write result back to the register file and update the Scoreboard.

2.4 Vortex GPGPU的微架构设计

在这里插入图片描述
计算部分的层次不过多解释!

2.5 Vortex GPGPU的Cache串行流水线设计和Cache多端口设计方法

在这里插入图片描述
这是个很典型的cache设计,包括TagData部分。可以先简单回顾Cache的流水设计,以下图来自《超标量处理器设计》:
在这里插入图片描述
一个4路组相联的cache设计如上,访存地址分为TagIndexBlock OffsetIndex用于选中4路中的哪一行,也就是选中Tag Memory中某一行,随后使用Tag来确定是否命中了4路中的某一路,如果命中,则接下来在Data Memory对应的路中根据Block offset选中某个cacheline data block
用于cache的并行化访问流水(这里的并行指的是对Tag MemoryData Memory的并行访问,同理后面提到的串行也是这两者的串行访问)
在这里插入图片描述
在这里插入图片描述
一般来说,会倾向于选择串行访问,原因是减少了MUX的数量,因为在现代CPU中,L1 ICache一般采用4路组相联(我们以intel i4为例),L1 DCache一般采用8路组相联L2 Cache同样会采用8路组相联。因此高相联度的cache必然会带来多路选择器,而串行访问明显降低了对2个memory访问延迟。当然缺陷也是明显的,就是增加了load指令的延迟,因为多了一拍。

世界线收束一下!
在这里插入图片描述
单从这张图可以看出作者采用了Tag MemoryData Memory串行流水线设计。与此同时,作者提到为了适应多发射的需要,引入virtual multi-porting的设计。通常cache因为面积本来就很大,很少考虑True multi-porting设计。因为端口数量增加会导致面积增加。尽管如此,但是还是能接受,因为对于ICache而言,需要每个周期读取多条指令,多端口设计基本可以保证每拍都可以取出指令。当然发射的指令数量完全取决于一次取多少cacheline block字节的对齐程度

在超标量处理器中,会有一些部件考虑使用True multi-porting,比如Register FileROBIssue Queue,但这些部件容量本身就不大。

相比之下,DCache采用这个方案对访问延迟和面积都有极大的消极影响。一般的处理方案是multi-banking,以AMD Opteron为例:
在这里插入图片描述
multi-banking的形式有利于分割开物理存储,减少访问竞争。一张更形象的图是:
在这里插入图片描述
使用多体交叉的方式来支持多端口访问。

至于这里提到的virtual multi-porting设计方法,不太理解为什么作者将DCacheICache都进行了同样处理(这一点先存疑,但感觉大概率是进行了同样操作,后续等读完代码后再来澄清这个问题)。为什么这么设计,作者也提到了优势,可能具体有多好还得回到代码中去看看。

三、Vortex GPGPU代码包含什么?

3.1 Vortex GPGPU的代码结构

在这里插入图片描述
在这里插入图片描述
这里提到在FPGA上的部署,我简单看了作者代码,大概率是可以支持Vortex GPGPUZYNQ构建SoC,作者并未套用Xilinx提供的axi full封装代码,而是自己重构了。这可能是本源码的第不知道多少个值得学习的地方。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
一个是基于Intel的开发板,一个是基于xilinx的开发板。作者提到了具体支持的板子类型:
在这里插入图片描述
世界线收束!
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.2 Vortex GPGPU的握手协议

在这里插入图片描述
只是截个图,保证后面看代码的时候没遗漏细节!

3.3 Vortex GPGPU代码中slave/master规范

在这里插入图片描述

3.4 Vortex GPGPU代码支持的debug

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


总结

本文简单回顾GPU和CPU之间的集成方式,GPU和GPGPU之间的差异,同时根据经典书籍展开GPU的基本知识,并与VMIPS进行对比。随后展开Vortex GPGPU的架构设计细节,并同时深入分析了作者设计的4种验证环境。最后简单展开Vortex GPGPU的源码结构。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1908808.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Kubernetes基于helm部署jenkins

Kubernetes基于helm安装jenkins jenkins支持war包、docker镜像、系统安装包、helm安装等。在Kubernetes上使用Helm安装Jenkins可以简化安装和管理Jenkins的过程。同时借助Kubernetes,jenkins可以实现工作节点的动态调用伸缩,更好的提高资源利用率。通过…

C++ | Leetcode C++题解之第223题矩形面积

题目: 题解: class Solution { public:int computeArea(int ax1, int ay1, int ax2, int ay2, int bx1, int by1, int bx2, int by2) {int area1 (ax2 - ax1) * (ay2 - ay1), area2 (bx2 - bx1) * (by2 - by1);int overlapWidth min(ax2, bx2) - max…

使用void 0替代undefined

在很多大厂的规范里面,有这么一条规定:不让直接使用undefined关键字,而应该使用void 0来替代undefined。 一、void 0是什么意思? void是一个关键字,他后面跟的是一个表达式,不管这个表达式算的是啥&#…

you should not run configure as root, 升级tar出错

为了能用 tar 支持 zstd 的压/解缩包命令,需要升级 tar 到 1.3 以上,下面是下载和编译、安装命令: wget https://mirrors.aliyun.com/gnu/tar/tar-1.32.tar.bz2 tar -jxvf tar-1.32.tar.bz2 cd tar-1.32 ./configure make make install但在执…

Docker定时清理

一、循环调度执行 1、检查cron状态 systemctl status crond 2、创建要执行的shell脚本 vim /home/cleanup_docker.sh #! /bin/bash # 清理临时文件 echo $(date "%H:%M:%S") "执行docker清理命令..." docker system prune -af-a 清理包括未使用的镜像 …

PyJWT,一个基于JSON的轻量级安全通信方式的python库

目录 什么是JWT? JWT的构成 PyJWT库简介 安装PyJWT 生成JWT 验证JWT 使用PyJWT的高级功能 自定义Claims 错误处理 结语 什么是JWT? 在介绍PyJWT这个Python库之前,我们首先需要了解什么是JWT。JWT,全称JSON Web Token&am…

LabVIEW开发商业软件的多角度分析与注意事项

在使用LabVIEW开发商业软件时,有许多方面需要考虑和注意,包括项目管理、架构设计、性能优化、用户体验、安全性、维护与支持等。以下是从多个角度详细分析在LabVIEW中开发商业软件需要注意的事项。 项目管理 需求分析:确保深入了解客户需求&a…

如何在vue3中使用scss

一 要使用scss首先需要下载相关的包 可以在终端使用下面的命令下载相关包 npm install -D sass 二 在src文件下新建一个文件夹叫做styles 在文件夹下创建三个文件 index.scss主要用来引用其他文件 reset.scss用来清除默认的样式 variable.scss用来配置全局属性 三 需要在v…

生物素结合金纳米粒子(Bt@Au-NPs ) biotin-conjugated Au-NPs

一、定义与特点 定义:生物素结合金纳米粒子,简称BtAu-NPs或biotin-conjugated Au-NPs,是指通过特定的化学反应或物理方法将生物素修饰到金纳米粒子表面,形成稳定的纳米复合材料。 特点: 高稳定性:生物素的修…

上位机图像处理和嵌入式模块部署(mcu项目2:串口日志记录器)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 淘宝上面有一个商品蛮好玩的,那就是日志记录器。说是记录器,其实就是一个模块,这个模块的输入是一个ttl串口&am…

2024年信息素养大赛图形化编程小低组复赛真题-附答案 6547网

2024年全国青少年信息素养大赛图形化编程小低组复赛真题 题目总数:6 总分数:100 第1部分 第 1 题 问答题 【编程实现】点击小绿旗,实现将鱼的所有造型印到舞台区 【具体要求】 1. 将鱼显示出来 全部擦除所有内容 2. 将鱼的造型设…

vue学习day03-指令修饰符、v-bind对于样式控制的增强、v-model应用于其他表单元素

7、指令修饰符 (1)概念: 通过“.”指明一些指令后缀,不同后缀封装了不同的处理操作->简化代码 (2)按键修饰符 keyup.enter->键盘回车监听 (3)v-model修饰符 v-model.tri…

报修小程序论文(设计)开题报告

一、课题的背景和意义 近些年来,随着移动互联网巅峰时期的来临,互联网产业逐渐趋于“小、轻、微”的方向发展,符合轻应用时代特点的各类技术受到了不同领域的广泛关注。在诸多产品中,被誉为“运行着程序的网站”之名的微信小程序…

Linux学习笔记(二)账户和组

一、基本概念 用 户:用户id,被称为UID 基本组:账户id,被称为GID。用户只能加一个基本组。 0代表超级管理员,root账号。 附加组:用户能加多个基本组。 二、添加账户和组 创建用户名tom,失效…

千古雄文《渔樵问对》原文、译文、解析

邵雍《渔樵问对》:开悟奇文,揭示世界的终极意义 【邵雍《渔樵问对》:开悟奇文,揭示世界的终极意义】 邵雍(1011年1月21日-1077年7月27日,宋真宗大中祥符四年十二月二十五日戌时生至神宗熙宁十…

ctfshow web入门 nodejs web334--web337

web334 有个文件下载之后改后缀为zip加压就可以得到两个文件 一个文件类似于index.php 还有一个就是登录密码登录成功就有flag username:ctfshow password:123456因为 return name!CTFSHOW && item.username name.toUpperCase() && item.password passwor…

Python 处理Excel 文件, openpyxl 库的使用:

下载&#xff1a; pip install openpyxl 基本使用&#xff1a; 新建一个Excel 工作簿&#xff1a; 使用openpyxl 需要先导入一个Workbook 类&#xff0c; 使用它可以创建一个Workbook<工作簿>对象&#xff0c; 也就是创建一个Excel表文件&#xff0c; web.active 可用来…

电动卡丁车语音芯片方案选型:让驾驶体验更智能、更安全

在追求速度与激情的电动卡丁车领域&#xff0c;每一次升级都意味着更加极致的驾驶体验。而今天&#xff0c;我们要介绍的&#xff0c;正是一款能够显著提升电动卡丁车智能化与安全性的语音芯片方案——为您的爱车增添一份独特的魅力与安全保障。 智能化升级&#xff0c;从“听…

2.5 C#视觉程序开发实例1----CamManager实现模拟相机采集图片

2.5 C#视觉程序开发实例1----CamManager实现模拟相机采集图片 1 目标效果视频 CamManager 2 CamManager读取本地文件时序 3 BD_Vision_Utility添加代码 3.0 导入链接库 BD_OperatorSets.dllSystem.Windows.Forms.dllOpencvSharp 3.1 导入VisionParam中创建的文件Util_FileO…

《Windows API每日一练》9.1 资源-图标

本节讲述图标、鼠标指针位图、字符串资源表、自定义资源的添加和应用。 本节必须掌握的知识点&#xff1a; 图标 第56练&#xff1a;ICON图标资源 鼠标指针位图 字符串资源表 自定义资源 第57练&#xff1a;字符串资源表和自定义资源 9.1.1 图标 在 Windows 窗口编程中&…