GPU的工作原理

news2024/10/6 1:46:55

location: Beijing

1. why is GPU

CPU的存储单元和计算单元的互通过慢直接促进了GPU的发展
先介绍一个概念:FLOPS(Floating Point Operations Per Second,浮点运算每秒)是一个衡量其执行浮点运算的能力,可以作为计算机性能的指标。所以人们买计算机是往往关心一下计算机有多少FLOPS
然而,计算机性能可能是过剩的?下图是CPU与DRAM的关系
在这里插入图片描述

Fig. 1.1 计算机存算架构

DRAM每秒把200GB的数据,也就是把25,000,000,000个FP64类型的浮点数传输给CPU;CPU每秒可以计算2,000,000,000,000个FP64类型的浮点数。可以看出,CPU可处理数据的能力是DRAM传输能力的80倍(这种比值有个专业术语:计算强度),除非我们的程序对每个数据都做80次运算,否则CPU的算力总是过剩的

所以从这里可以看出,大部分时间,计算机运行程序的速度并不取决于CPU的计算能力,而是DRAM与CPU传输数据的时间延迟(latency)

以一段测试程序daxpy函数为例:
在这里插入图片描述

Fig. 1.2 存取速度测试程序

这里我们默认alpha存在CPU的缓存中,数组x和y存在DRAM中。当程序执行时,我们用甘特图看看程序的执行:
在这里插入图片描述

Fig. 1.3 程序运行甘特图

可以看出,在程序运行的过程中,CPU花了大量的时间在等待DRAM把数据传过来,这段等待时间大概是占整个程序执行时间的99%以上
至于为什么这么慢,我们可以理解为光速太慢,CPU尺寸太大,传输线太长……anyway,这里不在追究,不过值得一提的是,NVIDIA、Intel、AMD都无法解决这个物理问题
这个问题没办法解决了吗?或许我们可以另辟蹊径,既然这种latency无法避免,那我们就想办法“掩盖”这个latecy
如果总线在89ns内可以传输11659bytes数据,通过daxpy函数可以看到这个函数89ns内只要了16bytes的数据,所以为了让总线忙起来,我们只需要让daxpy函数一次要11659/16=729次数据就能让总线满负荷
比如下面一段程序一定程度上让总线忙一点
在这里插入图片描述

Fig. 1.4 高并发

通过这种一次加载大量数据,让CPU和DRAM之间的传输线忙起来,这从一定程度上“减少”了后面加载的数据的延迟,使程序快速运行 ,理论上来讲,即使这是单线程的程序,我的循环中迭代729次也是没问题的

这里需要指出一个点:并行性指的是计算机同时处理多个任务的能力,在硬件限制下每个线程同时处理一个操作,但硬件可以处理很多线程;并发性指计算机有处理多个任务的能力,不讲究同时。

这样通过多线程的模式,也可以掩盖latency的的事实。
在这里插入图片描述

Fig. 1.5 多线程支持

从这里可以看出NVIDIA的优势,通过对一批数据进行221184种不同的操作(线程),来掩盖latency的不足,GPU就是为少量数据进行大量任务而设计的,与此相比,CPU期望通过一个线程解决所有问题。

因此,解决latency的问题变为:创造足够多的线程。

2. What is GPU

在这里插入图片描述

Fig. 2.1 GPU架构

其中,我们希望离SM较近的寄存器能够尽可能的填满,因为每向较远的缓存访问数据,latency都会灾难性的上升。每一个SM都是一个基础处理单元,下图使SM的示意图
在这里插入图片描述

Fig. 2.2 SM示意图

warp使GPU的基本调度单元,每个warp由32个线程组成,作用是将大量线程分组并同时执行,以实现并行计算和隐藏内存访问延迟,Warp中的32个线程将同时执行相同的指令,但操作不同的数据,但如果遇到条件分支语句(如if语句),不同线程可能会选择不同的执行路径。在这种情况下,Warp会以SIMD方式执行分支,即每个线程都会执行分支中的指令,但只有满足条件的线程会更新结果。
如果是单线程,那所有任务都要排队执行,而且最慢的任务可能卡着其他任务执行;但如果是多线程,所有任务都可以同时进入运算,这样就会更快,对延迟的处理更好。
但事实上,各线程之间很少能够独立的进行,因为很多算法或多或少需要一些邻居的数据,比如卷积操作,傅里叶变换。
在这里插入图片描述

Fig. 2.3 多线程支持

线程之间相互影响

3. How is GPU

在这里插入图片描述

Fig. 3.1 AI识别猫

比如我让AI去识别一只猫,首先先把照片切块,所有这些块相对独立的操作,GPU通过超量分配(oversubscribed)加载这些块,希望GPU的内存能够满载。然后每个块由若干线程同时操作,这些线程可以共享这个块的数据。

GPU的超量分配(Oversubscription)是指在GPU加速计算环境中,分配给应用程序或作业的资源超出了物理GPU硬件的实际容量,以覆盖latency。
在这里插入图片描述

Fig. 3.2 GPU图像识别

像这样,一个大的任务被分解成若干线程块,每个块相对独立,每个块都有同时进行的并行线程,这些并行的线程共享这个块的数据,当然特定块中的线程可以有所交叉。
在这里插入图片描述

Fig. 3.3 GPU任务拆解

不同类型问题类型的计算强度如下图,intensity Scales=compute Scales/data Scales

可以理解为,对于Element-wise问题,每增加到N个线程,多加载到N个数据,多N组运算;对local问题,每增加N到个线程,多加载NN个数据,多NN数量级次的运算,在卷积中再多的数据也没办法与算术强度相抗衡;但是对于All-to-All问题,每增加到N个线程,多加载N个数据,多了N*N次运算,算术强度就会增加N。
在这里插入图片描述

Fig. 3.4 算术强度

事实上,矩阵的乘法就是All-to-All问题,对于矩阵乘法,NN的矩阵相乘,有N行乘N列,再进行N次相加,所以compute Scales为O(NNN) ,访问内存的数量级是O(NN) ,因此算术强度是O(N) 。

下图的蓝线是矩阵计算的计算强度随矩阵规模增加的曲线,橘线是GPU的计算强度曲线,假设交点是50,计算机运算FP32的最佳位置也就是这个点。对于白线,100是双精度浮点数的最佳计算点。随着矩阵的增大,运算量变得更大,也就不太需要这么多的数据,所以内存也就变得更闲了。GPU中存在一些tensor cores,就是算力更强,这个点也就会上移一些。当内存用完,也就不需要增加算力了。
在这里插入图片描述

Fig. 3.5

于是对应于GPU的内部结构,也就有了下图
在这里插入图片描述

Fig. 3.6

当数据存在L1,可以计算32*32,当数据存在L2可以计算大一些,当数据存在HBM,就会达到400。计算小矩阵更高效。
reference
[1] NVIDIA 2021 GPU工作原理

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1829572.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Gstreamer学习3----灌数据给管线之appsrc

参考资料 Basic tutorial 8: Short-cutting the pipeline gstreamer向appsrc发送帧画面的代码_gst appsrc可变帧率-CSDN博客 在官网教程Basic tutorial 8: Short-cutting the pipeline 里面,讲了一个例子,push音频数据给管线,视频的例子更…

归纳贪心好题

很有趣的一道归纳贪心题目 class Solution { public:int minimumAddedCoins(vector<int>& coins, int target) {sort(coins.begin(),coins.end());int n coins.size();int s 0,i0;int res 0;while(s<target){if(i<n&&coins[i]<s1)scoins[i];els…

Photoshop中图像美化工具的应用

Photoshop中图像美化工具的应用 Photoshop中的裁剪工具Photoshop中的修饰工具模糊工具锐化工具涂抹工具 Photoshop中的颜色调整工具减淡工具加深工具海绵工具 Photoshop中的修复工具仿制图章工具污点修复画笔工具修复画笔工具修补工具内容感知移动工具红眼工具 Photoshop中的裁…

Ubuntu 的 apt 相关问题

错误:1 http://mirrors.tuna.tsinghua.edu.cn/ubuntu focal InRelease Couldnt create temporary file /tmp/apt.conf.KSeTlI for passing config to apt-key 原因 无法创建配置文件 /tmp/apt.conf.KSeTlI 并传递给 apt-key apt-key 等实际上并不是直接使…

效果超越ControlNet+IP-Adapter和FreeControl!Ctrl-X:可控文生图新框架(加州大学英伟达)

文章链接&#xff1a;https://arxiv.org/pdf/2406.07540 项目链接&#xff1a;https://genforce.github.io/ctrl-x/ 最近的可控生成方法&#xff0c;如FreeControl和Diffusion Self-guidance&#xff0c;为文本到图像&#xff08;T2I&#xff09;扩散模型带来了细粒度的空间…

SinNerf理解和效果

文章目录 SinNerf 解决的问题方法和结构自己训练的效果 SinNerf 解决的问题 该方法主要解决的问题是&#xff1a; 现有都使用多张照片来进行nerf 表示的学习&#xff0c;这篇文章的话&#xff0c;主要是想使用一张单视角的照片来Nerf表示的学习。通过从单张照片中得到的伪标签…

Parallels Desktop 19 激活码 - 苹果 Mac 最新版 PD 19激活密钥虚拟机下载 (支持Win11/macOS Sonoma)

Parallels Desktop 被称为 macOS 上强大的虚拟机软件。可以在 Mac 下同时模拟运行 Win、Linux、Android 等多种操作系统及软件而不必重启电脑&#xff0c;并能在不同系统间随意切换。 最新版 Parallels Desktop 19 (PD19) 完全支持 macOS Sonoma、Ventura 和 Windows 11 / Win…

AOSP平台开发的利器——Android Studio for Platform

Android Studio for Platform (ASfP) 是一个为使用 Soong 构建系统构建的 Android 开源项目&#xff08;AOSP&#xff09;平台开发者而设计的 Android Studio IDE 版本。与标准 Android Studio 不同&#xff0c;ASfP 具有多语言支持&#xff0c;可以在同一 IDE 中编写 C、Kotli…

netty:promise的简单示例

# 项目代码资源&#xff1a; 可能还在审核中&#xff0c;请等待。。。 https://download.csdn.net/download/chenhz2284/89442495 # 项目代码 【pom.xml】 <dependency><groupId>io.netty</groupId><artifactId>netty-all</artifactId><v…

图解 Twitter 架构图

写在前面 两年前&#xff0c;马老板收购了twitter&#xff0c;并且做了一系列的大动作。那么今天我们来看一下这个全球最火的软件之一的架构。 Twitter解析 开始之前&#xff0c;我先提前说明一下&#xff0c;我之前不是做搜推广的&#xff0c;所以对这些了解不是很深&…

chatglm4本地部署详解

下载地址 模型下载地址&#xff1a;GitHub - THUDM/GLM-4: GLM-4 series: Open Multilingual Multimodal Chat LMs | 开源多语言多模态对话模型 已经训练好的数据下载地址&#xff1a; https://huggingface.co/THUDM/glm-4-9b-chat-1m/tree/main 测试主机配置 cpu&#xff1a;E…

超拟人大模型:AI心理健康服务的未来

摘要&#xff1a; 周末听了一场聆心智能关于情感LLM的分享&#xff0c;总结了相关内容如下。在人工智能技术的浪潮中&#xff0c;超拟人大模型技术为心理健康服务领域带来了革命性的变化。本文将分析超拟人大模型的进展、CharacterGLM模型的特点、Emohaa模型的应用以及心理健康…

解放双手 免费AI编程工具---Fitten Code

前言 相信大家在2023年后听说了不少的关于人工智能的话题&#xff0c;对于这种全新的科技又好奇又恐惧&#xff0c;今天我们来见识下一个在VS中的AI代码工具吧。 配置环境 安装 首先我们找到管理扩展&#xff0c;然后再搜索Fitten Code下载安装。 我这里已经下好过了&#xff…

《C语言》文件操作

文章目录 一、认识文件1、文件的概念2、程序文件3、数据文件4、文件名 三、二进制文件和文本文件四、文件的打开和关闭1、流2、标准流3、文件指针4、文件的关闭和打开 四、文件的顺序读写文件的随机读写1、fseek2、ftell3、rewind4.int origin 一、认识文件 主要讨论数据文件 1…

Python 潮流周刊#56:NumPy 2.0 里更快速的字符串函数

△△请给“Python猫”加星标 &#xff0c;以免错过文章推送 本周刊由 Python猫 出品&#xff0c;精心筛选国内外的 250 信息源&#xff0c;为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景&#xff1a;帮助所有读者精进 Python 技术&am…

【GO-OpenCV】go-cv快速配置

最近对golang实现目标检测心血来潮&#xff0c;尝试在没有sudo权限的平台配置go-cv,有所发现&#xff0c;索性多个平台都做尝试 安装Go语言&#xff08;Golang&#xff09; 通过包管理器安装&#xff08;适用于Debian/Ubuntu&#xff09;(有点慢) 更新包列表&#xff1a; sud…

贷款投资决策和常用财务函数

前段时间上了一门excel操作的课&#xff0c;本文结合其中介绍财务函数以及投资决策分析相关的部分&#xff0c;对贷款中的现金流计算进行深入的分析。 以等额本息产品为例进行实操计算&#xff0c;假设某产品本金12000元&#xff0c;期限12&#xff0c;IRR利率24%。每期还款113…

关于volatile与System.out的“冲突”导致的内存屏障失效问题

起因&#xff1a;今天在写一个volatile相关的Demo&#xff0c;本来想的是一个线程根据这个IS_STOP去一直进行循环&#xff0c;直到另一个线程改变为true就中断。内存屏障的问题会导致虽然其他线程修改了值&#xff0c;但是原线程是不知道的&#xff0c;会继续循环&#xff0c;所…

c++模板模式

文章目录 模板模式什么是模板模式为什么使用模板模式模板模式实现步骤 示例模板模式优缺点 模板模式 什么是模板模式 模板模式&#xff08;Template Method Pattern&#xff09;是一种行为设计模式&#xff0c;它定义了一个操作中的算法骨架&#xff0c;将某些步骤的具体实现延…