cuda学习笔记1——cuda概述

news2025/1/19 10:42:45

cuda学习笔记1——cuda概述

  • 1. GPU架构特点
  • 2. CUDA线程模型
  • 3. CUDA内存模型
  • 4. CUDA编程模型
    • 第一个要掌握的编程要点:关键字
    • 第二个编程要点:数据传输

参考:
CUDA编程之快速入门
英伟达官方——CUDA C++ 编程指南

CUDA(Compute Unified Device Architecture)的中文全称为计算统一设备架构。做图像视觉领域的同学多多少少都会接触到CUDA,毕竟要做性能速度优化,CUDA是个很重要的工具,CUDA是做视觉的同学难以绕过的一个坑,必须踩一踩才踏实。CUDA编程真的是入门容易精通难,具有计算机体系结构和C语言编程知识储备的同学上手CUDA编程应该难度不会很大。本文章将通过以下五个方面帮助大家比较全面地了解CUDA编程最重要的知识点,做到快速入门:

  • GPU架构特点
  • CUDA线程模型
  • CUDA内存模型
  • CUDA编程模型
  • CUDA应用小例子

1. GPU架构特点

首先我们先谈一谈串行计算和并行计算。我们知道,高性能计算的关键利用多核处理器进行并行计算。

当我们求解一个计算机程序任务时,我们很自然的想法就是将该任务分解成一系列小任务,把这些小任务一一完成。在串行计算时,我们的想法就是让我们的处理器每次处理一个计算任务,处理完一个计算任务后再计算下一个任务,直到所有小任务都完成了,那么这个大的程序任务也就完成了。如下图所示,就是我们怎么用串行编程思想求解问题的步骤。

但是串行计算的缺点非常明显,如果我们拥有多核处理器,我们可以利用多核处理器同时处理多个任务时,而且这些小任务并没有关联关系(不需要相互依赖,比如我的计算任务不需要用到你的计算结果),那我们为什么还要使用串行编程呢?为了进一步加快大任务的计算速度,我们可以把一些独立的模块分配到不同的处理器上进行同时计算(这就是并行),最后再将这些结果进行整合,完成一次任务计算。下图就是将一个大的计算任务分解为小任务,然后将独立的小任务分配到不同处理器进行并行计算,最后再通过串行程序把结果汇总完成这次的总的计算任务。

所以,一个程序可不可以进行并行计算,关键就在于我们要分析出该程序可以拆分出哪几个执行模块,这些执行模块哪些是独立的,哪些又是强依赖强耦合的,独立的模块我们可以试着设计并行计算,充分利用多核处理器的优势进一步加速我们的计算任务,强耦合模块我们就使用串行编程,利用串行+并行的编程思路完成一次高性能计算。

接下来我们谈谈CPU和GPU有什么区别,他们俩各自有什么特点,我们在谈并行、串行计算时多次谈到“多核”的概念,现在我们先从“核”的角度开始这个话题。首先CPU是专为顺序串行处理而优化的几个核心组成。而GPU则由数以千计的更小、更高效的核心组成,这些核心专门为同时处理多任务而设计,可高效地处理并行任务。也就是,CPU虽然每个核心自身能力极强,处理任务上非常强悍,无奈他核心少,在并行计算上表现不佳;反观GPU,虽然他的每个核心的计算能力不算强,但他胜在核心非常多,可以同时处理多个计算任务,在并行计算的支持上做得很好。

GPU和CPU的不同硬件特点决定了他们的应用场景,CPU是计算机的运算和控制的核心,GPU主要用作图形图像处理。图像在计算机呈现的形式就是矩阵,我们对图像的处理其实就是操作各种矩阵进行计算,而很多矩阵的运算其实可以做并行化,这使得图像处理可以做得很快,因此GPU在图形图像领域也有了大展拳脚的机会。下图表示的就是一个多GPU计算机硬件系统,可以看出,一个GPU内存就有很多个SP和各类内存,这些硬件都是GPU进行高效并行计算的基础。

现在再从数据处理的角度来对比CPU和GPU的特点。CPU需要很强的通用性来处理各种不同的数据类型,比如整型、浮点数等,同时它又必须擅长处理逻辑判断所导致的大量分支跳转和中断处理,所以CPU其实就是一个能力很强的伙计,他能把很多事处理得妥妥当当,当然啦我们需要给他很多资源供他使用(各种硬件),这也导致了CPU不可能有太多核心(核心总数不超过16)。而GPU面对的则是类型高度统一的、相互无依赖的大规模数据和不需要被打断的纯净的计算环境,GPU有非常多核心(费米架构就有512核),虽然其核心的能力远没有CPU的核心强,但是胜在多,
在处理简单计算任务时呈现出“人多力量大”的优势,这就是并行计算的魅力。

整理一下两者特点就是:

  • CPU:擅长流程控制和逻辑处理,不规则数据结构,不可预测存储结构,单线程程序,分支密集型算法
  • GPU:擅长数据并行计算,规则数据结构,可预测存储模式。
  • 在这里插入图片描述
    现在的计算机体系架构中,要完成CUDA并行计算,单靠GPU一人之力是不能完成计算任务的,必须借助CPU来协同配合完成一次高性能的并行计算任务。

一般而言,并行部分在GPU上运行,串行部分在CPU运行,这就是异构计算。具体一点,异构计算的意思就是不同体系结构的处理器相互协作完成计算任务。CPU负责总体的程序流程,而GPU负责具体的计算任务,当GPU各个线程完成计算任务后,我们就将GPU那边计算得到的结果拷贝到CPU端,完成一次计算任务。

所以应用程序利用GPU实现加速的总体分工就是:密集计算代码(约占5%的代码量)由GPU负责完成,剩余串行代码由CPU负责执行。

2. CUDA线程模型

下面我们介绍CUDA的线程组织结构。首先我们都知道,线程是程序执行的最基本单元,CUDA的并行计算就是通过成千上万个线程的并行执行来实现的。下面的机构图说明了GPU的不同层次的结构。

CUDA的线程模型从小往大来总结就是:

1、Thread:线程,并行的基本单位

2、Thread Block:线程块,互相合作的线程组,线程块有如下几个特点:

  • 允许彼此同步
  • 可以通过共享内存快速交换数据
  • 以1维、2维或3维组织

3、Grid:一组线程块

  • 以1维、2维组织
  • 共享全局内存

Kernel:在GPU上执行的核心程序,这个kernel函数是运行在某个Grid上的。

One kernel <-> One Grid
每一个block和每个thread都有自己的ID,我们通过相应的索引找到相应的线程和线程块。

threadIdx,blockIdx
Block ID: 1D or 2D
Thread ID: 1D, 2D or 3D

理解kernel,必须要对kernel的线程层次结构有一个清晰的认识。首先GPU上很多并行化的轻量级线程。kernel在device上执行时实际上是启动很多线程,一个kernel所启动的所有线程称为一个网格(grid),同一个网格上的线程共享相同的全局内存空间,grid是线程结构的第一层次,而网格又可以分为很多线程块(block),一个线程块里面包含很多线程,这是第二个层次。线程两层组织结构如上图所示,这是一个gird和block均为2-dim的线程组织。grid和block都是定义为dim3类型的变量,dim3可以看成是包含三个无符号整数(x,y,z)成员的结构体变量,在定义时,缺省值初始化为1。因此grid和block可以灵活地定义为1-dim,2-dim以及3-dim结构,kernel调用时也必须通过执行配置<<<grid, block>>>来指定kernel所使用的网格维度和线程块维度。举个例子,我们以上图为例,分析怎么通过<<<grid,block>>>>这种标记方式索引到我们想要的那个线程。CUDA的这种<<<grid,block>>>其实就是一个多级索引的方法,第一级索引是(grid.xIdx, grid.yIdy),对应上图例子就是(1, 1),通过它我们就能找到了这个线程块的位置,然后我们启动二级索引(block.xIdx, block.yIdx, block.zIdx)来定位到指定的线程。这就是我们CUDA的线程组织结构。

在这里插入图片描述
这里想谈谈SP和SM(流处理器),很多人会被这两个专业名词搞得晕头转向。

  • SP:最基本的处理单元,streaming processor,也称为CUDA core。最后具体的指令和任务都是在SP上处理的。GPU进行并行计算,也就是很多个SP同时做处理。

  • SM:多个SP加上其他的一些资源组成一个streaming multiprocessor。也叫GPU大核,其他资源如:warp scheduler,register,shared memory等。SM可以看做GPU的心脏(对比CPU核心),register和shared memory是SM的稀缺资源。CUDA将这些资源分配给所有驻留在SM中的threads。因此,这些有限的资源就使每个SM中active warps有非常严格的限制,也就限制了并行能力。
    需要指出,每个SM包含的SP数量依据GPU架构而不同,Fermi架构GF100是32个,GF10X是48个,Kepler架构都是192个,Maxwell都是128个。

简而言之,SP是线程执行的硬件单位,SM中包含多个SP,一个GPU可以有多个SM(比如16个),最终一个GPU可能包含有上千个SP。这么多核心“同时运行”,速度可想而知,这个引号只是想表明实际上,软件逻辑上是所有SP是并行的,但是物理上并不是所有SP都能同时执行计算(比如我们只有8个SM却有1024个线程块需要调度处理),因为有些会处于挂起,就绪等其他状态,这有关GPU的线程调度。

下面这个图将从硬件角度和软件角度解释CUDA的线程模型。
在这里插入图片描述

  • 每个线程由每个线程处理器(SP)执行
  • 线程块由多核处理器(SM)执行
  • 一个kernel其实由一个grid来执行,一个kernel一次只能在一个GPU上执行

block是软件概念,一个block只会由一个sm调度,程序员在开发时,通过设定block的属性,告诉GPU硬件,我有多少个线程,线程怎么组织。而具体怎么调度由sm的warps scheduler负责,block一旦被分配好SM,该block就会一直驻留在该SM中,直到执行结束。一个SM可以同时拥有多个blocks,但需要序列执行。下图显示了GPU内部的硬件架构:
在这里插入图片描述

3. CUDA内存模型

CUDA中的内存模型分为以下几个层次:

  • 每个线程都用自己的registers(寄存器)
  • 每个线程都有自己的local memory(局部内存)
  • 每个线程块内都有自己的shared memory(共享内存),所有线程块内的所有线程共享这段内存资源
  • 每个grid都有自己的global memory(全局内存),不同线程块的线程都可使用
  • 每个grid都有自己的constant memory(常量内存)和texture memory(纹理内存),),不同线程块的线程都可使用

线程访问这几类存储器的速度是register > local memory >shared memory > global memory

下面这幅图表示就是这些内存在计算机架构中的所在层次。
在这里插入图片描述

4. CUDA编程模型

上面讲了这么多硬件相关的知识点,现在终于可以开始说说CUDA是怎么写程序的了。

我们先捋一捋常见的CUDA术语:
在这里插入图片描述

第一个要掌握的编程要点:关键字

我们怎么写一个能在GPU跑的程序或函数呢?

通过关键字就可以表示某个程序在CPU上跑还是在GPU上跑!如下表所示,比如我们用__global__定义一个kernel函数,就是CPU上调用,GPU上执行,注意__global__函数的返回值必须设置为void。在这里插入图片描述

第二个编程要点:数据传输

CPU和GPU间的数据传输怎么写?

首先介绍在GPU内存分配回收内存的函数接口:

cudaMalloc(): 在设备端分配global memory
cudaFree(): 释放存储空间

CPU的数据和GPU端数据做数据传输的函数接口是一样的,他们通过传递的函数实参(枚举类型)来表示传输方向:

cudaMemcpy(void *dst, void *src, size_t nbytes,enum cudaMemcpyKind direction)

enum cudaMemcpyKind:

cudaMemcpyHostToDevice(CPU到GPU)
cudaMemcpyDeviceToHost(GPU到CPU)
cudaMemcpyDeviceToDevice(GPU到GPU)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/93252.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vue2和vue3的环境搭建

1. node 安装 可以使用nvm 对node 的版本进行控制 # 查看版本 $ npm -v 2.3.0#升级 npm cnpm install npm -g# 升级或安装 cnpm npm install cnpm -g2.vue2环境安装# 安装最新vue稳定版 $ cnpm install vue 二种方式创建vue2项目 vue create vuepro1 //vue的方式创建项目v…

Git的安装,理论基础与基本使用

前言 本文为Git的安装&#xff0c;理论基础与基本使用相关知识&#xff0c;下边将对Git的安装与环境配置&#xff0c;Git相关理论基础&#xff08;包含&#xff1a;Git 是什么&#xff0c;Git的三种状态&#xff0c;Git保证完整性&#xff09;&#xff0c;以及Git的相关操作&am…

form rules校验:动态table中input校验

问题描述 使用antd的form-model的rules表单校验 那如图表格中的input如何也一同校验&#xff1f; 如图可见规则是一个数据结构为二维数组的可动态生成的表格&#xff0c;如何对其中的input进行校验&#xff1f; 一维数组表格校验分析 先分析简单点的问题&#xff0c;表格是数…

Redis持久化RDB的三种触发机制及其优缺点

一、前言 大家都知道Redis是内存数据库&#xff0c;所有的数据都存放在内存中&#xff0c;如果没有配置持久化&#xff0c;当我们关闭redis服务器再重启后数据就全丢失了&#xff0c;于是需要开启redis的持久化功能&#xff0c;将数据保存到磁盘上&#xff0c;保证在redis重启…

全景也要更清晰,基于RK3588核心板的8K全景相机方案【飞凌嵌入式】

内容来源&#xff1a;飞凌嵌入式官网www.forlinx.com伴随着虚拟现实技术&#xff08;简称VR&#xff09;的热潮&#xff0c;VR全景影像开始兴起&#xff0c;全景相机市场也迎来了高速发展。近年来&#xff0c;360全景相机几乎成为了数码潮人和vlog拍摄者手中必不可少的一款产品…

Ghidra逆向工具之旅与二进制代码分析【3】

逆向工程中涉及到多种多样的工具(例如IDA Pro,Angr等),熟练使用这些工具可以化繁为简,使得程序分析工作得以顺利开展。本系列文章系统地介绍众多逆向工具中的一种——Ghidra,它是由美国国家安全局(NSA,National Security Agency)的研究理事会为 NSA 的网络安全任务开发…

手把手教你成为荣耀开发者:应用管理指南

荣耀开发者服务平台是荣耀面向开发者的统一生态入口&#xff0c;通过聚合周边内外部系统&#xff0c;分全球多站点部署&#xff0c;为全球开发者提供业务全生命周期的商业支撑服务&#xff0c;拥有应用分发、智慧服务、开放能力、HONOR Connect等众多业务等您来合作。 应用管理…

满足条件 -C++条件判断

引言 小森在玩MC(我的世界) 的时候,一般都玩生存,所以你们应该知道 :要想致富先 撸树,这个玩法 可是非常原始,但必须在平原或者森林里,若是一开始就在沙漠里可想而知,没有一点资源,怎么玩下去 ,当然走出去 要是下一个区域 里有树那很好, 没树继续.若在此之前发生了饱腹度一点一…

Linux中使用交叉编译、二进制分析工具链

交叉编译,顾名思义,就是要生成在其它平台上运行的目标代码。例如,现在个人电脑上的CPU都基于X86/X86-64架构。但很多手机或其它嵌入式设备的处理器则可能是基于ARM架构的。如果要在个人电脑上开发嵌入式应用,就要进行交叉编译。本文主要演示在Linux环境下使用交叉编译及二进…

Qt 模型视图编程之表头设置

背景 Qt 模型视图编程中模型定义了标准接口对数据进行访问&#xff0c;可根据需求继承对应的抽象模型类来实现自定义的数据模型。一个基本的数据模型至少要实现以下虚函数&#xff1a; ①&#xff0e;rowCount&#xff1a;行数&#xff0c;返回要显示多少行&#xff1b; ②&am…

Django 图书借书系统

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言 一、Django是什么&#xff1f; 二、django安装 1.安装 2.需要的pip list 安装 三、django 建立图书馆管理系统 1.建立项目 建立项目locallibrary 2.参加APP 建…

[附源码]Python计算机毕业设计高校医疗健康服务系统的设计与实现Django(程序+LW)

该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程 项目运行 环境配置&#xff1a; Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术&#xff1a; django python Vue 等等组成&#xff0c;B/S模式 pychram管理等…

java计算机毕业设计基于安卓Android的婚恋相亲app

项目介绍 网络的广泛应用给生活带来了十分的便利。所以把网上婚恋相亲系统与现在网络相结合,利用java技术建设网上婚恋相亲系统APP,实现网上婚恋相亲系统的信息化。则对于进一步提高网上婚恋相亲系统发展,丰富网上婚恋相亲系统经验能起到不少的促进作用。 网上婚恋相亲系统APP能…

气泡水位计的安装方法与安装注意事项

气泡水位计它由活塞泵产生的压缩空气流经测量管和气泡室&#xff0c;进入被测的水体中&#xff0c;测量管中的静压力与气泡室上的水位高度成正比。那么接下来就请跟随小编的脚步一起来了解下气泡水位计的安装方法与安装注意事项的相关内容。 气泡式水位计的安装方法: 1.气管安装…

JDK的使用——Java开发第一步

JDK的使用——Java开发第一步 1 什么是JDK JDK是 Java 语言的软件开发工具包&#xff0c;是整个java开发的核心&#xff0c;使用Java开发第一步就是要在计算机上安装JDK。 JDK主要包含三个部分&#xff1a; 1 JAVA开发工具(jdk\bin) 2 基础开发库(jdk\jre\lib) 3 基础开发库…

Codeforces Round #762 (Div. 3) E. MEX and Increments

https://codeforces.com/contest/1619/problem/E 翻译&#xff1a; Dmitry有一个&#x1d45b;非负整数数组&#x1d44e;1&#xff0c;&#x1d44e;2&#xff0c;…&#xff0c;&#x1d44e;&#x1d45b;。 在一次操作中&#xff0c;Dmitry可以选择任意索引&#x1d457…

SAP ABAP——数据类型(六)【预定义基本数据类型详解】

&#x1f482;作者简介&#xff1a; THUNDER王&#xff0c;一名热爱财税和SAP ABAP编程以及热爱分享的博主。目前于江西师范大学会计学专业大二本科在读&#xff0c;同时任汉硕云&#xff08;广东&#xff09;科技有限公司ABAP开发顾问。在学习工作中&#xff0c;我通常使用偏后…

编译robotics_transformer

编译tensor2robot GitHub - google-research/tensor2robot: Distributed machine learning infrastructure for large-scale robotics research 2.编译proto文件为python文件 robotrobot:~/ref$ mkdir protoc_3.3 robotrobot:~/ref$ cd protoc_3.3/ robotrobot:~/ref/protoc…

三、HTTP 接口自动化测试

HTTP 接口自动化测试3.1 HttpLibrary.HTTP 库的使用安装导入3.1.1 Create Http Context3.2 RequestsLibrary 库的使用安装导入3.2.1 Create Session 和 Get Request1. Create Session2. Get Request3.2.2 Post Request3.2.3 RequestsLibrary 库的其他关键字3.3 RESTinstance 库…

RK3568平台开发系列讲解(摄像头篇)使用 Camera 的步骤

🚀返回专栏总目录 文章目录 一、使用 Camera 的步骤二、使用 SurfaceView 预览显示 Camera 数据沉淀、分享、成长,让自己和他人都能有所收获!😄 📢 本篇将介绍如何使用Camera。 一、使用 Camera 的步骤 说下 Camera 的操作步骤,后面给出实例,请结合代码理解分析: 获…