CUDA C编程及GPU基本知识【二】

news2026/2/15 2:41:15

文章目录

- - 1、CPU和GPU的架构
  - 2、CPUs: 延迟导向设计和GPUs: 吞吐导向设计
  - - 2.1 CPUs: 延迟导向设计
    - 2.2 GPUs: 吞吐导向设计
    - 2.3 GPU&CPU特点
    - 2.4 GPU编程：什么样的问题适合GPU
  - 3、GPU编程与CUDA
  - - 3.1 CUDA编程并行计算整体流程
    - 3.2 CUDA编程术语
    - - 3.2.1 硬件
      - 3.2.2 内存模型
      - 3.2.3 软件
      - 3.2.4 线程块：可扩展的集合体
      - 3.2.5 网格（grid）：并行线程块组合
      - 3.2.6 线程块id&线程id：定位独立线程的门牌号
      - 3.2.6.1 线程id计算
      - 3.2.7 线程束（warp ）
  - 4、并行计算实例：向量相加

1、CPU和GPU的架构

吞吐：单位时间内处理的指令条数
延迟：一条指令从发出到返回结果所需要的时间

在这里插入图片描述

2、CPUs: 延迟导向设计和GPUs: 吞吐导向设计

2.1 CPUs: 延迟导向设计

处理运算的速度远高于存储访问的速度，以空间换时间的方式，所以CPU设计了这种多级缓存的结构。

在这里插入图片描述

2.2 GPUs: 吞吐导向设计

在这里插入图片描述

2.3 GPU&CPU特点

在这里插入图片描述

2.4 GPU编程：什么样的问题适合GPU

计算密集：数值计算的比例要远大于内存操作，因此内存访问的延时可以被计算掩盖。
数据并行：大任务可以拆解为执行相同指令的小任务，因此对复杂流程控制的需求较低。

3、GPU编程与CUDA

CUDA（Compute Unified Device Architecture），由英伟达公司2007年开始推出，初衷是为GPU增加一个易用的编程接口，让开发者无需学习复杂的着色语言或者图形处理原语。

OpenCL（Open Computing Languge）是2008年发布的异构平台并行编程的开放标准，也是一个编程框架。OpenCL相比CUDA，支持的平台更多，除了GPU还支持CPU、DSP、FPGA等设备。

3.1 CUDA编程并行计算整体流程

1个CUDA程序可以分为3个步骤，第一个步骤是从主机端（CPU）申请内存，然后再把主机中内存的内容拷贝到设备端（GPU），第二个步骤是设备端的核函数进行计算，第三个步骤是把设备端内存的内容拷贝到主机，最后释放显存和内存。

在这里插入图片描述

3.2 CUDA编程术语

3.2.1 硬件

Device=GPU
Host=CPU
Kernel=GPU上运行的函数

在这里插入图片描述

3.2.2 内存模型

CUDA模型最基本的单位是线程处理器（SP）
多个线程处理器（SP）和一个shared memory（共享内存）构成一个多核处理器（SM），多个线程处理器（SP）之间是并行运行的
多个多核处理器（SM）和一个global memory（全局内存）构成一个GPU，多个多核处理器（SM）之间是并行运行的

在这里插入图片描述