文章目录
- 安装准备
- 新建项目
安装准备
配置Cuda环境主要分为以下几个步骤
- 安装VS 这个应该不用太说,直接装最新版
- 安装CUDA 下载地址:Cuda Toolkit
- 安装cuDNN 下载地址:cuDNN archieve
这个安装顺序非常重要,一定是先装VS后装CUDA Toolkit,否则CUDA不可能未卜先知地在VS目录中创建项目模板。
为了确认Cuda的安装版本,可在命令行中输入nvidia-smi
,其返回值如下,表头中的CUDA Version
便是Cuda
版本,我这里是12.1,所以选择CUDA Toolkit 12.1.0
,cuDNN
选择最新的v8.8.1 for CUDA 12.x
>nvidia-smi
Tue Apr 25 11:52:50 2023
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 531.14 Driver Version: 531.14 CUDA Version: 12.1 |
|-----------------------------------------+----------------------+----------------------+
| GPU Name TCC/WDDM | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+======================+======================|
| 0 NVIDIA GeForce RTX 4060 L... WDDM | 00000000:01:00.0 On | N/A |
| N/A 36C P8 3W / N/A| 250MiB / 8188MiB | 1% Default |
| | | N/A |
+-----------------------------------------+----------------------+----------------------+
+---------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=======================================================================================|
| 0 N/A N/A 10556 C+G ...auncher\PowerToys.PowerLauncher.exe N/A |
| 0 N/A N/A 10980 C+G ...rPicker\PowerToys.ColorPickerUI.exe N/A |
+---------------------------------------------------------------------------------------+
Cuda toolkit
安装的第一步是解压,可以选择一个临时地址,直到NVIDIA安装程序
的界面弹出后,才开始真正安装。在安装过程中,选择自定义
可以自行选择安装路径,剩下没什么好说的,安装成功之后,在命令行中输入nvcc -V
可返回版本呢信息。
>nvcc -V
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2023 NVIDIA Corporation
Built on Wed_Feb__8_05:53:42_Coordinated_Universal_Time_2023
Cuda compilation tools, release 12.1, V12.1.66
Build cuda_12.1.r12.1/compiler.32415258_0
cuDNN
在安装时需要注册,下载完成后将压缩包中的三个文件夹解压到Cuda安装目录中,然后就能用了。
新建项目
安装成功之后,打开VS2022,就可以看到CUDA12.1
的项目模板,点进去之后就能创建CUDA
程序了
CUDA
,或者说GPU的编程逻辑是,先将内存中的数组写入到显存中,然后再执行操作。
其自带的模板程序非常简单,就是对两个数组进行并行求和,用到的是一个自定义函数
__global__ void addKernel(int *c, const int *a, const int *b)
{
int i = threadIdx.x;
c[i] = a[i] + b[i];
}
但在具体调用时,用到了<<<>>>
这个语法,表示GPU调用的线程块,示例程序在调用自定义函数addKernel
时,用到了下面的代码,表示调用1个线程块,每个线程块中有5个线程。
//size=5
addKernel<<<1, size>>>(dev_c, dev_a, dev_b);