cuda环境崩了,运行 nvidia-smi后无法 连接 drvier,重装了 cuda 12.4.1 + cudnn 8.9.7
因为看到pytorch daily 代码目前是支持 12.4的。发现 cudnn8 与 nv官网提供的cudnn9的安装时在文字上稍微有些差别,
主要是
cudnn8:
sudo apt-get -y install libcudnn8
sudo apt-get -y install libcudnn8-dev
sudo apt-get -y install libcudnn8-samples
cudnn9:
sudo apt-get -y install cudnn9-cuda-12
sudo apt-get -y install libcudnn9-samples
其他步骤类似,还是整体做了记录如下。
0.事先已经按nv官网安装cuda 12.4.1
一个必要的步骤是写 blacklist,屏蔽 noveau 开源driver的开机自动加载,然后重启计算机后安装cuda sdk
1,下载 cudnn 8.9.7
cudnn8.x需要开发者账号登陆才能下载,cudnn9.x则不需要:
https://developer.nvidia.com/rdp/cudnn-archive
登陆后才能在登陆的机器上下载:
20240902下载到的cudnn8 for cuda12.x 的文件名为:
cudnn-local-repo-ubuntu2204-8.9.7.29_1.0-1_amd64.deb
2,安装 cudnn8
安装 repo 源:
sudo dpkg -i cudnn-local-repo-ubuntu2204-8.9.7.29_1.0-1_amd64.deb
sudo cp /var/cudnn-local-*/cudnn-*-keyring.gpg /usr/share/keyrings/
real:
sudo cp /var/cudnn-local-repo-ubuntu2204-8.9.7.29/cudnn-local-08A7D361-keyring.gpg /usr/share/keyrings/
更新源:
sudo apt-get update
安装cudnn
sudo apt-get -y install libcudnn8
sudo apt-get -y install libcudnn8-dev
sudo apt-get -y install libcudnn8-samples
3,验证cudnn
cp -r /usr/src/cudnn_samples_v8/ ./
cd cudnn_samples_v8/mnistCUDNN/
make
sudo apt-get install libfreeimage3 libfreeimage-dev
make
./mnistCUDNN
4,备选方案
也可以下载tar 包,解压后复制到对应文件夹:
$ tar -xvf cudnnxxx.tar.xz
$ sudo cp cudnn-*-archive/include/cudnn*.h /usr/local/cuda/include
$ sudo cp -P cudnn-*-archive/lib/libcudnn* /usr/local/cuda/lib64
$ sudo chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*