英伟达显卡深度学习训练微调环境安装清单

news2025/4/16 22:30:17

可以考虑安装完操作系统后，安装更新及其他基础软件如gcc cmake，再安装英伟达几件套（这里列出了四个）如果自带的python版本在3.8或以上，再安装python常用库。 python版本不能太低，看你要跑的代码的需求了。

顺序号	名称	全称	简要描述	包样例(后面的数字可能变化)	安装后检查命令
1	显卡驱动		好比是一个接口，提供使用GPU 的能力	NVIDIA-Linux-x86_64-535.113.01.run	nvidia-smi
2	cuda toolkit	Compute Unified Device Architecture	这个工具集提供了很多的工具和库,让你使用GPU时不用从头开始造轮子。	cuda_11.7.0_515.43.04_linux.run	nvcc -V
3	cudnn	CUDA Deep Neural Network library	对深度学习中的卷积、池化、归一化等常用操作做了特别优化。	cudnn-linux-x86_64-8.8.1.3_cuda11-archive.tar.xz
4	nccl	NVIDIA Collective Communications Library	用于加速多GPU之间通信的库, 单卡可以不用安装。	nccl_<version>_.txz	nccl-tests

新手可能分不清这些包之间的关系，这这个表格可以简单快速的了解安装步骤清单，需要的包也可以提前准备下。其中cudnn及nccl的包一定要注册才能下载..。单机单卡可以不用装nccl。有版本配套关系可以提前查询确定的。好多教程都有，这里不列了。

一些说明记录：

一：

安装驱动可能会有报错： ERROR: The Nouveau kernel driver is currently in use by your system. This driver is incompatible with the NVIDIA driver, and must be disabled before proceeding. 解决这个错误需要禁用系统自带的nouveau驱动，具体的操作搜一下有很多。
安装完成后记得用 nvidia-smi命令检查结果，再进入下一步

二：

CUDA是运算平台名称、CUDA Toolkit是工具包。如果有的文章写如何安装cuda / 如何安装 cuda toolkit，可以当成是同一样东西。
NVCC就是CUDA的编译器, 类似于gcc就是c语言的编译器。
每个CUDA的版本（cudatoolkit）会要求一个最低的显卡驱动版本；
而显卡驱动会提供一个最高支持的CUDA 版本。
CUDA有两种API，分别是运行时API和驱动API：Runtime API 与 Driver API。
nvcc的结果是对应 CUDA Runtime API（运行API）的版本
nvidia-smi是 CUDA Driver API（驱动API）的版本，也是当前驱动支持的最高CUDA版本

安装cuda成功会提示：
===========
= Summary =
===========

Driver: Installed
Toolkit: Installed in /usr/local/cuda-11.7/

Please make sure that
- PATH includes /usr/local/cuda-11.7/bin
- LD_LIBRARY_PATH includes /usr/local/cuda-11.7/lib64, or, add /usr/local/cuda-11.7/lib64 to /etc/ld.so.conf and run ldconfig as root

To uninstall the CUDA Toolkit, run cuda-uninstaller in /usr/local/cuda-11.7/bin
To uninstall the NVIDIA Driver, run nvidia-uninstall
Logfile is /var/log/cuda-installer.log

如果没有出现这个提示，要你去看日志，应该是没装成功的，本人之前遇到的错误主要还是与驱动安装有关，可能之前的没有卸载干净。

加入环境变量后，记得source /etc/profile
vi /etc/profile
export PATH=$PATH:/usr/local/cuda-11.7/bin
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-11.7/lib64

安装完成后记得用nvcc --version命令检查结果，再进入下一步。

三：

cudnn的安装主要是替换和加多头文件及包。很多安装指导解包后都是下面两步：
tar -xf cudnn-linux-x86_64-8.8.1.3_cuda11-archive.tar.xz
cp cudnn-linux-x86_64-8.8.1.3_cuda11-archive/include/* /usr/local/cuda/include/
cp cudnn-linux-x86_64-8.8.1.3_cuda11-archive/lib/libcudnn* /usr/local/cuda/lib64/

sudo chmod a+r /usr/local/cuda/include/*.h
sudo chmod a+r /usr/local/cuda/lib64/libcudnn*

执行完以后，可以再运行sudo ldconfig 看看有没有报错。
如果有报错：
/sbin/ldconfig.real: /usr/local/cuda-11.7/targets/x86_64-linux/lib/libcudnn_cnn_train.so.8 不是符号链接
/sbin/ldconfig.real: /usr/local/cuda-11.7/targets/x86_64-linux/lib/libcudnn_cnn_infer.so.8 不是符号链接
/sbin/ldconfig.real: /usr/local/cuda-11.7/targets/x86_64-linux/lib/libcudnn.so.8 不是符号链接
/sbin/ldconfig.real: /usr/local/cuda-11.7/targets/x86_64-linux/lib/libcudnn_ops_train.so.8 不是符号链接
/sbin/ldconfig.real: /usr/local/cuda-11.7/targets/x86_64-linux/lib/libcudnn_ops_infer.so.8 不是符号链接
/sbin/ldconfig.real: /usr/local/cuda-11.7/targets/x86_64-linux/lib/libcudnn_adv_train.so.8 不是符号链接
/sbin/ldconfig.real: /usr/local/cuda-11.7/targets/x86_64-linux/lib/libcudnn_adv_infer.so.8 不是符号链接

ll看一下解包后的文件，有很多是链接，但拷过去的不是链接。

解包后的：

拷贝过去的：

我用的最基本的方法，重新建链接。考虑试情况执行：
cd /usr/local/cuda/lib64/ （cd到拷贝后的目标目录）
rm -f libcudnn_adv_infer.so libcudnn_adv_infer.so.8
rm -f libcudnn_adv_train.so libcudnn_adv_train.so.8
rm -f libcudnn_cnn_infer.so libcudnn_cnn_infer.so.8
rm -f libcudnn_cnn_train.so libcudnn_cnn_train.so.8
rm -f libcudnn_ops_infer.so libcudnn_ops_infer.so.8
rm -f libcudnn_ops_train.so libcudnn_ops_train.so.8
rm -f libcudnn.so libcudnn.so.8

ln -s "libcudnn_adv_infer.so.8.8.1" libcudnn_adv_infer.so.8
ln -s libcudnn_adv_infer.so.8 libcudnn_adv_infer.so
ln -s "libcudnn_adv_train.so.8.8.1" libcudnn_adv_train.so.8
ln -s libcudnn_adv_train.so.8 libcudnn_adv_train.so
ln -s "libcudnn_cnn_infer.so.8.8.1" libcudnn_cnn_infer.so.8
ln -s libcudnn_cnn_infer.so.8 libcudnn_cnn_infer.so
ln -s "libcudnn_cnn_train.so.8.8.1" libcudnn_cnn_train.so.8
ln -s libcudnn_cnn_train.so.8 libcudnn_cnn_train.so
ln -s "libcudnn_ops_infer.so.8.8.1" libcudnn_ops_infer.so.8
ln -s libcudnn_ops_infer.so.8 libcudnn_ops_infer.so
ln -s "libcudnn_ops_train.so.8.8.1" libcudnn_ops_train.so.8
ln -s libcudnn_ops_train.so.8 libcudnn_ops_train.so
ln -s "libcudnn.so.8.8.1" libcudnn.so.8
ln -s libcudnn.so.8 libcudnn.so

再执行ldconfig 就没有报错了。

bitsandbytes 也可以从源码安装。装完后试一下 python3 -m bitsandbytes有没有报错。

如果你还不是一个装环境熟手可以考虑先从头装起。我刚开始试过在别人装了一部分anacoda及显卡驱动的包上再继续装，很折磨人，搞了很久最后还是没搞定。 GPU服务器一般不是我们个人电脑，上面没多少琐碎的东西。重要的包备份一下，就可以重来了。是的，重装操作系统，再继续。

把需要安装的列表和执行命令记录下来，加速下一次的安装。当然可以写个脚本，更加自动化。
重装操作系统后，记得 sudo apt-get update 或 yum -y update，这一步一定要做，省去后面好多不必要的麻烦。
接下来是安装gcc make这些。把这些常用的软件装好之后，再开始装英伟达驱动这些。

我最近几年也不用anacoda装包了。anacoda能装的包，pip一样能装。
英伟达相关的包，conda安装的包可能还只是全部的一部分，在其他场景用起来可能又不够.. 比如又缺少头文件之类。我一般不使用anacoda这种方式。

看到某位大侠用的版本关系，可以参考：

操作系统: CentOS 7
CPUs: 单个节点具有 1TB 内存的 Intel CPU，物理CPU个数为64，每颗CPU核数为16
GPUs: 8卡A800 80GB GPUs
Python: 3.10 (需要先升级OpenSSL到1.1.1t版本（点击下载OpenSSL），然后再编译安装Python)，
NVIDIA驱动程序版本: 515.65.01，根据不同型号选择不同的驱动程序。
CUDA工具包: 11.7
NCCL: nccl_2.14.3-1+cuda11.7
cuDNN: 8.8.1.3_cuda11

这篇文章也参考学习了：
https://blog.csdn.net/weixin_39928010/article/details/131142603
https://blog.csdn.net/qq_42406643/article/details/109545766

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1170635.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！