我的硬件环境
- x86的物理机
- RTX 3060 12G
- 16G 的 U盘
软件环境
- Ubuntu 20.04 LTS
- ssh 命令行输入 apt install ssh 即可
第一个坑:
- 18.04 的 Ubuntu 系统在安装过程中无法显示, 99% 的场景显示器会黑屏
- 所以 3060 最好使用 Ubuntu 20.04 及以上版本
安装驱动
-
命令行中使用下面这句
sudo apt-get install software-properties-common
-
添加驱动的软件源
sudo add-apt-repository ppa:graphics-drivers/ppa
过程中会出现大致这样的界面, 等待完成即可 -
查看驱动版本
sudo ubuntu-drivers devices
我这里出来的结果是这样
470 那一行的末尾写着 recommended 也就是推荐版本, 那我们就安装这个版本 -
安装驱动
sudo apt-get install nvidia-driver-470
文件有点大, 需要等待较长时间
第二个坑:
- 驱动版本不使用推荐版本
- 这样很容易导致一系列的兼容问题
- 18.04 匹配 460, 20.04 匹配 470 版本,建议严格遵守
-
重启
sudo reboot
-
检查驱动是否安装完毕
nvidia-smi
我的结果如下图, 12G的显存都是正常识别出来的
安装 docker
-
更新软件源
sudo apt update
-
安装必要的软件包
sudo apt install apt-transport-https ca-certificates curl software-properties-common
-
添加 gpg 密钥
这个密钥在安装过程中非常必要, 如不执行会无法安装 dockercurl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo apt-keyadd -
-
添加 docker 源至 apt 源文件中
可能有时候网络问题, 会导致这个下载速度很慢, 如等待时间长, 请保持耐心sudo add-apt-repository “deb [arch=amd64] https://download.docker.com/linux/ubuntu focal stable”
-
再更新一次
sudo apt update
-
安装 docker
sudo apt install docker-ce
第三个坑:
- 每次使用 docker 命令的时候需要 sudo
- 在命令行中输入这句即可去掉 sudo, 直接使用 docker 命令
- sudo usermod -aG docker ${USER}
安装 docker2
-
添加 gpg 密钥
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
-
获取软件列表
先后执行这两句- distribution=$(. /etc/os-release;echo $ID $VERSION_ID)
- curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
-
更新
sudo apt-get update
-
安装
sudo apt-get install nvidia-docker2
-
重启服务
sudo systemctl restart docker.service
-
验证安装
sudo docker run --rm --gpus all nvidia/cuda:11.0.3-base-ubuntu20.04 nvidia-smi
-
填入申请的密钥
sudo docker login -u ‘$oauthtoken’ --password-stdin nvcr.io <<< ‘申请的密钥’
这个是验证的结果