第一步 安装驱动
网址:https://www.nvidia.com/download/index.aspx
根据硬件选择,我这里是 ubuntu 服务器,显卡是v100
sudo su root
chmod a+x NVIDIA //按 TAB 即可 加运行权限
# 禁用原显卡驱动
vim /etc/modprobe.d/blacklist.conf
# 在最后一行加
blacklist nouveau
# 执行下面命令,让其生效
update-initramfs -u
# 重启
reboot
输入用户名,密码
sudo su
密码
# 测试显卡禁用是否成功
# Lsmod 是小写的l 后面的是竖线 | 不是L也不是i
Ismod I grep nouveau
service lightdm stop # 如果不成功 继续下面2行命令的操作
apt-get install lightdm
service lightdm stop
# 安装两个必备包
apt-get install gcc
apt-get install make
# 安装驱动
./NV # 按TAB键补全
# 驱动安装验证
nvidia-smi
重启 reboot
驱动安装成功
第二步 安装docker
官方网址:https://docs.docker.com/engine/install/ubuntu/#set-up-the-repository
# 更新软件包索引并安装软件包以允许使用 基于 HTTPS 的存储库
sudo apt-get update
sudo apt-get install ca-certificates curl gnupg
# 添加 Docker 的官方 GPG 密钥:
sudo install -m 0755 -d /etc/apt/keyrings
curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /etc/apt/keyrings/docker.gpg
sudo chmod a+r /etc/apt/keyrings/docker.gpg
# 使用以下命令设置存储库:
echo \
"deb [arch="$(dpkg --print-architecture)" signed-by=/etc/apt/keyrings/docker.gpg] https://download.docker.com/linux/ubuntu \
"$(. /etc/os-release && echo "$VERSION_CODENAME")" stable" | \
sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
sudo apt-get update
# 要安装最新版本,请运行:
sudo apt-get install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin
# 验证
sudo docker run hello-world
第三步 安装nvidia-docker
ubuntu:
官方网址:https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html
# 设置 Docker Ubuntu 上的 Docker-CE 可以使用 Docker 的官方便利脚本进行设置:
curl https://get.docker.com | sh \
&& sudo systemctl --now enable docker
# 设置软件包存储库和 GPG 密钥:
distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \
&& curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
&& curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | \
sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
# 更新
sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit
# 配置 Docker 守护程序以识别 NVIDIA 容器运行时
sudo nvidia-ctk runtime configure --runtime=docker
# 在设置默认运行时后重新启动 Docker 守护程序以完成安装
sudo systemctl restart docker
# 此时,可以通过运行基本 CUDA 容器来测试
sudo docker run --rm --runtime=nvidia --gpus all nvidia/cuda:11.6.2-base-ubuntu20.04 nvidia-smi
官方上的截图