Ubuntu 20.04 for NVIDIA V100 GPU安装手册

news2025/1/12 22:56:32

安装Ubuntu 20.04.3 LTS版本

image.png

image.png

安装Ubuntu 20.04按照安装提示,仔细选择每一项,基本默认即可。

系统中查看GPU信息

系统安装完成之后,进入系统,使用lspci 命令查询一下GPU是否存在、型号信息是什么。

bpang@bobpang:\~$ sudo lspci |grep -i nvidia

2f:00.0 3D controller: NVIDIA Corporation GV100GL [Tesla V100 PCIe 16GB] (rev a1)

86:00.0 3D controller: NVIDIA Corporation GV100GL [Tesla V100 PCIe 16GB] (rev a1)

下载NVIDIA Tesla V100驱动

通过lspci查询到GPU的型号之后,可以按照如下选择,选择产品类型、系列、型号、然后根据自己的操作系统来选择。

注意:如果操作系统是Linux,尽量选择Linux 32-bit/Linux 64-bit,不需要选择详细的Linux发行版本。测试是发现选择详细的Linux发行版本,安装驱动之后,找不到nvidia-smi命令。

image.png

image.png

image.png

image.png

安装gcc等依赖包

当安装GPU驱动时,提示缺少相关的依赖包,在此,我们需要提前安装相关的依赖包,目前需要用到的是gcc , g++ , make :

bpang@bobpang:\~$ sudo apt install gcc g++ make

屏蔽nouveau开源版本的GPU驱动

当系统安装完成之后,会安装系统开源的NVIDIA驱动版本,名称为nouveau。下面将屏蔽该驱动。

首先,创建/etc/modprobe.d/blacklist-nouveau.conf文件,

bpang@bobpang:\~$ sudo vim /etc/modprobe.d/blacklist-nouveau.conf

将下面内容添加进去:

blacklist nouveau

blacklist lbm-nouveau

options nouveau modeset=0

alias nouveau off

alias lbm-nouveau off

创建/etc/modprobe.d/nouveau-kms.conf文件,将options nouveau mdeset=0添加进去:

bpang@bobpang:\~$ echo options nouveau modeset=0 | sudo tee -a /etc/modprobe.d/nouveau-kms.conf

更新一下initramfs:

bpang@bobpang:\~$ sudo update-initramfs -u

重启服务器:

bpang@bobpang:\~$ sudo reboot

查看nouveau模块是否加载,不显示的话就表示已经禁用:

bpang@bobpang:\~$ sudo lsmod | grep nouveau

image.png

image.png

安装NVIDIA GPU驱动

安装下载的GPU驱动:NVIDIA-Linux-x86\_64-510.47.03.run ,目前驱动版本为:510.47.03,如下执行该驱动文件,即可安装。

bpang@bobpang:\~$ ./ NVIDIA-Linux-x86\_64-510.47.03.run

安装完成之后,可以使用lspci看到GPU的驱动信息:

image.png

image.png

使用nvidia-smi命令查看GPU的信息

bpang@bobpang:\~$ nvidia-smi

image.png

image.png

安装CUDA 11.6

访问nvidia官网,下载CUDA,cuda的链接为:CUDA Toolkit 12.3 Update 1 Downloads | NVIDIA Developer

选择runfile文件来安装。

image.png

image.png

bpang@bobpang:\~$ wget https://developer.download.nvidia.com/compute/cuda/11.6.0/local\_installers/cuda\_11.6.0\_510.39.01\_linux.run

bpang@bobpang:\~$ sudo sh cuda\_11.6.0\_510.39.01\_linux.run

如下图,Driver选项不要勾选了,前面已经安装GPU驱动了。

image.png

image.png

image.png

image.png

创建环境变量,编辑\~/.bashrc文件:

bpang@bobpang:/data/cuda$ vim \~/.bashrc

将下面命令追加到文件最后面:

export CUDA\_HOME=/usr/local/cuda

export PATH=$PATH:$CUDA\_HOME/bin

export LD\_LIBRARY\_PATH=/usr/local/cuda-11.6/lib64${LD\_LIBRARY\_PATH:+:${LD\_LIBRARY\_PATH}}

为nvcc命令创建一个软连接到/usr/bin目录:

bpang@bobpang:/data/cuda$ sudo ln -s /usr/local/cuda/bin/nvcc /usr/bin/nvcc

使用nvcc命令查看cuda的版本:

bpang@bobpang:/data/cuda$ nvcc --version

image.png

image.png

验证CUDA是否安装成功

下载CUD实例文件。因为CUDA 11.6版本中 /usr/local/cuda/samples里面没有实例文件,只有一个README文件,内容中告诉你需要从github下载,因为github太慢,所以从gitee中下载实例文件:

bpang@bobpang:\~$ git clone liwuhao/cuda-samples

bpang@bobpang:\~$ mv cuda-samples/Samples/* /usr/local/cuda/samples/*

bpang@bobpang:\~$ cd /usr/local/cuda/samples/1\_Utilities/deviceQuery

$ sudo make

$ ./deviceQuery

image.png

image.png

image.png

image.png

安装cuDNN

CUDA Deep Neural Network (cuDNN) | NVIDIA Developer 从官网下载cudnn

image.png

image.png

image.png

image.png

下载的文件名为:cudnn-linux-x86\_64-8.3.2.44\_cuda11.5-archive.tar.xz

文件拷贝到服务器。然后安装:

bpang@bobpang:/data$ tar xvf cudnn-linux-x86\_64-8.3.2.44\_cuda11.5-archive.tar.xz

bpang@bobpang:\~$ cd /usr/local/cuda

bpang@bobpang:/usr/local/cuda$ sudo cp -p /data/cudnn-linux-x86\_64-8.3.2.44\_cuda11.5-archive/include/cudnn*.h include/

bpang@bobpang:/usr/local/cuda$ sudo cp -p /data/cudnn-linux-x86\_64-8.3.2.44\_cuda11.5-archive/lib/libcudnn* lib64/

bpang@bobpang:\~$ sudo chmod a+r /usr/local/cuda-11.6/include/cudnn.h

bpang@bobpang:\~$ sudo chmod a+r /usr/local/cuda-11.6/lib64/libcudnn*

Centos 7 安装V100 驱动

1. 安装依赖环境

yum install kernel-devel gcc -y

一定要确保kernel-devel版本和系统kernel版本一样,否则后期安装驱动会出现问题

2. 屏蔽系统自带的nouveau

[root@localhost home]# vi /lib/modprobe.d/dist-blacklist.conf

修改dist-blacklist.conf文件:

vim /lib/modprobe.d/dist-blacklist.conf

将nvidiafb注释掉:

\#blacklist nvidiafb

然后添加以下语句:

blacklist nouveau

options nouveau modeset=0

屏蔽前:

image.png

image.png

系统重启后,如果屏蔽成功后,显示未:

image.png

image.png

3. 重建initramfs image

mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak

dracut /boot/initramfs-$(uname -r).img $(uname -r)

image.png

image.png

4.修改运行级别为文本模式

systemctl set-default multi-user.target

image.png

image.png

5.重启系统

版权说明

转载请注明365文档,更多技术文档请访问365文档

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1274561.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ROS URDF集成Rviz流程

实现流程: 一、新建功能包,导入依赖 二、编写 urdf 文件 三、在 launch 文件集成 URDF 与 Rviz 四、在 Rviz 中显示机器人模型 需求:在 Rviz 中显示一个盒状机器人 1、创建功能包,导入依赖 创建一个新的功能包,名…

数据爬取+数据可视化实战_哪里只得我共你(Dear Jane)_词云展示----网易云

一、前言 歌词上做文本分析,数据存储在网页上,需要爬取数据下来,词云展示在工作中也变得日益重要,接下来将数据爬虫与可视化结合起来,做个词云展示案例。 二、操作步骤 代码如下: # -*- coding:utf-8 -*-…

服饰行业的EDI应用

服饰行业备受关注的物流环节中最重要的一个问题即为库存管理,服饰行业的企业需要搞清楚如何加快周转率,解决供应链的库存挤压难题。强大需求背景之下的科技革命、互联网发展以及产业变革不断演进,使得企业认识到产业供应链安全可靠、自主可控…

快速了解ChatGPT(大语言模型)

目录 GPT原理:文字接龙,输入一个字,后面会接最有可能出现的文字。 GPT4 学会提问:发挥语言模型的最大能力 参考李宏毅老师的课快速了解大语言模型做的笔记: Lee老师幽默的开场: GPT:chat Ge…

python执行shell

0x00:前言 正常一个网站分为服务端和客户端,因为是正向的,所以服务端是在目标机器上的,客户端则是攻击者机器上,在这里要感谢MiaGz大师傅,这里很多都是参考了MiaGz大师傅的文章写出来的,进行了一点个人修改…

2023年亚太杯数学建模A题——深度学习苹果图像识别(

Image Recognition for Fruit-Picking Robots 水果采摘机器人的图像识别功能 问题 1:计数苹果 根据附件 1 中提供的可收获苹果的图像数据集,提取图像特征,建立数学模型,计算每幅图像中的苹果数量,并绘制附件 1 中所有…

【localhost refused to connect】解决 linux服务器启动 jupyter notebook 后本地浏览器打不开

问题描述 在linux上输入: jupyter notebook 命令后,弹出的火狐浏览器可以打开笔记本,但是复制它给的加密 url 到 Google 或者 Edge 浏览器都出现如下情况: 解决办法 1. 生成 jupyter notebook 配置文件 在 linux 命令行输入如下…

会员权益有哪些?

品牌会员权益是品牌为了吸引和保留客户,提供给注册成为会员的客户一些特殊优惠和服务,这些权益包括了折扣优惠、会员服务等等。 这些权益可以帮助品牌建立长期的客户关系,提高客户的忠诚度和满意度。以下是一些常见的会员权益,并结…

Neo4j 程序开发 JavaAPI 嵌入式开发模式(头歌)

文章目录 第1关:JavaAPI 嵌入式开发模式任务描述相关知识创建 Neo4j 数据库启动 Neo4j 数据事务创建节点创建节点关系将创建的数据库设置为默认数据库 编程要求测试说明答案代码修改配置文件,更改默认 Neo4j 数据库代码文件 第1关:JavaAPI 嵌…

#zookeeper集群+kafka集群

kafka3.0之前是依赖于zookeeper的。 zookeeper是开源,分布式的架构。提供协调服务(Apache项目) 基于观察者模式涉及的分布式服务管理架构。 存储和管理数据。分布式节点上的服务接受观察者的注册。一旦分布式节点上的数据发生变化&#xf…

【EI会议征稿】第七届机械、电气与材料应用国际学术会议(MEMA 2024)

第七届机械、电气与材料应用国际学术会议(MEMA 2024) 2024年第七届机械、电气与材料应用国际学术会议 (MEMA 2024) 由沈阳理工大学主办,将于2024年2月23-25日在中国长沙举行。本会议将围绕“机械、电气与材料应用”的最新研究领域&#xff…

数据可视化工具APITable:实现强大的多维表格功能并随时随地远程访问

APITable免费开源的多维表格与可视化数据库公网远程访问 文章目录 APITable免费开源的多维表格与可视化数据库公网远程访问前言1. 部署APITable2. cpolar的安装和注册3. 配置APITable公网访问地址4. 固定APITable公网地址 前言 vika维格表作为新一代数据生产力平台&#xff0c…

TiDB专题---1、TiDB简介和特性

什么是TiDB TiDB 是一个分布式 NewSQL 数据库,它支持水平弹性扩展、ACID 事务、标准 SQL、MySQL 语法和 MySQL 协议,具有数据强一致的高可用特性,是一个不仅适合 OLTP 场景还适合 OLAP 场景的混合数据库。 TiDB 是 PingCAP 公司自主设计、研发…

Mendix UI页面布局以案说法

一、前言 试着回想最近一次与公司网站交互的情况,访问了多个页面,并且可能使用了某些功能。有可能基于这种互动,可以向某人介绍公司的一些主要功能。其中一些可能是更肤浅的东西,比如他们的标志是什么样子或他们的主要配色方案是…

【WebSocket】通信协议基于 node 的简单实践和心跳机制和断线重连的实现

前后端 WebSocket 连接 阮一峰大佬 WebSocket 技术博客 H5 中提供的 WebSocket 协议是基于 TCP 的全双工传输协议。它属于应用层协议,并复用 HTTP 的握手通道。它只需要一次握手就可以创建持久性的连接。 那么什么是全双工呢? 全双工是计算机网络中的…

Spring Cloud 原理(第一节)

一、百度百科 Spring Cloud是一系列框架的有序集合。它利用Spring Boot的开发便利性巧妙地简化了分布式系统基础设施的开发,如服务发现注册、配置中心、消息总线、负载均衡、断路器、数据监控等,都可以用Spring Boot的开发风格做到一键启动和部署。Spri…

力扣611题 有效三角形的个数 双指针算法

611. 有效三角形的个数 给定一个包含非负整数的数组 nums ,返回其中可以组成三角形三条边的三元组个数。 示例 1: 输⼊: nums [2,2,3,4] 输出: 3 解释:有效的组合是: 2,3,4 (使⽤第⼀个 2) 2,3,4 (使⽤第⼆个 2) 2,2,3 ⽰例 2: 输⼊: nums [4,2,3,4] 输出: 4 解…

我们需要什么样的HA

作为DBA,大家在运维数据库的时候都会遇到 数据库发生 Failover /Switchover 切换的场景。数据库发生切换导致业务连续性受损,少则分钟级,多则小时级别。(最近互联网的故障比较多)。 本文 基于 MySQL 数据库架构场景来分析我们在遇到数据库 HA 切换时是系…

Vue的Nuxt项目部署在服务器,pm2动态部署和npm run build静态部署

Nuxt项目的部署有两种方式,一种是静态部署,一种是动态部署 静态部署需要关闭项目的ssr功能,动态部署则不需关闭,所以怎么部署项目就看你用不用ssr功能了 。 1.静态部署 先说静态部署,很简单,只需要在nuxt…

【自动化测试】pytest 用例执行中print日志实时输出

author: jwensh date: 20231130 pycharm 中 pytest 用例执行中 print 日志 standout 实时命令行输出 使用场景 在进行 websocket 接口进行测试的时候,希望有一个 case 是一直执行并接受接口返回的数据 def on_message(ws, message):message json.loads(message)…