Dell R730 2U服务器实践3:安装英伟达上代专业AI训练Nvidia P4计算卡

news2024/9/25 23:24:44

Dell R730是一款非常流行的服务器,2U的机箱可以放入两张显卡,这次先用一张英伟达上代专业级AI训练卡:P4卡做实验,本文记录安装过程。


简洁步骤:

  1. 打开机箱
  2. 将P4显卡插在4号槽位
  3. 关闭机箱
  4. 安装驱动

详细步骤:

对于新手来说,步步为坑,有很多小细节需要注意。

了解硬件情况

首先了解到,R730号称可以装两块显卡
打开机箱,发现pci扩展槽上有4567四个插槽。
其中4号槽位是PCI-E3×16 ,其它三个槽位是PCI-E3×8 ,因此决定将P4插在4号槽。 另外要注意的是4号槽对应CPU2 ,因此单CPU是不能用这个插槽的。

我的这台机器4号槽位还有个插槽保护部件插在上面,怎么拿下来也是尝试了一小会儿。

第一次装显卡,插卡的免螺丝固定部分,有个塑料件,安装前需要先用手扳上来,实在难住了我,多次尝试才找到发力点,话说Dell的免螺丝设计还是挺不错的。插好P4后,再把那个塑料固定件按下去固定显卡。

装好之后,在ESXi下,找PCI设备,将P4卡设置为直通。

这样p4卡的硬件部分就安装完成了!

安装系统ESXi+Ubuntu22.0

原系统是raid0,改成了raid1。

重新安装ESXi,然后再创建Ubuntu虚拟机,装Ubuntu22.0版本,确认将P4卡在ESXi里设为设为直通。

注意,设为直通后,就要设置“保留内存”选项,也就是设置了多少内存就要保留多少内存,否则虚拟机报错无法启动。参见:Dell R730 2U服务器实践2:VMWare ESXi安装-CSDN博客

P4驱动安装

安装驱动比较顺手了,先

从官网下载驱动再手动安装。

用nvidia-smi验证驱动是否安装好了,碰到了问题:

报错:couldn't communicate with the NVIDIA

使用从官网下驱动,手动安装的方式,结果安装后运行nvidia-smi报错:不能与nvidia驱动通信。

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

换一种方法,

使用 ubuntu-drivers 安装驱动

执行:

sudo ubuntu-drivers devices # 查看可以装的驱动

sudo ubuntu-drivers autoinstall  # 安装驱动

结果还是显示无法与nvidia驱动通信....

使用dkms安装驱动

网上建议用dkms安装驱动,执行:

sudo apt install dkms

sudo dkms install -m nvidia -v 525.147.05

这样由dkms安装驱动,非常简单方便。我记得这里的驱动需要从前面sudo ubuntu-drivers devices显示的驱动里面选。

安装驱动的时候提示重启之后需要密码验证。(我没看见验证啊)

问题没有解决。

apt install安装驱动

先看有哪些驱动

sudo nvidia-drivers device

vendor   : NVIDIA Corporation
model    : GP104GL [Tesla P4]
driver   : nvidia-driver-390 - distro non-free
driver   : nvidia-driver-450-server - distro non-free
driver   : nvidia-driver-470 - distro non-free recommended
driver   : nvidia-driver-470-server - distro non-free
driver   : nvidia-driver-418-server - distro non-free
driver   : xserver-xorg-video-nouveau - distro free builtin

然后使用apt安装:sudo apt install nvidia-driver-470-server

apt 安装也还是不行。

skywalk@ub22:~$ sudo modprobe nvidia
modprobe: ERROR: could not insert 'nvidia': Operation not permitted

ubuntu 已经说了推荐nvidia-driver-470,再来一次:

sudo apt install nvidia-driver-470

照旧。

其实上面四种安装驱动的方法都是可行的,但是为什么会报错呢? 原来是因为有个地方没有设置对!

设置 关闭 UEFI 安全引导

看到这篇文章里ESXI8.0下直通NVIDIA Tesla P4显卡给Ubuntu22.04系统中Docker容器里的Jellyfin使用 - 哔哩哔哩 (bilibili.com)讲到“是否为此虚拟机启用 UEFI 安全引导” 这里要关掉。

关掉试试,再执行nvidia-smi,哇,成功拉!

安装pytorch和飞桨paddlepaddle

到各自的官网,通过官网指引进行pip或conda安装,AI训练环境搞定!

总结

使用ESXi虚拟机在Ubuntu安装P4计算卡有几个注意的细节:

1 ESXi里虚拟机ubuntu的内存设置里需要勾选“保留内存”

2 在ESXi里设置P4计算卡为“直通”

3 ESXi里虚拟机ubuntu的启动设置里关闭“是否为此虚拟机启用 UEFI 安全引导”

其它地方就跟我们平时使用一样了。

前一篇:Dell R730 2U服务器实践2:VMWare ESXi安装-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1483059.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Ubuntu服务器fail2ban的使用

作用:限制ssh远程登录,防止被人爆破服务器,封禁登录ip 使用lastb命令可查看到登录失败的用户及ip,无时无刻的不在爆破服务器 目录 一、安装fail2ban 二,配置fail2ban封禁ip的规则 1,进入目录并创建ssh…

STL容器之string类

文章目录 STL容器之string类1、 什么是STL2、STL的六大组件3、string类3.1、string类介绍3.2、string类的常用接口说明3.2.1、string类对象的常见构造3.2.2、string类对象的容量操作3.2.3、string类对象的访问及遍历操作3.2.4、 string类对象的修改操作3.2.5、 string类非成员函…

在线上传解压PHP文件代码,压缩/压缩(网站一键打包)支持密码登录

在线上传解压PHP文件代码,压缩/压缩(网站一键打包)支持密码登录 资源宝分享:www.httple.net 如果你没有主机控制面板这个是最好选择,不需要数据库,上传当控制面板使用,无需安装任何扩展,安全高,…

算法刷题day20:二分系列

目录 引言一、借教室二、分巧克力三、管道四、技能升级五、冶炼金属六、数的范围七、最佳牛围栏 引言 这几天一直在做二分的题,都是上了难度的题目,本来以为自己的二分水平已经非常熟悉了,没想到还是糊涂了一两天才重新想清楚,想…

Redis主从复制+Redis哨兵模式+Redis群集模式

Redis主从复制Redis哨兵模式Redis群集模式一、Redis主从复制1、主从复制的作用2、主从复制过程3、搭建Redis主从复制3.1 所有节点服务器安装redis3.2 修改Redis配置文件(Master节点操作)3.3 修改Redis配置文件(Slave节点操作)3.4 验证主从效果 二、Redis哨兵模式1、哨兵模式的作…

2024最详细的接口测试用例设计教程

一、接口测试流程 1、需求讨论 2、需求评审 3、场景设计 4、数据准备 5、测试执行 二、分析接口文档元素 1、接口名称 2、接口地址 3、支持格式 4、请求方式 5、请求参数(参数名称、类型、是否必填、参数说明等) 6、返回参数(返回…

博途PLC 面向对象系列之“双通气缸功能块“(SCL代码)

1、面向对象系列之找对象 https://rxxw-control.blog.csdn.net/article/details/136150027https://rxxw-control.blog.csdn.net/article/details/1361500272、博途PLC 面向对象系列之"单通气缸功能块" https://rxxw-control.blog.csdn.net/article/details/1363399…

DB-GPT:大模型 + 数据库,全流程自动化

DB-GPT:大模型 数据库,全流程自动化 提出背景DB-GPT 结构具体问题与解法背景分析对比其他工具DB-GPT系统设计 提出背景 论文:https://arxiv.org/pdf/2312.17449.pdf 代码:https://github.com/eosphoros-ai/DB-GPT 本文介绍了D…

pytorch --反向传播和优化器

1. 反向传播 计算当前张量的梯度 Tensor.backward(gradientNone, retain_graphNone, create_graphFalse, inputsNone)计算当前张量相对于图中叶子节点的梯度。 使用反向传播,每个节点的梯度,根据梯度进行参数优化,最后使得损失最小化 代码…

Dynamo幕墙探究系列(一)

一直想写个系列教程,但是没有那么多时间整理资料,这次呢,先弄个小系列吧,还是和之前差不多的幕墙测试,我们分几节课,一步一步深入研究。 今天先开个小头儿,要弄的,就是下面这么个模型…

小程序图形:echarts-weixin 入门使用

去官网下载整个项目: https://github.com/ecomfe/echarts-for-weixin 拷贝ec-canvs文件夹到小程序里面 index.js里面的写法 import * as echarts from "../../components/ec-canvas/echarts" const app getApp(); function initChart(canvas, width, h…

【IDEA】2023版IDEA安装破解教程

2023版IDEA安装破解教程 第一步:IDEA的卸载 这里以Windows11系统为例,首先我们打开控制面板,点击程序,找到自己的IDEA,双击卸载。(或者可以直接找到idea所在文件位置,直接delete文件夹&#x…

化肥工业5G智能制造工厂数字孪生可视化平台,推进化肥行业数字化转型

化肥工业5G智能制造工厂数字孪生可视化平台,推进化肥行业数字化转型。随着科技的不断发展,数字化转型已经成为各行各业发展的必然趋势。在化肥工业领域,5G智能制造工厂数字孪生可视化平台的应用正在逐渐普及,为行业数字化转型提供…

微信小程序云开发教程——墨刀原型工具入门(页面交互+交互案例教程)

引言 作为一个小白,小北要怎么在短时间内快速学会微信小程序原型设计? “时间紧,任务重”,这意味着学习时必须把握微信小程序原型设计中的重点、难点,而非面面俱到。 要在短时间内理解、掌握一个工具的使用&#xf…

AI时代编程新宠!如何让孩子成为未来的编程大师?

文章目录 一、了解编程的基础概念二、选择适合的编程工具三、激发孩子的兴趣四、注重基础能力的培养五、提供实践机会六、鼓励孩子与他人合作七、持续支持与鼓励《信息学奥赛一本通关》本书定位内容简介作者简介目录 随着科技的迅猛发展,编程已经从一种专业技能转变…

C++三级专项 Hermite多项式

用递归的方法求Hermite多项式的值。 对给定的x和正整数n,求多项式的值,并保留两位小数。 输入 给定的n和正整数x. 输出 多项式的值。 输入样例 1 2 输出样例 4.00 解析:按照题目给出的要求:递归来解决就行,上…

『京墨』1.7.0 发布,开源的诗文(名句)、歇后语、成语、绕口令、节日等的阅读 APP

1.7.0 更新日志 优化 UI 显示;优化数据同步,尤其是诗文同步;【诗文名句】【成语】【歇后语】模块添加收藏功能;添加“滑动翻页”功能。 介绍 『京墨』开源的古诗词文(名句)、歇后语、成语、绕口令、节日…

C++_map与set

目录 一、set 1、set的用法 2、multiset 二、map 1、map的用法 2、map的operator[] 3、multimap 结语 前言: C中的map和set容器属于关联式容器,与序列式容器不同的地方在于(序列式容器即vector、list,其底层是由线性数据…

牛客禁用题:求阶乘

思路&#xff1a;在新类中使用全局变量进行运算&#xff0c;在主类中定义新类数组&#xff0c;通过构造函数的调用次数返回阶乘 #include <type_traits> class add{public:static int count;static int tmp;add(){countcounttmp;tmp;} }; int add::count0; int add::t…

Flink:动态表 / 时态表 / 版本表 / 普通表 概念区别澄清

博主历时三年精心创作的《大数据平台架构与原型实现&#xff1a;数据中台建设实战》一书现已由知名IT图书品牌电子工业出版社博文视点出版发行&#xff0c;点击《重磅推荐&#xff1a;建大数据平台太难了&#xff01;给我发个工程原型吧&#xff01;》了解图书详情&#xff0c;…