CentOS 7.9安装NVIDIA P40显卡驱动、CUDA和cuDNN

news2024/9/20 12:15:19

文章目录

  • 1、安装P40显卡驱动
    • 1.1 查看机器上有哪些显卡
    • 1.2 禁用nouveau
    • 1.3 安装依赖
    • 1.4 安装驱动
  • 2、安装CUDA
    • 2.1 安装
    • 2.2 测试是否安装成功
  • 3、安装cuDNN
    • 3.1 安装
    • 3.2 测试是否安装成功
  • 4、总结


1、安装P40显卡驱动

1.1 查看机器上有哪些显卡

lspci | grep -i vga
lspci | grep -i nvidia

在这里插入图片描述

1.2 禁用nouveau

nouveau是N卡的开源驱动,linux会自动安装,不是NVIDIA官方的,安装官方驱动前需先禁止掉它。
执行

lsmod | grep nouveau

如果有输出,说明未禁用;如果没有输出,说明已禁用。
如果未禁用则执行如下操作:

vim /usr/lib/modprobe.d/dist-blacklist.conf

注释掉 blacklist nvidiafb 这一行,然后添加下面两行:

blacklist nouveau
options nouveau modeset=0

然后重建initramfs image,执行下面的命令:

mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r)-nouveau.img
dracut /boot/initramfs-$(uname -r).img $(uname -r)

重启系统:

reboot

再执行:

lsmod | grep nouveau

在这里插入图片描述

如果没有输出,说明已禁用。

1.3 安装依赖

yum install kernel-devel kernel-headers gcc dkms gcc-c++
  • 可能出现问题的解决(是因为我安装了anaconda3引起的)
(base) [root@clang ~]# yum install kernel-devel kernel-headers gcc dkms gcc-c++
There was a problem importing one of the Python modules
required to run yum. The error leading to this problem was:

   /home/anaconda3/lib/liblzma.so.5: version `XZ_5.1.2alpha' not found (required by /lib64/librpmio.so.3)

Please install a package which provides this module, or
verify that the module is installed correctly.

It's possible that the above module doesn't match the
current version of Python, which is:
2.7.5 (default, Jun 20 2023, 11:36:40) 
[GCC 4.8.5 20150623 (Red Hat 4.8.5-44)]

If you cannot solve this problem yourself, please go to 
the yum faq at:
  http://yum.baseurl.org/wiki/Faq

找了一些方案是做软链接,但是这个问题修复之后,还会出现其他库找不到的情况。这时简单的处理方法就是先卸载anaconda3,安装完之后再重装上。

1.4 安装驱动

官方下载页,根据你的显卡型号搜索。我的显卡是Tesla P4,用的是CUDA 11.2,所以这是我的型号的下载链接。
在这里插入图片描述
下载完后执行:

chmod +x NVIDIA-Linux-x86_64-460.106.00.run
./NVIDIA-Linux-x86_64-460.106.00.run --kernel-source-path=/usr/src/kernels/3.10.0-1160.83.1.el7.x86_64 -no-x-check --no-opengl-files
# --kernel-source-path的值是装完依赖后才有这个路径
# 远程安装会检测x server,要让它不检测
# 不安装opengl,因为安装opengl,CentOS界面UI不能正常启动

–kernel-source-path=/usr/src/kernels/3.10.0-1160.83.1.el7.x86_64 参数的路径需要根据自己内核的目录来修改

  • 安装过程中

Would you like to register the kernel module sources with DKMS? 选yes(服务器选yes,本地选no)

Install NVIDIA’s 32-bit compatibility libraries? 选yes

安装完成后执行:

nvidia-smi

如果有输出,说明驱动已安装。
在这里插入图片描述

  • 安装过程中可能出现异常的解决
    在安装驱动的过程中,我遇到了找不到内核的问题,这时可以通过yum命令安装相应内核来解决,可能用到的命令(需根据自己报错来修改内核版本名称)
sudo yum install linux-headers-3.10.0-1160.92.1.el7.x86_64
sudo yum install kernel-devel-3.10.0-1160.92.1.el7.x86_64

2、安装CUDA

2.1 安装

官方下载页,我下载的是11.2.2的run版本。

chmod +x cuda_11.2.2_460.32.03_linux.run
./cuda_11.2.2_460.32.03_linux.run --no-opengl-libs

安装时,X表示选中,即安装,空白表示不选中,即不安装。驱动前面已经安装了,不用再安装。设成下面的样子,再Install。

CUDA Installer
- [ ] Driver
     [ ] 460.32.03
+ [X] CUDA Toolkit 11.2
  [X] CUDA Samples 11.2
  [X] CUDA Demo Suite 11.2
  [X] CUDA Documentation 11.2
  Options
  Install

安装完后配置环境变量:

vim /etc/profile
# 添加下面两行,路径要和上图中一样
export PATH=/usr/local/cuda-11.2/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-11.2/lib64:$LD_LIBRARY_PATH
 
# 保存并重新加载
source /etc/profile

2.2 测试是否安装成功

终端输入cuda并连按两次tab,若有候选命令,则再执行nvcc --version,有输出版本信息就是安装成功。
在这里插入图片描述
在这里插入图片描述

3、安装cuDNN

3.1 安装

官方下载页,在页面内下载针对前面匹配的11.x版本,下载时会提示登录NVIDIA账号,注册账号并登录就可以下载了,下载后执行下面的命令:

tar -xvf cudnn-linux-x86_64-8.7.0.84_cuda11-archive.tar.xz
# 以下三行命令from https://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html
# 参考链接中这一步复制的文件和官方文档中不太一样
cp cudnn-*-archive/include/cudnn*.h /usr/local/cuda/include
cp -P cudnn-*-archive/lib/libcudnn* /usr/local/cuda/lib64
chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*

3.2 测试是否安装成功

新建一个cudnn_test.cu文件:

#include <stdio.h>
#include <stdlib.h>
#include <cuda_runtime.h>
#include <cudnn.h>

#define CHECK_CUDA_ERROR(call) { \
    cudaError_t error = call; \
    if (error != cudaSuccess) { \
        printf("CUDA error: %s, line %d\n", cudaGetErrorString(error), __LINE__); \
        exit(1); \
    } \
}

#define CHECK_CUDNN_ERROR(call) { \
    cudnnStatus_t status = call; \
    if (status != CUDNN_STATUS_SUCCESS) { \
        printf("CUDNN error: %s, line %d\n", cudnnGetErrorString(status), __LINE__); \
        exit(1); \
    } \
}

void initialize(float *matrix, int size) {
    for (int i = 0; i < size; ++i) {
        matrix[i] = rand() / (float)RAND_MAX; // Initialize with random values
    }
}

int main() {
    const int N = 1024; // Matrix size
    const int K = 1024;
    const int M = 1024;
    
    // Allocate memory on host
    float *A = (float*)malloc(N * K * sizeof(float));
    float *B = (float*)malloc(K * M * sizeof(float));
    float *C = (float*)malloc(N * M * sizeof(float));
    
    // Initialize matrices
    initialize(A, N * K);
    initialize(B, K * M);
    
    // Allocate memory on device
    float *d_A, *d_B, *d_C;
    CHECK_CUDA_ERROR(cudaMalloc(&d_A, N * K * sizeof(float)));
    CHECK_CUDA_ERROR(cudaMalloc(&d_B, K * M * sizeof(float)));
    CHECK_CUDA_ERROR(cudaMalloc(&d_C, N * M * sizeof(float)));
    
    // Copy data from host to device
    CHECK_CUDA_ERROR(cudaMemcpy(d_A, A, N * K * sizeof(float), cudaMemcpyHostToDevice));
    CHECK_CUDA_ERROR(cudaMemcpy(d_B, B, K * M * sizeof(float), cudaMemcpyHostToDevice));
    
    // Create CUDNN context
    cudnnHandle_t cudnn;
    CHECK_CUDNN_ERROR(cudnnCreate(&cudnn));
    
    // Define tensor descriptors
    cudnnTensorDescriptor_t descA, descB, descC;
    CHECK_CUDNN_ERROR(cudnnCreateTensorDescriptor(&descA));
    CHECK_CUDNN_ERROR(cudnnCreateTensorDescriptor(&descB));
    CHECK_CUDNN_ERROR(cudnnCreateTensorDescriptor(&descC));
    
    CHECK_CUDNN_ERROR(cudnnSetTensor4dDescriptor(descA, CUDNN_TENSOR_NCHW, CUDNN_DATA_FLOAT, 1, N, K, 1));
    CHECK_CUDNN_ERROR(cudnnSetTensor4dDescriptor(descB, CUDNN_TENSOR_NCHW, CUDNN_DATA_FLOAT, 1, K, M, 1));
    CHECK_CUDNN_ERROR(cudnnSetTensor4dDescriptor(descC, CUDNN_TENSOR_NCHW, CUDNN_DATA_FLOAT, 1, N, M, 1));
    
    // Define convolution descriptors (in this case, it's just matrix addition)
    cudnnOpTensorDescriptor_t opDesc;
    CHECK_CUDNN_ERROR(cudnnCreateOpTensorDescriptor(&opDesc));
    CHECK_CUDNN_ERROR(cudnnSetOpTensorDescriptor(opDesc, CUDNN_OP_TENSOR_ADD, CUDNN_DATA_FLOAT, CUDNN_NOT_PROPAGATE_NAN));
    
    // Perform the operation
    float alpha = 1.0f;
    float beta = 0.0f;
    CHECK_CUDNN_ERROR(cudnnOpTensor(cudnn, opDesc, &alpha, descA, d_A, &alpha, descB, d_B, &beta, descC, d_C));
    
    // Copy the result back to host
    CHECK_CUDA_ERROR(cudaMemcpy(C, d_C, N * M * sizeof(float), cudaMemcpyDeviceToHost));
    
    // Cleanup
    cudaFree(d_A);
    cudaFree(d_B);
    cudaFree(d_C);
    cudnnDestroyTensorDescriptor(descA);
    cudnnDestroyTensorDescriptor(descB);
    cudnnDestroyTensorDescriptor(descC);
    cudnnDestroyOpTensorDescriptor(opDesc);
    cudnnDestroy(cudnn);
    free(A);
    free(B);
    free(C);
    
    printf("Operation completed successfully.\n");
    
    return 0;
}

编译:

nvcc -o cudnn_test cudnn_test.cu -lcudnn

执行:

./cudnn_test

4、总结

至此显卡驱动、CUDA和cuDNN就安装完成了,安装过程中主要是禁用开源显卡驱动和操作系统内核版本的匹配安装。

提示:更多内容可以访问Clang’s Blog:https://www.clang.asia

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1693995.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

全局平均池化笔记

全局平均池化&#xff08;Global Average Pooling, GAP&#xff09;是一种用于卷积神经网络&#xff08;CNN&#xff09;中的池化操作&#xff0c;其主要作用和优点包括&#xff1a; 减少参数数量&#xff1a;全局平均池化层将每个特征图通过取其所有元素的平均值&#xff0c;压…

pytorch深度学习-环境搭建

1.Anaconda下载&#xff08;首先安装Anaconda不需要先安装Python了&#xff01;&#xff09; 版本 3.11. Download Anaconda Distribution | Anaconda 1.2 跳过注册直接下载 2.安装 直接next, (Install for 可以选择All Users&#xff0c;我选择的是All Users) 点击默认选项…

ROS学习记录:用C++实现IMU航向锁定

前言 获取IMU数据的C节点 在了解了如何获取到IMU的姿态信息&#xff08;链接在上面&#xff09;后&#xff0c;接下来尝试实现让一个节点在订阅IMU数据的时候&#xff0c;还能发布运动控制指令&#xff0c;使机器人能对姿态变化做出反应&#xff0c;达到一个航向锁定的效果。 …

MacBook 怎么玩Windows游戏 苹果笔记本怎么玩游戏?mac上如何玩windows游戏

传统上&#xff0c;Mac 不被认为是好的游戏机。然而&#xff0c;苹果已经开始在 Mac 上的游戏上投入更多精力&#xff0c;特别是自从转向苹果芯片以来。这使得 Mac 游戏的本机移植数量和模拟 Windows 游戏的能力都得到了显著提高。 方法一&#xff1a;Boot Camp 1、Boot Camp是…

K8S集群中Yaml文件详解

目录 一、Yaml概述 二、Yaml基本语法 三、Yaml数据结构 四、K8S资源清单描述方法 五、api资源版本标签 六、Yaml文件示例详解 1.deployment.yaml文件详解 2.Pod yaml文件详解 3.Service yaml文件详解 七、Yaml文件相关操作 1.试运行 2.生成yaml格式 3.生成json格式…

通过 NIO + 多线程 提升硬件设备与系统的数据传输性能

一、项目展示 下图&#xff08;模拟的数据可视化大屏&#xff09;中数据是动态显示的 二、项目简介 描述&#xff1a;使用Client模拟了硬件设备&#xff0c;比如可燃气体浓度检测器。Client通过Socket与Server建立连接&#xff0c;Server保存数据到txt文件&#xff0c;并使用W…

【CAN】STM32新能源汽车CAN通信实现过程

【CAN】STM32新能源汽车CAN通信实现过程 文章目录 前言一、软件1.PA11、PA12口配置2.PB8、PB9口配置 二、接线图三、硬件原理图四、上位机总结 前言 【电机控制】直流有刷电机、无刷电机汇总——持续更新 使用工具&#xff1a; 1.控制器——STM32F103C8T6 2.仿真器——STLINK …

SQL面试题练习 —— 计算次日留存率

题目 现有用户登录记录表&#xff0c;已经按照用户日期进行去重处理。以用户登录的最早日期作为新增日期&#xff0c;请计算次日留存率是多少。 样例数据 ----------------------- | user_id | login_date | ----------------------- | aaa | 2023-12-01 | | bbb …

Python 拼图游戏

拼图游戏(puzzle)是一种常见的益智游戏&#xff0c;玩家通过拖动图块来正确拼接成完整的图片。 由一张原图&#xff0c;分割成图块&#xff0c;拼图块的大小将会根据行列数自动调整&#xff0c;然后随机打乱&#xff0c;玩家通过拖拽图块&#xff0c;最后复原原图。 &#x1f…

在linux下的ROS中下载超级终端Terminator ROS开发得力助手

在一般我们运行机器人包时要打开三个终端来运行&#xff0c;关闭时还要一个一个关闭&#xff08;ctrlc&#xff09;过于麻烦 现在下载用了terminator后&#xff0c;就支持一键关闭多个终端了&#xff0c;很方便&#xff0c;具体操作如下&#xff1a; sudo apt install termin…

推荐个免费天气接口

http://www.tianqiapi.com/index/doc?versionmonthhttp://www.tianqiapi.com/index/doc?versionmonth 个人博客使用足够了&#xff01;

实验一:通过路由器实现内外网互联

通过路由器实现内外网互联 一、实验拓扑 相关配置详见下图&#xff0c;内网区域为AR2以内设备&#xff0c;外网区域以AR1和PC1代替进行实验测试。 二、实验要求 通过路由器实现内外网互联&#xff1a; 1.各内网PC可自动获取ip地址&#xff1b; 2.各内网PC可ping通外网PC&…

Mysql插入中文内容报错解决及其Mysql常用的存储引擎说明

一、问题描述 我们在Mysql数据库的表中插入带有中文内容时报错,提示【1366 - Incorrect string value: \xE5\x8C\x97\xE4\xBA\xAC... for column UserDealer at row 1】,如下图所示: 二、问题分析 一般来说插入中文内容有问题我们首先想到的就是编码问题;我们可以查看该表使…

01_尚硅谷JavaWeb最新版笔记

尚硅谷JAVAWEB概述 课程概述 计划学习时间&#xff1a;1周以内

负反馈系统中运放的相位裕度仿真、环路增益的stb仿真

这里没目录标题 一、引言二、巴克豪森判据、最坏情况下的相位裕度、相位裕度三、相位裕度与开环&#xff0c;环路&#xff0c;闭环增益的关系四、环路增益、闭环增益和相位的仿真4.1 运放为双入单出时4.1.1 系统的闭环增益4.1.2 stb仿真系统的环路增益和相位裕度&#xff08;环…

talib 安装

这里写自定义目录标题 talib 安装出错 talib 安装出错 https://github.com/cgohlke/talib-build/releases 这里找到轮子 直接装。

最新文章合集

GitHub宝藏项目&#xff1a;每天一个&#xff0c;让你的技术库增值不停&#xff01; STORM、SuperMemory、Awesome Chinese LLM、AI写作助手、资料搜集、文章生成、视角问题引导、模拟对话策略、内容导入、浏览器插件、资源库、开源微调模型 开发者必看&#xff1a;Linux终端…

world machine学习笔记(3)

打开 可以打开场景设置&#xff0c;项目设置平铺构建设置 场景设置&#xff1a; 输出范围 设置中心点和范围 设置分辨率 项目设置&#xff1a; 设置地图颜色&#xff0c;单位&#xff0c;最高地形高度 点击这个图形进行预览设置 该按钮还有其他的功能 world machine基础流程…

基于51单片机的数字频率计(电路图+pcb+论文+仿真+源码)

于51单片机的数字频率计 设计的频率计范围能够达到1HZ-1MHZ(实际上51单片机达不到这个范围&#xff0c;不要在实验环境下进行)&#xff0c;这个是课设来着&#xff0c;用Proteus仿真实现的&#xff0c;给有需要的同学参考一下 仿真原理图如下&#xff08;proteus仿真工程文件可…

【算法设计与分析】基于Go语言实现动态规划法解决TSP问题

本文针对于最近正在学习的Go语言&#xff0c;以及算法课实验所需内容进行Coding&#xff0c;一举两得&#xff01; 一、前言 由于这个实验不要求向之前的实验一样做到那种连线的可视化&#xff0c;故可以用图形界面不那么好实现的语言进行编写&#xff0c;考虑到Go语言的…