Nvidia显卡Failed to initialize NVML Driver/library version mismatch错误解决方案

news2024/9/29 5:57:14

最近GPT比较火,开始折腾了一下gpu,用来跑项目:
https://github.com/OpenTalker/SadTalker
今天运行程序突然发现用不了,经排查应该是由于NVIDIA内核驱动版本与系统驱动版本不一致导致的。

下面简单总结了这个错误的解决方案。

问题复现

在这里插入图片描述
查看系统驱动日志
cat /var/log/dpkg.log | grep nvidia
在这里插入图片描述## 问题原因分析
NVIDIA内核驱动版本与系统驱动版本不匹配。
##查看显卡驱动内核版本
cat /proc/driver/nvidia/version
NVRM version: NVIDIA UNIX x86_64 Kernel Module 470.223.02 Thu May 11 11:46:56 UTC 2023
GCC version: gcc version 11.4.0 (Ubuntu 11.4.0-1ubuntu1~22.04)
查看已安装驱动程序

dpkg --list | grep nvidia-*
在这里插入图片描述
经排查英伟达显卡驱动自动更新了,导致程序运行失败。

下面是版本回退操作,
解决方案
卸载现有驱动,重新安装
sudo /usr/bin/nvidia-uninstall
sudo apt-get --purge remove nvidia-*
sudo apt-get purge nvidia*
sudo apt-get purge libnvidia*
直到命令不输出任何内容
sudo dpkg --list | grep nvidia-*

重新安装
sudo chmod a+x NVIDIA-Linux-x86_64-470.199.02.run
sudo ./NVIDIA-Linux-x86_64-470.199.02.run -no-x-check -no-nouveau-check -no-opengl-files
     –no-opengl-files 只安装驱动文件,不安装OpenGL文件
     –no-x-check 安装驱动时不检查X服务
     –no-nouveau-check 安装驱动时不检查nouveau

报错处理:
一,
在这里插入图片描述

1.下载官方驱动程序
清除之前残留的nvidia驱动

apt-get remove --purge nvidia*

  1. 禁止集成的nouveau驱动

Ubuntu系统集成的显卡驱动程序是nouveau,它是第三方为NVIDIA开发的开源驱动,我们需要先将其屏蔽才能安装NVIDIA官方驱动。
将驱动添加到黑名单blacklist.conf中,但是由于该文件的属性不允许修改。所以需要先修改文件属性。

创建文件:
cat /etc/modprobe.d/blacklist-nouveau.conf
blacklist nouveau
blacklist lbm-nouveau
options nouveau modeset=0
alias nouveau off
alias lbm-nouveau off
options nouveau modeset=0
blacklist rivafb
blacklist vga16fb
blacklist nouveau
blacklist nvidiafb
blacklist rivatv

卸载之前安装的残留文件
sudo apt-get remove --purge xserver-xorg-video-nouveau
sudo apt-get --purge remove nvidia-*

3-0 安装依赖
sudo apt update
sudo apt install dkms build-essential linux-headers-generic

3.开始安装
安装驱动程序
$sudo chmod a+x NVIDIA-Linux-x86_64-xxx.run
$sudo sh NVIDIA-Linux-x86_64-xxx.run
#–no-x-check 关闭X服务
#–no-nouveau-check 禁用nouveau
#–no-opengl-files 不安装OpenGL文件
4-0 安装完成后
sudo update-initramfs -u 内核更新
sudo reboot

卸载残留:

要强制卸载这两个模块,你可以使用dpkg命令来操作。请按照以下步骤进行:

  1. 打开终端,以管理员权限登录到你的系统。

  2. 运行以下命令来卸载linux-modules-nvidia-450-server-6.2.0-35-generic模块:

    sudo dpkg --purge linux-modules-nvidia-450-server-6.2.0-35-generic
    ```
    
    
  3. 运行以下命令来卸载linux-objects-nvidia-450-server-6.2.0-35-generic模块:

    sudo dpkg --purge linux-objects-nvidia-450-server-6.2.0-35-generic
    ```
    
    注意:在命令中替换版本号和架构(amd64)为你系统中实际安装的版本。
    
    
  4. 当命令执行完成后,这两个模块应该已被强制卸载。

最终效果:
在这里插入图片描述其他命令:

升级显卡驱动命令
输入如下指令查看系统推荐的驱动版本:
sudo ubuntu-drivers devices

auturemove命令
在Ubuntu中,你可以使用autoremove命令来自动删除不再需要的软件包和依赖项。这些软件包通常是由于你升级或删除其他软件包而变得不再需要的。

要使用autoremove命令,请按照以下步骤进行:

  1. 打开终端。

  2. 以管理员权限登录到你的系统。

  3. 运行以下命令来使用autoremove

    sudo apt autoremove
    ```
    
    
  4. 命令将扫描系统中不再需要的软件包和依赖项,并提示你确认是否删除它们。请仔细阅读删除列表上的软件包,确保你不再需要它们。

  5. 如果你确认要删除这些软件包,请输入"Y"或"yes",然后按回车键。

  6. autoremove命令将自动删除这些不再需要的软件包和依赖项。

请注意,使用autoremove命令时要小心,确保你了解要删除的软件包以及其对系统的影响。建议在执行之前先进行备份,并定期进行系统维护和清理。

tips:
为避免麻烦关闭自动更新显卡驱动

1.禁止自动升级

修改配置文件/etc/apt/apt.conf.d/10periodic
#0是关闭,1是开启,将所有值改为0
vi etc/apt/apt.conf.d/10periodic
APT::Periodic::Update-Package-Lists “0”;
APT::Periodic::Download-Upgradeable-Packages “0”;
APT::Periodic::AutocleanInterval “0”;

在这里插入图片描述

执行命令:
sudo apt-mark hold linux-image-generic linux-headers-generic
在这里插入图片描述
2 使用 apt-mark hold

apt-mark hold 命令可以帮助我们锁定某个软件包的版本,这样就可以防止 Ubuntu 自动更新该软件包。在这种情况下,我们可以使用 apt-mark hold 命令来锁定显卡驱动软件包的版本,从而防止 Ubuntu 自动更新显卡驱动。具体操作步骤如下:

打开终端,使用以下命令来查看当前安装的显卡驱动软件包:
dpkg -l | grep -i nvidia
执行以下命令将该软件包的版本锁定:
sudo apt-mark hold
其中, 表示需要锁定的显卡驱动软件包的名称,例如:nvidia-driver-450。

如果需要解除锁定,我们可以使用以下命令:
sudo apt-mark unhold
需要注意的是,该方法只会禁止 Ubuntu 自动更新显卡驱动,如果我们需要安装更新版本的显卡驱动,则需要手动执行 apt-get update 和 apt-get upgrade 命令

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1181167.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何规划并新建大数据平台的独立生产域?5步走

一般来说,大数据平台包括以下4类数据生产域——生产生态环境(正式生产环境)、开发和测试环境、培训和演示环境、灾备环境。各生产域在由平台提供资源、安全、监控、故障恢复等保障的同时,不同的生产域之间还需要严格隔离&#xff…

宏观角度认识递归之 Pow(x,n) 问题

50. Pow(x, n) - 力扣(LeetCode) 计算 x 的 n 次幂,如果是直接暴力求解的话,会造成计算时间周期过长,所以要从别的角度出发,将幂等数分为两个幂等数相乘,例如:三的八次方&#xff0c…

Python基础入门(19)----Python单元测试基础:unittest模块的基本使用

文章目录 创建测试用例测试套件断言运行测试测试固件Python的unittest模块是基于Java的JUnit框架开发出来的,提供了编写和运行单元测试的工具。这篇文章将介绍unittest模块的基本使用,涵盖创建测试用例、测试套件、断言、运行测试以及测试固件的使用。 创建测试用例 在unit…

货币转换

维护货币汇率 事务代码:OB08 调用BAPI CALL FUNCTION BAPI_EXCHANGERATE_GETDETAILEXPORTINGrate_type Mfrom_curr ls_ekko-waersto_currncy CNYdate sy-datumIMPORTINGexch_rate ls_exch_ratereturn ls_return.ls_zsmm043-header-rmb_price …

python解析xmind统计测试用例/测试点 个数及执行情况

前言:统计的是每个分支最后一个节点的状态 xmind版本 23.0911172 标记打开位置 标记规则如下 解释: res {"total": 0, "pass": 0, "fail": 0, "no_result": 0, "unfinished": 0, "now_fail…

MCU测试科普|如何进行MCU芯片测试,具体流程是什么?

MCU芯片测试系统是一种专门用于检测MCU芯片性能和质量的综合性设备。它通常由硬件和软件两部分组成,硬件包括测试仪器、适配器、测试夹具等,用于连接被测MCU芯片和测试机,实现高效高精度的测试。软件部分通常包括测试程序、测试管理软件等&am…

安全狗连续5年零失误守护金鸡奖颁奖典礼安全

11月4日,第36届中国电影金鸡奖颁奖典礼暨2023年中国金鸡百花电影节闭幕式在厦门圆满落幕。 作为国内云原生安全领导厂商,安全狗再一次收到客户委托,为其颁奖活动期间的相关宣传窗口、网页和系统的网络安全全程护航。 01 台上幕后 荣耀守护 …

openGauss学习笔记-117 openGauss 数据库管理-设置数据库审计-查看审计结果

文章目录 openGauss学习笔记-117 openGauss 数据库管理-设置数据库审计-查看审计结果117.1 前提条件117.2 背景信息117.3 操作步骤 openGauss学习笔记-117 openGauss 数据库管理-设置数据库审计-查看审计结果 117.1 前提条件 审计功能总开关已开启。需要审计的审计项开关已开…

网络的地址簿:Linux DNS服务的全面指南

1 dns 1.1 dns(域名解析服务)介绍 当访问 www.baidu.com 首先查询/etc/hosts,如果没有再去查询/etc/resolv.conf,还是没有就去查询域名服务器 关于客户端: /etc/resolv.conf ##dns指向文件 nameserver 172.25.254.20测试&…

深入了解Redission分布式锁原理以及可重入锁的原理

Redisson是一个基于Redis的Java框架,用于实现各种分布式功能,包括分布式锁。Redisson提供了多种分布式锁的实现,其中包括可重入锁、公平锁、联锁(多个锁同时锁定或释放)、红锁(多个独立Redis节点的分布式锁…

一个java文件的JVM之旅 | 京东物流技术团队

准备 我是小C同学编写得一个java文件,如何实现我的功能呢?需要去JVM(Java Virtual Machine)这个地方旅行。 变身 我高高兴兴的来到JVM,想要开始JVM之旅,它确说:“现在的我还不能进去,需要做一次转换&…

不会写文档的程序员不是好的程序员

在当今数字化的世界中,软件开发行业正经历着前所未有的繁荣。从移动应用到大型企业系统,软件构建了现代社会的基础。在IT行业中,文档是一种非常重要的沟通工具。它可以帮助程序员和客户及团队成员之间进行有效的沟通和协作,提高工…

CMake编译命令笔记

项目主目录存在一个CMakeLists.txt文件两种方式设置编译规则 编译流程 上级目录 和 上上级目录的代码 两种构建方式(推荐使用外部构建)

基于单片机智能加湿器控制系统仿真设计

**单片机设计介绍, 698【毕业课设】基于单片机智能加湿器控制系统仿真设计 文章目录 一 概要系统组成总结 二、功能设计设计思路 三、 软件设计原理图 五、 程序六、 文章目录 一 概要 单片机智能加湿器控制系统仿真设计介绍 单片机智能加湿器控制系统是一种利用微…

DDD技术方案落地实践 | 京东云技术团队

1. 引言 从接触领域驱动设计的初学阶段,到实现一个旧系统改造到DDD模型,再到按DDD规范落地的3个的项目。对于领域驱动模型设计研发,从开始的各种疑惑到吸收各种先进的理念,目前在技术实施这一块已经基本比较成熟。在既往经验中总…

响应式编程-Project Reactor Mono 介绍

响应式编程-Project Reactor Mono 介绍 本文以Mono的角度来介绍Reactor编程,Flux的使用同理。 初体验 Web应用 controller 方法在Spring webmvc 和 Spring webFlux下Controller方法实现示例如下: Spring webmvc: GetMapping("/test1") …

【单链表】无头单项不循环(2)

目录 Test.c主函数 test5 test6 test7 test8 test9 Test.c总代码 SList.h头文件&函数声明 头文件 函数声明 SList.h总代码 SList.c函数实现 查询SLFind pos前面插入 pos后面插入 pos后面删除 pos删除 空间释放 SList.c总代码 今天链表。 Test.c主函…

力扣最热一百题——盛水最多的容器

终于又来了。我的算法记录的文章已经很久没有更新了。为什么呢? 这段时间都在更新有关python的文章,有对python感兴趣的朋友可以在主页找到。 但是这也并不是主要的原因 在10月5号我发布了我的第一篇博客,大家也可以看见我的每一篇算法博客…

『MySQL快速上手』-④-表的操作

文章目录 1.创建表2.查看表结构3.修改表4.删除表 1.创建表 语法格式如下: CREATE TABLE table_name ( field1 datatype, field2 datatype, field3 datatype ) character set 字符集 collate 校验规则 engine 存储引擎;说明: field 表示列名&#xff1…

javascript模块化之ESM

[[toc]] ESM是什么 个人理解是: EcmaScript Modules常说的 es modules常说的 es模块常说的 前端模块化demo1: 浏览器基本使用 <!-- 【1】 浏览器基本使用script 标签设置 type = module,浏览器就会以 ES modules 的标准去执行 JavaScript 代码。默认情况下,代码是以严格…