Ubuntu Nvidia Failed to initialize NVML: Driver/library version mismatch 解决方案

news2024/11/14 19:23:50

一、nvidia显卡驱动丢失

现象:

执行nvidia-smi报错

 原因:

NVIDIA 内核版本与系统驱动版本不适配,Ubuntu自动将nvidia的驱动从525.105更新到了525.116 如下图

注:当使用 apt-get 命令时,默认会将所有需要更新的包都下载更新

处理方法:

  1. 重启机器一般情况下就可以解决问题,需要注意的问题是要保证当前机器上没有正在跑的服务,需要将机器上的服务进行驱逐

  2. 重启之后服务可能会遇到如下问题

/opt/conda/lib/python3.10/site-packages/torch/cuda/__init__.py:88: UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 802: system not yet initialized (Triggered internally at /opt/conda/conda-bld/pytorch_1670525552843/work/c10/cuda/CUDAFunctions.cpp:109.)

导致这个问题的原因是由于Ubuntu将驱动更新了,我们使用的cuda版本不能兼容现在的驱动版本

默认我们机器只有这些nvidia 相关的包

 自动更新后会安装很多nvidia相关的驱动,并且会把nvidia的驱动升级到525.116

解决方法如下

  1. 机器开机后自动更新驱动升级525.116.04

解决方法:

查看nvidia驱动版本

dpkg --list | grep nvidia

查看版本号是525.116.04相关的包,然后进行卸载,卸载后需要重启机器

apt remove nvidia-headless-525 nvidia-headless-no-dkms-525 nvidia-kernel-common-525 nvidia-utils-525 nvidia-dkms-525 nvidia-compute-utils-525 nvidia-kernel-source-525 libnvidia-cfg1-525

再重新安装旧版的驱动 /nfs/install/NVIDIA (官网下载即可)

cd /nfs/install/NVIDIA-Linux-x86_64-525.105.17/
./nvidia-installer

优化方案:

关闭自动更新

sudo sed -i 's/1/0/g' /etc/apt/apt.conf.d/10periodic
sudo sed -i 's/1/0/g' /etc/apt/apt.conf.d/20auto-upgrades

二、机器重启swap分区自动开启

  1. 修改 /etc/fstab文件 (推荐)

修改为sw,noauto

/dev/disk/by-uuid/8de114df-603c-4c16-b6f4-3537caa48dda none swap sw,noauto 0 0

注释掉如下这行

# /swap.img none swap sw 0 0

将/swap.img 文件删除,同时注释掉fstab文件中swap行

三、常用命令

查看nvidia 内核版本
modinfo nvidia

查看nvidia相关的包
dpkg --list | grep nvidia

删除nvidia相关的包 (慎重)
sudo apt purge nvidia*

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/672335.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

具身智能与强化学习前沿进展 | 2023智源大会精彩回顾

导读 今年是具身智能值得纪念的一年,从谷歌发布具身多模态大模型,展示了智能体与环境智能交互的能力;再到特斯拉的人形机器人引发人们对具身智能和未来通用机器人的想象。那么,具身智能究竟“走”到哪里了? 在2023北京…

Three.js创建场景学习

Three.js 入门示例_bcbobo21cn的博客-CSDN博客 这里做了Three.js入门示例,显示一个球体; 下面单独看一下场景Scene; 先只有2句代码, const scene new THREE.Scene(); var x 5; 然后进入前端调试;中断在 var x 5 …

Android系统安全 — 6.1 WiFi安卓架构

1. Android Wi-Fi架构介绍 Android WiFi系统引入了wpa_supplicant,它的整个WiFi系统以wpa_supplicant为核心来定义上层用户接口和下层驱动接口。整个WiFi系统架构如下图所示: 1.1 WifiService 由SystemServer启动的时候生成的ConnecttivityService创…

加速“虚拟人+X”,魔珐科技撬动AIGC的杠杆

ChatGPT元宇宙虚拟人,将开创怎样的未来? 2022年11月30日,OpenAI凭借七年研发积累发布了全新聊天机器人模型ChatGPT,掀起新的人工智能革命。 2023年6月6日,苹果带着研发七年之久的MR头显产品Vision Pro亮相&#xff0…

WordPress上传.csv格式文件提示”抱歉,由于安全原因,这个文件类型不受支持。”错误的解决方法

在WordPress外贸商城建站过程中,使用WooCommerce的产品导入功能是比较方便快捷的方法,默认使用的导入数据表格式是 .csv 格式,有用户反馈,在使用 WooCommerce 的产品导入 .csv 数据表文件时,会出现 ”抱歉&#xff0c…

Flink流批一体计算(3):FLink作业调度

架构 所有的分布式计算引擎都需要有集群的资源管理器,例如:可以把MapReduce、Spark程序运行在YARN集群中、或者是Mesos中。Flink也是一个分布式计算引擎,要运行Flink程序,也需要一个资源管理器。而学习每一种分布式计算引擎&…

debian11 安装图解

debian11 安装详细图解(实体机) debian是linux几大分支之一,ubuntu也是debian的分支 debian不分服务器、个人桌面版本。 debian12.0.0截至写这篇的时候已经出来了,和11的安装方法一致,由于刚刚出来,相关配套…

网络安全|渗透测试入门学习,从零基础入门到精通—带你学会 身份认证协议Kerberos

目录 Kerberos Kerberos模型 三、Kerberos 基本概念 3.1 基本概念 3.2 KDC 四、Kerberos 原理 4.1 客户端与 Authentication Service 4.2 客户端与 Ticket Granting Service 4.3 客户端与 HTTP Service 五、Kerberos 的优势 Kerberos是一种计算机网络授权协议&#…

把大模型“OTA”进智能座舱,一场革新还是泡沫?

文|智能相对论 作者|leo陈 ChatGPT走红后,大模型的热度持续不减。时至今日,随着国内多巨头掀起“百模大战”,热度又被顶到更高峰。 前两个月里,百度、阿里、腾讯加入;进入5月,先有网易有道,发…

X2000 Linux 调试VL53L0X

之前在RK3566上调试过VL53L0X,这次主要参照之前的记录,在X2000 linux上进行调试。 一、SDK中加入驱动 1、加入源码 不同于常规的方式,将驱动添加到kernel/driver下,君正的linux sdk,需要将驱动添加到module_driver下…

【IIC子系统】IIC驱动框架解析(一)

文章目录 I2C设备驱动开发I2C设备驱动的三种匹配方式(1)通用的匹配方式:OF style match(2)电源管理专用的匹配方式:ACPI style match(3)I2C专用的匹配方式:I2C id table …

Prometheus时间序列选择器

下面均以prometheus_http_requests_total为例子,即prometheus的HTTP请求数,在机器上装prometheus server即可。 本篇简述prometheus的常用检索规则与工具:瞬间向量选择器、区间向量选择器与时间位移选择器。 瞬间向量选择器 瞬间向量选择器&a…

AI绘图提示词/咒语/词缀/关键词使用指南(Stable Diffusion Prompt 设计师操作手册)

基本知识: 安装及其问题解决参考:《Windows安装Stable Diffusion WebUI及问题解决记录》;运行使用时问题《Windows使用Stable Diffusion时遇到的各种问题整理》;模型运用及参数《Stable Diffusion 个人推荐的各种模型及设置参数、…

人工智能现状研究报告(上)

原创 | 文 BFT机器人 01 介绍 定义 人工智能(A):一种广泛的学科,其目标是创造智能机器,而不是人类和动物所展示的自然智能。 通用人工智能(AlamosGold):一个术语,用来描述未来机器可以在所有有经济价值的任务中达到甚至超过人类的全部认知能力…

SQL高级之慢查询日志

简介 他是一种日志记录,用来记录在MySql中响应时间超过阈值的语句,具体指运行时间超过long_query_time值的SQL,会被记录到慢查询日志中long_query_time的默认值为10,运行超过10s以上的语句就会被记录默认情况下,MYSQL…

python自动化测试之unittest简介讲解

一、unittest简介 1.先导入unittest 2.用help函数查看源码解析 3.查看描述: Python unit testing framework, based on Erich Gammas JUnit and Kent Becks Smalltalk testing framework. 翻译:python的单元测试框架,是基于java的junit测…

某农商行利用双因素认证和域用户自助改密方案构筑强身份验证机制,减轻IT运维压力

银行关键业务系统的安全关系到人民财产安全、隐私保护。为了提升银行关键信息基础设施安全防护水平,满足《关键信息基础设施安全保护要求》、等保要求等,某市农商银行正在借助宁盾 2FA 双因素认证和员工自助改密方案为操作系统终端、业务系统、堡垒机等设…

python3爬虫【二】python爬虫进行AES解密遇到的问题

1、TypeError: Object type <class ‘str’> cannot be passed to C code 报错如下&#xff1a; File "C:\Python311\Lib\site-packages\Crypto\Util\_raw_api.py", line 143, in c_uint8_ptrraise TypeError("Object type %s cannot be passed to C cod…

强化学习:随机近似与随机梯度下降

mean estimation 通过前面的学习&#xff0c;我们知道可以通过很多采样来求期望。而求 x ˉ \bar x xˉ 的方法由两种&#xff0c;一是直接将采样数据相加再除以个数&#xff0c;但这样的方法运行效率较低。 第二种方法是迭代式的计算&#xff0c;即来几个数据就算几个数据&a…

C++----析构函数,拷贝构造函数(6)

析构函数 概念 析构函数是一个特殊的函数&#xff0c;函数名和类名相同&#xff0c;但是要在前面加~&#xff0c;既没有参数&#xff0c;也没有返回值。析构函数在对象被销毁自动调用一次 如果类中没有析构函数&#xff0c;编译器会生成一个什么也不做的析构函数 如果类中有…