跑深度学习nvidia驱动忽然实效的详细解决方法

news2025/4/28 7:18:12

由于经常跑深度学习，所以对于显卡驱动什么的都还是整的比较明白的不含糊，所以都能跑的起来。但是今天跑pytorch框架时（用到cuda）忽然给我报了个错：

RuntimeError: No CUDA GPUs are available

这给我整不会了，因为用cuda一直都用的好好的今天忽然这样，我首先torch.cuda.is_available()试了一下，果然是false。
然后

nvidia-smi

结果

NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

应该是我的ubuntu偷偷趁我不注意把kernel给升级了，导致nvidia的版本不匹配。
运行cat /var/log/dpkg.log |grep nvidia
在这里插入图片描述
看第一行，可以看到从525.116.04升级到525.125.06，然后cat /proc/driver/nvidia/version可以看到nvidia的版本还是旧的116的（因为我已经解决了所以现在是新的了截图不了），所以验证了猜想。
所以接下来，我本着尽量不重装的原则尝试解决方法。
首先重启的时候选择低版本的内核进入然后运行nvidia-smi就变成了

Failed to initialize NVML: Driver/library version mismatch

且再运行cat /proc/driver/nvidia/version就显示找不到路径，方法1 failed。
然后试一下一下两条命令：

sudo apt-get install dkms
sudo dkms install -m nvidia -v 525.125.06

这个nvidia的版本号可以用ls /usr/src查看
在这里插入图片描述
正常来说，百分之七八十的人都是到这一步之后再运行nvidia-smi就可以成功显示了。但是我还不行，我运行第二句显示我已经installed了：

Module nvidia/525.125.06 already installed on kernel 5.xxx-xx-generic/x86_64

所以继续。
最后我是进入bios将security boot关掉就成功了。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/726711.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

跑深度学习nvidia驱动忽然实效的详细解决方法

相关文章

HarmonyOS学习路之开发篇—数据管理（轻量级数据存储）

设计模式之装饰者模式-TS中装饰器介绍

LoRA原理解析

界面组件DevExpress ASP.NET Core v23.1新版亮点 - 增强的数据可视化

纯LiDAR Odometry——LinK3D论文详解

无线通信模块|wifi模块、BLE蓝牙模块、wifi蓝牙二合一模块科普介绍

程序员必须知道的加密、解密和签名算法

建造者模式：详解构造函数、set方法、建造者模式三种对象创建方式

基于Java电脑硬件库存管理系统设计实现(源码+lw+部署文档+讲解等)

Linux下从CPU/内存/IO三个方面来分析系统性能

钉钉聊天对话框和截图经常发生白屏

redis安装后启动报redis-server.exe redis.windows.conf

Redis常用命令操作

开发人员必备：9个令人惊叹的CSS网格生成器推荐！

【分布式应用】zabbix 二：自定义监控、自动发现与自动注册

2490. 回环句

查询例题（三道）

【Spring 丨数据绑定】

Bug小能手系列(python)_9: 使用sklearn库报错 module ‘numpy‘ has no attribute ‘int‘

Python3安装教程在Unix/Linux操作系统