RTX NVIDIA 3090卡配置对应pytorch,CUDA版本,NVIDIA驱动过程及问题整理

news2024/9/21 12:45:24

买了两块3090卡闲置很长时间了,之前tf 1.12.0版本用习惯了不想转工具。这段时间闲下来转了之后有些环境不适配,在雷神帮助下安装完毕,虽然出了点怪东西,整体还好。

原环境CUDA为11.4 其他配置如下

之前conda install的pytorch实为cpu版本,查看gpu等信息时会显示

最开始是想着先把pytorch直接替换为CUDA 11.4版本直接安装即可,在pytorch官网上目前为2.4.1版本,CUDA最低11.8,torch 2.0版本以上的最低也是11.7,安装方式为:

conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia

可尝试将11.8改为11.4(未尝试,到这里就尝试用11.8或则12)或找寻前续对应版本,LLM等相关方向建议直接换最近CUDA 12.4。 11.4在装时测试机找不到资源,11.3安装后寻找不到GPU资源。

到目前为止就需要考虑先升级CUDA

Section 1 CUDA 升级(11.4 -> 11.8)

先查看下系统信息

cat /etc/os-release

lsb_release -a

CUDA 官网直接进入后选择即可(地址),本机打算升级到CUDA 11.8(地址)

在安装 CUDA 11.8 时,debrunfile 是两种不同的安装方式:

  1. deb

    • 适用于基于 Debian 的系统(如 Ubuntu)。
    • 这种安装方式可以通过包管理器轻松安装和管理,方便更新和卸载。
    • 使用命令如 sudo dpkg -i <package.deb> 来安装。
  2. runfile

    • 适用于更广泛的 Linux 发行版。
    • 这种方式提供了更大的灵活性,可以选择安装哪些组件(例如只安装驱动或工具包)。
    • 需要在命令行中执行,例如 sudo sh cuda_11.8.0_XXX_linux.run

通常,如果你使用的是 Ubuntu 等 Debian 系统,推荐使用 deb 方式;如果你需要更多的控制或使用其他 Linux 发行版,可以选择 runfile

这边安装时选择的deb (local)

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin


sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600


wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda-repo-ubuntu2004-11-8-local_11.8.0-520.61.05-1_amd64.deb


sudo dpkg -i cuda-repo-ubuntu2004-11-8-local_11.8.0-520.61.05-1_amd64.deb


sudo cp /var/cuda-repo-ubuntu2004-11-8-local/cuda-*-keyring.gpg /usr/share/keyrings/


sudo apt-get update


sudo apt-get -y install cuda

照着安装即可。

安完可能有报错:

可参照下文尝试是否能够解决解决apt-get安装中的E: Sub-process /usr/bin/dpkg returned an error code (1)问题 - 焦距 - 博客园

把这个进行之后,尝试

sudo apt-get update
sudo apt-get -y install cuda

完了之后因为CUDA重装,需要重启电脑,直接reboot

有概率可能就没问题了,但是本机安装时重启后nvidia-smi后还是报错:

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running. 


表明驱动未安装或则启动。

Section2 解决NVIDIA驱动问题

参考文章如下:

NVIDIA驱动失效简单解决方案:NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver. - nannandbk - 博客园

nvidia-smi出不来,已经显示报错了,那么就直接进行第二步:

使用nvcc -V检查驱动和cuda。

显示找不到nvcc,可以进目录查看下是否有装

cd /usr/local/cuda/bin

这个表明安装过的,那就是路径没对

在bashrc中最后添加以下两行

export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH

结束后source ~/.bashrc即可。非管理员的话在自己账户下操作即可,需要sudo权限。自己的电脑建议都添加上,root的bashrc位置为/root/。

完了之后nvcc -V

这个时候就已经完成。按之前博客文章给出的教程继续,查看已安装驱动的版本信息

ls /usr/src | grep nvidia

这个nvidia后面的版本记下,而后接着输入以下命令:

sudo apt-get install dkms

sudo dkms install -m nvidia -v 520.61.05

等待安装完成

正常情况操作完之后能够恢复,但本机安装完之后,接着遇到怪东西:

所以直接按照之前教程后续步骤接着安装驱动。期间会更新一些包,会耗时一段时间。

在 Ubuntu 中,prime-select query 命令显示 on-demand 表示系统当前使用的是 NVIDIA的 on-demand 模式。这种模式下,系统会在需要时自动切换到 NVIDIA GPU,而在其他时间则使用集成显卡 (通常是 Intel GPU),以节省电池电量和减少热量产生
具体说明:
On-demand 模式: 只有在运行需要 GPU 的程序时,NVIDIA GPU 才会被激活。这有助于提高能效。
NVIDIA 模式: 系统始终使用 NVIDIA GPU,适合需要持续高性能的场合。
Intel 模式: 只使用集成的 Intel GPU,不使用 NVIDIA GPU,适合低功耗需求。
如果希望在运行需要 GPU 的程序时使用 NVIDIA GPU,on-demand 模式是一个不错的选择

本机安装时直接sudo prime-select nvidia切N卡,然后因为更新驱动,随后reboot

装完之后又来了怪东西,CUDA版本变成12.2了。

Section 3 Pytorch对应安装

网上目前暂时没有发现太多RTX 3090和CUDA 12是否适配的说法。

打算直接将pytorch官网环境选择指定为12.1(考虑CUDA同12大版本可兼容)。

conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch-c nvidia

本机安装时又出怪东西

这个一直转,后面挂了个screen过了很久回来看还在转,最后切pip安装发现的速度只有10多kb/s,添加了清华镜像试了段时间也不出来。考虑直接换pip install了。

这边需要查看下python和pip位置

这里解释一下,因为这里显示的虚拟环境时conda自己建的,设置的python版本为3.8.x,pip对应的应该是系统自带的python,安装时先试了pip install 来安装pytorch,安装后import torch找不到module(这些环境我也很小白),后面直接切conda环境下的pip:

这个涉及较多依赖,需要较长时间,补个清华镜像也有可能超时,

再敲一遍安装重新安就好。

完成之后测试一下

目前看来正常,后续是否出问题待验证...

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2152355.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

智慧仓储-AI销量预测

1、预测系统技术选型 基础层&#xff1a; Hbase、ClickHouse、Hdfs 用来做数据存储 框架层&#xff1a; 以 Spark RDD、Spark SQL、Hive 为主&#xff0c; MapReduce 程序占一小部分&#xff0c;是原先遗留下来的&#xff0c;目前正逐步替换成 Spark RDD。 选择 Spark 除了对…

【hot100-java】【每日温度】

R8-栈篇 印象题:单调栈的使用 参考本人博客&#xff1a;单调栈 class Solution {public int[] dailyTemperatures(int[] temperatures) {int numtemperatures.length;int [] retnew int[num];Stack<Integer>stnew Stack<>();for (int i0;i<num;i){while(!st.…

vscode 配置rust格式化的正确方法

vscode 配置rust格式化的正确方法&#xff1a; 在settings.json里输入&#xff1a; "[rust]": {"editor.defaultFormatter": "rust-lang.rust-analyzer","editor.formatOnSave": true}

揭露大模型本质,大模型入门必看的12本书!看完我直接跪了

敢不敢用一年时间读完这12本书&#xff0c;模型入门必看的12本书&#xff01;建议收藏&#xff01;&#xff01; 第一本&#xff1a; 《基于GPT-3,ChatGPT,GPT-4等Transformer架构的自然语言处理》 主要内容 了解用于解决复杂语言问题的新技术。将GPT-3与T5、GPT-2和基于BE…

[Linux]基础操作指令

开机/重启/登录/注销 进入xhsell 或者虚拟系统中, 右键桌面打开终端, 在终端执行命令, 重启或关机linux系统 建议使用普通账号登录, 如果权限不够时, 使用 su - 用户名 命令切换到超管, 然后再使用 logout命令退回到普通账号, logout 不能在图形界面的终端中使用 用户管理 Li…

【Linux基础IO】深入Linux文件描述符与重定向:解锁高效IO操作的秘密

&#x1f4dd;个人主页&#x1f339;&#xff1a;Eternity._ ⏩收录专栏⏪&#xff1a;Linux “ 登神长阶 ” &#x1f921;往期回顾&#x1f921;&#xff1a;Linux Shell &#x1f339;&#x1f339;期待您的关注 &#x1f339;&#x1f339; ❀Linux基础IO &#x1f4d2;1. …

python源代码编译exe 防止反编译的问题

1&#xff09;使用pyinstaller 打包为exe, 记住是版本是5.*&#xff0c;我用的是5.13.2 &#xff0c;不能是6.* 这是第一步。 pyinstaller -F -i d:\whs.ico packer.py -w 2&#xff09;使用pyarmor 再次加密,我使用的版本是8.3.11&#xff0c;不是7.*&#xff0c;这是第二步…

[深度学习]神经网络

1 人工神经网络 全连接神经网络 2 激活函数 隐藏层激活函数由人决定输出层激活函数由解决的任务决定: 二分类:sigmoid多分类:softmax回归:不加激活(恒等激活identify)2.1 sigmoid激活函数 x为加权和小于-6或者大于6,梯度接近于0,会出现梯度消失的问题即使取值 [-6,6] ,…

C++速通LeetCode中等第16题-环形链表II(快慢指针)

算法思路&#xff08;主要是数学推导&#xff09;&#xff1a; /*** Definition for singly-linked list.* struct ListNode {* int val;* ListNode *next;* ListNode(int x) : val(x), next(NULL) {}* };*/ class Solution { public:ListNode *detectCycle(ListNo…

实施项目,“流程重组”你是躲不开的

文/杨长春 作者简介&#xff1a;某IT公司项目总监&#xff0c;资深IT博主&#xff0c;专注于IT项目知识分享&#xff0c;著有《实战需求分析》、《软件需求分析实战》、《数字化管理软件实施》。 甲方跟本项目相关的领域&#xff0c;一定运行着一套管理体系&#xff0c;各个岗…

从EtherCAT到PROFINET,迈威通信带你解锁工业网络!

工业自动化领域&#xff0c;你选对交换机了吗? 在工业自动化和控制系统中&#xff0c;工业以太网协议扮演着至关重要的角色。它们确保了数据在设备间的高效、实时和可靠传输。随着工业4.0的兴起&#xff0c;对不同设备与系统间互联互通的需求不断增加&#xff0c;这就要求现代…

【24华为杯数模研赛赛题思路已出】国赛D题思路丨附参考代码丨免费分享

2024年华为杯研赛C题解题思路 D 题 大数据驱动的地理综合问题 地理系统是自然、人文多要素综合作用的复杂巨系统[1-2]&#xff0c;地理学家常用地理综合的方式对地理系统进行主导特征的表达[3]。如以三大阶梯概括中国的地形特征&#xff0c;以秦岭—淮河一线和其它地理区划的…

数据结构-2.9.双链表

一.双链表与单链表的对比&#xff1a; 二.双链表的初始化(带头结点)&#xff1a; 1.图解&#xff1a; 2.代码演示&#xff1a; #include<stdio.h> #include<stdlib.h> ​ //定义双链表结构体 typedef struct DNode {int data;struct DNode *prior;//前驱指针即指…

初学者的15个Python实用库

Python 是初学者易于学习的一门语言&#xff0c;并且提供了大量的第三方库。超过230,000个用户贡献的包使得Python功能强大且广受欢迎。在本文中&#xff0c;我重点介绍了15个最有用的包&#xff0c;详细说明了它们的功能和特性。 这里插播一条粉丝福利&#xff0c;如果你正在…

ThreadX源码:Cortex-A7的tx_thread_irq_nesting_end(嵌套中断结束动作).s汇编代码分析

0 参考资料 Cortex M3权威指南(中文).pdf&#xff08;可以参考ARM指令集用法&#xff09; 1 前言 tx_thread_irq_nesting_end.S是用来实现Cortex-A7 IRQ嵌套中断的结束函数实现的汇编文件。 2 源码分析 源码如下&#xff1a; 1.#ifdef TX_ENABLE_FIQ_SUPPORT 2.DISABLE_INT…

AIoT应用开发:给机器人装上‘眼睛‘,接入CV能力,实现人脸识别

最近新入手了一台 arm 开发板&#xff0c;希望打造一款有温度、有情怀的陪伴式 AI 对话机器人。 大体实现思路如下&#xff1a; 前几篇&#xff0c;给板子装上LLM 大脑、耳朵和嘴巴装上&#xff1a; 如何在手机端部署大模型&#xff1f;手机端跑大模型&#xff1a;Ollma/ll…

Windows通过网线传文件

文章目录 网线网络中看不到另一台计算机Nginx参考文献 网线 两台电脑用网线连接 电脑A 控制面板\网络和 Internet\网络和共享中心 → 更改适配器设置 → 右键以太网&#xff08;未识别的网络&#xff09; → 属性 → Internet 协议版本 4 (TCP/IPv4) 属性 → 使用下面的 IP …

【vmware】vmware中手动安装vmwaretools

问题: vmware中点击安装vmwaretools时出现如下&#xff1a; VMware Tools 不再随旧版客户机操作系统的 VMware Workstation 一起提供。 请从 https://packages-prod.broadcom.com/tools/frozen/windows/winPreVista.iso 下载&#xff0c;并参阅 https://knowledge.broadcom.co…

机器学习笔记(一)初识机器学习

1.定义 机器学习是一门多学科交叉专业&#xff0c;涵盖概率论知识&#xff0c;统计学知识&#xff0c;近似理论知识和复杂算法知识&#xff0c;使用计算机作为工具并致力于真实实时的模拟人类学习方式&#xff0c;并将现有内容进行知识结构划分来有效提高学习效率。 机器学习有…

2024年开放式蓝牙耳机十大排名震撼揭晓!哪款开放式耳机是音质王者?

​耳机市场上&#xff0c;有线入耳式、无线蓝牙入耳式和开放式耳机三足鼎立&#xff0c;各展风采。有线入耳式耳机虽然连接稳定&#xff0c;但线缆易缠绕&#xff0c;佩戴不够稳固&#xff1b;无线入耳式耳机虽然剪断了线的束缚&#xff0c;但长时间使用可能会引起耳朵不适。相…