Ubuntu18.04+RTX3060+TensorFlow2.12.0(GPU版)+Cuda11.1+CuDNN8.6.0安装

news2025/1/10 3:23:04

前情提要 可以跳过

我在Ubuntu18.04上安装了pytorch的相关环境,配置如图。

Ubuntu18.04+RTX3060显卡配置pytorch、cuda、cudnn和miniconda_Toblerone_Wind的博客-CSDN博客之前已经安装成功了,也发了篇博客梳理了整套流程如下。ubuntu18.04安装pytorch、cuda、cudnn和miniconda_Toblerone_Wind的博客-CSDN博客_ubuntu18.04安装pytorchhttps但后续发现tensor变量不能转移到cuda上,即执行下面的语句会卡死。卡死也没报错信息,后来调试了很久发现是原先的cuda10.2版本太低了,不持支我的3060显卡。装了cuda11.4发现又没有对应的pytorch,导致cuda无法和torch正常通讯。.........https://blog.csdn.net/qq_42276781/article/details/125523817这个环境跑pytorhc代码没有什么问题,但是最近我要复现一个基于Keras的论文方法。Keras是一个基于TensorFlow的深度学习框架,可以用简单的四五行代码构建一个深度学习模型。

下面给出了一个示例,创建了一个序列模型,接着向里面添加了嵌入层,LSTM层,全剧最大池化层和全连接层,最后设置模型的损失函数和优化方法。

from tensorflow.python.keras.models import Sequential
from tensorflow.python.keras.layers import Embedding, Dense, GlobalMaxPooling1D, LSTM
def create_model(input_dim, input_length, latent_dim, drop_prob):
    model = Sequential()
    model.add(Embedding(input_dim=input_dim, output_dim=latent_dim, input_length=input_length))
    model.add(LSTM(units=latent_dim, return_sequences=True, dropout=drop_prob, recurrent_dropout=drop_prob))
    model.add(GlobalMaxPooling1D())
    model.add(Dense(units=1, activation='sigmoid'))
    model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
    return model

由于Ubuntu18.04是安装的是Cuda11.1,我就在Miniconda下创建了一个Python3.6的虚拟环境,使用下面的命令安装了适配的tensorflow。

pip install tensorflow_gpu=2.5.0

安装完成之后,我运行代码确实可以使用GPU加速,但是我切换成纯CPU版的Tensorflow运行时,发现速度是GPU版本的3倍。查阅了相关资料,发现是LSTM的效率太低导致的,众所周知LSTM是长短期记忆模型,当前时刻的状态会受到上一时刻状态的影响,这就导致必须计算完成上一时刻的状态,才能计算这一时刻的状态,也就是说LSTM是顺序执行的,GPU的并行加速在这里并不能体现优势,而GPU的顺序计算是弱于CPU的,至少在我的机器上(i9-10850k和RTX3060)。

解决的办法也是有的,可以使用CuDNNLSTM替换普通的LSTM,CuDNNLSTM借助CuDNN对LSTM的运算进行了加速,可以极大提升效率(我理解的是利用矩阵乘法在损失小部分精度的情况下,进行并行运算)

修改后代码如下

from tensorflow.python.keras.models import Sequential
from tensorflow.python.keras.layers import Embedding, Dense, GlobalMaxPooling1D, CuDNNLSTM
def create_model(input_dim, input_length, latent_dim, drop_prob):
    model = Sequential()
    model.add(Embedding(input_dim=input_dim, output_dim=latent_dim, input_length=input_length))
    model.add(CuDNNLSTM(units=latent_dim, return_sequences=True))
    model.add(GlobalMaxPooling1D())
    model.add(Dense(units=1, activation='sigmoid'))
    model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
    return model

但是运行的时候却报错了,说我系统中的CuDNN版本是8.0.5,keras使用的CuDNNLSTM需要8.1.0。于是卸载了系统中的CuDNN8.0.5,安装了支持Cuda11.1的CuDNN8.1.0,虽然这次没有报错说CuDNN版本不一致,但是报了一个CuDNN和Cuda不协同的错误,我明明找到是相适配的CuDNN啊!重启了也没有解决不适配的问题。

鉴于现在Cuda和CuDNN并不适配,我切换回了原有的Pytorch虚拟环境,测试代码发现可以正常运行。这说明一般情况下,Cuda和CuDNN并不一定需要适配,除非你的代码需要使用CuDNN。

言归正传,之后我就不停的安装CuDNN,不停的安装TensorFlow,企图让CuDNN,TensorFlow和Cuda三者完美统一。但都失败了。直到我福至心灵地创建了一个python3.8的虚拟环境,在里面使用这个命令安装Tensorflow时,Pip报错,说不需要添加后缀gpu。

pip install tensorflow_gpu=2.5.0

于是我就直接使用了下面这个命令,Pip自动给我安装了tensorflow-2.12.0

pip install tensorflow

运行代码,提示我tensorflow支持的CuDNN是8.6.0,而我系统中CuDNN的是8.0.5。

我选择了适配Cuda11.x的CuDNN 8.6.0

TensorFlow 1.12.0

python版本是3.8,使用下面的命令安装

pip install tensorflow=2.12.0

虽然可以使用清华镜像,但是下载一会之后开始会断开,推荐使用专门的下载器,下载链接在此

下载完成之后进入文件所在目录,使用下面的命令就可以直接安装

pip install tensorflow-2.12.0-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl

Cuda 11.1

见我的这篇博客

Ubuntu18.04+RTX3060显卡配置pytorch、cuda、cudnn和miniconda_Toblerone_Wind的博客-CSDN博客之前已经安装成功了,也发了篇博客梳理了整套流程如下。ubuntu18.04安装pytorch、cuda、cudnn和miniconda_Toblerone_Wind的博客-CSDN博客_ubuntu18.04安装pytorchhttps但后续发现tensor变量不能转移到cuda上,即执行下面的语句会卡死。卡死也没报错信息,后来调试了很久发现是原先的cuda10.2版本太低了,不持支我的3060显卡。装了cuda11.4发现又没有对应的pytorch,导致cuda无法和torch正常通讯。.........https://blog.csdn.net/qq_42276781/article/details/125523817

CuDNN 6.5.0

下载链接在此如果不能下载可能是要注册账号,网页放在这里

nullExplore and download past releases from cuDNN GPU-accelerated primitive library for deep neural networks.https://developer.nvidia.com/rdp/cudnn-archive下载完成后需要安装,这里我找到了官方的安装文档

Installation Guide - NVIDIA Docshttps://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html

但是他提供的有点问题,567步的指令缺少了安装文件后缀.deb,sudo apt-get update好像也没有必要。

这里就提供一个我的安装步骤

首先是进入cudnn-local-repo-ubuntu1804-8.6.0.163_1.0-1_amd64.deb文件所在的目录,打开命令行输入下面的指令

sudo dpkg -i cudnn-local-repo-ubuntu1804-8.6.0.163_1.0-1_amd64.deb

接着移动CUDA的GPG钥匙

sudo cp /var/cudnn-local-repo-ubuntu1804-8.6.0.163/cudnn-local-77B32ECB-keyring.gpg /usr/share/keyrings/

接着进入/var目录

cd /var

输出该目录的所有文件

ls

会发现有一个叫cudnn-local-repo-ubuntu1804-8.6.0.163的文件夹,进入

cd cudnn-local-repo-ubuntu1804-8.6.0.163/

输出该目录的所有文件

ls

会发现libcudnn8_8.6.0.163-1+cuda11.8_amd64.deb,libcudnn8-dev_8.6.0.163-1+cuda11.8_amd64.deb和libcudnn8-samples_8.6.0.163-1+cuda11.8_amd64.deb

这时候依次执行下面三个安装命令

sudo dpkg -i libcudnn8_8.6.0.163-1+cuda11.8_amd64.deb 
sudo dpkg -i libcudnn8-dev_8.6.0.163-1+cuda11.8_amd64.deb 
sudo dpkg -i libcudnn8-samples_8.6.0.163-1+cuda11.8_amd64.deb 

顺便提一下Cudnn的卸载方法

首先显示安装的CuDNN

sudo dpkg -l | grep cudnn

再根据显示的名字卸载,如

dpkg -r cudnn-local-repo-ubuntu1804-8.6.0.163

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/580876.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

回归预测 | MATLAB实现实现FOA-BP果蝇算法优化BP神经网络多变量输入回归预测模型

回归预测 | MATLAB实现实现FOA-BP果蝇算法优化BP神经网络多变量输入回归预测模型 目录 回归预测 | MATLAB实现实现FOA-BP果蝇算法优化BP神经网络多变量输入回归预测模型效果一览基本介绍程序设计参考资料 效果一览 基本介绍 果蝇算法(FOA)优化BP神经网络回归预测,FOA-BP回归预测…

springboot3.0集成nacos2.2.1(一)

本章节内容是没有开启nacos校验方式进行接入 集成环境&#xff1a; java版本&#xff1a;JDK17 springboot版本&#xff1a;3.0.2 创建spring项目&#xff0c;我这里用到的是spring-cloud全家桶 首先是jar包依赖&#xff1a; <properties><maven.compiler.so…

HTB-Forest(PowerView.ps1使用、嵌套组解析、了解帐户操作员组)

目录 扫描 枚举特定于域控制器的服务 AS-REP烘焙服务帐户svc-alfresco 使用Hashcat破解AS-REP哈希 作为svc-alfresco获得立足点 攻击后的枚举和权限提升 查找指向“Account Operators”组的嵌套组 使用PowerView.ps1枚举组 了解帐户操作员组 寻找有价值的ACE 在Exc…

IDE装上ChatGPT,这款编辑器真的做到可以自动写代码了!

ChatGPT狂飙160天&#xff0c;世界已经不是之前的样子。 我新建了人工智能中文站https://ai.weoknow.com 每天给大家更新可用的国内可用chatGPT资源 Cursor 是集成了 GPT-4 的 IDE 工具&#xff0c;目前免费并且无需 API Key&#xff0c;支持 Win、Mac、Linux 平台&#xff0c;…

C# | 凸包算法之Graham,快速找到一组点最外侧的凸多边形

C#实现凸包算法之Graham 文章目录 C#实现凸包算法之Graham前言示例代码实现思路测试结果结束语 前言 这篇关于凸包算法的文章&#xff0c;本文使用C#和Graham算法来实现凸包算法。 首先消除两个最基本的问题&#xff1a; 什么是凸包呢&#xff1f; 凸包是一个包围一组点的凸多…

IIC协议

1.认识IIC 1、IIC协议概述&#xff1a; IIC&#xff08;Inter-Integrated Circuit&#xff0c;集成电路总线&#xff09;是一种串行通信协议&#xff0c;也被称为I2C协议。它是由荷兰的PHILIPS公司&#xff08;现在philips公司将其半导体部门拆分出来并更名为NXP半导体公司&a…

KVM虚拟化技术学习-KVM管理

二&#xff0c;KVM管理 1.升级配置 1.创建一个空磁盘卷 [rootlocalhost ~]# qemu-img create -f qcow2 /kvm/images/disk2.qcow2 5G Formatting disk2.qcow2, fmtqcow2 size5368709120 encryptionoff cluster_size65536 lazy_refcountsoff 2.修改配置文件 <disk typefi…

SpringCloudAlibaba整合分布式事务Seata

文章目录 1 整合分布式事务Seata1.1 环境搭建1.1.1 Nacos搭建1.1.2 Seata搭建 1.2 项目搭建1.2.1 项目示意1.2.2 pom.xml1.2.2.1 alibaba-demo模块1.2.2.2 call模块1.2.2.3 order模块1.2.2.4 common模块 1.2.3 配置文件1.2.3.1 order模块1.2.3.2 call模块 1.2.4 OpenFeign调用1…

想要成为一个性能测试工程师需要掌握哪些知识?

如果想要成为一个性能测试工程师需要掌握哪些知识&#xff1f; 可以看看下方教程&#xff01; 2023年最新版Jmeter性能测试项目实战讲解&#xff0c;从入门到精通价值8888的实战教程_哔哩哔哩_bilibili2023年最新版Jmeter性能测试项目实战讲解&#xff0c;从入门到精通价值888…

idea不识别yml文件了

添加上这两个就好了

recurdyn实用操作

目录 1.剖视图查看 2.自动重复操作 3.多个面生成FaceSurface 4.查看质心&#xff0c;质量坐标工具Mass 5.履带仿真建立其他特征路面 6.joint单位 7.创建样条插值函数AKISPL 8.导出结果曲线数据 9.后处理各名称含义 1.剖视图查看 取消剖视图需要重新进入&#xff0c;取…

Redis的ZipList和QuickList和SkipList和RedisObject(未完成)

ZipList:压缩列表&#xff0c;为了节省内存而设计的一种数据结构 ZipList是一种特殊的双端链表&#xff0c;是由一系列的特殊编码的连续内存块组成&#xff0c;不需要通过指针来进行寻址来找到各个节点&#xff0c;可以在任意一端进行压入或者是弹出操作&#xff0c;并且该操作…

C# | 凸包算法之Andrew‘s,获取围绕一组点的凸多边形的轮廓点

C#实现凸包算法之Andrew’s 文章目录 C#实现凸包算法之Andrews前言示例代码实现思路测试结果结束语 前言 这篇关于凸包算法的文章&#xff0c;本文使用C#和Andrew’s算法来实现凸包算法。 首先消除两个最基本的问题&#xff1a; 什么是凸包呢&#xff1f; 凸包是一个包围一组…

上海城市开发者社区小聚有感

&#x1f44f;作者简介&#xff1a;大家好&#xff0c;我是Rockey&#xff0c;不知名企业的不知名Java开发工程师 &#x1f525;如果感觉博主的文章还不错的话&#xff0c;请&#x1f44d;三连支持&#x1f44d;一下博主哦 &#x1f4dd;联系方式&#xff1a;he18339193956&…

JAVAWEB(上)

一、HTML和CSS 1.盒子 2.表单 3.机器人回答&#xff1a; 3.1 label标签 <label>标签用于关联表单元素和文本标签&#xff0c;通过为表单元素定义文本标签&#xff0c;可以使表单更易于使用和访问。它的基本语法如下&#xff1a;<label for"input_id">…

LeetCode高频算法刷题记录9

文章目录 1. 二叉树的最大深度【简单】1.1 题目描述1.2 解题思路1.3 代码实现 2. 对称二叉树【简单】2.1 题目描述2.2 解题思路2.3 代码实现 3. 二叉树的直径【简单】3.1 题目描述3.2 解题思路3.3 代码实现 4. 验证二叉搜索树【中等】4.1 题目描述4.2 解题思路4.3 代码实现 5. …

基于51单片机的项目作品汇总

篇记录下自己做的项目作品&#xff0c;作品有实物也有仿真&#xff0c;以实物居多&#xff0c;主要是以单片机为主&#xff0c;单片机有HC32,STM32,STC,51等&#xff0c;本人从事单片机行业5年&#xff0c;拥有丰富的经验。也涉及QT&#xff0c;LVGL&#xff0c;嵌入式&#xf…

Java学习笔记20——常用API

常用API 常用APIMath类Math的常用方法 System类System类常用方法 Object类Object类常用方法 Arrays类Arrays常用方法 基本类型包装类Integer类的概述和使用int和String的相互转换自动装箱和拆箱 日期类Date类Date类的常用方法 SimpleDateFormat类SimpleDateFormat的构造方法Sim…

C++ priority_queue

C priority_queue &#x1f4df;作者主页&#xff1a;慢热的陕西人 &#x1f334;专栏链接&#xff1a;C &#x1f4e3;欢迎各位大佬&#x1f44d;点赞&#x1f525;关注&#x1f693;收藏&#xff0c;&#x1f349;留言 本博客主要内容讲解了优先队列的对应接口的使用 文章目录…

APT(Advanced Persistent Threat高级持续性威胁)——网络安全

APT&#xff08;高级持续性威胁&#xff09; 特点攻击过程防御策略与APT相关的加密技术&#xff08;学习侧重&#xff09; 网络安全APT&#xff08;Advanced Persistent Threat高级持续性威胁&#xff09;是一种复杂的网络攻击&#xff0c;旨在长期潜伏在目标网络中&#xff0c…