解决方案:昇腾aarch64服务器安装CUDA+GCC+CMake,编译安装Pytorch,华为昇腾HPC服务器深度学习环境安装全流程

news2024/12/28 20:22:18

目录

  • 一、安装CUDA和cudnn
    • 1.1、下载CUDA驱动
    • 1.2、安装CUDA驱动
    • 1.3、配置环境变量
    • 1.4、安装cudnn
    • 1.5、安装magma-cuda
  • 二、安装gcc编译器
  • 三、安装CMake
  • 四、安装NCCL
  • 五、编译安装Pytorch
    • 5.1、前提准备
    • 5.2、下载pytorch源码
    • 5.3、配置环境变量
    • 5.4、Pytorch编译安装
    • 5.5、测试Pytorch
  • 特别鸣谢以下博客

最近拿到一台昇腾aarch64服务器,显卡为A100,非常难得,但是与平常配置环境不同,服务器存在三大难题:

  1. 由于安全控制,服务器本身不能访问外网;
  2. 服务器本身为ARM架构(aarch64),网上所有镜像源的ARM版本Pytorch安装包均为CPU版,无法使用CUDA;
  3. 没有管理员权限,只拿到非Root用户;

在经过了6*12+小时的不断实践、试错、排错、询问大佬、寻找解决方案、重头来过等等过程后,总结了一套在昇腾aarch64服务器编译安装支持GPU的Pytorch的解决方案,记录在此。

编译安装Pytorch需要极高的耐心和较强的动手能力,在动手之前,你还需要具备以下条件

  1. 熟练操作一种ssh工具,如MobaXtem,能够通过ssh连接服务器,能读懂Linux系统基本终端命令;
  2. 登录的服务器节点具备显卡;
  3. 具备访问某些网站的能力;
  4. 一颗勇敢的心。

一、安装CUDA和cudnn

1.1、下载CUDA驱动

1.首先查看系统的cuda驱动,可以看到这里是12.3版本,所以我们要下载比其低的CUDA,推荐11.8版本。
在这里插入图片描述
然后输出nvcc --verison,如果是command not found说明没有CUDA驱需要安装,如果输出了一大堆型号信息且版本低于上图的CUDA 驱动版本,说明有CUDA且版本正确,就不要再安装了,跳到#二步骤。

2.进入CUDA官网,根据系统版本选择对应的runfile,注意因为是非root用户,不要用sudo的rpm安装,只能选择下载runfile用sh安装,因为其他版本需要管理员权限才行,(如果不知道机器是什么版本,可以使用uname -m查看架构)

在这里插入图片描述
可以使用wget下载:wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux_sbsa.run
如果没有外网环境用不了wget,使用本机下载这个.run文件后,然后传到服务器,使用sh安装。

1.2、安装CUDA驱动

如果是非root用户,终端cd进入下载好.run文件的目录,使用sh安装:sh cuda_11.8.0_520.61.05_linux_sbsa.run
首先会弹出问你接不接受一个协议,输入accept:
在这里插入图片描述
然后回弹出安装配置:
在这里插入图片描述
↑↓进行上下,←→进行扩展,enter进行选择和取消,A进行扩展选项
我们取消掉Driver选项,因为机器已经安装了Driver,只安装CUDA Toolkit和CUDA documentation:
在这里插入图片描述
然后选择选中Options:
在这里插入图片描述
进入Toolkit Options:
在这里插入图片描述
/usr这种非用户目录的选项都要去掉,我这里全去掉了,另外进入 Change Toolkit Install Path设置cuda安装到自己具有写入权限的路径(一定要是自己的目录,提前建好文件夹,不然你安不了)
在这里插入图片描述

做完Done,回到Options菜单, 更改Library install path (不改不行,它会偷偷写入/var/lib)
在这里插入图片描述
同样设置安装到自己具有写入权限的路径(同样一定要是自己的目录)
在这里插入图片描述
配置好以上两个自定义目录后,选择Done,等待片刻会出现一个summary,说明安装成功:
在这里插入图片描述
并且能在文件目录中看到cuda里的文件都已经安装好了:
在这里插入图片描述

1.3、配置环境变量

安装好后还不能使用nvcc --V,需要配置环境变量:
输入 vim ~/.bashrc进入环境变量,进行更改:

# CUDA
export PATH="/刚刚的路径/cuda-10.1/bin:$PATH"
export LD_LIBRARY_PATH="/刚刚的路径/cuda-11.8/lib64:/刚刚的路径/cuda-11.8/mylib/lib64:$LD_LIBRARY_PATH"

路径要记得换成自己的:
在这里插入图片描述
添加好后,输入wq!保存,然后刷新环境变量:source ~/.profile

最后测试CUDA,输入nvcc -V,如果显示了版本号,则恭喜大获成功:
在这里插入图片描述

1.4、安装cudnn

这里参考了:https://blog.csdn.net/YY007H/article/details/134772564

1.5、安装magma-cuda

magma-cuda主要用于大规模线性代数计算和GPU加速。

首先进入anaconda官方网站:https://anaconda.org/search?q=magma,选择自己对应CUDA版本的安装包,如果是CUDA11.8就找magma-cuda118,后面的版本号就是对应的CUDA号:
在这里插入图片描述
将其下载后,迁移到Anaconda安装目录的pkgs目录下(因为注conda install 缓存文件路径一般就是anaconda/pkgs),如果下载的包名是linux-64_开头的,要重命名把linux-64_去除,以包名开头,不然conda识别不到。然后使用终端cd到pkgs目录那里,输入:

conda install --use-local 包名.tar.bz2

等待片刻,安装完成后输入conda list就可以看到包名了,如果看不到包名的话大概率是包名的问题,比如linux-64_magma-cuda118-2.6.1-1.tar.bz2要改成magma-cuda118-2.6.1-1.tar.bz2。

二、安装gcc编译器

首先测试下机器有没有gcc,输入gcc -v,如果出现以下提示,说明有gcc,该版本为10.3.1,就不用再安装了,但如果低于10版本则必须升级gcc版本。到#三。
在这里插入图片描述
这里可以参考这两篇博客安装好相应环境:
https://zhuanlan.zhihu.com/p/659247505(推荐)
https://blog.csdn.net/qq_36393978/article/details/118678521

安装gcc的时间极其漫长,make的时候一般要至少4个小时,我实测为6小时,所以得提前做好准备。

三、安装CMake

在编译安装Pytorch之前,需要要有CMake编译构建工具。

CMake是一个开源的跨平台构建工具,用于管理软件构建过程中的配置、编译和安装。它提供了一个简洁的跨平台语言(CMakeLists.txt)来描述构建过程的规则,并通过生成与目标开发环境兼容的构建文件(如Makefile 或 Visual Studio 解决方案)来完成实际的构建过程。

首先进入CMake官网:https://cmake.org/download/,找到符合系统架构的.tar.gz格式的安装包:
在这里插入图片描述
这里选择了aarch64的3.27.9安装包,并上传到服务器进行解压:

tar -zxvf cmake-3.27.9-linux-aarch64.tar.gz

解压之后,将解压后的目录改名为CMake方便编写环境变量。

最后一步,打开环境变量文件,如vim ~/.bashrc,在环境变量的最后加入一行即可:

export PATH=你的路径/cmake/bin:$PATH

然后输入cmake --version,如果出现版本号说明CMake安装成功!

四、安装NCCL

这里完全参考这篇博客:https://blog.csdn.net/Scenery0519/article/details/128081062

其最后一步的环境变量配置写在~/.bashrc里面就行。

五、编译安装Pytorch

5.1、前提准备

在正式编译安装Pytorch前,你要确认已经弄好了以下配置:

  1. CUDA驱动和CUDA:使用nvidia-smi和nvcc -V均有值,并且已经安装并配置了CUDNN; 在这里插入图片描述
    2.具备10版本以上的gcc编译环境:使用gcc -v查看
    在这里插入图片描述
    3.安装了Anaconda或者Miniconda:输入conda env list可以看到已有的虚拟环境;
    4.安装好了cmake,即输入cmake --version可以看到cmake的版本号

5.2、下载pytorch源码

源码编译安装pytorch前,需要下载完整的pytorch源码:https://github.com/pytorch/pytorch/tree/v1.10.2-rc1

首先使用git clone --recursive https://github.com/pytorch/pytorch开始克隆源码,如果碰到网络问题需要设置git代理:

# git 代理设置,前提是你有代理
# git config --global http.proxy "localhost:端口号"
# git config --global https.proxy "localhost:端口号"
# 代理设置好,下载完后,就可以取消了,否则可能影响你其他操作
# 取消代理 
# git config --global --unset http.proxy 
# git config --global --unset https.proxy

如果没有代理,可以通过以下方式进行下载:

# 如果网络不行可以试着通过镜像地址 或 gitee 克隆
# 如 git clone --recursive https://hub.yzuu.cf/pytorch/pytorch
# 如 git clone --recursive https://gitee.com/ascend/pytorch.git

在下载好pytorch源码后,非常重要的一步就是必须递归下载其中的链接包,这里使用git submodule递归下载:

git submodule sync
git submodule update --init --recursive

安装好后,你的pytorch包一般在2.5GB以上,如果文件大小过小,说明你有些递归的包没下载完整。

5.3、配置环境变量

使用vim ~/.bashrc或者使用mobaXtem的文件树方式打开环境变量文件,里面的内容配置如下:
在这里插入图片描述

  • export USE_CUDA=1:用于设置一个名为 USE_CUDA 的环境变量,并将其值设置为 1。可能用于告知后续的脚本或程序,在构建过程中需要使用 CUDA 进行加速或其他相关操作。
  • export USE_SYSTEM_NCCL=ON:设置一个环境变量 USE_SYSTEM_NCCL 的值为 ON,表明使用系统中已安装的 NCCL 库。
  • CUDA 相关的环境变量:设置 CUDA 安装路径、相关 bin 和 lib 路径,同时还指定了 CMake 所使用的 CUDA 编译器和 CUDNN 库的路径。
  • CMAKE相关的环境变量:添加了 CMake 可执行文件的路径到 PATH 环境变量中、设置 CMake 的前缀路径,用于指定额外的 CMake 模块和包的位置。
  • export MAX_JOBS=4:设置一个名为 MAX_JOBS 的环境变量,并将其值设置为 4,可能用于指定并行编译任务的最大数量。这个按机器进行设置,太大了容易崩溃。
  • GCC相关的环境变量:包括gmp、mpc、mpfr、gcc以在运行时正确链接这些库。

5.4、Pytorch编译安装

cd进入Pytorch目录,采用直接安装的方式进行安装:

# 直接安装
python setup.py install --cmake
# 或者 编译成 whl安装文件,编译成功后在dist文件下面,可通过 pip install torch-xxxx.whl 安装
python setup.py bdist_wheel --cmake

安装过程大概在40分钟到2小时不等:
在这里插入图片描述

5.5、测试Pytorch

安装完成后,激活虚拟环境,然后输入python,然后输入一下代码:

import torch
print(torch.__version__)
print(torch.cuda.is_available())

如果显示True即大功告成!

如果报错:NameError: name ‘sympy’ is not defined‘,则需要在conda里再安装sympy模块,如果还是报错,需要安装mpmath,反正就import torch报啥错就补上相关的环境就好。

最后可以再运行以下代码查看显卡数量和显卡型号

print(torch.cuda.device_count())
print(torch.cuda.get_device_name(0))

就能看到torch成功调用到了A100啦!

特别鸣谢以下博客

安装CUDA:
https://www.cnblogs.com/li-minghao/p/13089405.html

安装CUDNN:
https://blog.csdn.net/YY007H/article/details/134772564

安装gcc:
https://blog.csdn.net/qq_36393978/article/details/118678521
https://blog.csdn.net/qq_38308388/article/details/127574517

安装nccl:https://blog.csdn.net/Scenery0519/article/details/128081062

安装pytorch:
https://blog.csdn.net/CSDN_ten/article/details/132636688

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1811932.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

你想考取名牌大学吗?那就按我说的学与做

你想考取名牌大学吗?那就按我说的学与做 我讲的这一秘笈,是自己学生时代就读时的实践体会。 本人并不比别人聪慧,当年也正是凭借这一学习技巧,而获得各科均衡且良好成绩考取大学的。在上世纪八十年代,有多少人能考取…

比起本地渲染,渲染100网渲平台有哪些优势?渲染100邀请码1a12

渲染100是知名的网渲平台,比起本地渲染,它有以下几个优势。 1、价格低 渲染100价格便宜,15分钟2毛60分钟8毛的价格非常适合小图,一张图平均2.1元左右,非常的低了,选择渲染100可以节省成本。2、速度快 渲染…

STM32移植Easylogger输出

简介 EasyLogger 是一款超轻量级 、高性能的 C 日志库,非常适合对资源敏感的软件项目,例如:IoT 产品、可穿戴设备、智能家居等等。相比 log4c、zlog 这些知名的 C 日志库,EasyLogger 的功能更加简单,提供给用户的接口…

20240611在飞凌OK3588-C核心板的Linux系统下打通UART0和UART3

20240611在飞凌OK3588-C核心板的Linux系统下打通UART0和UART3 2024/6/11 7:45 Z:\OK3588_Linux_fs\kernel\arch\arm64\boot\dts\rockchip\OK3588-C-common.dtsi &pinctrl { m2 { net_m2_rst_gpio: net_m2_rst_gpio { rockchip,pins <1 RK_PC6 RK_…

轻松掌握两种方法,教你jpg图片怎么改大小kb

在数字时代&#xff0c;我们经常需要在网络上传、分享或存储图片&#xff0c;而其中一项常见的挑战就是将图片的文件大小调整到符合特定要求。对于JPEG格式的图片&#xff0c;改变其大小&#xff08;以KB为单位&#xff09;是一种常见的需求&#xff0c;特别是在网络上传限制或…

国产Sora真的来了!免费体验!实测快手可灵Kling文生视频大模型(附申请方法)

文章首发于公众号&#xff1a;X小鹿AI副业 大家好&#xff0c;我是程序员X小鹿&#xff0c;前互联网大厂程序员&#xff0c;自由职业2年&#xff0c;也一名 AIGC 爱好者&#xff0c;持续分享更多前沿的「AI 工具」和「AI副业玩法」&#xff0c;欢迎一起交流~ 自从年初&#xff…

基于STM32开发的智能鱼缸控制系统

目录 引言环境准备智能鱼缸控制系统基础代码实现&#xff1a;实现智能鱼缸控制系统 4.1 水温传感器数据读取4.2 水泵与加热器控制4.3 水位传感器数据读取4.4 用户界面与数据可视化应用场景&#xff1a;水族箱管理与优化问题解决方案与优化收尾与总结 1. 引言 智能鱼缸控制系…

iOS18首个Beta测试版发布,功能介绍附beta升级办法!

今天凌晨&#xff0c;一年一度的苹果WWDC24开发者大会正式开幕&#xff0c;发布了iOS 18、iPadOS 18、macOS Sequoia、watch OS11等新系统。 大会结束后&#xff0c;苹果火速发布了首个iOS 18开发者Beta版&#xff0c;目前有开发者资格的用户已经可以下载体验尝鲜了。 本次更新…

SpringSecurity入门(二)

8、获取用户认证信息 三种策略模式&#xff0c;调整通过修改VM options // 如果没有设置自定义的策略&#xff0c;就采用MODE_THREADLOCAL模式 public static final String MODE_THREADLOCAL "MODE_THREADLOCAL"; // 采用InheritableThreadLocal&#xff0c;它是Th…

VSFTP本地用户访问-设置

1、本地用户基本配置档设置如下 vim /etc/vsftpd/vstfpd.conf local_enableYES -------允许本地用户登陆 write_enableYES -----允许执行FTP命令&#xff0c;如果禁用&#xff0c;将不能进行上传、下载、删除、重命名等操作 local_umask022 ---------本地用户上传umask值…

公用nacos,实现只调用本机相应服务,不出现负载均衡到别人机器上

当我们有两个研发同时在调试一个微服务模块时&#xff0c;你和对方本地都会启动服务&#xff0c;这就导致在nacos会同时注册两个实例。默认情况下请求这个服务&#xff0c;具体处理请求的程序会在你和对方之间来回轮询&#xff0c;即一下你的服务一下对方的服务。 其结果就导…

重学java 66.IO流 转换流

且敬我疯狂&#xff0c;生命中不败的篇章 —— 24.6.11 一、字符编码 计算机中储存的信息都是用二进制数表示的&#xff0c;而我们在屏幕上看到的数字、英文、标点符号、汉字等字符是二进制数转换之后的结果。[按照某种规则&#xff0c;将字符存储到计算机中&#xff0c;称为编…

10_3、C++继承与派生:派生类成员访问

派生类成员访问 作用域分辨符虚基类概念及用法虚基类派生类的构造函数 赋值兼容规则 作用域分辨符 如果派生类中存在和基类中完全相同的函数&#xff0c;将发生同名覆盖。如果在派生类中存在一个和基类某数据成员同名的数据成员&#xff0c;或者和基类某成员函数的名称和参数表…

采用PHP语言(医院安全不良事件上报系统源码)医院不良事件 各类事件分析、分类、处理流程

医疗安全不容忽视&#xff01; 医疗安全&#xff08;不良&#xff09;事件是指在临床诊疗活动中以及医院运行过程中&#xff0c;任何可能影响患者的诊疗结果、增加患者的痛苦和负担并可能引发医疗纠纷或医疗事故&#xff0c;以及影响医疗工作的正常运行和医务人员人身安全的因…

我给KTV服务生讲解防抖,他竟然听懂了

端午节三天假期&#xff0c;的最后一天&#xff0c;我和朋友闲来无事&#xff0c;想着去唱会儿歌吧&#xff0c;好久不唱了&#xff0c;于是吃了午饭&#xff0c;石景山就近找了一家KTV&#xff0c;我们团好了卷就过去了。 装修还算不错&#xff0c;很快找到服务生&#xff0c…

【创建SpringBoot项目常见问题】保姆级教程(踩过的坑)

文章目录 特别提醒无效目标发行版 18类文件具有错误的版本 61.0, 应为 52.0Spring 项目运行,控制台乱码Spring 配置文件乱码引入插件&#xff0c;idea找不到 在创建第一个SpringBoot项目时&#xff0c;我出现了很多的配置错误&#xff0c;接下来与大家分享一下解决方法。希望我…

讯方技术与华为终端签署鸿蒙合作协议,将为企业助培百万鸿蒙人才

1月18日&#xff0c;鸿蒙生态千帆启航仪式在深圳举行&#xff0c;华为宣布HarmonyOS NEXT鸿蒙星河版开发者预览面向开发者开放申请&#xff0c;这意味着鸿蒙生态进入第二阶段&#xff0c;将加速千行百业的应用鸿蒙化。讯方技术总裁刘国锋、副总经理刘铭皓应邀出席启航仪式&…

基于esp8266_点灯blinker_智能家居

文章目录 一 实现思路1 项目简介2 项目构成3 代码实现4 外壳部分 二 效果展示UI图片 一 实现思路 摘要&#xff1a;esp8266&#xff0c;mixly&#xff0c;点灯blinker&#xff0c;物联网&#xff0c;智能家居&#xff0c;3donecut 1 项目简介 1 项目效果 通过手机blinker app…

17- Redis 中的 quicklist 数据结构

在 Redis 3.0 之前&#xff0c;List 对象的底层数据结构是双向链表或者压缩列表&#xff0c;然后在 Redis 3.2 的时候&#xff0c;List 对象的底层改由 quicklist 数据结构实现。 其实 quicklist 就是【双向链表 压缩列表】组合&#xff0c;因为一个 quicklist 就是一个链表&…

解锁 DevOps 精通:成功的综合指南

在动态的软件开发领域&#xff0c;要掌握 DevOps&#xff0c;需要对其核心原则有细致的了解&#xff0c;并采取战略性实施方法。DevOps 是一种协作方法&#xff0c;它将软件开发 (Dev) 和 IT 运营 (Ops) 结合起来&#xff0c;以自动化和简化软件交付流程。它旨在缩短开发周期、…