DCU集群搭建虚拟环境方法简介

news2024/11/25 0:42:59

1.conda安装方法:

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh  #下载miniconda安装包

chmod 750 Miniconda3-latest-Linux-x86_64.sh  #添加执行权限

bash ./Miniconda3-latest-Linux-x86_64.sh  #安装下载的minnconda3

下载安装包
修改权限并安装
查看安装的conda版本
2.集群安装dcu版本的pytorch安装包
格式:
conda create -n 虚拟环境名 python=3.8

(1)集群一般会预置适配的安装包,路径为:/public/software/apps/DeepLearning/whl
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

环境搭建方法(以安装dtk2304下面的torch1.13-py38为例):

conda create -n torch_test_env python=3.8 -y  # torch_test_env为虚拟环境名,可以自定义 ,-y 表示yes,无需在安装过程中再手动输入

conda activate torch_test_env  #激活虚拟环境

pip install /public/software/apps/DeepLearning/whl/dtk-23.04/pytorch/torch-1.13/py38/torch-1.13.1+git55d300e.abi0.dtk2304-cp38-cp38-manylinux2014_x86_64.whl -i https://pypi.mirrors.ustc.edu.cn/simple     #安装集群的torch包,-i 后面表示镜像源,可以加速安装

#其他不涉及加速的包可以正常pip install 安装

注意:选择的torch版本对应的python需要和创建环境时的python相匹配

在这里插入图片描述
验证:

salloc -p wzhdnormal -N1 -n32 --gres=dcu:4 #申请资源。-p后面表示队列名,可以通过whichpartition查看到。wzhdnormal其中hd表示dcu队列 ,-N 表示节点数,-n 表示核心数,dcu:4表示卡数,一般核:卡=8:1,即若申请两张卡,对应核数为16,salloc -p wzhdnormal -N1 -n16 --gres=dcu:2

ssh 计算节点 #登录计算节点,squeue查看作业运行状态,nodelist下面对应的为计算节点
conda activate torch_test_env  #重新进入虚拟环境
module switch compiler/dtk/23.04 #切换为对应的dtk版本
python
import torch
torch.cuda.is_available() #显示true表示安装成功

注意:验证完请务必取消作业,scancel JOBID

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

作业提交参考脚本:

test.slurm #自定义脚本名

#!/bin/bash
#BATCH -J test                         # 作业名
#SBATCH -p wzhdnormal                  # 队列名  使用whichpartition 查看
#SBATCH -N 1                            # 节点数量
#SBATCH --ntasks-per-node=1           # 每节点运行进程数
#SBATCH -c 8                                   # 每个进程所用cpu核数
#SBATCH --gres=dcu:1                    # 每个节点申请的dcu数量
#SBATCH -o %j.out                       # 作业标准输出
#SBATCH -e %j.out                       # 作业错误输出,这里两种输出放在了一个文件中显示

#加载conda环境
source ~/miniconda3/etc/profile.d/conda.sh
conda activate  torch_test_env
#加载module
module purge
module load compiler/devtoolset/7.3.1
module load mpi/hpcx/gcc-7.3.1
module load compiler/dtk/23.04

#运行程序
python -u main.py 

提交作业:sbatch 脚本名
查看作业:squeue
取消作业:scancel 作业号 (作业号:执行squeue,jobid下面的数字)
实时查看输出:tail -f 输出文件名

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1178254.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

FreeRTOS源码阅读笔记1--task.c

在FreeRTOS中,创建任务有两种方式:动态创建和静态创建。区别就是:动态创建任务的栈和任务TCB是由操作系统动态分配(malloc)内存空间,任务删除时可以释放内存(free);而静态…

单链表(无头单项非循环)

文章目录 前言概述链表的实现初始化遍历单链表创建新节点尾插头插尾删头删单链表的查找在pos位置之前插入一个节点在pos位置删除节点在pos位置后插入节点删除pos后一个节点销毁 结尾 前言 链表是一种物理存储结构上非连续、非顺序的存储结构,数据元素的逻辑顺序是通…

HDFS系统操作命令大全

一,前言 HDFS作为分布式存储的文件系统,有其对数据的路径表达方式 HDFS同linux系统一样,均是以/作为根目录的组织形式 linux:/usr/local/hello.txt HDFS:/usr/local/hello.txt 二,如何区分呢? L…

【数据结构】树与二叉树(三):二叉树的定义、特点、性质及相关证明

文章目录 5.1 树的基本概念5.1.1 树的定义5.1.2 森林的定义5.1.3 树的术语5.1.4 树的表示 5.2 二叉树5.2.1 二叉树1. 定义2. 特点3. 性质引理5.1:二叉树中层数为i的结点至多有 2 i 2^i 2i个,其中 i ≥ 0 i \geq 0 i≥0。引理5.2:高度为k的二叉…

yolov5--ptq--qat量化之敏感层分析

敏感层分析,应该是发生在ptq量化之前进行分析的操作,经过该操作,可得出哪些层不适合进行量化,则在接下来ptq时可以手动关闭这些层的量化。 进入敏感层分析函数sensitive_analysis中, 具体流程为: 首先验证…

打印机共享连接0x000003e3错误

重点重点:如使用下面教程还不行的朋友,请这样操作。 不管主机还是客户机,都运行“局域网共享一键修复工具”,并选择“简单共享(无密码)” 不管主机还是客户机,都操作一次此教程。 不管主机还是客…

Langchain-Chatchat项目:5.1-ChatGLM3-6B工具调用

在语义、数学、推理、代码、知识等不同角度的数据集上测评显示,ChatGLM3-6B-Base 具有在10B以下的基础模型中最强的性能。ChatGLM3-6B采用了全新设计的Prompt格式,除正常的多轮对话外。同时原生支持工具调用(Function Call)、代码…

如何用思维导图拆书

思维导图是一种非常有用的工具,可以被广泛应用于不同领域的人群。 阅读是我们获取知识和提升自己的重要途径,而做好读书笔记有助于加深对书中内容的理解和记忆。其中,使用思维导图作为读书笔记的工具,不仅能够帮助我们更好地整理…

lombok依赖介绍(帮助我们消除冗长代码,如get,set方法)

前言 lombok 是一个 Java 工具库,通过注解的方式,简化 Java 开发。要想使用 lombok 中的注解,我们需要先引入依赖,推荐看idea必装插件EditStarters(快速引入依赖),lombok是⼀款在编译期⽣成代码…

k8s提交spark应用消费kafka数据写入elasticsearch7

一、k8s集群环境 k8s 1.23版本,三个节点,容器运行时使用docker。 spark版本时3.3.3 k8s部署单节点的zookeeper、kafka、elasticsearch7 二、spark源码 https://download.csdn.net/download/TT1024167802/88509398 命令行提交方式 /opt/module/spark…

技术分享 | 被测项目需求你理解到位了么?

需求分析是开始测试工作的第一步,产品会先产出一个需求文档,然后会组织需求宣讲,在需求宣讲中分析需求中是否存在问题,然后宣讲结束后,通过需求文档分析测试点并且预估排期。所以对于需求的理解非常重要。 需求文档 …

壹[1],QT自定义控件创建(QtDesigner)

1,环境 Qt 5.14.2 VS2022 原因:厌烦了控件提升的繁琐设置,且看不到界面预览显示。 2,QT制作自定义控件 2.1,New/其他项目/Qt4 设计师自定义控件 2.2,设置项目名称 2.3,设置 2.4,设…

YOLOv7改进策略:一种新颖的可扩张残差(DWR)注意力模块,增强多尺度感受野特征,助力小目标检测

💡💡💡本文全网首发独家改进:一种新颖的可扩张残差(DWR)注意力模块,加强不同尺度特征提取能力,创新十足,独家首发适合科研 推荐指数:五星 DWR | 亲测在多个数据集能够实现涨点,多尺度特性在小目标检测表现也十分出色。 💡💡💡Yolov5/Yolov7魔术师,独…

【Java 进阶篇】Cookie 使用详解

欢迎阅读本篇博客,我们将深入研究 Java 中的 Cookie,从入门到精通,包括 Cookie 的基本概念、原理、使用方法以及一些高级技巧。无论你是新手还是有经验的开发者,希望这篇博客对你有所帮助。 第一部分:Cookie 是什么&a…

网络原理---封装和分用

文章目录 什么是封装和分用?封装应用层传输层网络层数据链路层物理层 分用物理层数据链路层网络层传输层应用层 什么是封装和分用? 我们前面讲过协议会分层,每一层都有各自的功能。而在数据传输的过程中,得按照顺序把每一层协议都…

数仓分层能减少重复计算,为啥能减少?如何减少?这篇文章包懂!

很多时候,看一些数据领域的文章,说到为什么做数据仓库、数据仓库要分层,我们经常会看到一些结论:因为有ABCD…等等理由,比如降低开发成本、减少重复计算等等好处 然后,多数人就记住了ABCD。但是&#xff0…

VScode连接Xshell 并解决【过程试图写入的管道不存在】报错

一.下载vscode 国内镜像: https://vscode.cdn.azure.cn/stable/6c3e3dba23e8fadc360aed75ce363ba185c49794/VSCodeUserSetup-x64-1.81.1.exe二.打开vscode在扩展搜索SSH并安装 三.添加主机 按F1选择添加新的ssh主机 按格式输入后在左边会出现电视的图标 之后输入…

十一、K8S之持久化存储

持久化存储 一、概念 在K8S中,数据持久化可以让容器在重新调度、重启或者迁移时保留其数据,并且确保数据的可靠性和持久性。 持久化存储通常用于程序的状态数据、数据库文件、日志文件等需要在容器生命周期之外的数据,它可以通过各种存储解…

项目管理之如何监控项目健康状态

项目管理是一个复杂且关键的过程,涉及到多个关键因素,包括项目名称、项目管理委员会成员、项目经理、项目生命周期的各个阶段以及资源泳道等。如何有效地监控项目的健康状态是确保项目成功的重要环节。本文将详细介绍项目管理全景图及其在风险识别中的应…

【差旅游记】公乌素遇到的那些司机师傅

哈喽,大家好,我是雷工! 出差人出差在外,城际间靠各种公共交通工具,但到了目的地的城镇,最后一公里往往少不了打车,或出租车,或摩的三轮车。 不同于公共交通,像飞机火车高…