超算云服务深度学习环境配置及使用方法

news2024/10/6 13:26:42

目录

一、环境配置

1. 通过SSH连接服务器

2. 查看服务器已安装模块

3. 调用Anaconda模块

4. 创建Python3.7的虚拟环境(不是必须。不需要的话可以使用默认安装的环境)

5. 虚拟环境下安装CUDA11.6+Pytorch1.12.1

二、使用方法

1、提交作业

2、其他命令

3、注意事项


一、环境配置

1. 通过SSH连接服务器

点击桌面SSH图标,显示当前账号可访问的云服务器,点击想要连接的服务器。

显示当前页面表明服务器连接成功。

2. 查看服务器已安装模块

在SSH终端输入命令 module avail

踩过的坑:如果输入module avail显示command module not found,则先输入source path/path/module.sh(一般这里路径会在连接服务器时有提示),再输入module avail。通常服务器已经预先装好anaconda,cuda等常用环境。

3. 调用Anaconda模块

module load anaconda/2021.05

4. 创建Python3.7的虚拟环境(不是必须。不需要的话可以使用默认安装的环境)

conda create -n my_name python=3.7 # my_name 是虚拟环境名字

5. 虚拟环境下安装CUDA11.6+Pytorch1.12.1

sources activate my_name # 如果创建了虚拟环境,先激活虚拟环境。没创建则跳过
pip install torch==1.12.1+cu116 torchvision==0.13.1+cu116 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu116
# 安装成功,但通过print(torch.cuda.is_available())返回False,主要是未向云服务器请求分配GPU的原因
# 则需要申请GPU分配后才可以使用GPU

GPU分配申请:

1、salloc   --gpus=1    抢占一个计算节点
2、squeue    查看节点名,最后一列
3、ssh   gxxx   登录计算节点

此时,配置Pytorch环境完成!

二、使用方法

1、提交作业

提交作业,需要先向服务器上传 模型 和设置好的 .sh 文件。使用桌面上的 快传 

.sh 文件的配置模板如下:(编辑器,编辑脚本中第三行,将xxx改为实际用conda创建的虚拟环境名,最后一行python命令后xxx.py修改为自己的代码文件或完整命令即可)

#!/bin/bash
module load anaconda/2021.05
source activate xxx 
export PYTHONUNBUFFERED=1
python xxx.py

然后在服务器中,进入到该文件夹,利用如下命令提交作业。

sbatch --gpus=卡数 ./run.sh

2、其他命令

  • 查看作业情况

squeue
  • 结束作业
scancel  作业号(作业号执行squeue即可查看到)
  • 实时查看输出文件
tail -f   文件名(文件夹下的.out文件)
  • 查看详细历史作业
sacct -u $USER -S 2023-01-01-00:00    -E now --field=jobid,partition,jobname,user,nnodes,ncpus,nodelist,submit,start,end,elapsed,state,time

-u paratera是指查看paratera账号的历史作业,
-S是开始查询时间,
-E是截止查询时间,
–format定义了输出的格式,
jobid是指作业号,
partition是指提交队列,
user是指超算账号名,
nnodes是节点数,
nodelist是节点列表,
start是开始运行时间,
end是作业退出时间,
elapsed是运行时间,
state是作业结束状态。
sacct --helpformat可以查看支持的输出格式。
sacct的其他参数选项可通过sacct --help查看。

  • 查看作业及查看每个作业的GPU利用率
parajobs

3、注意事项

我们提交作业用的是sbatch,而不是salloc。

主要是因为salloc这样的方式,会受到本地网络的影响,而sbatch提交的不会,即便您本地电脑关机,这样提交到计算节点的作业也不会受影响。另外,通过salloc抢占的节点,建议通过 :scancel  JOBID 这个命令取消作业,如果不采用该命令取消,有一种情况就是,退出的时候可能刚好本地网络波动导致作业没有取消成功,就一直挂着计费,导致浪费。因此,退出后最好执行squeue命令查看下是否成功退出了,没有退出的话,就执行scancel命令取消。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/464001.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CKA证书模拟考试24道题

CKA证书模拟24道题-题解 快捷别名 alias kkubectl # will already be pre-configured export do"--dry-runclient -o yaml" # k create deploy nginx --imagenginx $do export now"--force --grace-period 0" # k delete p…

FPGA学习_01_基础知识(有点劝退,心灵弱小者勿入)

有些人喜欢直接拿开发板看教程开干,我认为了解点历史发展没什么坏处,一些FPGA的基础知识也是同样重要的。 1.1. FPGA的主要厂商 XILINX 占据FPGA绝大部分的市场份额 ALTERA 被 INTEL 167亿美元收购 改名为INTEL LATTICE 被神秘的中国公…

成就客户 | 企业如何培养“数据文化”?Smartbi教你3个步骤

随着数字化浪潮的发展,越来越多企业在实际工作中通过采用BI等各种数据处理工具提升工作效率。诚然,BI 工具可以帮助员工更好地理解和分析数据,从而发现业务中的机遇和挑战,然而如果仅仅只是提供工具和技术,而不重视培养…

浅谈“孔乙己的长衫“是脱不下来还是难脱下?

名人说:往者不可谏,来者犹可追。——《论语微子篇》 创作者:Code_流苏(CSDN) ★温馨提示:以下仅代表个人观点,不代表其它任何人看法。 目录 〇、缘由一、社会对于学历和职业之间的关系认知是怎样的?二、学…

密歇根大学Python系列之二:Python 编程进阶

Python如今无疑是全球最受欢迎的编程语言。它最大的好处,就是让越来越多的人通过它加入了编程的世界。学习Python是个好主意。无论你是一个初学者还是C或Java专家,都无需担心其派不上用场。 Paul Resnick 教授是密歇根大学迈克尔科恩学院的信息学教授&a…

解决软件项目冲突的5个重点

1、针对人员冲突管理 信任和沟通是解决人员冲突的关键。常见的人员冲突多表现为不信任和沟通不畅。 企业高层需要对项目经理充分信任和授权,以充分发挥项目经理的能力。项目经理对项目至关重要,如果项目经理频繁换人,高层领导变动&#xff0c…

云原生-k8s核心概念(pod,deploy,service,ingress,configmap,volume)

Gitee-k8s学习 云原生实战-kubernetes核心实战 namespace Namespace是kubernetes系统中的一种非常重要资源,它的主要作用是用来实现多套环境的资源隔离或者多租户的资源隔离 Pod Pod可以认为是容器的封装,一个Pod中可以存在一个或者多个容器。 De…

C#开发的OpenRA的游戏用户的添加

C#开发的OpenRA的游戏用户的添加 OpenRA游戏前面在游戏开始的按钮的界面, 可以看到可以添加游戏用户,小规模战斗的界在,就是默认两个用户, 一个是玩家,一个是电脑的AI, 如果感觉少了,可以添加多几个电脑AI,这样做也是可以的。 不过在代码里是怎么样实现添加用户的呢…

word表格

新建(修改)“表格”样式 新建和修改样式的设置差不多,这里放在一起介绍 设置样式时,注意按图中的步骤设置,以免导致格式的应用出错,这里分四步: 格式应用于 “整个表格”:“字体”…

启英泰伦智能语音芯片在语音控制吸顶灯上的应用解决方案

随着智能控制技术的不断发展,人们对于家用电器的功能需求越来越多,智能吸顶灯是一种常见的照明设备,通常被安装在室内房顶上面,除了具有传统吸顶灯的照明功能外,还添加了智能控制和自动化功能,如远程控制、…

python Import Error: cannot import name SystemRandom

目录 一、前言二、解决方法三、改名之后带来的问题解决四、总结 一、前言 今天运行项目里面的文件,发现我简单的调试都不行,导入包就是不行,但是我新建一个窗口,把运行文件复制到另一个目录下就可以,就很奇怪。 报错信…

速卖通正式推出全托管,卖家竞争进入新阶段

全托管来了,卖家就能安心做甩手掌柜吗? 正式推出全托管 显而易见,越来越多的平台正在转向全托管模式。 近日,速卖通在2023年度商家峰会上,正式推出了全托管服务模式。官方表示,托管是对速卖通平台商家服…

市级大数据中心大数据资源平台概要设计方案(ppt可编辑)

本资料来源公开网络,仅供个人学习,请勿商用,如有侵权请联系删除。 大数据管理中心发展背景 为建设卓越全球城市,实现政府治理能力现代化目标,由市大数据中心牵头,在政务公共数据管理和互联网政务服务方面…

一场没有英伟达/高通的上海车展

两年一度的上海国际车展,在2023年迎来「质」的变化。一方面,电动化浪潮已成定局,无论是传统自主品牌,还是合资品牌,新能源车型成为展区的主角。另一方面,零部件供应商的合纵连横,中外合作&#…

dubbogo如何实现远程配置管理 -- 阅读官方文档

dubbo-go 中如何实现远程配置管理? 之前在 Apache/dubbo-go(以下简称 dubbo-go )社区中,有同学希望配置文件不仅可以放于本地,还可以放于配置管理中心里。那么,放在本地和配置管理中心究竟有哪些不一样呢&…

Android 各大厂面试题汇总与详解(持续更新)

介绍 目前网络中出现了好多各种面试题的汇总,有真实的也有虚假的,所以今年我将会汇总各大公司面试比较常见的问题,逐一进行解答。会一直集成,也会收集大家提供的面试题,如有错误,请大家指出,经过…

原生小程序如何使用pdf.js实现查看pdf,以及关键词检索高亮

1.下载pdf.js库文件 前往 pdf.js 的 官网 下载库文件,下哪个版本都可以,后者适用于旧版浏览器,所以我下载的是后者 下载完成后,因为微信小程序打包的限制,我将库文件放到项目的后台系统了,在h5端处理会比在…

2023年淮阴工学院五年一贯制专转本数字电子技术考试大纲

2023年淮阴工学院五年一贯制专转本数字电子技术考试大纲 一、考核对象 本课程的考核对象是五年一贯制高职专转本电子科学与技术专业普通在校生考生。 二、考试目的及总体要求 通过本课程的考试,检查学生对掌握数字电路的基础理论知识的掌握程度,是否…

5大值得推荐的客户协作平台

提起在线文档平台,我们应该都会想到最常用的金山文档,石墨文档等,但是它们也只是实现了文档的在线多人协作,并没有形成完整系统的企业知识体系,文档协作的最高境界是要实现像书一样沉淀团队知识,像水一样促…

React | React脚手架解析

✨ 个人主页:CoderHing 🖥️ React.js专栏:React脚手架解析 🙋‍♂️ 个人简介:一个不甘平庸的平凡人🍬 💫 系列专栏:吊打面试官系列 16天学会Vue 11天学会React Node专栏 &#…