服务器操作手册——Slurm常用命令

news2025/1/11 16:59:57

文章目录

    • 引言
    • 正文
      • Slurm集群、节点、分区介绍
      • Salloc申请节点并进入
      • 查看已经申请的节点
      • 终止作业
      • 查看集群情况
      • 退出节点
      • 具体运行问题
        • 无法联网问题
        • 安装的包找不到

引言

  • 实验室的服务器的操作指令,之前同学写的不够详细,或者说有点乱,这里做一个简单的整理,方便以后使用实验室的服务器。
  • 同时这个博客并不是起到一个全面介绍的作用,主打的是一个快速开始,提交任务,直接能够跑。
  • 省流:
    • slurm是按照分区来组织节点,每一个节点是一个完整的计算机,所以需要制定节点和分区。

正文

Slurm集群、节点、分区介绍

  • 省流,直接看图

    • 申请节点需要指定分区在这里插入图片描述
  • Slurm介绍

    • Slurm(Simple Linux Utility for Resource Management)是一个开源的、高度可扩展的集群管理和作业调度系统,用于在Linux集群环境中管理资源。它支持许多类型的计算,包括单任务、多任务、并行任务和管道任务,并且可以管理和调度资源使用,如CPU、内存和磁盘空间。
  • 分区和节点

    • SLURM使用节点(nodes)来表示计算集群中的物理或虚拟机器,并将它们组织成一个或多个分区(partitions)
  • 分区

    • 分区(Node Partition)是指将计算集群中的节点划分为逻辑组的过程。每个分区可以包含一个或多个节点,并可以按照特定的规则或条件进行配置。这些规则可以基于节点的物理特性(例如CPU、内存、网络带宽)或节点所属的组织或用户。
  • 节点列表

    • 与每个分区相关联的是节点列表(Node List)。节点列表是一个包含属于该分区的所有节点的清单。它指定了在特定分区中可用的计算资源。这样,用户可以根据其需求选择适合的分区和节点来提交任务。
  • 节点

    • "节点"通常指的是集群中的一台独立的计算机。每个节点都有自己的处理器(CPU)、内存、存储设备,以及其他硬件资源,如图形处理器(GPU)。节点通过网络连接在一起,形成一个集群,可以一起处理大规模的计算任务。

Salloc申请节点并进入

  • salloc的功能介绍:申请计算节点,然后登录到申请到的计算机节点上运行指令。

  • 常用参数,以这条指令salloc -p debug -N1 -n1 --gres=gpu:2 -q low -t 12:00:00为例子

    • -p debug:这是指定要使用的分区(partition)。在这个例子中,你正在请求在 “debug” 分区中运行你的作业。
    • -N1:这是指定要请求的节点数量。在这个例子中,你正在请求一个节点。
    • -n1:这是指定每个节点上的任务数。在这个例子中,你正在每个节点上请求一个任务。
    • –gres=gpu:2:这是指定要请求的通用资源(Generic Resources)。在这个例子中,你正在请求两个 GPU。
    • -q low:这是指定作业的优先级。在这个例子中,你正在设置作业的优先级为 “low”。
    • -t 12:00:00:这是指定作业的最大运行时间。在这个例子中,你正在设置作业的最大运行时间为 12 小时。
  • 运行情况具体如下
    在这里插入图片描述

  • 进入对应的操作节点,注意,这里要输入节点序列

  • 输入指令 ssh 节点名称

在这里插入图片描述

查看已经申请的节点

  • 查看目前系统中已经申请的节点,会显示相关作业和节点的信息,包括作业ID、状态、所在分区和申请节点等,具体执行情况如下
    在这里插入图片描述
  • ST作业状态,相关参数说明

在这里插入图片描述

  • 说明有三个节点是已经完成了任务,在等待分配,这里为了节省资源,需要将对应的人物进行终止就行。

终止作业

  • 对于已经完成作业节点,需要取消或终止正在运行或排队的作业,释放资源或者终止作业执行
scancel <job_id>
  • 执行效果,输入之前已经无用的三个作业。

查看集群情况

  • sinfo查看当前数slurm中集群的节点分布情况

在这里插入图片描述

退出节点

  • 直接输入exit即可,运行如下

在这里插入图片描述

具体运行问题

无法联网问题

  • 无法安装环境,下载任何包总是显示网络问题,ping百度不通

在这里插入图片描述

  • 注意,总共有两种状态,一种是总服务器,还有一种选择了对应的节点进行登陆。在节点是没有办法进行联网的,需要推出节点,到对应的总服务器才能进行环境安装。

安装的包找不到

  • 明明已经安装了对应的包,在节点下已经激活了环境,但是还是没有办法找到对应的包。
    • 这里已经安装了librosa,但是找不到对应的包

在这里插入图片描述

  • 注意 : 这里仅仅是切换到了对应的节点上,但是对应节点只有显卡和对应的驱动,pytorch等框架,你需要自己装,然后还需要设置对应的环境。
  • 输入如下的指令,把后面的东西替换成你对应的anaconda路径就行了
export LD_LIBRARY_PATH=/public/home/liuhong/hch/anaconda/lib:LD_LIBRARY_PATH

在这里插入图片描述

  • 然后就可以找到对应的环境和包。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/782255.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++(类与对象)详解 - 1

C&#xff08;类与对象&#xff09;详解 - 1 1.面向过程和面向对象初步认识2.类的引入3.类的定义4.类的访问限定符及封装4.1 访问限定符4.2 封装 5.类的作用域6.类的实例化7.类的对象大小的计算7.1 如何计算类对象的大小7.2 类对象的存储方式7.3 结构体内存对齐规则 8.类成员函…

项目4渗透全过程

网络拓扑图 任务从拓扑图中可以其中一台web服务器可以进行与kali的直接通信。该web服务器是双重网段。也就是拿到该服务器就可以在进行下一步内网操作了。 2008配置&#xff1a; 护卫神主机系统密码&#xff1a;!#Qwe123. sqlserver2008密码&#xff1a;!#a123… 一、信息收…

遥感目标检测(3)-DAL(Dynamic Anchor Learning for Object Detection)

目录 一、概述 二、背景 三、建议 1、旋转RetinaNet 2、动态锚框分布 3、匹配敏感损失 四、实验 一、概述 由于选择正样本锚框进行回归&#xff0c;不一定能够定位真实的GT&#xff0c;而部分负样本回归甚至可以回归到真实的GT&#xff0c;说明相当多的负样本锚框有着准…

FreeRTOS 初识

从这节开始学习FreeRTOS操作系统。 FreeRTOS 介绍 Q: 什么是 FreeRTOS &#xff1f; A: Free即免费的&#xff0c;RTOS的全称是Real time operating system&#xff0c;中文就是实时操作系统。 注意&#xff1a;RTOS不是指某一个确定的系统&#xff0c;而是指一类操作系统。比…

【Java 并发编程】读写锁 ReentrantReadWriteLock StampLock 详解

读写锁 ReentrantReadWriteLock & StampLock 详解 1. 读写锁1.1 并发场景1.2 什么是读写锁1.3 思考如何自己实现一把锁&#xff1f; 2. ReentrantReadWriteLock2.1 ReentrantReadWriteLock 概述及其基本结构2.2 ReentrantReadWriteLock 的特点2.2.1 读写锁的互斥关系2.2.2 …

springboot实现qq邮箱发送邮件或者验证码

首先我先去qq邮箱或者网易邮箱开通POP3/IMAP/SMTP/Exchange/CardDAV 服务 它在左上角的设置——账户——往下滑就可以找到——然后点击开通 开通后就会得到一串授权码。如下图 接下来直接编写代码 首先我没导入依赖 <!-- 这个是邮箱验证--> <dependency> <group…

IDEA+java+spring+hibernate+jquery+mysql后台管理系统

IDEA javaspringhibernatejquerymysql后台管理系统 一、系统介绍1.环境配置 二、系统展示1. 管理员登录2.修改密码3.我的内容4.我的操作日志5. 我的登陆日志6. 我的登陆授权7. 内容管理8.标签管理9. 搜索词管理10.分类管理11.分类类型12.标签分类13.用户管理14.部门管理15.角色…

elasticsearch在统计存储用量方面的应用

存储介绍 对象存储在现在的项目中应用非常广泛&#xff0c;主要用来存储图片、视频、音频、文件等静态资源&#xff0c;所有云服务厂商基本上都有对象存储&#xff0c;对象存储收费一般 按每月每GB收费&#xff0c;如七牛的0.098 元/GB/月&#xff0c;阿里的0.12元/GB/月。比如…

k8s网络之(一)如何调试容器网络 nsenter

① 背景 ② 三种解决策略 最常见&#xff1a; 镜像为了保持精简化,没有安装网络命令,缺少必要的基础网络软件 ③ pod_id和container_id关系 细节&#xff1a; 一个pod内可以有多个容器,意味者可以有多个容器id说明&#xff1a; docker ps 默认容器id只有前12位案例&#x…

如何理解自动化

目录 1.如何定义自动化 2.自动化给人类带来的福利 3.如何学习自动化 4.自动化潜在的危害 1.如何定义自动化 自动化是指利用计算机、机械、电子技术和控制系统等现代科学技术手段&#xff0c;对各种工业、商业、农业和日常生活中的操作和过程进行自动控制和执行的过程。它旨在…

《博客继续更新说明》

目录 1.博客停更原因2.考研和比赛3.工作和博客题外话 1.博客停更原因 自2022.6.20起&#xff0c;本人CSDN博客断更了&#xff0c;故很多粉丝的私信没有看到&#xff0c;非常抱歉哈&#xff0c;简单叙说下这一年经历&#xff0c;当时大三后期原本想法是直接找嵌入式实习的&#…

怎样用IDEA社区版以及企业版创建spring boot项目?

Spring 的诞生是为了简化 Java 程序的开发的&#xff0c;而 Spring Boot 的诞生是为了简化 Spring 程序开发的 。 Spring Boot 翻译一下就是 Spring 脚手架&#xff0c;什么是脚手架呢&#xff1f;如下图所示&#xff1a; 盖房子的这个架子就是脚手架&#xff0c;脚手架…

脑电信号处理与特征提取——三. 脑电实验设计的原理与实例(古若雷)

三、脑电实验设计的原理与实例 被试间设计的实验结果也有可能是人员不同造成的&#xff0c;所以建议被试内设计。

【力扣每日一题】2023.7.22 柠檬水找零

目录 题目&#xff1a; 示例&#xff1a; 分析&#xff1a; 代码运行结果&#xff1a; 题目&#xff1a; 示例&#xff1a; 分析&#xff1a; 这是一道模拟题&#xff0c;我们贩卖五美元&#xff08;忒贵了&#xff09;一杯的柠檬水&#xff0c;然后只收取5,10,20面值的钞票…

API自动化测试总结

目录 Jmeter是怎么做API自动化测试的&#xff1f; Jmeter中动态参数的处理&#xff1f; 怎么判断前端问题还是后端问题&#xff1f; 详细描述下使用postman是怎么做API的测试的&#xff1f; 资料获取方法 Jmeter是怎么做API自动化测试的&#xff1f; 1、首先在JMeter里面…

57. 插入区间

题目链接&#xff1a;&#xff1a;力扣 解题思路&#xff0c;因为只插入一个新的区间&#xff0c;所以只需要找到插入的新区见的位置即可&#xff0c;如果与来的区间重叠&#xff0c;则进行合并&#xff0c; 两个区间重叠需要判断的情况比较多&#xff0c;可以判断两个区间不重…

已解决-使用Adobe Acrobat去除PDF水印

这个方法只能去带颜色的水印&#xff0c;灰色的去不了&#xff0c;等我有空时候&#xff0c;再写一篇使用PS去除水印的方法&#xff0c;也非常简单。敬请期待 安装软件 网上下载安装Adobe Acrobat Pro DC 安装Adobe PDF打印机 点击“添加打印机” 选择“我的打印机未列出”…

VCL界面组件DevExpress VCL v23.1 - 全新的Windows 11主题

DevExpress VCL是Devexpress公司旗下最老牌的用户界面套包&#xff0c;所包含的控件有&#xff1a;数据录入、图表、数据分析、导航、布局等。该控件能帮助您创建优异的用户体验&#xff0c;提供高影响力的业务解决方案&#xff0c;并利用您现有的VCL技能为未来构建下一代应用程…

RT-Thread qemu mps2-an385 bsp 移植制作 :环境搭建篇

前言 最近打算系统地研究一下 RT-Thread&#xff0c;包括 RT-Thread BSP 的移植&#xff0c;由于一直在使用 QEMU 进行一些软件功能的验证&#xff0c;qemu 支持很多的CPU 与 开发板&#xff0c;所以想移植一个新的 qemu board 到 RT-Thread&#xff0c;掌握BSP 移植的方法 当…

pytest配置文件:pytest.ini

1. 开始 pytest配置文件可以改变pytest的默认运行方式&#xff0c;它是一个固定的文件名称pytest.ini。 pytest.ini存放路径为项目的根路径。 2. 使用addopts-追加默认参数 我们每次在命令行中执行pytest命令时&#xff0c;如果参数是固定的&#xff0c;可以在pytest.ini进…