基于PBS向超算服务器队列提交任务的脚本模板与常用命令

news2024/10/1 17:35:17

  本文介绍在Linux服务器中,通过PBS(Portable Batch System)作业管理系统脚本的方式,提交任务到服务器队列,并执行任务的方法。

  最近,需要在学校公用的超算中执行代码任务;而和多数超算设备一样,其也是需要通过作业队列的方式,来提交、管理、排序不同用户的任务,从而使得不同用户都可以较为公平地使用超算设备的资源。由于学校的这个超算是基于PBS来提交任务的,所以这里就介绍一下撰写PBS脚本,从而将自己的代码执行需求提交给服务器(也就是提交任务)的方法。

  其中,PBS(Portable Batch System)是一个用于管理、调度计算任务的开源软件;其是一个常用的作业调度系统,用于在大规模计算集群或超级计算机上管理并分配计算资源。在使用时,我们需要首先提交作业到计算集群,PBS将会根据资源可用性、作业优先级等因素进行作业调度和分配。其基本工作流程如下:

  • 用户编写PBS脚本,描述任务的资源需求、执行命令和其他相关信息。
  • 用户使用PBS命令,将上述编写好的脚本提交到PBS系统。
  • PBS系统根据脚本中作业的资源需求和集群的可用资源情况,将作业放入作业队列中等待执行。
  • 当有可用的计算资源时,PBS系统会选择一个作业并将其分配给相应的计算节点。
  • 作业在计算节点上执行,直到完成,或达到预设的运行时间限制,或任务执行时出错等。

  那么接下来,就介绍一下撰写PBS脚本,并基于其提交自己的任务到服务器中的方法。

  首先明确一下本文的需求。已知当前在服务器的某个路径下,我们有一个.exe格式的可执行文件(或者是有1Python代码文件);我们希望后续在超算中,对这个可执行文件(或者Python代码文件)加以运行。

  明确了需求,接下来就可以开始操作。首先,如果有需要,我们可以cd进入自己的工作目录。我这里就直接进入存放有.exe格式的可执行文件的目录中;具体代码如下。

cd Data_Reflectance_Rec

  随后,基于如下代码查看一下当前路径中的文件。ls用于列出目录中的文件和子目录。

ls

  接下来,基于如下代码创建PBS脚本,我在这里将其命名为py_task.pbs;其中,.pbs就是PBS脚本文件的固定拓展名。后续我们向PBS系统提交任务时所用的脚本,就是这个文件。

touch py_task.pbs

  其中,touch是一个常用的命令,用于创建空白文件或更新已存在文件的访问和修改时间戳。创建完毕后,可以基于如下代码再次看一下当前路径下的文件。

ls

  执行上述代码,如下图所示。可以看到,py_task.pbs这个PBS脚本文件已经创建完毕了。

  创建脚本文件完毕后,我们即可开始编辑这个文件。在这里,我选择基于Vim来编辑,所以执行如下的代码即可。

vim py_task.pbs

  其中,Vim是一个强大的文本编辑器,广泛用于命令行环境下代码的编写和文本的编辑。执行上述代码,如下图所示。可以看到,py_task.pbs这个PBS脚本文件已经被Vim打开了。

  接下来,按下i键,进入文本编辑状态;如下图所示。

  随后,即可在Vim中编辑PBS脚本文件。在这里,我们给出2PBS脚本文件的模板;其中,第1个模板如下所示。

#!/bin/bash
#PBS -N py_task
#PBS -q rtlab1_4
#PBS -l nodes=1:ppn=4
#PBS -l walltime=00:30:00
#PBS -o /data1/home/LiliAircas/Data_Reflectance_Rec/task/py_task.out
#PBS -e /data1/home/LiliAircas/Data_Reflectance_Rec/task/py_task.err
hostname
date "+%Y/%m/%d %H:%M:%S"
python /data1/home/LiliAircas/Data_Reflectance_Rec/code/Alignment.py
date "+%Y/%m/%d %H:%M:%S"
最后注意记得留一个空行

  其中,第1行是一个shebang(也称为hashbang)行,指定了用于解释该脚本的解释器。在这里,/bin/bash表示该脚本将由Bash解释器执行。

  接下来,从第2行开始的这些#开头的语句,不是注释,而是PBS作业调度系统的作业指令。这些指令以#PBS开头,指定了不同的选项:-N py_task表示作业的名称为py_task-q rtlab1_4表示将作业提交到rtlab1_4队列中;-l nodes=1:ppn=4表示指定使用1个节点(node)和4个处理器(processor)来运行作业;-l walltime=00:30:00表示作业的最长运行时间为30分钟。随后的2行代码,分别指定了作业的标准输出错误输出所在的文件。

  紧接着,随后的2行分别输出当前执行脚本的主机名和当前的日期时间;随后,就开始调用Python解释器执行Alignment.py这个Python代码文件了。最后,再次输出当前的日期时间,从而使得我们可以基于其大概了解到任务的执行时长。

  最后的空行,有的教程说是为了符合脚本文件的规范,提供可读性和结构上的清晰性;也有教程说,有些版本的服务器上如果不加这个空行,会导致无法识别脚本命令。所以为了确保万一,我就加上了1行空行。

  上述脚本文件编辑完毕后,如下图所示。这里需要注意:以下截图中有些错误,例如hostname写成了Hostname,且最后一行没有空行。所以对于图片,大家仅仅参考就好;主要还是按照前述文字版代码中的格式,来修改自己的PBS脚本文件。

  此外,我们再给出1PBS脚本执行.exe格式的可执行文件的模板,具体如下。

#!/bin/bash
#PBS -N py_task
#PBS -q rtlab1_4
#PBS -l nodes=1:ppn=1
#PBS -l walltime=12:00:00
#PBS -o /data1/home/LiliAircas/Data_Reflectance_Rec/code/py_task.out
#PBS -e /data1/home/LiliAircas/Data_Reflectance_Rec/code/py_task.err
hostname
date "+%Y/%m/%d %H:%M:%S"
cd /data1/home/LiliAircas/Data_Reflectance_Rec/code
./Alignment_Server.exe
date "+%Y/%m/%d %H:%M:%S"

  其中,脚本文件的含义前面已经介绍过,这里我们就不再逐一介绍了。

  在Vim中编辑完毕自己的脚本文件后,即可保存并退出Vim。首先,我们需要按下Esc键,退出编辑模式;随后,依次输入:wq3个按键,即可保存并退出VIm

  随后,我们即可提交自己的PBS脚本文件到系统中;通过如下的代码即可实现这一功能。

qsub py_task.pbs

  上述代码会将我们前述编辑好的PBS脚本文件py_task.pbs提交到PBS作业调度系统中,并开始等待系统分配资源,从而执行作业。执行上述代码,如下图所示。

  如果没有问题的话,会出如上图所示的一个编号;这个就是我们刚刚提交的任务的ID

  当然,有的时候执行上述代码,会出现如下图所示的错误,即qsub: submit error (Unauthorized Request...)字样的报错。

  这种多数是因为将作业提交到了没有权限的队列中导致的;这种情况,需要和服务器的管理人员联系,从而获取权限。

  接下来,再介绍几个PBS系统的常用命令。

  首先,我们可以通过如下代码,获取当前超算的所有节点的情况。

pbsnodes

  执行上述代码,如下图所示;可以看到,不同节点的信息都列出来了。

  还可以在上述命令的后面,加上具体节点的名称,从而只获取指定节点的信息;如以下代码。

pbsnodes cu02

  执行上述代码,如下图所示;其中,和上图一样,每一个当前正在该节点上运行的任务的ID,都会被显示出来,例如下图中紫色框内就是某个任务的ID

  其次,我们可以通过如下代码,获取当前队列中所有任务的情况。

qstat

  执行上述代码,如下图所示;可以看到有一个任务,这个任务是我自己提交的。在我这里,执行上述代码后只能看到自己提交的任务,而看不到队列中同时存在的、其他人提交的任务——感觉这个可能是我们学校服务器管理人员自行设置的,使得每一个用户仅仅只能看到自己账户中提交的任务。

  再次,还可以通过如下的代码,查看队列中任务的详细信息。

qstat -f

  执行上述代码,如下图所示。

  此外,可以通过qdel命令加上任务的ID,删除队列中的指定任务;例如以下代码。

qdel 1250752

  执行上述代码,并在执行前后通过qstat命令查看队列中的任务,可以看到指定的任务已经被删除了——但是有延迟:执行完qdel后立刻执行qstat的话,可以看到1250752这个任务还是在的;稍后再执行qstat,才可以看到1250752任务消失。

  任务执行完毕后,我们就可以依次执行下面的2句代码,打开并查看作业的标准输出、错误输出文件。cat是一个常用的命令,用于连接指定的文件,并打印它们的内容。

cat py_task.out
cat py_task.err

  执行上述代码,如下图所示。当然,我这里因为待执行的任务存有一些权限上的错误,所以在py_task.err文件中,给出了任务执行过程中的报错内容。

  如果没有错误的话,那么大家就可以结合自己任务的实际情况,查看任务执行的结果文件了。

  至此,大功告成。

欢迎关注:疯狂学习GIS

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1505590.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

仿牛客项目Day3:开发社区登录模块

发送邮件 邮箱设置 springEmail properties spring.mail.hostsmtp.qq.com spring.mail.port465 spring.mail.username spring.mail.password spring.mail.protocolsmtps spring.mail.properties.mail.smtp.ssl.enabletrue MailClient Component public class MailClient {…

计算机网络——OSI网络层次模型

计算机网络——OSI网络层次模型 应用层表示层会话层传输层TCP和UDP协议复用分用 网络层数据链路层物理层OSI网络层次模型中的硬件设备MAC地址和IP地址MAC地址IP地址MAC地址和IP地址区别 OSI网络层次模型通信过程解释端到端点到点端到端和点到点的区别 我们之前简单介绍了一下网…

数组:初始化,访问某一个,遍历

文章目录 静态初始化数组数组的访问:遍历数组案例 动态初始化数组总结案例 静态初始化数组 定义数组的时候直接给数组赋值。 简化格式: int[] ages {12,52,96}; 完整格式: int[] ages new int[]{12,16,26};数组变量名中存储的是数组在内存…

LINUX ADC使用

监测 ADC ,使用CAT 查看&#xff1a; LINUX ADC基本使用 &adc {pinctrl-names "default";pinctrl-0 <&adc6>;pinctrl-1 <&adc7>;pinctrl-2 <&adc8>;pinctrl-3 <&adc9>;pinctrl-4 <&adc10>;pinctrl-5 …

xxl-job学习记录

1、应用场景 例&#xff1a; 某收银系统需要在每天凌晨统计前一天的财务分析、汇总 某银行系统需要在信用卡还款日前三天发短信提醒等 2、为什么需要使用任务调度 spring中提供了注解Scheduled的注解&#xff0c;这个注解也可以实现定时任务的执行 我们只需要在方法上使用这…

安全加速SCDN在网站运营中的重要作用

SCDN&#xff08;Secure Content Delivery Network&#xff09;是一种安全加速技术&#xff0c;对于网站运营起到非常重要的作用。它能够提升用户体验&#xff0c;保护网站安全&#xff0c;提高网站的性能和可靠性。本文将详细介绍SCDN在网站运营中的作用。 首先&#xff0c;SC…

STM32基础--启动文件详解

启动文件简介&#xff08;我的建议是记住这个就行&#xff09; 启动文件由汇编编写&#xff0c;是系统上电复位后第一个执行的程序。主要做了以下工作&#xff1a; 初始化堆栈指针 SP_initial_sp &#xff08;没错就是你机组学的那个堆栈指针&#xff09;初始化 PC 指针 Rese…

《vtk9 book》 官方web版 第3章 - 计算机图形基础 (4 / 6)

3.10 将所有内容整合起来 本节概述了图形对象以及如何在 VTK 中使用它们。 图形模型 我们已经讨论了许多在场景渲染中起作用的对象。现在是将它们整合到一个全面的图形和可视化对象模型中的时候了。 在可视化工具包中&#xff0c;有七个基本对象用于渲染场景。幕后有许多其他对…

【开发】JavaWeb开发中如何解析JSON格式数据

目录 前言 JSON 的数据类型 Java 解析 JSON 常用于解析 JSON 的第三方库 Jackson Gson Fastjson 使用 Fastjson Fastjson 的优点 Fastjson 的主要对象 JSON 接口 JSONObject 类 JSONArray 类 前言 1W&#xff1a;什么是JSON&#xff1f; JSON 指 JavaScrip t对象表…

c++0305习题

一、求下面表达式的值 1&#xff0e;0 2&#xff0e;-1 3&#xff0e;1 4&#xff0e;&#xff08;1&#xff09;1 &#xff08;2&#xff09;3.2 &#xff08;3&#xff09;0 &#xff08;4&#xff09;7.0 5.&#xff08;1&#xff09;0&#xff08;2&#xff09;300.005&a…

【蓝桥·算法双周赛】第七场分级赛——小白入门赛

2.霓虹【算法赛】 - 蓝桥云课 (lanqiao.cn) st数组用来存第i个位置&#xff0c;这个字母有没有编号j #include<bits/stdc.h> const int N1e610; using lllong long; std::map<std::string,std::string> mp;std::string a,aa; int st[N][10];// int stt[N][10];//对…

Tensorflow2.0+部署(tensorflow/serving)过程备忘记录Windows+Linux

Tensorflow2.0部署&#xff08;tensorflow/serving&#xff09;过程备忘记录 部署思路&#xff1a;采用Tensorflow自带的serving进模型部署&#xff0c;采用容器docker 1.首先安装docker 下载地址&#xff08;下载windows版本&#xff09;&#xff1a;https://desktop.docke…

算法设计与分析---递归算法

递归算法 排列问题&#xff1a; 设计递归算法生成n个元素R{r1,r2,r3…rn}的全排列 将排列R个元素拆解为RiR-{ri}个元素的全排列 &#xff08;r)perm(X)表示在全排列perm(X)的每一个排列前加上前缀得到的排列 汉诺塔问题&#xff1a; void hanoi(int n,int a,int b,int c) …

第八个实验:(A+B)-C的结果判断奇偶特性

实验内容:(A+B)-C的结果判断奇偶特性,最后显示结果 实验步骤: 第一步:建立项目 第二步:实验步骤,编写程序 第三步:实验结果

【FindAllMarkers】Seruat鉴定差异表达基因的方法与P值的理解

目录 差异表达分析 用法简单示例 结果解读 P值与P adjust值的区别 假设检验 Bonferroni校验 reference 差异表达分析 seruat中差异表达分析的函数主要有两个&#xff1a;FindAllMarkers()和FindMarkers()&#xff0c;前者是比较一个cluster与所有其他cluster之间的基因…

鸿蒙开发(一)-环境配置

鸿蒙开发(一)-环境配置 本篇文章主要介绍下鸿蒙开发环境的配置。 1&#xff1a;下载DevEco Studio 可以直接访问以下网址下载&#xff1a; https://developer.huawei.com/consumer/cn/deveco-studio#download 当前window的使用版本是&#xff1a;devecostudio-windows-3.1…

Openharmony的设备开发流程 Hi3516DV300

安装VirtualBox 这里用VirtualBox 6.1.3 https://download.virtualbox.org/virtualbox/6.1.30/VirtualBox-6.1.30-148432-Win.exe 安装 安装Ubuntu镜像 Ubuntu系统要求&#xff1a;Ubuntu18.04~21.10版本。推荐使用20.04版本&#xff0c;内存16 GB及以上。 https://mirrors…

错误票据 刷题笔记

开数组 读入数据 记录最小值和最大值 每次读入x; 让a[x]; 从最小值开始 向上扫 当扫到a[x]0时候为断号 扫到a[x]>1为重号&#xff1b; 该题的小技巧 未知长度的数据的读入方式 1.首先在头文件敲上 #include<sstream> #include<string> #include<…

SpringCloudGateway理论与实践

文章目录 网关介绍为什么需要网关Gateway 使用gateway pom依赖yml 配置重启测试总结 断言过滤器工厂路由过滤器的种类请求头过滤器默认过滤器全局过滤器总结 Gateway解决跨域 网关介绍 Spring Cloud Gateway 是一个基于Spring Framework 5&#xff0c;由Spring Cloud团队开发的…

FPGA - 科学设计复位信号(XILINX)

1&#xff0c;同步复位与异步复位 简单来说&#xff1a;复位信号与时钟同步&#xff0c;称之为同步复位。 复位信号与时钟不同步&#xff0c;称之为异步复位。 2、xilinx 的复位策略 ① 同步高复位 ② 计数器和状态机必须复位 ③ 能不使用复位尽量不使用复位&#xff0c;比如中…