IBM LSF 任务调度系统的主要术语和概念

news2024/12/27 13:07:00

LSF 术语和概念

了解 IBM LSF 基本术语和概念。

作业状态

IBM® Spectrum LSF 作业具有多个状态。

PEND

正在队列中等待调度和分派。

RUN

已分派到主机并正在运行。

DONE

正常完成,退出值为零。

EXIT

已完成,具有非零退出值。

PSUSP

作业处于暂挂状态时已暂挂。

USUSP

由用户暂挂。

SSUSP

由 LSF 系统暂挂。

POST_DONE

后处理已完成,没有错误。

POST_ERR

后处理已完成,但有错误。

UNKWN

mbatchd 守护程序与运行作业的主机上的 sbatchd 守护程序失去联系。

WAIT

对于提交到区块作业队列的作业,这是正在等待运行的区块作业的成员。

ZOMBI

如果作业由于执行主机不可访问而在其状态为 UNKWN 时被终止,或者如果由于执行主机不可用而重新运行的作业被重新排队,那么该作业处于 ZOMBI 状态。在下列情况下,作业可以处于 ZOMBI 状态:

  • 处于 UNKWN 状态的作业会收到终止信号, LSF 会将该作业更改为 ZOMBI 状态。 例如,运行 bkill 命令以终止处于 UNKWN 状态的作业,在执行主机不可用时重新排队可运行的作业,或者在 lsb.params 文件中设置 REMOVE_HUNG_JOBS_FOR 参数时 mbatchd 守护程序终止 UNKWN 作业。 
  • 强制从 LSF 中移除作业 (即,对正在运行的作业运行 bkill -r 命令 ) , mbatchd 守护程序将首先将作业状态更改为 ZOMBI 状态,并向作业的执行主机的 sbatchd 守护程序发送信号。 在 sbatchd 成功终止作业进程后,它会将回复发送回 mbatchd; 然后, mbatchd 可以将作业的状态从 ZOMBI 更改为 EXIT。 在典型情况下,此过程不会花费很长时间。

 

主机

LSF 主机是集群中的单个计算机。

每个主机可能有多个处理器。 多处理器主机用于运行并行作业。 具有单个进程队列的多处理器主机被视为单台机器。 一个充满处理器 (每个处理器都有自己的进程队列) 的框将被视为一组单独的机器。

提示:

主机的名称应该是唯一的。 它们不能与集群名称或为集群定义的任何队列相同。

作业

LSF 作业是在 LSF 系统中运行的工作单元。

作业是通过使用 bsub 命令提交到 LSF 以执行的命令。 LSF 根据配置的策略调度,控制和跟踪作业。

作业可能是复杂的问题,模拟场景,广泛的计算,任何需要计算能力的事物。

作业文件

将作业提交到队列时, LSF 会将其保留在作业文件中,直到运行该作业的条件合适为止。 然后,使用作业文件来运行作业。

在 UNIX 上,作业文件是在执行时运行的 Bourne shell 脚本。

在 Windows 上,作业文件是在执行时处理的批处理文件。

交互式批处理作业

交互式批处理作业是一个批处理作业,它允许您与应用程序进行交互,并且仍可利用 LSF 调度策略和容错。

所有输入和输出都通过用于输入作业提交命令的终端。

提交交互式作业时,将在作业等待调度时显示一条消息。 在交互式作业完成或终止之前,无法提交新作业。

交互式任务

交互式任务是未提交到批处理队列并由 LSF调度,但立即分派的命令。

LSF 查找任务所需的资源,并在具有所需资源且负载很轻的候选主机中选择最佳主机。 每个命令可以是单个进程,也可以是一组协作进程。

在不使用 LSF 的批处理功能的情况下运行任务,但仍具有资源需求和选择最佳主机以根据负载运行任务的优势。

本地任务

本地任务是无法远程运行的应用程序或命令。

例如, UNIX 上的 ls 命令。

远程任务

远程任务是可以在集群中的另一台机器上运行的应用程序或命令。

主机类型和主机模型

LSF 中的主机以主机类型和主机模型为特征。

以下示例是类型为 X86_64的主机,主机型号为 Opteron240, Opteron840, Intel_EM64T等。

主机类型

LSF 主机类型是操作系统和主机 CPU 体系结构的组合。

在同一计算机体系结构上运行同一操作系统的所有计算机都具有相同类型。 这些主机相互二进制兼容。

每种主机类型通常需要一组不同的 LSF 二进制文件。

主机模型

LSF 主机模型是计算机的主机类型,用于确定在负载和放置计算中应用的 CPU 速度缩放因子。

分派作业时将考虑 CPU 因子。

资源

LSF 资源是 LSF 系统资源中的对象, LSF 使用跟踪作业需求并根据作业在各个主机上的可用性来调度作业。

资源使用情况

LSF 系统使用内置和配置的资源来跟踪资源可用性和使用情况。 根据各个主机上的可用资源来调度作业。

通过 LSF 系统提交的作业将具有它们在运行时使用的受监视资源。 此信息用于实施资源限制和负载阈值以及公平共享调度。

LSF 收集以下类型的信息:

  • 作业中所有进程所耗用的总 CPU 时间
  • 作业中当前正在运行的所有进程的驻留内存总使用量 (以 KB 计)
  • 作业中当前正在运行的所有进程的虚拟内存总使用率 (以 KB 为单位)
  • 作业中当前处于活动状态的进程组标识
  • 作业中当前处于活动状态的进程

在 UNIX 和 Linux上,通过 PIM 收集作业级别资源使用情况。

负载指标

负载指标用于度量集群中主机上动态非共享资源的可用性。 将按固定时间间隔更新 LIM 中内置的负载指标。

外部负载指数

由 LSF 管理员定义和配置,并由外部装入信息管理器 (ELIM) 程序收集。 当接收到新值时, ELIM 还会更新 LIM。

静态资源

表示不会随时间变化的主机信息的内置资源,例如可供用户进程使用的最大 RAM 或机器中的处理器数。 大多数静态资源由 LIM 在启动时确定。

静态资源可用于为基于二进制体系结构,相对 CPU 速度和系统配置的特定作业选择适当的主机。

装入阈值

LSF 管理员可以配置两种类型的装入阈值来调度队列中的作业。 每个装入阈值指定一个装入索引值:

  • loadSched 装入阈值确定用于分派暂挂作业的装入条件。 如果主机的负载超出任何已定义的 loadSched,那么无法在主机上启动作业。 此阈值也用作恢复暂挂作业的条件。
  • loadStop 装入阈值确定何时可以暂挂正在运行的作业。

要在主机上调度作业,该主机上的负载级别必须同时满足为该主机配置的阈值和从中分派作业的队列的阈值。

负载指数的值可能随负载增加或减少,具体取决于特定负载指数的含义。 Therefore, when you compare the host load conditions with the threshold values, you need to use either greater than (>) or less than (<), depending on the load index.

运行时资源使用限制

限制在作业运行时使用资源。 将向使用超过指定资源量的作业发出信号。

硬和软限制

在队列级别指定的资源限制是硬限制,而在作业提交中指定的限制是软限制。

资源分配限制

限制在作业调度期间必须为要启动的不同作业类提供的资源量,以及限制应用于哪些资源使用者。 如果使用了所有资源,那么在释放某些资源之前,无法再启动更多作业。

资源需求 (bsub -R 命令选项)

bsub -R 选项指定作业的资源需求。 资源需求会限制作业可以在哪个主机上运行。 与资源需求匹配的主机是候选主机。 当 LSF 调度作业时,它会收集所有候选主机的负载指标值,并将它们与调度条件进行比较。 仅当所有装入值都在调度阈值内时,才会将作业分派给主机。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1031124.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

FBX文件结构解读【文本格式】

FBX 格式几乎受到所有 3D 引擎的支持&#xff0c;是 Autodesk 开发的 3D 模型的专有格式。它支持顶点、索引、法线、UV坐标、材质和动画。 FBX还支持许多其他类型的信息&#xff0c;但它们对游戏引擎几乎没有用处。 推荐&#xff1a;用 NSDT编辑器 快速搭建可编程3D场景 有两种…

【C++】String类基本接口介绍及模拟实现(多看英文文档)

string目录 如果你很赶时间&#xff0c;那么就直接看我本标题下的内容即可&#xff01;&#xff01; 一、STL简介 1.1什么是STL 1.2STL版本 1.3STL六大组件 1.4STL重要性 1.5如何学习STL 二、什么是string&#xff1f;&#xff1f;&#xff08;本质上是一个类&#xff0…

Leetcode | 303.区域和检索-数组不可变

303.区域和检索-数组不可变 欢迎关注公众号“三戒纪元” 题目 给定一个整数数组 nums&#xff0c;处理以下类型的多个查询: 计算索引 left 和 right &#xff08;包含 left 和 right&#xff09;之间的 nums 元素的 和 &#xff0c;其中 left < right 实现 NumArray 类&a…

24个Docker常见问题处理技巧

1.Docker 迁移存储目录 默认情况系统会将 Docker 容器存放在 var/lib/docker 目录下 [问题起因] 今天通过监控系统&#xff0c;发现公司其中一台服务器的磁盘快慢&#xff0c;随即上去看了下&#xff0c;发现 /var/lib/docker这个目录特别大。 由上述原因&#xff0c;我们都知…

低代码技术推动能源行业数字化转型,服务商模式带来转型新商机

“新能源企业通过数字化转型不仅可以提高企业的运营效率和市场竞争力&#xff0c;还可以创新商业模式、提高能源生产效率和可持续性、优化资源配置并适应市场需求。选择百数的服务商模式&#xff0c;不仅可以解决我们想实现数字化转型的需求&#xff0c;还让我们多了一个开展新…

计算机毕设 python图像检索系统设计与实现

文章目录 0 前言1 课题简介2 图像检索介绍(1) 无监督图像检索(2) 有监督图像检索 3 图像检索步骤4 应用实例5 最后 0 前言 &#x1f525; 这两年开始毕业设计和毕业答辩的要求和难度不断提升&#xff0c;传统的毕设题目缺少创新和亮点&#xff0c;往往达不到毕业答辩的要求&am…

uniapp——ios证书申请——详细步骤+遇到的坑——技能提升

三年前&#xff0c;我曾经写过uniapp的程序&#xff0c;时隔三年&#xff0c;又遇到了uniapp的需求&#xff0c;之前没有自行申请ios证书&#xff0c;现在终于要自己生成证书了。。。 是福不是祸&#xff0c;是祸躲不过。 uniapp生成ios证书的详细步骤 uniapp对接unipush的操作…

Revopoint的3D输出格式及转换工具

在 CES 展会期间&#xff0c;许多参观者向我们询问与我们的 3D 扫描仪相关的问题。 最常见的问题包括我们的扫描仪导出的文件格式&#xff0c;以及该文件是否与 3D 打印机兼容&#xff1f; 因此&#xff0c;我们决定回答这些问题&#xff0c;并在本文中对常见的 3D 文件格式进行…

notepad++配合正则表达式分组模式处理文本转化为sql语句

一、正则分组知识点补充 正则分组和捕获 ()&#xff1a;用于分组和捕获子表达式。 大白话就是()匹配到的数据&#xff0c;通过美元符号加下标可以获取该数据&#xff0c;例如$1、$2, 下标从1开始。 下面的案例就采用该模式处理文本数据 二、使用正则的需求背景 有一份报表…

Verilog:$readmemb和$readmemh系统函数的使用与其中的初始化地址相关问题(详细细节)

相关阅读 Verilog基础https://blog.csdn.net/weixin_45791458/category_12263729.html?spm1001.2014.3001.5482 $readmemb和$readmemh两个系统函数用于将文件中的数据加载到存储器或者被称为数组的memory中。首先给出他们的语法的BNF范式&#xff0c;有关BNF范式的内容可以在…

GaussDB技术解读系列:性能调优

近日&#xff0c;在第14届中国数据库技术大会&#xff08;DTCC2023&#xff09;的GaussDB“五高两易”核心技术&#xff0c;给世界一个更优选择专场&#xff0c;华为数据库技术专家李士福详细解读了GaussDB性能调优的相关技术和应用实践。 本篇为大家分享GaussDB性能调优的实践…

【MySQL 45讲笔记】

文章目录 第一讲&#xff1a;一条SQL查询语句是如何执行的&#xff1f;第二讲&#xff1a;一条SQL更新语句是如何执行的&#xff1f;第三讲&#xff1a;事务隔离&#xff0c;为什么你改了我还看不见第四讲&#xff1a;深入浅出索引&#xff08;上&#xff09;第五讲&#xff1a…

Python函数绘图与高等代数互溶实例(二): 闪点函数

Python函数绘图与高等代数互溶实例(一):正弦函数与余弦函数 Python函数绘图与高等代数互溶实例(二):闪点函数 Python函数绘图与高等代数互溶实例(二):设置X|Y轴|网格线 一: 函数plot(),展示变量的变化趋势 import numpy as np import matplotlib.pyplot as plt from pylab i…

商家收款一万手续费多少

目前微信和支付宝作为主流的支付平台&#xff0c;为商家提供了安全、便捷的支付解决方案。但是在正常情况下&#xff0c;商家需要向平台支付交易额0.6%至1%不等的手续费&#xff0c;这个费率看似很少&#xff0c;但长期积累下来的手续费支出也是一笔不小的开支。 什么是收款手…

复习Day01:数组part01:701. 二分查找、35. 搜索插入位置、367. 有效的完全平方数、69. x的平方根、74. 搜索二维矩阵

之前的blog链接&#xff1a;https://blog.csdn.net/weixin_43303286/article/details/131690654?spm1001.2014.3001.5501 我用的方法是在leetcode再过一遍例题&#xff0c;明显会的就复制粘贴&#xff0c;之前没写出来就重写&#xff0c;然后从拓展题目中找题目来写。辅以Lab…

UI设计和平面设计的区别是什么?看完这篇一次搞懂

很多想要从事视觉领域工作的新手设计师&#xff0c;搞不懂UI设计和平面设计的区别&#xff1b;也有很多平面设计师工作后想转UI&#xff0c;却不知道该如何进行&#xff0c;导致择业和职业发展受阻&#xff0c;其实核心问题还是因为没有弄清楚UI设计和平面设计的区别是什么。 …

电工-三极管主要参数(直流、交流、极限)

三极管主要参数&#xff08;直流、交流、极限&#xff09; 三极管的主要参数分为三种&#xff0c;即直流参数、交流参数和极限参数&#xff0c;下面分别介绍&#xff1a; 直流参数 共发射极直流放大倍数βIc/Ib 集电极—基极反向截止电流Icbo&#xff0c;Ic0时&#xff0c;…

浅谈终端安全接入

前言&#xff1a; 随着网络的发展&#xff0c;现代企业大多都会部署企业的有线网络与无线网络&#xff0c;在传统的企业网内&#xff0c;随着越来越多的终端设备接入到公司网络&#xff0c;管理人员控制和审计外部用户接入的企业办公网的难度和工作量也越来越大。而如果允许外…

代码随想录二刷Day 15

102. Binary Tree Level Order Traversal vector<int>() it is basically constructor of std::vector class and will create a new empty vector. You can also mention the size of required vector in brackets. 访问二维vector的元素: 如果指定外层和内层向量的大…

技术贴 | 深度解析 PostgreSQL Protocol v3.0(二)— 扩展查询

引言 PostgreSQL 使用基于消息的协议在前端&#xff08;客户端&#xff09;和后端&#xff08;服务器&#xff09;之间进行通信。该协议通过 TCP/IP 和 Unix 域套接字支持。 《深度解析 PostgreSQL Protocol v3.0》系列技术贴&#xff0c;将带大家深度了解 PostgreSQL Protoc…