IBM Spectrum LSF 负载共享工具基本介绍和使用

news2024/11/19 17:51:40

IBM Spectrum LSF 负载共享工具基本介绍和使用

LSF(Load Sharing Facility)是IBM旗下的一款分布式集群管理系统软件,负责计算资源的管理和批处理作业的调度。它给用户提供统一的集群资源访问接口,让用户透明地访问整个集群资源。同时提供了丰富的功能和可定制的策略。LSF 具有良好的可伸缩性和高可用性,支持几乎所有的主流操作系统。它通常是高性能计算环境中不可或缺的基础软件。作用上与PBS一样,使用方法略有不同。

IBM Spectrum LSF (“LSF” ,简称为负载共享设施) 软件是业界领先的企业级软件。 LSF 在现有异构 IT 资源之间分配工作,以创建共享,可扩展且容错的基础架构,从而提供更快,更可靠的工作负载性能并降低成本。 LSF 均衡负载和分配资源,并提供对这些资源的访问权。

LSF 提供了一个资源管理框架,用于满足您的作业需求,查找运行该作业的最佳资源,并监视其进度。 作业始终根据主机装入和站点策略运行。

在这里插入图片描述
集群
一组运行 LSF 的计算机 (主机) ,它们作为单个单元一起工作,将计算能力,工作负载和资源组合在一起。 集群为计算资源网络提供单系统映像。

可以通过多种方式将主机分组到集群中。 集群可以包含:

  • 单个管理组中的所有主机
  • 子网上的所有主机

主机
集群中的主机执行不同的功能。

  • 管理主机
    充当集群整体协调程序的 LSF 服务器主机,执行所有作业调度和分派。
  • 服务器主机
    提交和运行作业的主机。
  • 客户机主机
    仅提交作业和任务的主机。
  • 执行主机
    运行作业和任务的主机。
  • 提交主机
    从中提交作业和任务的主机。

作业
在 LSF 系统中运行的工作单元。 作业是提交到 LSF 以执行的命令。 LSF 根据配置的策略调度,控制和跟踪作业。

作业可以是复杂问题,模拟场景,广泛计算或需要计算能力的任何内容。

作业槽
作业槽是在 LSF 系统中分配单个工作单元的存储区。

可以使用多个作业插槽来配置主机,并且您可以从队列分派作业,直到所有作业插槽都已填满为止。 您可以将作业插槽与集群中的 CPU 总数相关联。

队列
作业的集群范围容器。 所有作业都在队列中等待,直到调度这些作业并将其分派给主机为止。

队列与个别主机不对应; 每个队列都可以使用集群中的所有服务器主机或已配置的服务器主机子集。

将作业提交到队列时,不需要指定执行主机。 LSF 将作业分派到集群中的最佳可用执行主机以运行该作业。

队列实现不同的作业调度和控制策略。

资源
资源是集群中可用于运行工作的对象。 例如,资源包括但不限于主机, CPU 插槽和许可证。

LSF 集群组件
LSF 集群可管理资源,接受和调度工作负载以及监视所有事件。 用户和管理员可以通过命令行界面, API 或通过 IBM® Spectrum LSF Application Center 来访问 LSF

在这里插入图片描述
在 LSF 集群中

了解在 LSF 主机上运行的各种守护进程, LSF 集群通信路径以及 LSF 如何容忍集群中的主机故障。

  • LSF 守护程序和进程
    多个 LSF 进程在集群中的每个主机上运行。 正在运行的进程的类型和数量取决于主机是 管理 主机还是计算主机。
  • LSF 集群通信路径
    了解集群中 LSF守护程序之间的通信路径。
  • 故障容错和自动管理主机故障转移
    LSF 的稳健体系结构设计时考虑到了故障容错。 系统中的每个组件都具有恢复操作,因此重要组件由另一个组件监视,并且可以从故障中自动恢复。
  • 安全性
    了解 LSF 安全模型,认证和用户角色。

1、LSF 守护程序和进程

多个 LSF 进程在集群中的每个主机上运行。 正在运行的进程的类型和数量取决于主机是 管理主机 还是 计算主机。

在这里插入图片描述

在这里插入图片描述
2、LSF 集群通信路径
在这里插入图片描述

容错和自动管理主机故障转移

LSF 的稳健体系结构是在设计时考虑了容错。 系统中的每个组件都具有恢复操作,因此重要组件由另一个组件监视,并且可以从故障中自动恢复。

LSF 旨在继续运行,即使集群中的某些主机不可用也是如此。 集群中的一个主机充当 管理 主机,但如果 管理 主机变为不可用,那么另一个 管理 主机候选者将接管。 当集群中有一个 管理 主机候选者可用时, LSF 可用。

LSF 可以容许集群中任何主机或主机组发生故障。 当主机变为不可用时,将重新排队或丢失在该主机上运行的所有作业,这取决于该作业是否标记为可重新运行。 不会影响其他暂挂或正在运行的作业。

1)、故障转移的工作方式
容错取决于事件日志文件 lsb.events,该文件保留在主文件服务器上。 系统中的每个事件都会记录在此文件中,包括所有作业提交以及作业和主机状态更改。 如果 管理 主机变得不可用,那么将从 管理 候选列表中选择新的 管理 主机,并且新的 管理 主机上的 sbatchd 守护程序将启动新的 mbatchd 守护程序。 新的 mbatchd 守护程序读取 lsb.events 文件以恢复系统状态。

2)、重复事件日志记录
对于不希望仅依赖中央文件服务器来获取恢复信息的站点,可以将 LSF 配置为通过保留 lsb.events 文件的副本来维护重复事件日志。 副本存储在文件服务器上,并在主副本不可用时使用。 启用重复事件日志记录后,主事件日志将以本地方式存储在第一个 管理 主机上,并在主机恢复时与复制的副本进行再同步。

3)、主机故障转移
LSF 管理 主机是动态选择的。 如果当前 管理 主机变为不可用,那么另一个主机将自动接管。 从 lsf.conf 文件 (在安装时在 install.config 文件中指定) 的 LSF_MASTER_LIST 参数中定义的列表中选择故障转移 管理 主机。 列表中的第一个可用主机充当 管理 主机。

正在运行的作业由每个服务器主机上的 sbatchd 守护程序管理。 当新的 mbatchd 守护程序启动时,它会轮询每个主机上的 sbatchd 守护程序并查找其作业的状态。 如果 sbatchd 守护程序失败但主机仍在运行,那么在主机上运行的作业不会丢失。 当 sbatchd 守护程序重新启动时,它将重新控制正在主机上运行的所有作业。

4)、作业故障转移
可以将作业作为 rerunnable提交,以便它们自动从头开始再次运行或作为 checkpoint运行,以便它们在由于主机故障而丢失时从另一个主机上的检查点再次启动。

如果集群中的所有主机都关闭,那么所有正在运行的作业都将丢失。 当 管理 候选主机恢复并接管为 管理 主机时,它将读取 lsb.events 文件以获取所有批处理作业的状态。 假定在系统关闭时正在运行的作业已退出,除非这些作业被标记为可重新运行,并且将向提交用户发送电子邮件。 暂挂作业将保留在其队列中,并在主机变为可用时进行调度。

5)、分区集群
如果集群由网络故障分区,那么 管理 主机 LIM 将在分区的每一侧进行接管,而 管理 主机候选项在分区的每一侧都可用。 当每个主机仍可访问 LSF 可执行文件时,交互式负载共享仍然可用。

6)、分区网络
如果网络已分区,那么只有其中一个分区可以访问 lsb.events 文件,因此 LSF 服务仅在分区的一侧可用。 锁定文件用于确保只有一个 mbatchd 守护程序在集群中运行。

7)、作业异常处理
您可以配置主机和队列,以便 LSF 在作业运行时检测异常情况,并自动执行相应的操作。 您可以定制检测到的异常以及相应的操作。 例如,您可以将 LSF 设置为在作业退出时带有特定错误代码时自动重新启动该作业。

3、安全性
LSF 安全模型
在这里插入图片描述
缺省情况下, LSF 安全模型在内部跟踪用户帐户。 LSF 中定义的用户帐户包含用于提供认证的密码和用于提供授权的已分配角色 (例如管理员)。

LSF 用户角色
在未启用 EGO 的情况下, LSF支持以下用户角色:

  • LSF user
    有权将作业提交到 LSF 集群并查看作业和集群的状态。

  • 主 LSF 管理员
    有权执行集群范围的操作,更改配置文件,重新配置集群以及控制所有用户提交的作业。
    配置文件 (例如 lsb.params 和 lsb.hosts ) 配置 LSF的所有方面。

  • LSF 管理员
    有权执行影响其他 LSF 用户的操作。
    – 集群管理员
    可以对集群中的所有作业和队列执行管理操作。 可能无权更改 LSF 配置文件。
    –队列管理员
    管理许可权仅限于指定的队列。
    – 主机组管理员
    管理许可权仅限于指定的主机组。
    – 用户组管理员
    管理许可权仅限于指定的用户组。

启用了 EGO 的 LSF 用户角色
启用了 EGO 的 LSF支持以下角色:
-集群管理员
可以管理集群中的任何对象和工作负载。
-使用者管理员
可以管理他们有权访问的使用者中的任何对象和工作负载。
-使用者用户
可以在他们有权访问的使用者中运行工作负载
在 EGO中创建和管理用户帐户。 EGO 授权其用户数据库中的用户。

LSF 用户组
通过在可以指定 LSF 用户组的任何位置指定 UNIX 或 Linux 用户组,直接使用任何现有 UNIX 和 Linux 用户组。

外部认证
LSF 为首选使用外部或第三方安全性机制 (例如 Kerberos, LDAP 或 ActiveDirectory) 的站点提供了安全插件。

您可以创建定制的 eauth 可执行文件,以提供用户,主机和守护程序的外部认证。 从外部安全系统传递凭证。 还可以定制 eauth 可执行文件以从操作系统或认证协议 (例如 Kerberos) 获取凭证。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/851896.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python-OpenCV中的图像处理-颜色空间转换

Python-OpenCV中的图像处理-颜色空间转换 颜色空间转换获取HSV的值 颜色空间转换 在 OpenCV 中有超过 150 中进行颜色空间转换的方法。但是你以后就会 发现我们经常用到的也就两种: BGR G r a y 和 B G R Gray 和 BGR Gray和BGRHSV。 注意:在 OpenCV 的…

linux基于信号量实现多线程生产者消费者模型

基于信号量实现多线程生产者消费者模型。 编程思路: 1.食物的初始化编号为100: beginnum 100; 2.仓库有5个空碗,最多保存5个食物:queue[5]; 3.初始化空碗的数量为5,食物的数量为0&#xff1a…

中级课程——XSS

文章目录 介绍挖掘思路分类反射型存储型dom类型 介绍 挖掘思路 注入点:各种输入框 测试代码(poc):js语句 分类 反射型 存储型 dom类型

势不可挡!新能源车型L2搭载率破50%,TOP20品牌数据出炉

中国乘用车市场正在走出去年的阴霾。 机构公开数据显示,2023年上半年中国乘用车市场产量1100.77万辆,同比增长7.5%;终端销量959.08万辆,同比增长4.7%;乘用车出口152.36万辆,同比增长87.6%。 在实际交付量…

[HDLBits] Exams/m2014 q4g

Implement the following circuit: module top_module (input in1,input in2,input in3,output out);assign out (!(in1^in2))^in3; endmodule

Java EE 突击 9 - Spring Boot 日志文件

Spring Boot 日志文件 学习目标一 . 日志有什么用1.1 日志格式说明 二 . 自定义日志打印2.1 得到日志对象2.2 使用日志对象提供的方法 , 输出自定义的日志内容2.3 日志的级别 三 . 日志持久化3.1 在配置文件里面设置日志名称3.2 设置日志的保存目录 四 . 日志级别的设置五 . 简…

【Linux 网络】NAT技术——缓解IPv4地址不足

NAT技术 NAT 技术背景NAT IP转换过程NAPTNAT 技术的缺陷 NAT(Network Address Translation,网络地址转换)技术,是解决IP地址不足的主要手段,并且能够有效地避免来自网络外部的攻击,隐藏并保护网络内部的计算…

爬虫程序中使用爬虫ip的优势

作为一名爬虫技术员,我发现在爬虫程序中使用代理IP可以提升爬取效率和匿名性。今天,我就来详细讲解一下代理IP在爬虫程序中的工作原理及应用。 首先,我们来了解一下代理IP在爬虫程序中的工作原理。当我们使用爬虫程序进行数据采集时&#xf…

【雕爷学编程】Arduino动手做(200)---WS2812B幻彩LED灯带

37款传感器与模块的提法,在网络上广泛流传,其实Arduino能够兼容的传感器模块肯定是不止37种的。鉴于本人手头积累了一些传感器和执行器模块,依照实践出真知(一定要动手做)的理念,以学习和交流为目的&#x…

Android 开发者选项日志存储路径

android开发者选项中存在两个item是关于系统日志的。 1.日志记录器缓冲区大小 2.在设备上永久存储日志记录器数据 一个是用来设置缓冲区大小,一个是用来日志存储开关及过滤。 通过分析 system/core/logcat/logcatd.rc mkdir /data/misc/logd 0770 logd log 日志的…

AWS——03篇(AWS之Amazon S3(云中可扩展存储)-01入门)

AWS——03篇(AWS之Amazon S3(云中可扩展存储)-01入门) 1. 前言2. 关于 Amazon S32.1 介绍2.1.1 简述2.1.2 详细介绍 2.2 Amazon S3 好处和功能2.3 3. 创建S3存储桶3.1 创建存储桶3.2 修改访问权限 4. 简单实用4.1 上传图片文件4.2…

keil5 watch数据一直为0不显示

调试遇到一个问题,以为是指针里面的数据,数组显示不出来,结果是main函数里面有个1s的延时,我的理解是watch刷新太慢了,一直掉进延时里面,所以我们把延时改到10ms就行了。

100ASK百问网 全志D1s/T113-s3开发板 适配ov5640教程

本实验采用百问网的100ASK_T113-PRO Base V1.1 , D1s也可以参考进行修改并适配。 本实验所需的文件(含tina根文件系统、SD镜像、设备树、内核配置文件)供大家对比参考:source.zip 1.硬件配置 查看百问网提供的T113开发板原理图1…

Vue2核心完整笔记

文章目录 [TOC](文章目录)前言1. vue2基础知识和原理1.1 初识Vue 和 Vue简介1.2 模板语法1.3 数据绑定1.4 el与data的两种写法1.5 Vue中的MVVM1.6 数据代理1.7 事件处理1.8 键盘事件1.9 计算属性1.10 监视属性1.11 绑定样式class样式style样式 1.12 条件渲染v-ifv-show 1.13 列…

echarts 图表饼状图 实例

效果图: 代码: draw(data1, data2) {var option {// backgroundColor: rgb(10,36,68),color: [#F19611 ,#0095FE,#162D86,#0096FF,#05F8FF,#FFD985,#FACDAA,#F4A49E,#EE7B91,#E85285,#BE408C,#942D93,#171E6D,#1E3388,#27539B,#3073AE,#3993C2,#42B3D…

比较IP代理与路由器获取IP地址的三大差异

在今天的文章中,我们将与大家一起探讨IP代理与路由器获取IP地址的差异。这两种方式在获取IP地址上有一些区别,而这些区别会对我们的网络使用体验产生影响。今天我们深入分析并提供一些实际的例子与操作经验。 稳定性差异: 通过路由器获取IP地…

STM32基于CubeIDE和HAL库 基础入门学习笔记:基础知识理论 开发环境建立

文章目录: 一:开发板和基础知识理论 1.开发板 2.基础知识理论* 二:CubeMX图形化编程 1.设置时钟(心脏) 1.1 开启RCC功能 1.2 开启RTC功能 1.3 配置时钟树 2.设置端口(五官四肢) 3.工…

Shopee、国际站卖家测评自养号方法大揭秘!

很多虾皮卖家都会经常提到“权重”这个词语,什么是权重?权重的作用是什么?如何提高产品的权重?今天就带大家来仔细了解下这个“权重”。 什么是权重? 权重泛指某一因素或指标相对于某一事物的重要程度。而Shopee权重…

由 Base64 展开的知识探讨

前言 在我们的业务应用中越来越多的应用到编码内容,例如在 API 中,给到后端的 SQL 都是通过 Base64 加密的数据等等。 能够发现我们的代码中,使用的 window 对象上的 btoa 方法实现的 Base64 编码,那 btoa 具体是如何实现的呢&a…

第二篇|研究数据哪里来——建筑业

数据是研究和产业发展的重要基石,然而无论是学者、企业还是研究机构往往都面临着“找数据难”的局面。本期将分享一些查找建筑相关的数据及资料的渠道。希望可以帮大家解决这一难题,有用求收藏求收藏求收藏~ 1.政府机构 可以查找国家、地方政府的建筑行…