获取 IBM Spectrum LSF 工作负载管理概念和操作的概述。
1、IBM Spectrum LSF 概述
LSF 如何满足您的作业需求并找到运行该作业的最佳资源。
- IBM Spectrum LSF
IBM Spectrum LSF (“LSF” ,简称为负载共享设施) 软件是业界领先的企业级软件。 LSF 在现有异构 IT 资源之间分配工作,以创建共享,可扩展且容错的基础架构,从而提供更快,更可靠的工作负载性能并降低成本。 LSF 均衡负载和分配资源,并提供对这些资源的访问权。
LSF 提供了一个资源管理框架,用于满足您的作业需求,查找运行该作业的最佳资源,并监视其进度。 作业始终根据主机装入和站点策略运行。
- LSF 集群组件
LSF 集群管理资源,接受和调度工作负载,并监视所有事件。 用户和管理员可以通过命令行界面, API 或通过 IBM Spectrum LSF Application Center 来访问 LSF
2、在 LSF 集群中
了解在 LSF 主机上运行的各种守护进程, LSF 集群通信路径以及 LSF 如何容忍集群中的主机故障。
-LSF 守护程序和进程
多个 LSF 进程在集群中的每个主机上运行。 正在运行的进程的类型和数量取决于主机是 管理 主机还是计算主机。
-LSF 集群通信路径
了解集群中 LSF守护程序之间的通信路径。
-故障容错和自动管理主机故障转移
LSF 的稳健体系结构设计时考虑到了故障容错。 系统中的每个组件都具有恢复操作,因此重要组件由另一个组件监视,并且可以从故障中自动恢复。
-安全性
了解 LSF 安全模型,认证和用户角色。
3、内部工作负载管理
了解 LSF 作业生命周期。 使用 bsub 将作业提交到队列,并指定作业提交选项以修改缺省作业行为。 已提交的作业在队列中等待,直到调度这些作业并将其分派给主机以执行。 在作业分派时, LSF 会检查哪些主机有资格运行作业。
- 作业生命周期
LSF 作业将经历多个状态,从作业提交开始,通过分派,执行和返回作业结果。
- 作业提交
使用 bsub 命令在命令行上提交作业。 您可以使用 bsub 命令指定许多选项以修改缺省行为。 必须将作业提交到队列。
- 作业调度和分派
已提交的作业在队列中等待,直到调度这些作业并将其分派给主机以执行。
- 主机选择
每次 LSF 尝试分派作业时,它都会检查哪些主机有资格运行该作业。
- 作业执行环境
当 LSF 运行作业时,它会将环境从提交主机复制到执行主机。
4、启用了 EGO 的 LSF
使用 LSF 启用 企业网格编排器 (EGO) 以提供系统基础结构来控制和管理集群资源。 资源是由应用程序使用的物理和逻辑实体。 LSF 资源按 EGO 资源分发计划中的定义进行共享。
- EGO 组件概述
EGO 可通过 LSF 启用,以提供用于控制和管理集群资源的系统基础结构。
- 资源
资源是应用程序用于运行的物理和逻辑实体。 虽然资源是一个通用术语,但可以包含诸如共享内存段或信号量之类的低级别内容。 在 LSF中, EGO 管理
CPU 插槽。
- LSF 如何通过 EGO 共享资源
LSF 可以通过定义 EGO 资源分发计划来共享资源。 LSF 请求来自 EGO 资源管理器的资源。 根据资源分发计划中指定的值,资源管理器将返回可用插槽数 (m) 以及插槽所在主机的名称。