IBM Spectrum LSF Session Scheduler 提高总体集群利用率和系统性能
LSF Session Scheduler 使用户能够使用作业级任务调度程序在单个 LSF 作业的分配中运行短期任务的大型集合,该调度程序为作业分配一次资源,并对每个任务复用已分配的资源。 LSF Session Scheduler 实现了分层的个人调度范式,可提供非常低的延迟执行。 由于每个作业的等待时间非常短,因此 LSF Session Scheduler 非常适合执行非常短的作业,无论这些作业是任务列表还是具有参数执行的作业数组。
虽然传统的 LSF 作业提交,调度和分派方法 (例如,作业数组或作业块) 非常适合长时间和短时间运行的作业或具有相互依赖关系的作业的组合,但 LSF Session Scheduler 是具有短时间运行时间的大量独立作业的理想选择。
随着集群的增长和工作负载量的增加,委派调度决策的需求也会增加。 LSF Session Scheduler 支持将多个任务作为单个 LSF 作业提交,从而提高 LSF 调度程序的吞吐量和性能。
每个 LSF Session Scheduler 都以类似于并行作业的方式动态调度。 然后, ssched 命令的每个实例在其分配的工作负载中管理其自己的工作负载。 工作作为任务数组或任务定义文件提交。
LSF Session Scheduler 满足运行大量短作业的以下目标:
- 最大限度减少调度短作业时的等待时间;
- 提高总体集群利用率和系统性能;
- 根据 LSF 策略分配资源 ;
- 支持现有 LSF执行前,执行后程序,作业启动程序,资源限制等;
- 每个用户处理数千个用户和超过 50000 个短作业。
系统需求
支持的操作系统
LSF Session Scheduler 在以下分发版中交付:
- lsf10.1.0_ssched_lnx26-libc23-x64.tar.Z
所需的库
注: 缺省情况下,所有 Linux 发行版都可能未安装这些库。
在 Linux 2.6 (x86_64) 上,需要以下外部库:
- libstdc++.so.6
- libpthread-2.3.4.so 或更高版本
兼容的 Linux 发行版
经认证的兼容发行版包括:
- Red Hat Enterprise Linux AS 3 或更高版本
- SUSE Linux Enterprise Server 10
IBM Spectrum LSF
LSF Session Scheduler 随附于 IBM Spectrum LSF Advanced Edition ,并作为 IBM Spectrum LSF的其他版本的附加组件提供:
- 如果要使用 IBM Spectrum LSF Advanced Edition,请从与 IBM Spectrum LSF Advanced Edition 分发包相同的下载页面下载 LSF Session Scheduler 分发包。
- 如果要使用其他版本的 IBM Spectrum LSF,请购买 LSF Session Scheduler 作为单独的附加组件,然后从 LSF Session Scheduler 下载页面下载分发包。
LSF Session Scheduler 术语
作业
由 mbatchd 和 mbschd 单独调度并分派到 sbatchd 的传统 LSF 作业
任务
类似于作业,用于描述可执行文件及其在执行节点上运行的环境的工作负载单元。 任务由 LSF Session Scheduler管理和分派。
作业会话
LSF 作业,由 mbatchd单独调度,但未作为 LSF 作业进行分派。 相反,正在运行的 LSF Session Scheduler 作业会话表示用于运行大量任务集合的节点分配
调度程序
在为作业会话分配的节点中接受和分派任务的组件。
体系结构
将提交,调度和分派 LSF Session Scheduler 个作业 (如正常 LSF 个作业)。
当 LSF Session Scheduler 开始运行时,它将在其分配中的每个主机上启动一个 LSF Session Scheduler 执行代理程序。
然后, LSF Session Scheduler 将读取任务定义文件,该文件包含要运行的任务的列表。 任务将发送到执行代理程序并运行。 任务完成后,列表中的下一个任务将分派到可用主机。 这将一直持续到所有任务都已运行。
通过 LSF Session Scheduler 提交的任务会绕过 LSF mbatchd 和 mbschd。 LSF mbatchd 无法识别个别任务。
组件
LSF Session Scheduler 包含以下组件。
LSF Session Scheduler 命令 (ssched)
ssched 命令接受并分派为作业会话分配的节点中的任务。 它读取任务定义文件并将任务发送到执行代理程序。 ssched 还会记录错误,执行任务记帐以及根据需要重新排队任务。
sservice 和 sschild
这些组件是执行代理程序。 它们在分配中的每个远程主机上运行。 他们设置任务执行环境,运行任务,并启用任务监视和资源使用情况收集。
性能
已测试 LSF Session Scheduler 以支持多达 50,000 个任务。 根据性能测试,最佳最大分配大小 (由 bsub -n指定) 取决于任务的平均运行时。 以下是一些典型结果:
平均运行时 (秒) | 建议的最大分配大小 (槽) |
---|---|
0 | 12 |
5 | 64 |
15 | 256 |
30 | 512 |