样本 UNIX 和 Linux 安装目录
守护程序错误日志文件
守护程序错误日志文件存储在 LSF_LOGDIR 在 lsf.conf 文件中定义的目录中。
LSF 基本系统守护程序日志文件 | LSF 批处理系统守护程序日志文件 |
pim.log.host_name | mbatchd.log.host_name |
mbatchd.log.host_name | sbatchd.log.host_name |
lim.log.host_name | mbschd.log.host_name |
如果在 ego.conf 文件中定义了 EGO_LOGDIR 参数,那么 lim.log.host_name 文件将存储在 EGO_LOGDIR 参数定义的目录中。
配置文件
lsf.conf, lsf.shared和 lsf.cluster.cluster_name 文件位于 lsf.conf 文件中 LSF_CONFDIR 参数指定的目录中。
lsb.params, lsb.queues, lsb.modules和 lsb.resources 文件位于 LSB_CONFDIR/cluster_name/configdir/ 目录中。
文件 | 描述 |
---|---|
install.config | LSF 安装和配置的选项 |
lsf.conf | 描述集群配置和操作的通用环境配置文件 |
lsf.shared | 所有集群共享的定义文件。 用于定义集群名称,主机类型,主机模型和站点定义的资源 |
lsf.cluster.cluster_name | 用于定义站点定义的共享资源的主机,管理员和位置的集群配置文件 |
lsb.applications | 定义应用程序概要文件以定义相同类型的作业的公共参数 |
lsb.params | 配置 LSF 批处理参数 |
lsb.queues | 批处理队列配置文件 |
lsb.resources | 配置资源分配限制,导出和资源使用限制 |
lsb.serviceclasses | 将 LSF 集群中的服务级别协议 (SLA) 定义为服务类,用于定义 SLA 的属性 |
lsb.users | 配置用户组,用户和用户组的分层公平共享以及用户和用户组的作业槽限制 |
lsf.conf 文件中的集群配置参数
参数 | 描述 | UNIX 缺省值 |
---|---|---|
LSF_BINDIR | 包含 LSF 用户命令的目录,这些命令由同一类型的所有主机共享 | LSF_TOP/version/OStype/bin |
LSF_CONFDIR | 所有 LSF 配置文件的目录 | LSF_TOP/conf |
LSF_ENVDIR | 包含 lsf.conf 文件的目录。 必须由 root 用户拥有。 | /etc (如果未定义 LSF_CONFDIR ) |
LSF_INCLUDEDIR | 包含 LSF API 头文件 lsf.h 和 lsbatch.h 的目录 | LSF_TOP/version/include |
LSF_LIBDIR | LSF 库,由同一类型的所有主机共享 | LSF_TOP/version/OStype/lib |
LSF_LOGDIR | (可选) LSF 守护程序日志的目录。 必须由 root 用户拥有。 | /tmp |
LSF_LOG_MASK | 来自 LSF 命令的错误消息的日志记录级别 | LOG_WARNING |
LSF_MANDIR | 包含 LSF 联机帮助页的目录 | LSF_TOP/version/man |
LSF_MISC | 样本 C 程序和 shell 脚本以及外部 LIM 的模板 (elim) | LSF_TOP/version/misc |
LSF_SERVERDIR | 所有服务器二进制文件和 shell 脚本以及由 LSF 守护程序启动的外部可执行文件的目录必须由 root 用户拥有,并且由同一类型的所有主机共享 | LSF_TOP/version/OStype/etc |
LSF_TOP | 顶级安装目录。 LSF_TOP 的路径必须共享,并且可供集群中的所有主机访问。 它不能是根目录 (/)。 | 未定义 安装所需 |
LSB_CONFDIR | LSF 批处理配置目录的目录,包含用户和主机列表,操作参数和批处理队列 | LSF_CONFDIR/lsbatch |
LSF_LIVE_CONFDIR | bconf 命令写入的 LSF 实时重新配置目录的目录。 | LSB_SHAREDIR/cluster_name/live_confdir |
LSF_SHAREDIR | 每个集群的 LSF 批处理作业历史记录和记帐日志文件的目录必须由主 LSF 管理员拥有 | LSF_TOP/work |
LSF_LIM_PORT | 用于与 lim 守护程序通信的 TCP 服务端口 | 7879 |
LSF_RES_PORT | 用于与 res 守护程序通信的 TCP 服务端口 | 6878 |
LSF_MBD_PORT | 用于与 mbatchd 守护程序通信的 TCP 服务端口 | 6881 |
LSF_SBD_PORT | 用于与 sbatchd 守护程序通信的 TCP 服务端口 | 6882 |
管理和记帐命令
只有 LSF 管理员和 root 用户才能使用这些命令。
命令 | 描述 |
---|---|
lsadmin | LSF 管理员工具,用于控制 LSF 集群中 LIM 和 RES 守护程序的操作, lsadmin help 显示所有子命令 |
lsfinstall | 使用 install.config 输入文件安装 LSF |
lsfrestart | 在本地集群中的所有主机上重新启动 LSF 守护程序 |
lsfshutdown | 关闭本地集群中所有主机上的 LSF 守护程序 |
lsfstartup | 在本地集群中的所有主机上启动 LSF 守护程序 |
badmin | LSF 用于控制 LSF 批处理系统 (sbatchd, mbatchd,主机和队列) 操作的管理工具 badmin 帮助显示所有子命令 |
bconf | 更改活动内存中的 LSF 配置 |
守护程序
守护程序名称 | 描述 |
---|---|
lim | 装入信息管理器 (LIM): 收集有关集群中所有服务器主机的装入和资源信息,并通过 LSLIB 向应用程序提供主机选择服务。 LIM 维护有关静态系统资源和动态负载索引的信息 |
mbatchd | 管理 批处理守护程序 (MBD): 接受并保存所有批处理作业。 MBD 通过联系 管理 主机 LIM 定期检查所有服务器主机上的装入索引。 |
mbschd | 管理 批处理调度程序守护程序: 执行 LSF 的调度功能,并将作业调度决策发送至 MBD 以进行分派。 在 LSF 管理 主机上运行 |
sbatchd | 服务器 批处理守护程序 (SBD): 接受来自 MBD 的作业执行请求,并监视作业进度。 控制作业执行,实施批处理策略,向 MBD 报告作业状态以及启动 MBD。 |
pim | Process Information Manager (PIM): 监视已提交作业在运行时使用的资源。 PIM 用于实施资源限制和负载阈值,以及用于公平共享调度 |
res | 远程执行服务器 (RES): 接受来自所有负载共享应用程序的远程执行请求,并处理远程主机上用于负载共享进程的 I/O。 |
用户命令
查看有关集群的信息。
命令 | 描述 |
---|---|
bhosts | 显示主机及其静态和动态资源 |
blimits | 显示有关正在运行的作业的资源分配限制的信息 |
bparams | 显示有关可调批处理系统参数的信息 |
bqueues | 显示有关批处理队列的信息 |
busers | 显示有关用户和用户组的信息 |
lshosts | 显示主机及其静态资源信息 |
lsid | 显示当前 LSF 版本号,集群名称和 管理 主机名 |
lsinfo | 显示负载共享配置信息 |
lsload | 显示主机的动态装入索引 |
监视作业和任务。
命令 | 描述 |
---|---|
bacct | 报告已完成 LSF 个作业的记帐统计信息 |
bapp | 显示有关附加到应用程序概要文件的作业的信息 |
bhist | 显示有关作业的历史信息 |
bjobs | 显示有关作业的信息 |
bpeek | 显示未完成的作业的标准输出和 stderr |
bsla | 显示有关面向目标的服务级别协议调度的服务类配置的信息 |
bstatus | 读取或设置外部作业状态消息和数据文件 |
提交和控制作业。
命令 | 描述 |
---|---|
bbot | 相对于队列中的最后一个作业移动暂挂作业 |
bchkpnt | 对可设置检查点的作业设置检查点 |
bkill | 向作业发送信号 |
bmig | 迁移可检查点或可重新运行的作业 |
bmod | 修改作业提交选项 |
brequeue | 终止作业并重新排队 |
bresize | 释放插槽并取消暂挂的作业调整大小分配请求 |
brestart | 重新启动检查点作业 |
bresume | 恢复已暂挂的作业 |
bstop | 暂挂作业 |
bsub | 提交作业 |
bswitch | 将未完成的作业从一个队列移至另一个队列 |
btop | 相对于队列中的第一个作业移动暂挂作业 |
bsub 命令
bsub [options] 命令[arguments] 命令的所选选项
选项 | 描述 |
---|---|
-ar | 指定作业可自动调整大小 |
-H | 保留提交时处于 PSUSP 状态的作业 |
-I|-Ip|-Is | 提交批处理交互式作业。 -Ip 创建伪终端。 -Is 以 shell 方式创建伪终端。 |
-K | 提交作业并等待作业完成 |
-r | 使作业可重新运行 |
-x | 互斥执行 |
-app 应用程序概要文件名称 | 将作业提交到指定的应用程序概要文件 |
-b 开始时间 | 以 [[month:]day:]:minute 格式在指定日期和时间上或之后分派作业 |
-C core_limit | 设置属于此作业的所有进程的每个进程 (软) 核心文件大小限制 (KB) |
-c cpu_time[/host_name | /host_model] | 限制作业可以使用的总 CPU 时间。 CPU 时间格式为 [hour:]minutes |
-cwd "current_working_directory" | 指定作业的当前工作目录 |
-D 数据限制 | 设置属于作业的每个进程的每个进程 (软) 数据段大小限制 (KB) |
-E "pre_exec_command [自变量]" | 在作业运行之前在执行主机上运行指定的 pre-exec 命令 |
-Ep "post_exec_command [自变量]" | 在作业完成后在执行主机上运行指定的 post-exec 命令 |
-e 错误文件 | 将标准错误输出附加到文件 |
-eo 错误文件 | 将作业的标准错误输出覆盖到指定文件 |
-F 文件限制 | 为属于作业的每个进程设置每个进程 (软) 文件大小限制 (KB) |
-f "local_file op[remote_file]" ... | 在本地 (提交) 主机和远程 (执行) 主机之间复制文件。 奥普 is one of >, <, <<, ><, <> |
-i input_file | -is 输入文件 | 从指定文件获取作业的标准输入 |
-J "job_name[index_list]%job_slot_limit" | 将指定的名称分配给作业。 作业数组 index_list 的格式为 start[-end[:step]] ,%job_slot_limit 是可以同时运行的最大作业数。 |
-k "chkpnt_dir [chkpnt_period] [method=method_name]" | 使作业检查点可执行,并指定检查点目录,周期 (以分钟为单位) 和方法 |
-M 内存限制 | 设置每个进程 (软) 内存限制 (KB) |
-m "host_name [@cluster_name] [[!] | + [pref_level]] | host_group[[!] | + [pref_level]] | compute_unit[[!] | + [pref_level]] ..." | 在其中一个指定主机上运行作业。 主机或组的名称后面的加号 (+) 指示首选项。 (可选) 正整数指示首选项级别。 数字越大,表示首选度越高。 |
-n min_proc[,max_proc] | 指定并行作业所需的最小和最大处理器数 |
-o 输出文件 | 将标准输出附加到文件 |
-oo 输出文件 | 将作业的标准输出覆盖到指定的文件 |
-p 进程限制 | 限制整个作业的进程数 |
-q "queue_name ..." | 将作业提交到其中一个指定队列 |
-R "res_req" [-R "res_req" ...] | 指定主机资源需求 |
-S stack_limit | 为属于作业的每个进程设置每个进程 (软) 堆栈段大小限制 (KB) |
-sla 服务类名 | 指定要在其中运行作业的服务类 |
-T 线程限制 | 设置整个作业的并发线程数限制 |
-t term_time | 以 [[month:]day:]hour:minute 格式指定作业终止截止期限 |
-v swap_limit | 设置整个作业的总进程虚拟内存限制 (KB) |
-W run_time[/host_name |/host_model] | 以 [hour:]minute 格式设置作业的运行时限制 |
-h | 将命令用法打印到 stderr 并退出 |
-V | 将 LSF 发行版打印到 stderr 并退出 |