4.1、bhosts简单使用 查看各节点情况,包括状态和正在运行的 Job 情况等
STATUS列展示节点状态
OK:可用——可接受新的作业的正常状态 unavail:不可用 可能原因:主机关闭,LIM和sbatchd不可达 unreach:无法连接
可能原因:LIM在运行,但是sbatchd不可达 close:关闭——不接受新的作业
可能原因:该节点的最大作业数被设置为 0;该节点被临时关闭;该节点正在运行的作业数量已达上限
参考官方的文档说明
主要是由于该节点的地址被占用,需要kill掉对应的进程,然后重新启动sbatchd
首先跳到对应的节点,查看占用6882
ip的进程(可以在lsf.conf
中找到对应服务的进程号)
lsof -i:6882
查看占用的进程号,然后使用pkill -9 进程号 终止对应的进程
最后使用 badmin hstartup
启动