Slurm中集群配置文件slum.conf

news2024/11/19 9:22:52

1.slurm.conf简介

slurm.conf是一个ASCII文件,它描述了一般的Slurm 配置信息、要管理的节点、有关如何将这些节点分组到分区中,以及各种调度与这些分区关联的参数。此文件应为在群集中的所有节点上保持一致。可以通过设置SLURM_CONF在执行时修改文件位置 环境变量。Slurm 守护进程还允许您覆盖 使用“-f”的内置位置和环境提供的位置 选项。

文件的内容不区分大小写,但节点名称除外 和分区。将处理配置文件中“#”后面的任何文本 作为该行末尾的评论。 对配置文件的更改在重新启动 Slurm 守护进程、接收 SIGHUP 信号的守护进程或执行 命令“scontrol reconfig”,除非另有说明。

如果一行以单词“包括”开头,后跟空格 然后是一个文件名,该文件将与当前文件内联包含 配置文件。对于大型或复杂的系统,多个配置文件 可能更易于管理和启用某些文件的重用。

2.关于文件权限的说明:

slurm.conf 文件必须可供 Slurm 的所有用户读取,因为它 被许多 Slurm 命令使用。定义的其他文件 在 slurm.conf 文件中,例如日志文件和作业记帐文件, 可能需要由用户“SlurmUser”创建/拥有才能成功 访问。使用 “chown” 和 “chmod” 命令设置所有权 和适当的权限。

3.文件所在位置

slurm.conf在安装目录的etc文件夹中

关于slum.conf的配置,也可以先将安装包目录的etc文件slurm.conf.example拷贝到安装目录下,然后重命名为slurm.conf,并进行参数的修改。

4.配置参数详解

# slurm.conf file generated by configurator.html.
# Put this file on all nodes of your cluster.
# See the slurm.conf man page for more information.
ControlMachine=#主用节点名
ControlAddr=#主用节点IP
#BackupController=#备用节点
#BackupAddr=#备用节点IP
AuthType=auth/munge #内部认证
CacheGroups=0
#CheckpointType=checkpoint/none
CryptoType=crypto/munge
#DisableRootJobs=NO
#EnforcePartLimits=NO
#Epilog=/opt/slurm18/etc/slurm.epilog
#Prolog=/opt/slurm18/etc/slurm.prolog
#EpilogSlurmctld=/opt/slurm18/etc/slurmctld.epilog
#PrologSlurmctld=/opt/slurm18/etc/slurmctld.prolog
#SrunEpilog=
#SrunProlog=
#TaskEpilog=/opt/slurm18/etc/slurm.epilog
#TaskProlog=/opt/slurm18/etc/slurm.prolog
#FirstJobId=1
#MaxJobId=999999
#GresTypes=
#GroupUpdateForce=0
#GroupUpdateTime=600
#JobCheckpointDir=/opt/slurm18/checkpoint
#JobCredentialPrivateKey=
#JobCredentialPublicCertificate=
#JobFileAppend=0
#JobRequeue=1
#JobSubmitPlugins=1
#JobSubmitPlugins=lua #提交参数过滤
#KillOnBadExit=0 #异常作业清理
#LaunchType=launch/slurm
#Licenses=foo*4,bar
#MailProg=/bin/mail
MaxJobCount=3000000 #最大作业数300万
#MaxStepCount=40000
#MaxTasksPerNode=128
MpiDefault=none
#MpiParams=ports=#-#
#MpiParams=ports=12000-12999
#PluginDir=
#PlugStackConfig=
#PrivateData=jobs
#ProctrackType=proctrack/pgid
ProctrackType=proctrack/linuxproc #进程跟踪插件
PrologFlags=Alloc
#RebootProgram=
ReturnToService=2 #禁用自动恢复
#SallocDefaultCommand=
#SlurmctldPidFile=/opt/slurm18/run/slurmctld.pid
SlurmctldPidFile=/var/run/slurmctld.pid
SlurmctldPort=6817 # 主控服务端口
#SlurmdPidFile=/opt/slurm18/run/slurmd.pid
SlurmdPidFile=/var/run/slurmd.pid
SlurmdPort=6818 #计算代理端口
SlurmdSpoolDir=/opt/slurm18/spool/slurmd # 计算代理缓存
SlurmUser=root #运行用户
#SlurmdUser=root # slurmd运行用户
StateSaveLocation=/opt/slurm18/spool # slurmctld本地文件缓存
SwitchType=switch/none
TaskPlugin=task/affinity # 资源控制方式cpuset
#TaskPlugin=task/cgroup # 资源控制方式cgroups
#TaskPlugin=task/none # 无特殊资源控制方式
#TaskPluginParam=
TaskPluginParam=sched
#TopologyPlugin=topology/tree#拓扑调度tree
#TopologyPlugin=topology/3d_torus #拓扑调度3d_torus
#TmpFS=/tmp
#TrackWCKey=no
#TreeWidth=
#UnkillableStepProgram=
#UsePAM=0
# TIMERS
#BatchStartTimeout=10
#CompleteWait=0
#EpilogMsgTime=2000
#GetEnvTimeout=2
#HealthCheckInterval=60 #检查间隔
#HealthCheckProgram=/usr/sbin/nhc #检查工具
InactiveLimit=0
KillWait=30
MessageTimeout=30
#ResvOverRun=0
MinJobAge=300 #完成作业保留时间
#OverTimeLimit=0
SlurmctldTimeout=30 #主备切换时间
SlurmdTimeout=300 #计算代理响应时间
#UnkillableStepTimeout=60
#VSizeFactor=0
Waittime=0
# SCHEDULING
#DefMemPerNode=100
#MaxMemPerNode=200
#DefMemPerCPU=30
#DefMemPerCPU=30
#MaxMemPerCPU=70
FastSchedule=1 #快速调度作业
#MaxMemPerCPU=60
#SchedulerRootFilter=1
#SchedulerTimeSlice=30
SchedulerType=sched/backfill #启用回填调度
#SchedulerType=sched/builtin #启用FIFO调度
SchedulerPort=7321 #调度器端口
SelectType=select/cons_res #资源选择算法
SelectTypeParameters=CR_Core #基于Core调度
#SelectTypeParameters=CR_Core_Memory #基于Core和内存调度
#SchedulerParameters=defer,default_queue_depth=50,bf_max_job_test=50
SchedulerParameters=batch_sched_delay=3,defer,sched_min_interval=10,sched_interval=30,default_queue_depth=100,bf_max_job_test=100,bf_interval=30
# 作业优先级
#PriorityFlags=
#PriorityType=priority/multifactor #优先级策略
#PriorityDecayHalfLife=30 #半衰期时长
#PriorityCalcPeriod=5 #FS统计间隔
#PriorityFavorSmall=
#PriorityMaxAge=
#PriorityUsageResetPeriod=
#PriorityWeightAge=
#PriorityWeightFairshare=1000 #FS权重
#PriorityWeightJobSize= #JobSize权重
#PriorityWeightPartition=1000 #分区权重
#PriorityWeightQOS= #QOS权重
# only permitted in slurmdbd.conf
#AccountingStorageType=accounting_storage/none
#AccountingStorageType=accounting_storage/filetxt
#AccountingStorageType=accounting_storage/mysql
AccountingStorageType=accounting_storage/slurmdbd #启用slurmdbd
AccountingStorageUser=root #记账服务
AccountingStoreJobComment=YES #记录作业注释
ClusterName=cluster_gv171 #集群名
# LOGGING AND ACCOUNTING
#AccountingStorageEnforce=0
AccountingStorageEnforce=associations,limits #组织关联和资源限制
AccountingStorageHost=#主用记账服务
#AccountingStorageBackupHost=#备用记账服务
#AccountingStorageLoc=/opt/slurm18/accounting/accounting
#AccountingStorageLoc=gv_slurm_db
#AccountingStoragePass=111111
AccountingStoragePort=7031 #记账服务端口
#DebugFlags=NO_CONF_HASH # 调试标识
#JobCompHost=localhost
#JobCompLoc=/opt/slurm18/job_completions/job_completions
#JobCompLoc=gv_slurm_db
#JobCompPass=111111
#JobCompPort=3309
JobCompType=jobcomp/none #禁止生成comp日志
#JobCompType=jobcomp/mysql
#JobCompType=jobcomp/filetxt
#JobCompType=jobcomp/slurmdbd
JobCompUser=root
#JobContainerType=job_container/none
JobAcctGatherFrequency=300 #作业采集间隔
#JobAcctGatherType=jobacct_gather/none
JobAcctGatherType=jobacct_gather/linux #启用Linux插件
JobRequeue=1 # 允许重新排队
SlurmctldDebug=3 #slurmctld日志级别
SlurmctldLogFile=/opt/slurm18/log/slurmctld.log #管理节点日志
SlurmdDebug=3 #slurmd日志级别
SlurmdLogFile=/opt/slurm18/log/slurmd_%h.log #计算节点日志
#SlurmdLogFile=/opt/slurm18/log/slurmd.log
PreemptMode=requeue,gang #抢占策略
PreemptType=preempt/partition_prio #队列优先级
# POWER SAVE SUPPORT FOR IDLE NODES (optional)
#SuspendProgram=
#ResumeProgram=
#SuspendTimeout=
#ResumeTimeout=
#ResumeRate=
#SuspendExcNodes=
#SuspendExcParts=
#SuspendRate=
SuspendTime=1800
PrivateData=accounts,events,jobs,reservations,usage,users # 权限控制
#GresTypes=gpu,mic
DebugFlags=NO_CONF_HASH
# COMPUTE NODES
NodeName=gv245 CPUs=2 State=IDLE
PartitionName=debug Default=YES PriorityTier=6000 State=UP MaxTime=INFINITE Nodes=ALL ##可以通过命令 slurmd -C 获得

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/163439.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

初识网络:IP、端口、网络协议、TCP-IP五层模型

目录 一、了解IP地址: 二、了解端口号: 三、网络协议 网络协议的三要素: ①语法 ②语义 ③时序 四、协议的分层(TCP/IP五层模型) ①应用层 ②传输层(也称为运输层) ③网络层 ④数据链路层 ⑤物理层 五、A用户通过QQ给B发送一…

【Java基础知识 2】Java中常用的48个关键字和2个保留字 || Java命名规范(从此告别起名难)

本文已收录专栏 🌲《Java进阶之路》🌲 目录 本文已收录专栏 🌲《Java进阶之路》🌲 Java中常用的48个关键字和2个保留字 关键字 保留字 Java命名规范(从此告别起名难) 01、包(package&#…

Spring MVC 整合 Shiro 权限控制

Apache Shiro 是一个功能强大且灵活的开放源代码安全框架,可以细粒度地处理认证 (Authentication),授权 (Authorization),会话 (Session) 管理和加密 (cryptography) 等企业级应用中常见的安全控制流程。 Apache Shiro 的首要目标是易于使用和…

python实现excel和csv中的vlookup函数

本篇博客会介绍如何使用python在excel和csv里实现vlookup函数的功能,首先需要简单了解一下python如何操作excel 1. python处理excel 1.1 删除excel中指定行 在文件夹里创建了一个excel文件,可以看到里面放的是三国人物的数据 会发现在【蜀】里&#…

ESP-IDF:在C++环境下实现动态数组例程,包括初始化,添加数值,查找,删除,打印等功能

代码: /* 动态数组 */ struct DYNAMICARRAY { int *pAddress; int size; int capacity; }; DYNAMICARRAY *initialDynamicArray() { DYNAMICARRAY *p (DYNAMICARRAY *)malloc(sizeof(DYNAMICARRAY)); p->size 0; p->capacity 5; p->pAddress (int *)…

数据结构与算法--python版-01

文章目录基本概念数据存储方式算法案例基本概念 程序 数据结构 算法 数据结构,数据的存储(物理结构)及相互间的关联关系(逻辑结构); 线性表(顺序表、链表、队列、栈),一个前驱,一…

口语语言理解最新进展及前沿

口语语言理解 作为任务型对话系统的核心组件,目的是为了获取用户询问语句的框架语义表示信息,进而将这些信息为对话状态的追踪模块DSTDSTDST, 以及自然语言生成模块NLGNLGNLG所使用 SLUSLUSLU任务通常包含以下两个任务: 意图识别任务: intent detectio…

企企购商城 | 破解降本难题,非生采购“利器”来了

近年来,疫情反复无常,全球市场环境动荡不安,在瞬息万变的环境下,很多企业都处于降本处境,采购降本成了其中的重要一环。其中,非生采购作为贯穿企业各个职能板块的采购活动,众多国际先进的企业已…

应用PID算法对ABS系统的仿真和分析

1、内容简介略635-论文V2 可以交流、咨询、答疑2、内容说明摘要:本文旨在设计一种利用模糊控制理论优化的pid控制器,控制abs系统,达到对滑移率最佳控制范围的要求 ,所提出的方案采用级联控制架构:设计用于外环中的车轮…

零基础开始QT绘图(6)

前面我们开始提到了GraphicView的使用,也提到GraphicsItem的使用,并且开始了自定义GraphicsItem的编写,而且上次我们的GraphicsItem也是可以拖动了,但这离我们需要的效果还有一定的距离。 所以,这次,我们进…

工程电磁设备在2018年杭州电磁大会的报告

1 方法原理 本篇是对多频电磁方法,应用的解读。 本汇报讲述了EMI传感器的基本情况,以及用手持多频电磁仪进行实际探测应用的例子。 什么是电磁感应?用发射装置(TX)激发谐波,产生一次场(Primary field),地下导体目标会相应产生涡流电磁场,产生二次场,被接收装置(RX…

「网络安全渗透」如果你还不懂CSRF?这一篇让你彻底掌握

1 什么是 CSRF 面试的时候的著名问题:"谈一谈你对 CSRF 与 SSRF 区别的看法" 这个问题,如果我们用非常通俗的语言讲的话,CSRF 更像是钓鱼的举动,是用户攻击用户的;而对于 SSRF 来说,是由服务器…

14.0、Linux-yum方式安装 docker

14.0、Linux-yum方式安装 docker 第一步: 检测 CentOS7 -> cat /etc/redhat-release 第二步: 用以下命令安装准备环境 -> yum -y install gcc yum -y install gcc-c 第三步: 如果之前安装过 docker 的,先用以下命令删…

【每日一题】【LeetCode】【第十三天】移动零

解决之路 题目描述 测试案例(部分) 第一次 看到这题目,第一时间还真想到了双指针法(暴力解法是个会写代码的都能第一时间想到,所以自己学会了尽量不第一时间用暴力解法) right的初始位置元素若为0&…

Jenkins-Slave分布式架构搭建

♥ Jenkins的分布式构建,在Jenkins的配置中叫做节点,分布式构建能够让同一套代码或项目在不同的环境(如:Windows和Linux系统)中编译、部署等。 ♥ 将jenkins项目发布在不同服务器上(分布jenkins工作空间,部署项目到不同…

java 简单了解spring之(IOC容器)

IOC 容器 是spring的一个重要组成部分 IOC 翻译过来叫控制反转 他在做的事是 降低计算机代码的耦合度 这个过程叫IOC 通过控制反转 对象在被创建时 由一个调控系统内所有对象的外界实体将将其所依赖的对象引用传递给他,也可以说,依赖被注入到对象中 说简…

[oeasy]python0048_取整_int_float_浮点型_cast_扮演_tab_制表键_制表符

转化为10进制 回忆上次内容 上次 把其他进制 转化回 十进制 用的是 int 函数 int 来自于 integer 同源词 还有 integrateentire意思都是完整的 完整的 和 零散的 相对 可以把 零散的小数 转化为 完整的整数吗?🤔 取整 可以 把一个浮点型的小数 取…

【Proteus仿真】【51单片机】酒精浓度检测系统设计

文章目录一、功能简介二、软件设计三、实验现象联系作者一、功能简介 本项目使用Proteus8仿真51单片机控制器,使用LCD1602显示模块、按键模块、LED和蜂鸣器、MQ-3酒精传感器模块等。 主要功能: 系统运行后,LCD1602显示酒精浓度值和阈值&…

【自学Docker】Docker命令

Docker命令 Docker命令分类 Docker环境信息 docker [info|version]Docker容器生命周期管理 docker [create|exec|run|start|stop|restart|kill|rm|pause|unpause]Docker容器操作运维 docker [ps|inspect|top|attach|wait|export|port|rename|stats]Docker容器rootfs命令 …

AMBA--AHB总线协议学习及Verilog实现与仿真(一)

1、AHB总线概述 AHB:Advanced High-performance Bus,即高级高性能总线。AHB总线是SOC芯片中应用最为广泛的片上总线。下图是一个典型的基于AMBA AHB总线的微控制器系统: 基于AMBA AHB的设计中可以包含一个或多个总线主机,通常一个系统里至少…