编辑: huangshuowei01 2017-09-21
SLURM资源管理系统 使用入门 主要内容 ? 1.

资源管理系统概述 C 系统组成 C 系统实体 ? 2.资源管理系统使用 C 资源状态查看 C 作业与资源分配 C 作业查看与控制 资源管理系统概述 ? 开源软件 SLURM C 全称 Simple Linux Utility for Resource Management C 2015年TOP500 榜单前

10 名的 HPC 系统中有

6 套系统使用 ? 提供高效的资源与作业管理 C 状态监控 C 资源管理 C 作业调度 C 用量记账 ? 是用户使用计算资源的接口 C 作业提交 / 运行 C 任务加载 C 作业控制 C 状态查看 资源管理系统组成 ? 主要组成部分 C 控制进程 C 记账存储进程 C 节点监控进程 C 作业管理进程 C 命令工具 资源管理系统组成 ? 控制进程:Slurmctld C 运行在管理节点 C 是资源管理系统的控制中枢 C 记录节点状态 C 进行分区管理 C 进行作业管理、作业调度、资源分配 ? 记账存储进程:Slurmdbd C 运行在管理节点 C 将作业信息保存到数据库 C 记录用户、帐号、资源限制、 QOS 等信息 C 用户认证和安全隔离 资源管理系统组成 ? 节点监控进程:Slurmd C 运行在每个计算节点 C 监控节点状态,并向控制进程注册 C 接收来自控制进程与用户的请求并进行处理 ? 作业管理进程:Slurmstepd C 加载计算任务时由节点监控进程启动 C 管理一个作业步的所有任务 ? 启动计算任务进程 ? 标准 I/O 转发 ? 信号传递 ? 任务控制 ? 资源使用信息收集 资源管理系统组成 ? 命令工具 C yhacct:查看历史作业信息 C yhalloc:资源分配 C yhbatch:提交批处理作业 C yhcancel:取消作业 C yhcontrol:系统控制 C yhinfo:节点与分区状态查看 C yhqueue:队列状态查看 C yhrun:任务加载 资源管理系统实体 ? 实体:管理对象 C 节点 C 分区 C 作业 C 作业步 资源管理系统实体 ? 节点:Node C 即指计算节点 C 包含处理器、内存、磁盘空间等资源 C 具有空闲、分配、故障等状态 C 使用节点名字标识,如cn9217 ? 分区:Partition C 节点的逻辑分组 C 提供一种管理机制,可设置资源限制、访问权限、优先级等 C 分区可重叠,提供类似于队列的功能 C 使用分区名字标识,如MIC C 系统有一个默认分区,带*标记 - work* 资源管理系统实体 ? 作业:Job C 一次资源分配 C 位于一个分区中,作业不能跨分区 C 排队调度后分配资源运行 C 通过作业 ID 标识,如123 ? 作业步:Jobstep C 通过 yhrun 进行的任务加载 C 作业步可只使用作业中的部分节点 C 一个作业可包含多个作业步,可并发运行 C 在作业内通过作业步 ID 标识,如123.0 资源管理系统关联 ? 关联:Association C 关联是系统实施资源限制的一个基础概念 C 由构成的四元组 C 每个作业都有对应的关联,因为作业都是由用户使用某计费帐号提交到系统的一个分 区中 ? 帐号、用户的资源限制,在实现上最终以关联进行记录 C 节点数量 C 作业数量 C 时间限制 主要内容 ? 1.资源管理系统概述 C 系统组成 C 系统实体 ? 2.资源管理系统使用 C 资源状态查看 C 作业与资源分配 C 作业查看与控制 节点状态查看 ? 使用yhinfo命令查看节点状态 C 别名:yhi ? 使用yhcontrol命令查看节点详细信息 $ yhinfo PARTITION AVAIL TIMELIMIT NODES STATE NODELIST work* up infinite

1110 down* cn[0-451,494-1151] work* up infinite

42 idle cn[452-493] test up infinite

7 down* cn[1178-1179,1224-1225,1244-1245,1259] test up infinite

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题