编辑: 5天午托 2018-11-21
LSF作业调度系统和超 算队列介绍 中国科学技术大学・ 超级计算中心 张运动 2019/3/14 常见问题在线查询系统 作业调度系统的作用 ? 计算任务按照提交先后顺序进入队列排队 ? 监控节点状态,分配节点给作业使用,并完成计算 ? 制定限制规则,保障长期使用的合理性、公平性等 ? 记帐功能 作业调度系统的使用步骤 ? 1.

准备输入文件: ? 通过sftp等方式将已准备好的计算任务文件上传到超算系 统上,或可直接在超算系统上使用vim等编写输入文件.注意Windows系统上传文件时请使用二进制文件格式或在上 传之后使用dos2unix命令对文件进行格式转换. ? 2.提交计算任务: ? 使用bsub命令将作业提交到LSF作业调度系统上.若提交成 功,系统会显示提示信息,已提交的任务将分配得到一个 作业号,并进入队列排队. ? 利用bjobs命令可查看已提交的作业.若提交不成功,请根 据系统提示执行后续操作. 作业调度系统的使用步骤 ? 3.调整队列中的作业参数: ? 尚在队列中排队的作业可以调整提交参数,已经开始运行 的作业无法再调整提交参数,使用命令为bmod.比如,更 改作业所在队列、计算所需进程数、输出结果文件名、调 整用户自己排队中作业的前后顺序等. ? 4.调度资源与分配运行: ? LSF作业调度系统会实时的监测各个计算节点的空闲情况及 状态,判断是否满足队列中排队作业的计算使用需求.若 满足需求,则会为作业分配计算节点进行计算. 作业调度系统的使用步骤 ? 5.作业开始计算: ? LSF监测并收集正在执行的作业状态信息及输出信息,并将 输出结果信息生成在作业提交时的文件目录下或作业提交 时指定的文件中. ? 6.作业查询与终止: ? 可通过查看作业默认或指定的输出文件或使用bpeek命令 进行输出状态查询.若程序计算异常,可使用bkill命令终 止删除作业. ? 7.获取计算结果: ? 可使用more、cat等Linux系统命令在系统上直接查看结果 文件.或将文件通过sftp等方式下载到个人电脑上进行后 期处理分析. 作业调度系统的使用步骤 ? 以上,

4、5步骤将由LSF作业调度系统自动完成,无 需用户参与. ? 及时观察作业提交、运行后的执行情况,异常作业请 及时杀掉. ? 严格禁止跳过作业调度系统提交作业,否则受罚. ? 简单三步走:准备输入文件、提交计算、处理计算结 果 前期准备:了解系统配置 按节点配置不同设置不同队列,根据需要选择使用 配置参数越高计算越快 ? node1-node300: ? 节点配置:24核2.5GHz CPU、64GB内存、56Gbps IB 网络 ? 使用队列:testv

3、smallib、mediumib、独占队列、 ahedu、qsce,适合小规模并行作业 ? node301-node450: ? 节点配置:28核2.4GHz CPU、128GB内存、100Gbps OPA网络 ? 使用队列:smallopa、longopa、largeopa,适合大 规模并行作业 前期准备:了解系统配置 按节点配置不同设置不同队列,根据需要选择使用 ? node451-node490: ? 节点配置:4核3.5GHz CPU、32GB内存、100Gbps IB 网络 ? 使用队列:e3v5,适合CPU高主频小作业 ? node491-node494: ? 节点配置:144核2.2GHz CPU、1TB内存、100Gbps OPA网络 ? 使用队列:fat144,适合大内存需求作业 ? K801-k804: ? 节点配置:28核2.4GHz CPU、 2块k80 GPU 、128GB 内存、100Gbps OPA网络 ? 使用队列:k80,GPU需求作业 前期准备:了解系统配置 按节点配置不同设置不同队列,根据需要选择使用 ? node500: ? 节点配置:36核2.3GHz CPU、8块V100 GPU、 256GB内存、100Gbps IB网络 ? 使用队列:v100,GPU需求作业,深度学习等 ? dgx1: ? 节点配置:80核2.0GHz CPU、 8块V100 GPU、 512GB内存、100Gbps IB网络 ? 使用队列:dgx1,GPU需求作业,深度学习等 ? knl1-knl8: ? 节点配置:64核1.3GHz CPU、96GB内存、100Gbps OPA网络 ? 使用队列:knl ,适合低主频多核作业,空闲较多 LSF常用命令介绍 ? bsub:提交作业 ? bhosts:显示指定节点状态,默认显示全部节点状态 ? bjobs:显示用户作业信息 ? bkill:杀掉指定的作业 ? bmod:更改已提交作业的参数 ? bpeek:显示处于运行时作业的标准输出和标准错误输 出信息 ? bqueues:显示作业队列信息 ? lsload:显示节点当前负载 查看节点信息bhosts ? STATUS:节点状态 ? ok节点可用,可接受新的作业 ? closed:结点已满、被预留、被关闭 ? unavail、unreach:节点故障,请联系管理员处理 ? RSV:被预留的节点核数 查看节点负载lsload ? ut:最近一分钟CPU使用率 ? status: ? ok,节点可用状态 ? luckup,排他型作业,作业提交时使用了-x参数占用 ? unavail、-ok,节点异常状态,请联系管理员处理 ? r15s、r1m、r15m:15秒、1分钟、15分钟CPU使用率 的负载平均值,若大于节点核心数较多则异常. 队列设置 bqueues Cl 队列名 ,查看详细配置参数 ? 免费队列:testv

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题