编辑: 旋风 | 2015-08-07 |
兼容 OpenPBS 2.3 的所有语法. Gridview 集成的 DPBS 曙光内部版本是 2.0;
调度器版本为 2.0. 1. 作业队列 目前整个系统共计
63 台计算节点 (node1-63 每个节点
8 CPU CORE 和16GB 内存),1 台登录节点(node64,配置 8CPU CORE,16 GB 内存)1 台管理节点 (node65, 配置
8 CPU CORE, 16GB 内存) ;
1 台I/O 节点 (node65, 配置
8 CPU CORE,16 GB 内存). 作业调度系统的管理节点是 node64 和node65,在这两个节点上用管理员帐 户root 都可以管理(删除或者取消)普通用户提交的作业. 共设定四个队列,high,parallel,debug, serial. 其中 high(具有特权的 用户使用) 为高优先级抢占队列, 可以抢占其它队列的作业. parallel, debug,serial 为低优先级队列, 其作业可以被 high 队列中的作业所抢占.默认队列为 parallel, 所有用户的作业长度不受限制,但其优先级也最低,优先级值越大,优先级也越 高. Queue CPU-Time Limit No. of Jobs in Parallel Priority high unlimited unlimited
11000 debug
2 小时
4 6000 parallel
30 天89000 serial
30 天64
6000 资源分区,利用 Reservation 的方法实现资源分区概念: 分为串行作业计算 节点区 (node1-8) 、 作业编译调试区 (node61-63) 和并行作业运行区 (node9-60) . 目前所有计算队列基本未加更进一步的限制, 任何用户可以提交任意数目的 长短作业.
2 调度策略 四个队列中,high(业务系统)为高优先级抢占队列,可以抢占其它队列的 作业. debug,parallel 和serial 为低优先级队列,其作业可以被 high 队列中的 作业所抢占. 默认队列为 parallel,所有用户的作业长度在主机试运行期间不受 限制;
优先级值越大,优先级也越高. 普通节点区未加限制,任何用户可以提交任意数目的长短作业.
3 作业调度系统使用举例 3.1 Job Arrays Job Arrays 是一种将相关工作分组的机制,允许使用者提交,查询,修改以 及显示一个集合的工作. 这个新的功能对于一些必须提交以及管理大量相关工作 的user 来说是相当实用的. 测试算例为: 测试脚本为: dolphin# cat helloworld.cc #include #include int main() { std::cout cat test.c #include "stdio.h" int main( int argc, char *argv[] ) { int i;
for (i=0;
i gcc test.c -o test #PBS -c enabled,periodic,shutdown,interval=1,dir=/public/users/dolphin/work/cr 表示开启 Checkpoint 功能(enabled);
periodic 表明进行周期性 Checkpoint;
shutdown 表明当 PBS Server 宕机时进行 Checkpoint;
interval=1 表明进行 Checkpoint 的最小 CPU 时间间隔为
1 分钟(单位为分钟);
dir=/public/users/dolphin/work/cr 表明 chekpoint 文件的保存目录为 /public/users/dolphin/work/cr. dolphin@CLOUD@ECNU:~/work/cr> cat test.job #!/bin/bash #PBS -N my.cr.job #PBS -j oe #PBS -l walltime=00:10:00 #PBS -c enabled,periodic,shutdown,interval=1,dir=/public/users/dolphin/work/cr #PBS -q serial cd $PBS_O_WORKDIR ./test dolphin@CLOUD@ECNU:~/work/cr> dolphin@CLOUD@ECNU:~/work/cr> qsub test.job 1363.node65 dolphin@CLOUD@ECNU:~/work/cr> qstat Job id Name User Time Use S Queue 1363.node65 my.cr.job dolphin
0 R serial dolphin@CLOUD@ECNU:~/work/cr> qpeek
1363 i =
0 i =