编辑: 人间点评 | 2019-07-01 |
edu.cn) 中国科学技术大学网络信息中心
2008 年1月目目目录 录录1资资资源 源 源管 管 管理 理 理软 软 软件 件件TORQUE 的的的安 安 安装 装 装与 与 与设 设 设置 置置21.1 服务节点安装 TORQUE
2 1.2 服务节点初始化并设置 TORQUE
2 1.3 计算节点上安装 TORQUE
4 1.4 计算节点配置 TORQUE
4 2 安安安装 装 装与 与 与配 配 配置 置 置作 作 作业 业 业调 调 调度 度 度软 软 软件 件件: : :Maui
5 2.1 服务节点上安装 Maui
5 2.2 服务节点上配置 Maui
5 3 作作作业 业 业运 运 运行 行行63.1 串行作业
7 3.2 并行作业
8 3.3 常用作业管理命令
8 3.3.1 查看队列中的作业状态:qstat
9 3.3.2 挂起作业:qhold
10 3.3.3 取消挂起:qrls
10 1 3.3.4 终止作业:qdel 和canceljob
10 3.3.5 查看作业状态:checkjob
11 3.3.6 交换两个作业的排队顺序:qorder
12 3.3.7 选择符合特定条件的作业的作业号:qselect
12 3.3.8 显示队列中作业的信息:showq
13 3.3.9 显示节点信息:pbsnodes 和qnodes
13 2
1 资资资源 源 源管 管 管理 理 理软 软 软件 件件TORQUE 的的的安 安 安装 装 装与 与 与设 设 设置 置置TORQUE 和Maui 可以从 http://www.clusterresources.com 上下载.以下仅 是粗略配置,详细配置请参考相关手册: ? TORQUE:http://www.clusterresources.com/torquedocs21/ ? Maui:http://www.clusterresources.com/products/maui/docs/ mauiusers.shtml 1.1 服服服务 务 务节 节 节点 点 点安 安 安装 装装TORQUE 这里假设服务节点的机子名为 kd50,其中一个计算节点的名字为 node0101. root@kd50# tar zxvf torque-2.2.1.tar.gz root@kd50# cd torque-2.2.1 root@kd50# ./con?gure Cpre?x=/opt/torque-2.2.1 Cwith-rcp=rcp 上面 Cwith-rcp=rcp 设置为利用 rsh 协议在节点间传输文件,也可设置为 Cwith- rcp=scp 以利用 scp 协议进行传输.利用 rcp 或者 scp 传输需要配置节点间无须密码 访问,具体请参看相关文档. root@kd50# make root@kd50# make install 1.2 服服服务 务 务节 节 节点 点 点初 初 初始 始 始化 化 化并 并 并设 设 设置 置置TORQUE 将TORQUE 的可执行文件所在的目录放入系统的路径中,修改 /etc/pro?le: § TORQUE=/opt/torque?2.2.1 MAUI=/opt/maui?3.2.6p20 if [ `id ?u` ?eq
0 ];
then PATH= /usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin: PATH=$PATH:$TORQUE/bin:$TORQUE/sbin:$MAUI/bin:$MAUI/sbin else PATH= /usr/local/bin:/usr/bin:/bin:/usr/games:$TORQUE/bin:$MAUI/bin PATH=$PATH:$TORQUE/bin:$MAUI/bin ? ? ? 上面将同时设置 Maui 的路径,如在这里已经设置了,并且 Maui 安装路径为上 面的话,后面就无需再设置 Maui 的路径.
3 修改后使设置的环境变量生效: source /etc/pro?le 将root 设置为 TORQUE 的管理帐户: root@kd50# ./torque setup root 在/var/spool/torque/server priv/nodes 中添加计算节点的机器名,类似: § kd50 node0101 ? ? 如果服务节点不参与计算的话,需要将服务节点的机器名去掉.如果 node0101 上 有两个处理单元,就设置为 node0101 np=2. 如果 /var/spool/torque 下的目录 spool 和undelivered 的权限不是 drwxrwxrwt 的话,需要 chmod
1777 spool undelivered. 创建作业队列: root@kd50# pbs server -t create root@kd50# qmgr 输入下面 Qmgr: 后的内容,将设置一个默认队列 dque: § Qmgr: create queue dque queue type=execution Qmgr: set server default queue=dque Qmgr: set queue dque started=true Qmgr: set queue dque enabled=true Qmgr: set server scheduling=true ? ? 可以通过下面的代码来检查 pbs server 是否正常运行,若pbs server 没有运行, 则首先运行该程序,然后执行下面的代码: § # shutdown server qterm ?t quick # start server pbs server # verify all queues are properly con?gured qstat ?q # view additional server con?guration qmgr ?c '