编辑: 阿拉蕾 | 2019-11-04 |
180 1235
0507 超算官网:http://www.
nsccwx.cn 官网上机指南中,有文档、视频、demo等多种形式的资料,建议使用前先查阅相关资料 无锡超算用户计算资源查看 1. 查看可提交作业的队列 qload -w q_sw_*** 表示国产计算平台队列 q_x86_*** 表示商用计算平台队列 CONFIG: 队列总节点个数;
IDLE: 队列空闲节点个数;
BUSY: 队列已占用节点个数 ;
sleep: 队列休眠节点个数(可用) qload -w -l (小写L) 正式队列可使用节点数 国产2048 2. 查看某队列节点使用情况 qload -w -l(小写L) qload -l(小写L)队列名 3. 查看节点状态 cnload -c 节点号,如:cnload -c 1,2-10,20 cnload -c 节点号 -l(小写L) 4. 按照jobid查看节点状态 bjobs回车,查看jobid占用的节点,复制cpuid,通过cnload -c jobid查看节点CPU,内存,负载 状态 面向用户的问题总结【2018.4.25-持续更新】 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q cnload -c $(bjobnodes jobid),节点状态 5. 资源限制 注:如需增加时长以及节点数,请联系商务购买正式计算队列 1. q_sw_expr队列为国产计算资源测试队列. 该队列仅能够持续运行作业1小时,超时被杀 该队列最大提交节点数为16个节点,即16*4核心 该队列仅为测试使用,禁止大量提交作业 注:测试队列对用户交题的节点数有限制,大量交题并无意义,且会造成任务调度系统缓慢 2. q_x86_expr队列为x86处理器架构测试队列 该队列仅能够持续运行作业1小时,超时被杀 该队列最大提交节点数为3个节点,即24*3 核心 该队列仅为测试使用,禁止大量提交作业 注:测试队列对用户交题的节点数有限制,大量交题并无意义,且会造成任务调度系统缓慢 3. 通过qload -w看到节点状态不正确 4. 查看节点状态,强烈建议使用cnload -c cpuid 5. 节点处于softft/hartft/down/boot为异常状态 6. 节点处于N/A|BUSY|SBUSY|sleep|sleeping为正常状态 无锡超算用户存储资源查看 1. 查看online1/2存储使用情况【注:在登陆节点psn查询】 lfs quota -h -u username /home/export/online1【查看用户的online1存储使用】 lfs quota -h -u username /home/export/online2【查看用户的online2存储使用】 lfs quota -h -g groupname /home/export/online1 【查看组的online1存储使用】 lfs quota -h -g groupname /home/export/online2【查看组的online2存储使用】 2. 查看GPFS存储使用情况【注:在登陆节点bsn查询】 mmlsquota -u username【查看用户存储使用情况】 mmlsquota -g groupname【查看组存储使用情况】 3. 查看家目录大小 输入cd命令,回车,回到家目录 输入du -sh命令,回车,统计家目录大小 4. 注意: 1. 存储资源不仅包括磁盘限额(Block Limits),也包括文件数目(File Limits) 2. 存储磁盘限额超额,必定会影响【文件操作】和【作业提交和运行】 3. 超额之后,请删除废弃数据和旧数据,或联系商务洽谈存储收费扩容 4. 组磁盘限额超额时,会影响用户磁盘限额使用 无锡超算用户登录报错或异常 VPN登录问题 注:VPN登录遇到异常,请先检查电脑外网连接是否正常 注:VPN有共用人数上限,如需提高上限,请联系技术支持 登录VPN时,浏览器一直显示初始化中 可能原因:用户首次登录,采用了非IE或非IE内核浏览器登录,跳至 用户VPN登录部分 可能原因:用户此时采用的网络运行商,登录非该运营商的IP地址,请核对后调整 VPN被禁用 可能原因:用户一个月内没有登录过VPN,VPN账号会被冻结.请联系管理员激活 可能原因:用户尝试爆破VPN密码,导致VPN账号被禁用 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 主机登录问题 用户无法ping通41.0.0.188或173.0.22.88 原因:目前这两个地址是禁ping的,可直接尝试ssh连接 用户用ssh终端登录41.0.0.188或173.0.22.88,终端提示是否接受公钥 注:目前登录节点做了负载均衡,因为每次登录到不通节点,用户终端记录的公钥与新登录的节点不一致 ,故会出现上述现象 用户可以配置SSH终端,默认不提示,接受公钥 Mac用户可配置SSH客户端配置文件,具体可在互联网上检索 用户ssh登录时,第一次连接失败,第二次才连接成功 出现这种情况,可能是某个登录节点出现负载过高,或者节点宕机等情况 用户多次ssh登录,连接失败,且未出现认证界面 注:出现这种情况,可能是用户没有连接正确的地址,请核对地址后连接 查看VPN网页中显示的资源 使用国产计算资源,x86计算资源,登录地址41.0.0.188 使用商业软件,登录地址173.0.22.88 可能是用户的系统账号密码不正确,多次输入失败 注意: 1. 超算平台有登录节点、计算节点之分;
程序、数据等文件要放在 online1 或者 GPFS 目录,计 算节点才能访问到 2. 登录节点为用户提供一个登陆系统的平台,用户可以通过internet网络登录VPN,然后通过 ssh终端登录到登陆节点上 3. 登录节点用户可以进行软件编译与调试、环境变量配置作业提交、文件编辑、结果查看等操作 4. 登录节点禁止用户直接运行计算程序 5. 登录节点有三个 psn002 psn004 psn010,一般情况下重复登录三次可切换到另外一个登录节 点6. 计算节点本身没有本地硬盘,挂载共享存储,具备软件运行所需的运行环境 7. 用户程序、数据等文件要放在 online1 或者 GPFS 目录,计算节点才能访问到 8. 计算程序需通过bsub作业管理系统提交到计算节点运行 无锡超算用户使用编译器查看 注:更为详细的介绍,请参考无锡超算官网->
上机指南->
神威太湖之光系统快速使用指南 商用平台编译器 Intel 基础编译器 Fortran: ifort C语言: icc C++: icpc Intel并行编译器 Fortran: mpiifort C语言: mpiicc C++: mpiicpc 国产平台编译器 基础编译器 c语言编译器 主核: sw5cc -host 从核: sw5cc -slave q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 混合链接: sw5cc -hybrid c++编译器 主核: sw5CC -host 从核: 不支持 混合链接: sw5CC -hybrid Fortran 主核: sw5f90 -host 从核: sw5f90 -slave 混合链接: sw5f90 -hybrid 使用示例 sw5cc -host -c master.c sw5cc -slave -c slave.c (纯主核程序可省略该步骤) sw5cc -hybrid master.o slave.o -o test 并行编译器 C语言编译器: mpicc C++编译器: mpiCC Fortran编译器: mpif90 OpenACC编译器 C语言编译器: swacc Fortran编译器: swafort 常用编译选择 -OPT:IEEE_arith=2 浮点异常 无锡超算用户提交作业报错或异常 0. 本系统均采用在登录节点psn/bsn/vsn上使用bsub命令提交作业,不接受其他提交命令 1. 家目录无法提交作业,切换至全局文件系统(online1,online2,GPFS)的工作目录提交 注:报错类型为:current cwd is /home/export/base/xxx/yyy , can'
t submit job on fs base, job not submitted 2. 家目录因存放大量文件导致磁盘限额超出1G出错 注:报错类型: Disk quota exceeded 1. 删除家目录下的文件【注:不要删除online1,online2,GPFS软链接】 2. 清空隐藏目录.rmsbatch下的文件 3. 因无队列权限提交失败 注:报错类型为:Job submit failed, Access/permission denied 1. 指定qload -w 查看具有权限的队列 2. 查看提交命令中的队列名是否正确 4. 因队列关闭提交失败 注:报错类型为:Job submit failed, Queue is closed 联系管理人员确认是否队列因故临时关闭 5. 因提交到错误平台导致提交失败 注:报错类型为:job submit failed, ret = -19, reason: No enough compute nodes 1. 查看是否将使用国产编译器编译的程序提交到q_x86_xxx,即x86架构处理的平台 6. 因超出队列资源限制提交失败 注:报错类型为:job submit failed, ret = -40, reason: Exceed user avail resource quota. 使用qlimit -l(小写L) 队列名 | grep 用户名 查看用户在该队列的资源限制 调整核心数,重新提交 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 7. 交互式提交后长时间PEND或dispatch 1. 超出队列可使用资源限制.执行bjobs -l jobid 查看原因为Pend reason 注:用户查看队列可使用资源,见第6点8. 非交互式提交以后输出文件无更新 确认提交参数中的队列是否正确 参照第7点,交互式提交,查看报错 9. 计算结束无法退出 作业输出完成,但未提示Job xxxxx has been finished 注:有可能是~/.bashrc中配置的环境变量的顺序有问题导致 10. 执行qload,cnload,bjobs,bsub等命令报错 报错类型:-bash: cnlaod: command not found df -h | grep /usr/sw-mpp是否挂载.若挂载正常,需要用户检查自己的环境变量 用户需要确认是否修改过环境变量配置文件~/.bashrc,或export PATH出错 注:若因bashrc配置错误,需要vi/vim修改时,绝对路径执行/usr/bin/vim修改~/.bashrc 报错类型:Connect to remote server failed 任务调度系统异常,需及时联系管理员 报错类型: 任务调度并发瓶颈,有其他用户大量提交作业,需及时联系管理员处理 无锡超算用户作业运行时报错或异常 1. 国产计算平台常见报错 报错类型1:signo8 加-OPT:IEEE_arith=1编译即可 2. x86计算平台常见报错 报错类型1:plugin_load_from_file:dlopen(/usr/sw-slurm/slurm-16.05.3/lib/slurm/ auth_munge.so):libmunge.so.2:cannont open shared object file: No such file or directory 注:用户需要重新提交作业;
联系管理员确认;
需向管理员提供jobid,便于定位问题原因. mn节点或者cn节点的munged认证链接库找不到,实际位置在全局文件系统,需要连接至根 文件系统 报错类型2:Transport endpoint is not connectd 注:该节点文件系统传输断开,联系管理员确认 3. bjobs查看作业状态RUN,但是作业无输出 暂未调度 节点未分配 4. bjobs查看作业状态RUN,但是作业停止输出 可能是系统临时故障,需联系管理员 5. bjos查看作业状态DONE,但是无计算输出 bjobs -l(小写L) jobid ,查看信息:using nodes, nodelist 是否为空 核对提交参数及参数位置是否正确 6. 作业较平时正常情况变慢很多 查看x86节点mmfsd进程负载,需联系管理员 无锡超算用户作业管理 注:更为详细的介绍,请参考无锡超算官网->
上机指南->
神威太湖之光系统快速使用指南 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 1. 商用平台提交 前台作业提交 bsub -I -q q_x86_expr -n
1 ./a.out para1 para2 -I 表示交互式提交,程序输出会打印到屏幕,屏幕关闭,作业会终止 -q 队列名.队列名可通过 qload -w 命令查看 -n 进程数 ./a.out 可执行程序 para1 para2 可执行程序所需的参数 后台作业提交 bsub -q q_x86_expr -n
1 -o runlog ./a.out para1 para2 去掉 -I 选项即提交到后台 -o 表示把程序输出打印到runlog文件中 2. 国产平台提交 前台作业提交 bsub -I -b -q q_sw_expr -n
1 -cgsp
64 -share_size
4096 -host_stack
128 ./a.out para1 para2 -I 表示交互式提交,程序输出会打印到屏幕,屏幕关闭,作业会终止 -b 表示从核函数栈变量放在从核局部存储上,该选项为获取加速性能必须的提交选项 -q 队列名,队列名可通过 qload -w 命令查看 -n 进程数,使用主核数 -cgsp 使用从核个数 -share_size 指定核组共享空间大小,一般最大可以用到 7600MB -host_stack 指定主核栈空间大小,默认为 8M,一般设置为 128MB 以上 ./a.out 可执行程序 para1 para2 可执行程序所需的参数 后台方式提交 bsub -b -q q_sw_expr -n
1 -o runlog -cgsp
64 -share_size
4096 -host_stack
128 ./a.out para1 para2 去掉 -I 选项即提交到后台 -o 表示把程序输出打印到runlog文件中 其他选项与上述相同 3. 作业查询 bjobs 查看作业 执行 bjobs 可以查询作业号以及运行状态 bjobs -l 作业号 可查询更多详细信息 bkill 杀作业 bkill + 作业号 cnload 节点状态查询 cnload -c 节点号,如:cnload -c 1,2-10,20 cnload -c 节点号 -l(小写L) bjobs回车,查看jobid占用的节点,复制cpuid,通过cnload -c jobid查看节点CPU,内存 ,负载状态 节点处于softft/hartft/down/boot为异常状态 节点处于N/A|BUSY|SBUSY|s........