编辑: glay | 2017-09-24 |
第一章 绪论 第2页算能力呢?好了, 我们学院派的定义一下计算机集群:一组计算机软件和硬件连 接起来高度紧密地协作完成计算工作的计算机系统,可以被看作是一台计算机, 这种系统就称为计算机集群. 也就是说, 只要大家有几台计算机 (PC 或服务器) , 一个路由器,几根网线,我们就可以把它们连接起来,通过一些软件,使它们的 计算能力得以共享,实现并行计算(parallel computing),不仅可以实现高速的 计算,而且可以使计算工作规范化,从而大大的提升科研效率! 如图 1-1-1 所示,这是作者所在实验室的组建的一个集群的实景(摄于
2009 年).这个集群现在已扩充升级. 图1-1-1 集群系统实景图(摄于
2009 年) 下面我们讲几个计算机集群中常用的术语和概念. 这些概念可以为读者组建 集群打下坚实的基础. 节点(node).集群中单独的每一台计算机称为节点.这些计算机,既可以 是普通 PC 也可以是服务器.按照现在的发展(2011 年前后),高端 PC 和服务 器的计算能力已经相差无几,而PC 的成本较低,不失为是个很好的选择.服务 器的优点在于可靠性高,即平均无故障时间长.比如,一个
500 台计算机构成的 集群连续运转一年,若全部为服务器,一个月平均可能只有几台机器出故障,若 全部为 PC,则可能平均每一天都会有机器崩溃.当然,对于普通研究组而言,
第一章 绪论 第3页情况没有那么夸张.读者根据自己的需要决定是选择 PC 还是服务器. 控制节点. 集群中需要多台计算机相互协作的完成任务,因此必须有一台计 算机作为 核心 领导者,控制其它的计算机,为其它的计算机分配计算任务, 调整负载等等.这个节点习惯称为控制节点.一般而言,控制节点可以选一台 CPU、内存一般(几个 GB 内存足矣!)的机器以节约成本,但是必须有大容量 的硬盘来存储用户的文件,即使是很小的组也一般最好是 1TB 以上(貌似更小 容量的硬盘已经没有卖的了),根据本组的人员数量和科研任务决定,作者知道 某个分子动力学研究组每个月都会有几个 TB 的轨迹文件产生. 计算节点. 计算节点就是集群中直接进行计算任务的计算机,这是决定计算 机集群性能的最关键因素之一.自然,CPU 主频越高,内存越大,总线带宽越 高,对计算就越有利.当然,具体的任务对这些硬件的要求不同.对于分子动力 学模拟计算,内存的要求很低,一般 1~4GB 的内存就可以,但是要求 CPU 具 有强大的计算能力,最好在
32 核(或双
16 核).对于量子化学计算,除了要求 有强劲的 CPU 外,还要求有高容量和高读写速度的内存、硬盘,因为量子化学 计算常常需要大容量的缓存文件,如果存储容量不够,会对计算速度带来很大的 影响.通常,内存最好在 256GB 以上;
硬盘最好在 1TB 以上,特别是需要大量 相关方法计算(如MP2 或CCSD(T)计算)时,硬盘的读写速度也十分重要.有 些计算, 诸如分子对接这种计算, 对计算机性能要求很低, 普通的高端配置即可. 现代计算机有
32 位,64 位等多种架构.64 位架构的机器当然是最好,但是 大多数研究组可能无法承担它的购买成本.现在的计算主流是选用虚拟
64 位的 机器,如em64t 和AMD64 等.本教程就是以虚拟
64 位机器为例介绍的,即所 谓x86_64 或者 amd64 机器. 通信网络.顾名思义,就是集群中连接各个节点的网络.这是决定计算机集 群性能的另一个最关键因素. 在进行并行计算时,网络速度是整个计算速度的瓶 颈.这个网络,当然可以选择使用普通实验室中的局域网连接即 宽带网加路由 器 结构.集群中,这个网的带宽最低不能低于百兆,即至少在千兆以上,再低 的网在计算时可能会出显各种由于网络延时过长而导致的错误. 如果读者能使用 高性能的集群专用网络,如Myrinet 或者 InfinitBand,那当然更好,这可以大大 地提升集群的并行效率!不过,这是要很高的成本的.