编辑: xwl西瓜xym | 2019-07-09 |
3 0万美元① . 在云计 算系统运行过程中, 高效监测是及时检测系统故障 并准确定位问题原因的前提条件. 云计算系统规模巨大, 结构复杂, 监测系统需要 从众多节点上搜集多个层次( 如网络层、 硬件层、 虚 拟机层、 操作系统层、 中间件层和应用软件层) 各种 资源的监测数据, 以持续跟踪云计算系统的运行状 态. 然而, 搜集、 传输、 存储与分析大量监测数据将会 带来巨大资源开销, 从而影响系统性能以及商业监 测系统( 如亚马逊的 C l o u dW a t c h) 只支持固定的较 长的监测周期( 如每分钟搜集一次监测数据) . 同时, 从用户角度考虑, 租用云监测服务需要支付的费用 与监测的对象和频率成正比, 而监测花费占到了总 共运行成本的1 8%② . 这样就造成了: 一方面, 管理 员和用户希望减少监测对象和降低监测频率( 即单 位时间内的搜集监测数据的次数) 以减少开销和降 低成本. 另一方面, 故障可能在连续监测的时间间隔 内发生, 监测对象过少以及监测频率过低会减少可 用监测数据量, 从而降低检出故障的准确性与及时 性. 那么, 如何设置监测对象与频率, 成为监测云计 算系统并保障其可靠性的关键. 当前, 大规模数据中心监测主要关注于监测系 统架构和传输协议设计, 以降低监测对网络造成的 压力. 管理员通常根据领域知识, 针对不同应用场 景, 选择特定监测对象, 人工设定数据搜集内容和频 率调整规则, 这种方法适用系统有限, 且规则设定的 优劣直接影响监测效果. 云计算环境下, 应用呈现多 样性, 且应用对云平台是透明的, 系统管理员难以设 定面向特定领域的监测规则. 针对上述问题, 本文提出一种基于自适应监测 的云计算系统故障检测方法. 首先, 利用相关分析分 析度量间的相关性, 从众多度量中选取反映系统运........