编辑: xwl西瓜xym | 2019-07-09 |
4 1 N o .
6 J u n e2
0 1
8 收稿日期:
2 0
1 6
0 4
2 2;
在线出版日期:
2 0
1 6
1 0
1 9. 本课题得到国家自然科学基金(
6 1
4 0
2 4
5 0) 、 北京市自然科学基金(
4 1
5 4
0 8 8) 、 C C F 启 明星辰 鸿雁 科研资助计划( C C F V e n u s t e c h R P
2 0
1 6
0 0
7 ) 、 国家科技支撑计划(
2 0
1 5 B AH
5 5 F
0 2 ) 、 国家 八六三 高技术研究发展计划项 目(
2 0
1 3 A A
0 4
1 3
0 1 ) 资助. 王焘, 男,
1 9
8 2年生, 博士, 副研究员, 中国计算机学会( C C F ) 会员, 主要研究方向为云计算系统的故障诊断、 软件 可靠性和自主计算. E m a i l : w a n g t a o @ i s c a s . a c . c n . 顾泽宇, 男,
1 9
9 1年生, 硕士, 主要研究方向为分布式监测. 张文博, 男,
1 9
7 6年生, 博士, 研究员, 博士生导师, 主要研究领域为分布式计算、 云计算和中间件. 徐继伟, 男,
1 9
8 5年生, 博士, 主要研究方向为软件工程和网络分 布式计算. 魏峻, 男,
1 9
7 0年生, 博士, 研究员, 博士生导师, 中国计算机学会( C C F) 高级会员, 主要研究领域为服务计算、 中间件和软件 工程. 钟华, 男,
1 9
7 1年生, 博士, 研究员, 博士生导师, 中国计算机学会( C C F) 高级会员, 主要研究领域为软件工程和分布式计算. 一种基于自适应监测的云计算系统故障检测方法 王焘顾泽宇 张文博 徐继伟 魏峻钟华(计算机科学国家重点实验室 北京
1 0
0 1
9 0 ) ( 中国科学院软件研究所 北京
1 0
0 1
9 0 ) 摘要监测技术是保障云计算系统性能与可靠性的关键, 管理员通过分析监测数据可以了解系统运行状态, 从 而采取措施以及早发现并解决问题. 然而, 云计算系统规模巨大, 结构复杂, 大量的监测数据需要搜集、 传输、 存储 和分析, 给系统带来巨大性能开销. 那么, 如何在提高故障检测的准确性和及时性的同时, 减少监测开销成为亟待 解决的问题. 为了应对以上问题, 该文提出一种基于自适应监测的云计算系统故障检测方法. 首先, 利用相关分析 建立度量间的相关性, 利用度量关联图选择关键度量进行监测;
而后, 利用主成分分析得到监测数据的主特征向量 以刻画系统运行状态, 进而基于余弦相似度评估系统异常程度;
最后, 建立可靠性模型以预测系统可能出现故障的 时间, 基于此动态调整监测周期. 实验结果表明, 该文所提出的方法能够适应云环境下负载的动态变化, 准确评估 系统异常程度, 自动调整监测频率以提高系统在异常状况下故障检测的准确性与及时性, 降低系统在正常运行过 程中的监测开销. 关键词 故障检测;
自适应监测;
云计算;
相关分析;
主成分分析 中图法分类号 T P
3 1
1 珊
1 0.
1 1
8 9
7 / S P. J .
1 0
1 6.
2 0
1 8.
0 1
3 3
2 镒樽 镒 樽缋 WANGT a o GUZ e Y u Z HANG W e n B o XUJ i W e i WE I J u n Z HONG H u a ( 犁 蚶 遄, 樽100190)(勺胬 , 樽 胬 遄, 樽100190)Monitoringi st h ek e yt e c h n o l o g yo fg u a r a n t e e i n gt h ep e r f o r m a n c ea n dr e l i a b i l i t yo f d i s t r i b u t e ds y s t e m s . B ya n a l y z i n gm o n i t o r i n gd a t a , a d m i n i s t r a t o r sc a nu n d e r s t a n dt h es y s t e m s '