编辑: 迷音桑 | 2018-06-19 |
e n e r g yb i gd a t a ;
f i l l i n g i n c o m p l e t eb i gd a t a ;
p a r a l l e l c l a s s i f i c a t i o n ;
i n c r e m e n t a l l yu p d a t i n g ;
b i gd a t a
1 引言随着云计算和大数据时代的到来, 大规模数据 中心在全球范围内得到了广泛的部署. 但其高能耗 问题却越来越突出. 据不完全统计,
2 0
1 3 年各类数 据中心 电能消耗量占全球年均总电能消耗量的0.5%. 按当前的发展趋势, 预计到2
0 2 0年, 数据中 心年均电能消耗量将占全球年 均总 电能消耗量的 1% [ 1] . 数据中心的高能耗造成了电能的浪费和系统 的不稳定, 同时也给环境带来了不利影响. 降低数据 中心耗电量最直接的方法是提高数据中心效率, 而 合理使用新能源是数据中心提高效率、 降低运维成 本的主要途径. I BM 曾提出 绿色数据中心的含义 是提高数据中心的能源效率 . 因此, 建立绿色数据 中心是数据中心发展的趋势. 绿色数据中心通常采用太阳能等绿色新能源为 绿色数据中心供电. 虽然利用新能源能缓解数据中 心对资源环境的压力, 但目前数据中心依然不适合 完全脱离传统电网. 如何协同配合传统电网和新能 源的各自特点, 并根据新能源的实时变化, 控制市电 供能端口和新能源供能端口以提供高效、 低能耗的 电能供给是如今所要面对的一个重要问题[
2 ] . 针对 这个问题, 我们需要高效处理绿色数据中心产生的 能耗相关大数据( 文中简称能耗大数据) . 能耗大数 据规模庞大( V o l u m e ) , 且由于新能源不稳定, 能耗 大数据会随时变化( V e l o c i t y) . 尽管 能耗大数据很 少涉及非结构化数据, 但其需要考虑电流电压等信 号、 系统日志和新能源监控数据等诸多半结构化数 据, 以及断电等因素造成的数据不完备, 使得数据形 式更为复杂( V a r i e t y ) . 有效分析和处理能耗大数据 可减少电能消耗, 这在当今计算规模庞大的云计算 时代, 具有极大的数据价值( V a l u e ) . 处理能耗大数 据和控制数据中心电能供需要消耗电能并带来很高 的操作开销, 而且其伴随的电池的频繁充放电会给 基础设施和环境造成负面影响. 如何运用数据挖掘 相关算法, 对数据中心的能耗大数据用途进行分类, 从而指导供电方式是绿色数据中心需要重点考虑的 问题. 然而, 绿色数据中心因断电、 设备故障、 信息采 集等因素造成的数据不完备问题, 会严重降低分类 效果, 在数据属性密度低的情况下甚至影响分类模 型的训练. 此外, 随着数据中心中数据不断变化, 根 据历史数据建立的数据模型的适应性会不断下降. 因此, 对不完备能耗大数据的处理以及建立更合理 的能耗管理模型, 逐渐成为绿色数据中心所面临的 新的挑战. 本文主要工作如下: (
1 ) 针对太阳能等新能源供电不稳定、 间歇性、 设备故障、 信息采集等因素造成的能耗数据缺失问 题, 提出了一种基于完备相容类的不完备大数据填 补算法. 该算法扩展了粗糙集中的相容关系, 保证数 据的完备性, 从而提高了分类的精度, 并且并行实现 了该算法以便高效处理大数据. (
2 ) 设计绿色数据中心的能耗管理架构, 提出 了一种适用能耗大数据的并行分类方法. 本文改进 了传统的随机森林算法, 提出一种基于离散弱相关 的决策森林分类算法对能耗大数据并行分类;