编辑: 贾雷坪皮 | 2019-07-08 |
4 1
1 第3 9卷第1 7期2015年9月1 0日Vol.39N o .
1 7S e p t .
1 0,
2 0
1 5 D O I :
1 0.
7 5
0 0 / A E P S
2 0
1 5
0 3
1 0
0 1
7 h t t p : / / ww w. a e p s - i n f o . c o m 图1 基于云计算的用户用电行为分析流程 F i g .
1 A n a l y s i sp r o c e d u r eo f e l e c t r i c i t yc o n s u m p t i o n b e h a v i o ro fu s e rb a s e do nc l o u dc o m p u t i n g
2 基于云计算的关联规则算法 2.
1 传统 A p r i o r i算法步骤 关联规则是描述事物之间关联性和依存关系的 规则, A p r i o r i算法是挖掘布尔关联规则频繁项集的 最经典算法之一.A p r i o r i算法是一种宽度优先的 关联规则算法, 采用逐层搜索策略, 先重复扫描数据 库, 统计所有含一个元素项集出现的频率, 找出满足 最小支持度 m i n_s u p的频繁项集, 即一维最大频繁 项集.然后迭代循环过滤直至没有最大频繁项集生 成.最后利用频繁项集生成满足最小置信度min_conf的强关联规则.支持度和置信 度计算公 式分别如式(
1 ) 和式(
2 ) 所示. S u p p o r t ( A?B) =P r ( A ∪B) (
1 ) C o n f i d e n c e ( A?B) =P r ( BA) (
2 ) 式中: P r ( A∪B) 为A和B 这两个项集在事务集D 中同时出现的概率;
P r ( BA) 为项集 A 出现在事 务集D 中, 项集B 也同时出现的概率. A p r i o r i算法隐含了一条最基本的性质, 频繁项 集的子集一定是频繁集, 非频繁项集的超集必为非 频繁集.这条性质在一定程度上可以提高生成频繁 项集的效率.但Apriori算法存在两 大缺点, 一是 需要多次扫描数据库, 若数据库较大会造成很大的 I / O 负载;
另外, A p r i o r i算法会产生大量候选集, 因 此本文采用基于云平台的并行 A p r i o r i算法. 2.
2 并行 A p r i o r i算法 基于 H a d o o p 平台的Apriori算 法在Hadoop集群中当其中正在进行计算的计算机出现故障时, 可以将停止的计算任务转移到其他空闲 的计算机 上, 解决了节点失效的问题.并且通过修改配置文 件来决定每个 M a p数据块的大小, 达到数据分块数 远大于计算节点数的目的, 有效解决了负载不易均 衡的难题.随着智能电网的建设, 智能电表采集的 数据频率越来越高、 数据量越来越大.电力大数据 具有体量大、 种类多、 速度快的特点, 这些特点更适 合使用基于云计算的并行 A p r i o r i挖掘算法来挖掘 出家庭的智能用电策略. 并行Apriori数据挖掘算法就是将传统的Apriori算法移植到云计算模式下实现并行处理的 过程.本文采用 H a d o o p云计算框架进行开发和并 行处理大规模的用电数据, H a d o o p 平台是一个开 源的云计算平台, 具有扩容能力强、 可靠性高、 成本 低以及效率高等特点.H a d o o p平台包括分布式文 件系 统(HD F S) 和MapReduce计 算模型两部分. HD F S集群是由一个管理节点( N a m e n o d e ) 和大量 数据节点( D a t a n o d e ) 组成, 其最主要的特点就是处 理规模很大的文件, 并且能够保证数据的完整 性. 系统通过 HD F S 和Hadoop中的数据库 H b a s e进 行海量数 据的存储, 同时提供类结构化查询语言(SQL) 接口 H i v e实现数据的高效分析.基于云计 算的并行 A p r i o r i算法的实现方法如图2所示. 图2 并行 A p r i o r i算法流程 F i g .
2 P r o c e d u r eo fp a r a l l e lA p r i o r i a l g o r i t h m 算法以键值对<
k e y , v a l u e >