编辑: hgtbkwd | 2015-09-01 |
1 相关理论基础 1.1 Dempster-Shafer证据理论 在证据理论中,首先确定全体研究对象并组成 一个辨识框架 Θ = {F1, F2,FN }, 这些元素相 互独立且两两互斥, 2Θ 是Θ的所有子集组成的幂集, 满足? ∈ 2Θ , Θ ∈ 2Θ . 令映射m : 2Θ → [0, 1]为 一个定义在 Θ 上的 BBA, 满足 m(?) = 0, 且?A ∈ 2Θ , ∑ A∈2Θ = 1, m(A)表示对命题A本身赋予的信度. 若有m(A) >
0,则称A为辨识框架Θ上的一个焦元. 在设备故障诊断中,辨识框架Θ由设备的故障模式组 成,而某信息源提供的诊断证据可以用BBA函数m 来表示,例如 m({F1}) = 0.65, m(Θ) = 0.35 表示该 信息源的故障特征取某个值时,对应发生故障F1 的 信度为0.65, 不知发生何种故障 的信度为0.35. 如果 m1 和m2 分别是两个定义在 Θ 上的 BBA, 定义m3 = m1 ? m2 为组合后的BBA[1] ,则有 m3(C) = ∑ A ∩ B=C m1(A)m2(B)
1 ? ∑ A ∩ B=? m1(A)m2(B) , (1) 其中符号 ? 表示融合算子. 可令 κ = ∑ A ∩ B=? m1(A)m2(B) (2) 为规范化因子,用来表示两两证据之间的冲突程度大 小,式(2)只有在κ <
1的情况才可以使用. Dempster 组合规则是在同一个辨识框架下综合处理多批证据 的方法,是证据理论的核心. 第10期 侯平智 等: 基于K 近邻证据融合的故障诊断方法
1769 1.2 K 近邻算法及其改进 K 近邻算法最初是由Cover和Hart在20世纪60 年代提出的,经过了近50年的研究和探索,由于其简 单、 有效,已被广泛应用于机器学习和数据挖掘领域 解决分类问题[9-10] . 当它被应用于故障分类问题时, K 近邻的原理如下例所示. 设待分类样本(测试样本)向量记为 Yc = (yc,1, yc,2,yc,J ), 其中yc,j(j = 1, 2,J)表示可用于诊断的第j 中 故障特征参数fj 的取值. 若历史故障样本库中存在 某个标记为故障Fi 的样本向量Xi = (xi,1, xi,2, xi,J , Fi), i = 1, 2,N,则可以计算Yc 与Xi 之间的 距离为 d(Yc, Xi) = J ∑ j=1 (yc,j ? xi,j). (3) 利用式(3)依次计算Yc 与历史样本库中每个样 本的距离,并统计出距离Yc 最近的K 个历史样本所 属故障类别,属于哪个类别的样本数量最多,则判定 Yc 也指向该类别. K 近邻分类的思路简单易行,但是 所采用的 少数服从多数 的判定规则,在各故障类 别历史样本的边界模糊时,易出现无法分类甚至错 误分类的情况. 例如,若K = 5,最近邻样本中分别有 2个属于F1 和F2, 1个属于F3,则不能确定Yc 归入F1 和F2,但是近邻样本中有3个属于F
1、 2个属于F2 的 情况(简称为 3-2 情况),此时则会出现误判. 为了解决此问题, Denoeux等在文献[8]中提出 利用证据表示Yc 与K 个近邻样本之间的关系. 例如, 如果Xi 是其中的一个近邻样本,则所生成的证据为 ? ? ? m(Fi) = φi(d), m(Θ) =
1 ? φi(d). (4) 其中: d 为式(3) 中Yc 与Xi 之间的距离;
φi(d) = α exp(?γi * d2 ), α和γi 都为可调参数,可以通过历史 样本进行优化. 那么, K 个近邻样本可以获取K 个证 据,利用式(1)将这K 个证据进行组合,获取融合后的 证据,融合结果中哪个故障类别的信度最高,则Yc 属 于哪类. 由于采用BBA表示归类的信度,其要比 少 数服从多数 的硬判决更为细致地刻画Yc 与Xi 之间 的关系,所以可以较好地处理 2-2-1情况 ,但是难 以处理 3-2 情况. 因为用式(4)生成证据时,由于只 对Xi 所属故障Fi 和全集Θ赋值,并未对其他故障类 别赋值,没有充分考虑Xi 与其他故障类别近邻样本 之间的相似程度(即各故障样本的边界模糊性问题), 即使采用证据融合,也不能很好地处理 3-2 这种情 况[8,11] .