编辑: lonven | 2017-09-19 |
2 领域本体中两个非同义的概念 C1 和C2 之间的语 义初始相似度为: ISim( C1, C2) = !* ( dl( C1) +dl( C2) ) ( Dist(C1, C2)+!)* 2* Maxdl* max(|dl(C1)- dl(C2)|, 1) C1≠C2
1 C1=C2 # ( 1) 其中 ISim( C1, C2) 是概念 C1 和C2 的语义初始相似度, dl( C1) 和dl( C2) 分别是 C1 和C2 所处的层次, Dist( C1, C2) 是概念 C1 和C2 之间的本体树中的最短路径, Maxdl 是指本体树的最大深度, 在这里除以该参数是便于计算结果的归一化处理.α是一个可 调节参数, 一般≥0. ( 1) 概念距离越大其相似度越低.如图
2 示dl( C11) =3, dl ( C6) =2, dl( C7) =2, Dist( C11, C6) =3, Dist( C11, C7) =5, Maxdl=3, 可知Dist( C11, C7) >
Dist( C11, C6) 利用公式(1) , 可得Sim( C11, C6) = 5! 6( 3+!) , Sim ( C11, C7) = 5! 6( 5+!) 由于 5! 6( 3+!) >
5! 6( 5+!) 得Sim ( C11, C6) >
Sim( C11, C7) . ( 2) 相同距离的两组概念, 概念层次和越大的组, 相似度越 大;
概念层次差越大的组相似度越小.如图
2 示, DisT(C11, C12) = 2, Dist( C9, C10) =2, 两者距离相同,但是ISim( C11, C12) = ! 2+! >
ISim( C9, C10) = 2! 3( 2+!) . 这是符合常理的, 处于较低层的概念较 高层的概念分类趋向细致, 其相似程度就越高. 需要注意的是, 这里的语义初始相似度( Initial Similarity) 可以理解为概念通过上下位关系体现出的相似度的近似值. 关 于如何利用语义初始相似度进行完整的相似度计算下面将详 细论述.
3 概念非上下位关系相似度计算 上面已详细说明了如何计算同义概念相似度以及初始概 念相似度.下面将主要介绍概念非上下位关系相似度的计算. 3.1 确定概念的关系概念和关系名 概念的关系概念和 Datatype 型关系的确定是后续非上下 位关系计算的基础. 根据关系所对应的对象的不同, 概念的关系又可分为两种: 一种是 Datatype 类型, 另一种是 Objecttype 类型.Datatype 类型 的关系对应的不是概念, 而是数值型数据, 而Objecttype 类型的 关系对应的是概念. 假设有两个非同义概念 Ci 和Cj, 根据 2.1 中 介绍的概念描述方法, 可得到概念的部分语义描述信息: ( 1) Rdti={Rdt1i, Rdt2i, ..., Rtdpi} Cri={C1i, C2i, …, Cni} Cri′ =Ci∪Crc=( Ci, C1i, C2i, C3i, ...Cni)
164 计算机工程与应用 2006.33 关系概念 相似度 图3非上下位关系概念相似度计算 表1概念的语义初始相似度实验结果 概念
1 Music_piece Movement Piano Piano Solo Musician Musician Cellist Cellist Cellist Cellist 概念
2 Concerto Tempo String_Instrument Cello Group Duet Cellist Cello Viola Piano Pianist 概念初始相似度 0.312
5 0.178
5 0.357
1 0.312
5 0.357
1 0.312
5 0.390
6 0.340
9 0.340
9 0.312
5 0.535
7 表2概念非上下位关系相似度计算结果 概念
1 Music_piece Movement Piano Piano Solo Musician Musician Cellist Cellist Cellist Cellist 概念
2 Concerto Tempo String_Instrument Cello Group Duet Cellist Cello Viola Piano Pianist 概念非上下位关 系相似度 0.385
3 0.666
7 0.589
3 0.711
9 0.014
9 0.2727 0.500
0 0.666
7 0.511
9 0.420
1 0.807
9 ( 2) Rdtj={Rdt1j, Rdt2j, …, Rtdqj} Cri={C1j, C2j, …, Cmj} Crj′ =Cj∪Crc=( Cj, C1j, C2j, C3j, …Cmj) ( 1) 中分别表示概念 Ci 对应的 p 个datatype 型关系、 n 个 关系概念及关系概念集和概念 Ci 的并集;
( 2) 中分别表示概念 Cj 对应的 q 个datatype 型关系、 m 个关系概念及关系概念和概 念Cj 的合集.这里, 每个集合中不存在相同的元素. 3.2 Datatype 型关系相似度计算 定义