编辑: lonven 2017-09-19

概念相似度;

语义距离 文章编号: 1002- 8331( 2006) 33- 0163-

04 文献标识码: A 中图分类号: TP18 Concept Similarity Computation for Domain Ontology CHEN Jie, JIANG Zu- hua ( School of Mechanical Eng., Shanghai Jiaotong Univ., Shanghai 200030, China) Abstract: With the widespread application of ontology in the fields of information retrieval, artificial intelligence etc, the concept similarity computation of domain ontology has become the focus research field.Currently, most research on concept similarity computation is based on is a relation between concepts, however, it does not utilize the concept semantic information completely.The method proposed in the article divides the concept similarity computation into two levels. One is the layer of concept semantic initial similarity which computes the concept initial similarity based on the distance between concepts.The other one is the layer of concept non - hyponymy relationship similarity.Based on the concept initial similarity, it computes the similarity reflected by the non - hyponymy relations.And through integration computation, we can get the true concept similarity.The experiment shows that the method utilizes the concept semantic information fully and the computation result is reasonable. Key words: domain ontology;

concept similarity;

semantic distance 基金项目: 国家

973 重点基础研究规划资助项目( 2003CB317005) . 作者简介: 陈杰( 1983- ) , 男, 硕士研究生, 研究方向: 知识管理, 人工智能, 数据挖掘;

蒋祖华, 教授, 博导, 研究方向: 知识管理、 人工智能.

163 2006.33 计算机工程与应用 图1算法流程图 图2本体树示例图

2 概念语义初始相似度计算 2.1 本体及概念的形式化表示 领域本体可以以这样的形式表示: O∶ =( D, C, R, ≤C, I, lC, A) 概念( 类) 的描述形式是 C∶ =( D, R, DT, Cr, B, ≤C, lC) 其中 O 表示本体, D 为本体或概念的说明信息, C 表示概念( 或 称为类) , R 表示关系, Cr 表示与概念 C 有关的概念, DT 表示 属于 datatype 类型的关系名, ≤C 由二元组组成, 在O中表示概 念层次, 在C中则表示概念 C 的子概念, B 是概念 C 的父概 念, I 表示本体中的实例, lC 描述类的实例, A 表示本体中的公 理.通过这样的描述可以完整地表达本体及概念的语义信息. 概念之间的关系可分为三类: ( 1) 上下位关系, 用≤C 和B, R 表示;

( 2) 同义关系, 其属于 R 中的一种;

( 3) 除去上述两种的其他关系, 用R来表示. 2.2 领域本体中概念相似度计算的思路及流程 根据上面的关系分类, 对本体中的概念相似度计算可以分 为两个层次: 概念语义初始相似度层和概念非上下位关系相似 度层.概念语义初始相似度层是对概念相似度的一个预定值, 同时也是概念通过上下位关系体现出的相似度的一个近似值, 记作 ISim( Ci, Cj) . 概念非上下位关系相似度层是指在初始相似 度的基础上计算非上下位关系体现出的相似度, 记作 Simfss( Ci, Cj) .两层相似度计算出来后, 通过加权综合可得概念之间的实 际相似度 Sim( Ci, Cj) .依据上述思想, 算法的流程图如图

1 示. 从图

1 中可知, 概念相似度计算首先需要检查两个概念是 否同义. 如果两个概念同义, 那么两个概念是完全相似的, 其相 似度为 1. 定义

1 如果领域本体中概念 C1 和C2 成同义关系, 那么 Sim( C1, C2) =1. 2.3 基于距离的概念语义初始相似度 概念语义初始相似度是对概念之间相似度的一个预定值, 这里采用基于距离的概念相似度计算方法. 之所以选择这种方 法, 是因为在领域本体中, 概念主要以树状结构排列, 而利用距 离计算概念的初始相似度可以合理地利用概念的这种组织形 式, 从而使算法比较直观、 易于理解. 当前已经有不少学者提出了基于距离的概念相似度计算 方法, 如文献[5]. 在他们的基础上, 笔者综合考虑了概念距离和 层次对概念相似度的影响, 得到了一个改进算法. 定义

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题