编辑: lonven | 2017-09-19 |
33
1 引言 本体在软件工程、 人工智能、 信息检索、 Web 服务发现[1] 等 领域中扮演着越来越重要的角色. 领域本体可以有效地组织领 域中的知识, 使知识更好地共享、 重用.但是在利用本体的同 时, 如何提高概念相似度计算精度却成了本体应用的一个 瓶颈 . 例如在基于本体的知识检索领域, 提高检索的查准率和查 全率一直是困扰人们的难题. 而概念的相似度计算又是知识检 索过程中的进行 概念语义扩展的重要步骤, 如何提高概念相 似度计算精度就成了提高检索质量的关键技术之一. 针对概念相似度计算, 业内已有不少相关的研究.研究方 向主要可分为两种: 基于概念信息容量法[2] 和基于概念距离法[3] . 信息容量是指一个概念及其实例对象所能反映的语义内容大 小, 其通过概念及其实例对象的出现概率或者权重来量化.该 方法主要通过两个概念的共同父概念的信息容量的大小来确 定概念的相似度.与信息容量法相比, 利用概念的距离来计算 概念相似度的使用范围要大很多. 概念距离有两类常见的计算 方法.一种是根据 ontology 来计算, 文献[4]利用现存的语言本 体WordNet 计算语义项之间的距离来确定概念相似度. 文献[5] 则利用了 HowNet 将概念之间的相似度计算转化为对概念的 义原之间的相似度计算, 通过计算义原间的距离确定概念相 似度.另一种是利用大规模的语料库进行统计[6] .基于统计的 方法将概念的上下文信息的概率分布作为概念语义相似度计 算的参照. 根据本体的定义[7, 8] 和描述, 领域本体反映了一个对给定领 域的通用观点, 其通过定义概念与概念之间的关系来描述概念 的语义信息.在实际的领域本体中, 由于概念之间不仅仅存在 着上下位关系, 概念之间通过其他各种关系可以连接, 这使得 概念的组织形式并不完全是一个树型结构, 而是一个网状结 构. 目前基于概念距离计算概念相似度的算法大多只是针对上 下位关系, 而忽略了其他关系, 这就导致了算法不能完整反映 出概念的语义, 从而影响了概念相似度计算的准确性. 针对以上问题, 本文探索了如何将概念之间的关系引入到 概念的相似度计算中. 文章首先介绍了概念语义初始相似度的 计算和概念非上下位关系相似度的计算, 然后在前面两层相似 度计算的基础上, 阐述了概念实际相似度的计算.最后用两组 对比实验说明该算法的有效性. 领域本体的概念相似度计算 陈杰, 蒋祖华 ( 上海交通大学 机械与动力工程学院, 上海 200030) E- mail: [email protected] 摘要: 随着本体在信息检索、 人工智能等领域的广泛应用, 面向本体的概念相似度计算成为了本体研究的一大热点.当 前领域本体中概念相似度的研究主要是利用概念的上下位关系进行计算, 但这并没有完整反映出概念的语义信息.论文 提出的算法将概念相似度计算分为两层, 一层是概念语义初始相似度层, 其主要利用概念之间的距离来计算概念的初始 相似度.另一层是概念非上下位关系相似度层, 其在概念初始相似度的基础上, 计算概念通过非上下位关系体现出的相 似度.最后通过综合计算, 得到领域本体中概念的实际相似度.实验证明, 该方法充分利用了本体中概念的语义信息, 得 到的结果也比较合理. 关键词: 领域本体;