编辑: 木头飞艇 | 2018-02-20 |
5 2009年 5月 Computer Applications and Software May
2009 一种基于数据挖掘的 Deep W eb模式匹配方法 钟昕伏玉琛 (苏州大学计算机科学与技术学院 江苏 苏州 215006) 收稿日期 :
2007 -
11 - 23.国家自然科学基金项目 (60673092) ;
江 苏省高校自然科学基金项目 (07KJD520187) .钟昕 ,硕士生 ,主研领域 : Wed数据挖掘 ,Deep Web. 摘要模式匹配是 Deep W eb异构信息集成中的关键问题. 介绍了一种整体性匹配方法 ,即同时发现大量模式 ,并一次性进行 匹配.主要通过分析和比较两种已经存在的大规模模式匹配原型系统 :MGS和DCM,结合它们核心算法的优点 ,提出一种新的基于 数据挖掘技术的算法 (Correlated - clustering).该算法先利用积极相关发现组匹配 ,再通过概念相似度的计算聚类同义属性 ,最后进 行匹配选择.实验结果表明 ,本算法全面、 效率高 ,充分体现了整体性方法的思想. 关键词 Deep W eb 模式匹配 整体性方法 数据挖掘 A M ETHOD O F D EEP W EB SCHEM A M ATCH ING BASED O N DATA M IN ING Zhong Xin Fu Yuchen (School of Com puter Science and Technology, Soochow University, Suzhou 215006, J iangsu, China) Abstract Schema matching is a critical problem in Deep W eb heterogeneous infor mation integration. In this paper it introduces a holistic matching app roach,which finds many schemas simultaneously and one2 off matches them. W e mainly analyzed and compared two existing large scale schema matching archetypal system:MGS and DCM, and proposed a new algorithm based on data m ining, named as Correlated2cluste2 ring,which combines the advantages of the t wo existing system s . This algorithm first m ines group attributes by positively correlated attributes, and then clusters the synonymous attributes by calculating the sim ilarity of each two concepts, finally makesmatching selection from above re2 sults . The experiment result shows the effectiveness and comp leteness of our algorithm, which demonstrates the conception of holistic schema matching . Keywords Deep W eb Schema matching Holistic approach Data m ining
0 引言因特网上的 W eb就其所蕴涵信息的 深度 可以划分为 Surface W eb和Deep W eb两大部分.Deep W eb是指 W eb中可 访问的在线数据库 ,其内容存储在真正的数据库中 , 这些内容 只有在被查询时才会用 W eb服务器动态生成页面把结果返回 给访问者.SurfaceW eb包括的内容基本都是非结构化的 HT ML 图1网页查询界面示例 信息 ,而Deep W eb包括的内容大多 数为结构化的数据库信息 ,其内容更 丰富 ,更加专业.一份 2000年 7月 的调查估计 deep W eb中有 96000个 查询接口和
5500 亿个网页 [1 ] .而2004年 4月的最新调查表明大约有 450000个在线数据库 [12 ] .在deep W eb中 ,无数的在线异构数据库通过 各自的查询接口提供了基于动态查 询的数据访问 ,不同于静态的 URL 链接.每一个查询接口根据他们的查询模式 (比如 : amazon. com 网站 ,根据用户输入的 author, title. subject等信息查找用户所 需的书 )来接受查询.如图 1所示. 为了获得 deep W eb中大量有价值的隐藏信息 ,我们需要把 在线异构数据源进行集成.可以通过在一个统一接口的查询界 面上输入查询条件 ,由该接口自动在在线数据库资源中进行查 找 ,最终反馈给用户最优的查询结果.建立统一查询接口 ,首先 就是要对各在线数据库查询界面上使用的条件属性进行模式匹 配 ,模式匹配就是寻找两个或多个模式的元素之间语义上的对 应关系.跨网页接口的模式匹配在大规模异构数据源集成中是 非常关键的. 总的说来 ,为了使得匹配更全面、 效率更高 ,本文主要做了 如下研究 : ・MGS和DCM方法的分析和比较 分析比较整体性思路 的两个代表性方法 ;