编辑: jingluoshutong | 2019-12-01 |
c-s-a.org.cn 计算机系统应用System Construction 系统建设
39 基于人物关系的图片搜索系统① 莫桂烽 1,2 , 左春1,2,3 , 曾炼41(中国科学院软件研究所 软件工程技术研发中心, 北京 100190)
2 (中国科学院大学, 北京 100190)
3 (中科软科技股份有限公司, 北京 100190)
4 (视觉(中国)文化发展股份有限公司, 北京 100015) 摘要: 针对传统的采用关键词搜索人物图片的方式在使用查询关系人语句进行查询时不能识别语义的不足, 设计并实现了一种基于人物关系的图片搜索系统架构. 基于文档共现和句子共现的关系度算法, 从新闻语料中 挖掘了人物之间潜在的关联关系. 创建了人物图片的领域本体库, 本体中包含亲属、朋友、同事等共
174 种具有 层级结构的人物关系属性. 提供一个面向查询关系人句子的本体库查询接口, 首先基于依存关系树的合并规则 从依存句法树提取查询关系人语句的关键组成部分, 然后基于三元组补全算法转换得到 SPARQL 语句, 接着使 用SPARQL 查询人物图片本体库, 实现语义检索. 最后给出实验结果验证系统的可行性和有效性. 关键词: 关系挖掘;
领域本体;
SPARQL;
语义检索 Relationship-Based Image Retrieval System MO Gui-Feng1,2 , ZUO Chun1,2,3 , ZENG Lian4
1 (Software Engineering Center, Institute of Software, Chinese Academy of Sciences, Beijing 100190, China)
2 (University of Chinese Academy of Sciences, Beijing 100190, China)
3 (Sinosoft, Beijing 100190, China)
4 (Visual China Group, Beijing 100015, China) Abstract: Aiming at the deficiency of identify semantic in traditional keyword tosearch characters the way the picture when you use the query statement to query the relationship between people. The paper designs and achieves an image search architecture based on character relationships. We offer an approach to extract the latent relationships between persons from news corpus. Domain ontology library creates pictures of people and in the ontology contains a total of
174 relatives, friends, colleagues and other kinds of character relationship with the hierarchy properties. An ontology-driven query interface for the sentence which provides a query-oriented relationship of one sentence, first We extract the critical component of the query statement for the relative persons which comsolidation rules based on dependency grammar tree from the dependency syntax tree, then generate the SPARQL sentence with the help of triple supplement algorithm, and use SPARQL sentence to query the image ontology library. The semantic retrieval was realized. Finally, the experiment results were given to verify the feasibility and effectiveness. Key words: relationship mining;
domain ontology;
SPARQL;
semantic retrieval 名人一直都是人们关注的对象, 网民喜欢搜索名 人的图片进行欣赏. 目前的搜索名人图片的方式存在 着一个不足之处: 由于当前的搜索是以关键词为特征 进行匹配搜索的, 如果使用查询关系人语句进行搜索, 搜索结果会存在和目标人物无关的图片. 此外, 搜索搜索成本过高. 本文希望设计一个基于人物关系 的图片搜索系统来弥补上述的不足. 该系统面临有如 下两个问题. ① 基金项目: 核高基 重大专项(2010zx01045-001-006) 收稿时间:2015-04-29;
收到修改稿时间:2015-06-01 计算机系统应用http://www.c-s-a.org.cn
2016 年第25 卷第1期40 系统建设 System Construction 查询关系人语句的语义识别: 以关键词的搜索方 式不能识别查询语句的语义. 系统需要识别查询关系 人语句的语义. 如查询语句 张三的女儿是谁? 查找 的是张七七(张七七是张三的女儿)的图片. 关联人物挖掘: 为了让用户在查询名人图片时能 浏览更多的图片, 提供和查询目标相关的名人列表是 一个很好的方式. 如何基于大规模语料挖掘名人间的 关联关系是系统需要解决的问题. 随着语义网技术的不断发展, 语义网的理论日趋 成熟, 已经开发出来并供学术界和工业界广泛使用的 通用本体知识库有 WordNet、DBpedia 等[1-3] . 近年来, 为了提高检索系统的语义识别能力, 许多研究机构将 本体概念引入检索系统中. 文献[4]设计了一个基于本 体的信息提取和检索系统, 其检索方式是以关键词进 行检索. 文献[5]对本体的检索机制进行了研究, 设计 了基于本体的检索流程. 文献[6]从自然语言的角度出 发, 研究了面向自然语言的本体查询接口的设计. 本 文基于本体思想来构建系统. 接下来将要介绍系统的 设计与关键算法, 最后对系统的研究做出总结.
1 系统概述 视觉中国是中国领先的视觉影像产品和服务提供 商, 旗下网站提供了丰富的图片资源. 本系统是视觉 中国的预研项目, 目的是提高搜索人物图片的能力. 本文设计并实现了以人物关系为基础的图片搜索的系 统原型. 系统暂不考虑重名情况, 即认为一个人名对 应着一个人. 系统分成本体库创建子系统和本体库查 询子系统. 总体框架如图
1 所示. 图1系统架构图 本体库创建子系统主要包含名人信息抽取模块、 名人新闻抽取模块、关系挖掘模块、本体库创建模块. 名人信息抽取模块从百度百科和互动百科中抽取 名人的基本信息(如姓名、 年龄等)和关系信息(如父亲、 儿子、同事、朋友等). 名人新闻抽取模块从搜狗搜索引擎中获取名人的 新闻语料. 关系挖掘模块从新闻语料中挖掘出名人间的关联 关系, 得到关系对表和关系度表. 关系对表的每一行 是两个存在关联关系的人名. 关系度表的每一行存放 着所有和某一人存在关系的人, 按关系度降序排列. 名人图片数据库是已有图片数据库中标注了人名 的图片的子集, 图片的信息有图片 ID、图片描述、图 片标题、相关图片以及相关人物等. 本体库创建模块对获得的名人基本信息、关系信 息、 图片信息进行处理, 创建名人图片本体库. 本体库 存储了名人和图片的基本信息、名人和名人的关系信 息、名人和图片的关联信息以及图片和图片的关联信 息, 其中对名人的关联关系进行了详细的划分. 通用词典收录了
386211 个词条, 每一词条都含有 词性、词频标注. 领域词典是从本体库中提取得到, 包括本体中定 义的类名、实例名、属性名. 本体属性排序表是从本体库中提取各个类的属性 并对属性的优先级进行排序得到. 基于 Jena的本体模型是通过 Jena 提供的方法加载 本体库到内存得到, 模型包含了本体中类、属性、实 例的名字到 URI 的映射表等资源. 本体库查询子系统是一个 B/S 结构的系统, 用户 可通过浏览器输入查询语句进行搜索, 并通过浏览器 查看搜索结果. 子系统主要包含 SPARQL 转换模块和 SPARQL 查询模块. 名人图片本体库以基于 Jena 的本 体模型的形式为查询子系统库提供数据资源. SPARQL 转换模块加载通用词典和领域词典, 将 查询关系人语句经过分词、依存句法树分析、语义解 释处理得到 SPARQL 语句. SPARQL 查询模块执行 SPARQL 语句对本体库进 行查询得到中间结果, 依据属性排序表和关系度表对 中间结果进行排序处理, 得到最后的结果.
2016 年第25 卷第1期http://www.c-s-a.org.cn 计算机系统应用System Construction 系统建设
41 2 各子系统的关键技术 2.1 本体库创建子系统 2.1.1 本体库创建 本体库是系统的重要组成部分, 由基于描述语言 (DL)的OWL[7] 语言进行描述.
2002 年, OWL 正式成为 W3C 推荐的 Web Ontology[8,9] 表示语言. 本文依据自顶向下的原则创建本体库. 具体流程 如下: ① 概念抽取, 设计了两个类: 人、 图片. ②属性 定义, 经过统计分析, 本文定义了名字、性别、年龄、 职业等共
95 个人物数据属性. 定义了亲人、朋友、同事、合作等共
174 个人物关系属性. 定义了图片 ID、 图片尺寸、图片标题等
8 个图片数据属性. 定义了相 关图片、相关人物这
2 个的人物和图片间的对象属性. ③创建实例, 本文使用 Jena 提供的 API 来创建实例以 及实例间的关系, 存储到 RDF 文件中. 本文建立了丰富的具有层次结构的人物关联关系, 部分关系如图
2 所示. 例如朋友关系分成战友、搭档、 伙伴、对象, 对象关系分成男朋友、女朋友的关系. 在 搜索人物时, 用户可以通过输入查询人物的关系人语 句进行查询, 例如输入 张三的女儿是谁? 的查询语 句进行确定的名人图片查找. 也可根据定义的关系的 层次结构进行查询扩展. 如查询张三的亲属时, 能够 查询出他的妻子、女儿、弟弟、父亲等. 图2人物关系层次结构图 2.1.2 关系挖掘 经过统计发现,
53800 个人名中只有
15231 个人名 采集到关系信息, 需要进一步挖掘名人间的潜在关系, 并以 相关人物 的属性存储到本体库中. 文献[10]依 据人物同时出现的网页或句子的次数来计算人物的关 联度, 未考虑人物在句子中出现的位置对人物关系的 影响. 本文对文献[10]提出的人物关系算法做出了改 进, 给出综合文档共现和句子共现的关系计算方法. 基于文档共现的关联度的计算思想: i P 和jP两个人共同出现的文档数量和出现 i P 的数量的比值能 体现出 j P 对于 i P 的关联度, 该比值和关联度成正比. 计算模型如下: i j i C P P C j i RC ) , ( ) , ( ? (1) 其中, ) , ( j i P P C 为iP和jP共同出现的文档数;
i C 为iP出现的所有文档数;
) , ( j i RC 为人物 j P 对于 i P 的关联度. 基于句子共现的关联度的计算思想: 一个句子中 i P 与jP的位置距离 ij Distance 能反应出二者的关联 度大小, 和关联度成反比. 假设出现 i P 句子集合为 i S , 集合中出现 j P 的句 子集合为 ij S . i P 在句子 S 中的位置为 ........