编辑: ZCYTheFirst | 2019-07-08 |
32 - 表4-2 相关文档数在文档集上的分布.33 - 表4-3 主题难易度与相关文档数的相关性.37 - 表4-4 主题随相关文档数变化的分布.44 - 表4-5 相关文档集中的文档数.44 - 表4-6 相关判断的重叠度.45 - 表4-7 评测结果相关性.45 - 表5-1 SEWM评测数据统计表.48 - 表5-2 SEWM评测参加单位.49 - 表5-3 TD任务评测结果统计表.53 - 表5-4 HPNP任务评测结果统计表.53 - VII 北京大学硕士学位论文 中文网页信息检索测试集的构建、分析及应用
第一章 引言 1.1 研究背景 长久以来,人们对信息的需求从未间断过.20 世纪 40-50 年代,人们开始了 对信息进行检索的活动,Calvin Mooers 于1951 年首次提出了 信息检索 (Information Retrieval,IR) 的概念: 信息检索是信息的潜在用户将信息需 求转换为一张文献来源信息列表的过程或方法, 而这些文献包含有对其有用的信 息 [1].自从
1945 年Vannevar Bush 提出利用信息技术来解决 使大量信息更 容易获取的难题 后,信息检索技术就迅速发展起来,其研究领域也从最初的科 学技术领域扩展到人类活动的各个方面.
20 世纪
90 年代, 随着 WWW 的迅速发展, 人们进入了一个信息极度丰富的 社会,Web 信息检索技术成为研究者广泛关注的话题,以搜索引擎为代表的信 息检索技术已经取得了巨大的成功,Google、Yahoo!、百度等搜索引擎已经深 入到人们日常学习和工作中,成为获取信息不可或缺的工具.而如何评测这些检 索系统的性能也越来越受到关注. 实际上,检索系统评测自信息检索系统诞生以来就从未间断过.信息检索评 测对系统的研究、设计与发展一直有着显著的影响力.通过评测,研究者能够验 证系统的效益、比较各种检索技术的优劣,不断改进检索系统,使系统的性能更 加完善,能正确引导研究发展方向.基于用户主观使用感受的评测方法不客观、 不可靠,所以必须采用一套客观的评测体系,这种评测不受人主观感觉的影响, 并且评测结果通常都成立.一般的,这种评测体系具有以下特点:明确的形式化 研究任务、公开的训练与测试数据、公开的评测比较. 早期检索系统评测最著名的研究是 Cleverdon 在1950 年代末期开始进行的 Cranfield 实验[2]. 它开创了以测试集 (Test Collection) 配合评测指标 (Measures) 来评测系统的模式.所谓测试集,是一种在规范化环境中测试系统性能的机制, 包括查询问题(Queries)、文档集(Document Set)以及相关判断(Relevance Judgements)三个部分.评测指标则一般采用查准率和查全率.Cranfield 实验首 -
1 - 北京大学硕士学位论文 中文网页信息检索测试集的构建、分析及应用 开规范化评测之先河,它的评测模式为后续的评测研究奠定了基础,至今仍占有 举足轻重的地位. Cranfiled 实验之后的二十多年间, 也有研究机构做了类似实验, 构建了一些 测试集,但这些早期的测试集规模通常不大,与真实的检索环境之间存在着较大 差异. 基于这样的测试集所开发的检索系统, 在实际应用中往往受到极大的限制. 这些测试集存在两个根本缺陷: 一是缺少在相同的测试数据上使用相同评测方法 的跨系统公开评测;
二是缺少真实的大规模测试集.但是,构建大型测试集需要 耗费相当可观的人力物力,这对大多数单位来说是不堪负荷的. 为了促进信息检索技术的发展,美国国防部高级研究项目计划局(Defense Advanced Research Projects Agency,简称 DARPA)和美国国家标准与技术局 (National Institute of Standards and Technology,简称 NIST)在1992 年共同举办 了文本检索会议(Text REtrieval Conference,简称 TREC)[3,4].TREC 通过构 建大型的测试集,提出不同的评测项目和评测指标等,提供不同检索技术与检索 系统之间的标准评测环境.参加评测单位除了要提交系统的运行结果之外,还可 以参加研讨会,与会者可以分享结果.TREC 取得了国际性的威望,在信息检索 评测领域起到了很好的示范作用. 除了 TREC 外, 已有针对不同语言设计的类似 机制开始运作,如欧洲各国联合举办的跨语言评测论坛 CLEF(Cross-Language Evaluation Forum)[5]、法国信息技术局构建了法文的 AMARYLLIS[6]、日本国 立情报学研究所 (National Institute of Informatics, 简称 NII) 主办的 NTCIR (NII Test Collection for Information Retrieval)评测会议[7]等等. 反观国内,中文信息处理技术在最近几十年取得了长足发展,但专门针对中 文的评测项目的缺乏使中文信息处理技术不能得到有效检验. 缺乏大规模的中文 测试集是制约中文网页信息检索技术前进的障碍,因此,我们希望在国内外各个 研究小组的共同参与下建立并完善以中文为主的网页信息检索测试集CWT(Chinese Web Test collection),一起推动中文网页信息检索技术的发展[8]. 1.2 本文主要贡献 缺乏大规模的中文网页测试集制约了中文检索技术的发展, 为了改变这种局 面,参考 TREC 多年的成功经验,我们构建了大规模中文网页信息检索测试集 -