编辑: ZCYTheFirst | 2019-07-08 |
否则,引 起有碍作者著作权之问题,将可能承担法律责任. 摘要随着 WWW 的迅速发展,Web 信息检索技术成为研究者广泛关注的话题, 但缺少合适的测试评测机制制约了中文网页信息检索技术的发展. 参考国外测试 集的构建经验,我们构建了大规模中文网页信息检索测试集 CWT,并组织了 SEWM 中文网页检索评测,希望在国内外各个研究小组的共同参与下建立并完 善CWT,一起推动中文网页信息检索技术的发展. 本文在信息检索评测领域有如下贡献: 1.实施并构建了大规模中文网页信息检索测试集 CWT.本研究详细介绍了 测试集的三个部分文档集、查询主题集和相关文档集的构建过程,实施过程致力 于使测试集具有较高的质量.构建了三个测试集:CWT100g、CWT200g 和CWT20g,包括
285 个主题提取主题和 1,185 个导航搜索主题,并对主题构建了 相关文档集.该系列测试集在 SEWM 中文网页检索评测中被指定为测试集,供 数十家研究机构使用.本文提出的构建测试集的方法为以后的研究提供了参考. 2.对CWT 测试集的三个部分进行了分析,研究结果表明 CWT 测试集具有 可用性,能作为进一步信息检索与评测研究的基础.首先,文档集在网站规模上 近似服从 Zipf 分布,网页出度近似服从幂级数规律,与真实的 Web 特点相似;
其次,TD 查询主题大部分是
4 个汉字、2 个词构成的词组,这与查询日志中的 查询词统计规律相似,在一定程度上能反映真实的检索情况,TD 主题难易度均 匀分布,兼顾了难、中、易三类主题;
最后,SEWM-2006 和SEWM-2007 的相 关判断完整性分别约为 80%和66%,基于它的评测结果是可靠的,而对相关文 档集一致性进行分析得到的结论是:相关判断的第二个步骤 检查 是必要的. 3.组织了SEWM中文网页检索评测,将CWT测试集应用于评测中.我们给 国内信息检索研究者提供了一个标准规范的评测平台,对从
2004 年开始的历届 评测情况进行了总结,详细介绍了评测流程、评测任务、检索结果提交格式等, 对评测结果进行了分析.评测相关的数据都放在评测网站http://www.cwirf.org/ 上,包括历届的评测通知、评测指南、提交的检索结果及技术报告等.另外还提 供了链接提取等工具,帮助信息检索研究者更好的使用CWT. 关键词:CWT,信息检索,评测,测试集,文档集,查询主题,相关判断 I Chinese Web Retrieval Test Collections: Construction, Analysis and Application LI Jingjing (Computer Software and Theory) Directed by LI Xiaoming Abstract With the rapid development of World Wide Web, Web information retrieval (IR) has been a hot research topic, but the research has been restricted by the lack of appropriate test collections. According to the framework of existing foreign test collections, we constructed large-scale Chinese Web Test collections (CWT), and organized SEWM Chinese Web search evaluation. This paper reports following work that we have done in IR evaluation: 1. CWT test collections are designed and constructed. A test collection consists of three parts: document set, topic set, and relevance judgements. The details in constructing each component are introduced. Three test collections CWT100g, CWT200g and CWT20g are created;