编辑: ZCYTheFirst | 2019-07-08 |
2 - 北京大学硕士学位论文 中文网页信息检索测试集的构建、分析及应用 CWT,在全国搜索引擎和网上信息挖掘学术研讨会 (Symposium of Search Engine and Web Mining,简称 SEWM)会议上从
2004 年开始举办了中文网页检 索评测项目,即SEWM 中文网页检索评测,网页检索评测主要目的是通过网页 测试集研究各种检索技术的优劣,以改进检索系统在真实网页环境下的性能.评 测有两个子任务,分别是 TD 任务(Topic Distillation,主题提取任务)和HPNP 任务(Home Page finding task/Named Page finding task,导航搜索任务),这两个 任务能够较好地反映网页检索中的用户需求.其中 HPNP 任务混合了两类任务: 主页查询(Home Page finding task)和指定页面查询(Named Page finding task), 分别是查找主页和查找指定页面. 本文在信息检索评测领域主要有如下贡献: 1.实施并构建了大规模的中文网页信息检索测试集 CWT.本研究详细介绍 了测试集的三个部分文档集、查询主题集(或称为主题集)和相关文档集(或称 为相关判断集)的构建过程.为了使构建的文档集相对于真实 Web 具有较高的 代表性,我们根据中文网页分布特点来确定网站的采样策略和抓取策略,通过对 初始站点列表的过滤、消重、采样等环节的处........