编辑: 贾雷坪皮 | 2019-07-04 |
然后对 基于日志的搜索引擎用户的行为进行分析;
最后针对中文与英文搜索引擎用户行为差异尝试 提出一些对于中文搜索引擎算法设计、评测方法设计有益的启示.
2 已有工作概述
2003 年中国搜索引擎研究报告[6]指出,2004 年中国搜索引擎用户已占互联网用户的 95.2%,每天的搜索请求量达到近 1.9 亿次.而根据最近发布的两期中国互联网络发展状况 统计报告[7][8],截止到
2005 年12 月31 日,我国的网民数达到了 1.11 亿,65.0%的用户指出 搜索引擎是他们经常使用的网络服务功能. 另外, 根据Sullivan的统计[9],
2004 年底, Google 作为世界上索引量最大和访问频率最高的搜索引擎,能够索引到超过
80 亿的网络页面,而 其每天处理的用户查询则超过 2.5 亿个. 面对如此庞大的搜索需求, 深入挖掘发现用户行为特点, 进而提高搜索引擎算法的效率 和准确率显得尤其重要.1998 年,Craig Silverstein 等人对大规模英文搜索日志进行了分析 [4],结论指出 85%的查询用户都只翻看了查询结果的第一页内容等.这些结论都对英文搜 索引擎的算法改进和发展起到了有益的作用. 由于中文网络数据的特殊性以及中英文网民行 为的差异, 对中文搜索引擎进行较大规模的分析以找出中文搜索引擎用户的行为特征是很有 必要的. 此外,对用户检索目的的分析也是近年来用户行为分析研究的热点之一, IBM研究院 的Broder首先提出了 任务驱动 的概念,在他构想的用户检索流程模型中,查询任务决定 了用户的查询需求,进而反映在查询词上.他在[10]中指出,用户的查询任务包括导航类、 信息类和事物类三类. 对查询任务进行划分的出发点在于, 针对三类检索可以使用不同的检 索模型、参数,甚至评价方法也随着检索类别的变化而有所区别.因此实现检索类别的自动 划分对于提高检索性能和增加检索评价的可信度都有非常重要的意义.
3 搜索引擎用户的行为构成与日志设计 搜索引擎用户的行为构成可由图
1 表示: 图1搜索引擎用户的行为流程 Fig.1 Search engine user'
s query-navigation behavior 用于分析的搜狗网络日志由一系列查询需求组成,每个查询需求都包括如表
1 所示条 目: 表1搜狗网络日志的内容 Tab.1 content of the query log of sogou 名称 记录内容 query 用户提交的查询 URL 用户点击的结果地址 time 用户点击发生时的日期、时间 rank 该URL 在返回结果中的排名 order 用户点击的顺序号(这是用户点击的第几个页面) id 由系统自动分配的用户标识号 submitter information 浏览器信息,计算机信息 利用查询词和用户点击页面的信息,我们可以分析出用户提交的查询一般有什么特点, 如长短、频度等;
而由用户点击结果页面的信息我们能得到用户的点击习惯等.我们的实验 主要是建立在对大量的用户需求进行统计的基础上的宏观分析, 主要目的是寻找用户需求中 的热点、 词频分布规律、 查询行为特点等, 进而对检索系统的系统结构和算法设计做出改进.
4 基于日志的搜索引擎用户的行为分析 4.1 独立的查询分析 实验所使用日志包括搜狗搜索引擎在
2006 年2月1日至
2 月28 日的
28 天内的所有查 询. 其中非空查询共 45,745,985 个, 含非重复查询共 4,345,557 个, session 个数为 26,255,952 个. 4.1.1 查询的长度 查询的长度主要指的是用户提交的查询中包含几个词语或字(用空格隔开的) ,分析结 果中,长度不超过