编辑: 贾雷坪皮 | 2019-10-11 |
1 ,刘奕群
1 ,张敏
1 ,茹立云
2 ,马少平
1 (1.
清华大学智能技术与系统国家重点实验室,北京 100084;
2.搜狗公司研发中心,北京 100084) 摘要: 用户行为分析是网络信息检索技术得以前进的重要基石,也是能够在商用搜索引擎中发挥 重要作用的各种算法的基本出发点之一.为了更好的理解中文搜索用户的检索行为,本文对搜狗搜索 引擎在一个月内的近
5 千万条查询日志进行了分析. 我们从独立查询词分布、同一 session 内的用户 查询习惯及用户是否使用高级检索功能等方面对用户行为进行了分析.分析结论对于改进中文搜索 引擎的检索算法和更准确的评测检索效果都有较好的指导意义. 关键词: 网络信息检索,搜索引擎,用户行为分析,点击信息分析 Research in Search Engine User Behavior Based on Log Analysis Abstract: Huijia Yu1 , Yiqun Liu1 , Min Zhang1 , Liyun Ru2 , Shaoping Ma1 (1.Department of Computer Science and Technology, Tsinghua University, Beijing 100084;
2.Sogou R&
D Centre, Beijing 100084) Abstract: User log analysis is important for both Web information retrieval technologies and commercial search engine algorithms. In order to better understand search behavior of Chinese Web search users, we presents an analysis of Sogou Search Engine query log consisting of approximately
50 million entries for search requests over a period of one month. The analysis includes search retrieval behavior in individual queries distribution, user request customs in the same session and whether using advanced search functions. Conclusions may help improve Web information retrieval algorithms and search performance evaluation methods. key words: Web Information Retrieval;
Search Engine;
User Behavior Analysis, Click Through Data Analysis.
1 引言 随着网络与信息资源的飞速发展,网络搜索引擎已经成为人们获取网络信息的主要途 径. 但现在人们通常只是简单地通过短短几个词的查询与检索系统进行沟通, 而在网络信息 资源规模如此庞大的情况下这种沟通是远远不够的, 检索系统往往不能比较准确地返回用户 所真正需求的信息.因此,进行搜索引擎的用户行为分析是非常必要的. 基金资助:本文相关工作得到国家重点基础研究(973)(2004CB318108),教育部科学技术研究重大 项目资助(104236)和自然科学基金(60223004, 60321002, 60303005)资助 作者简介:余慧佳(1985-) ,女,清华大学计算机系本科生,[email protected]. 搜索引擎日志是网络搜索引擎用户行为的重要载体, 国内外的不少研究者都针对网络搜 索引擎的用户日志进行了相关的研究. 网络信息检索工具得到普及之后, 面向网络信息检索 的用户行为分析得到了更多的关注,Cockburn[1],Catledge[2]和Tauscher[3]等人就分别在
90 年代中期左右对Web用户的浏览行为进行了调研和分析;
到1998 年左右, 部分研究者如[4][5] 等就开始对商业搜索引擎的用户日志进行大规模的分析. 但由于各方面条件的限制, 这种研 究,例如查询词频分布规律的研究等,都很少集中在中文网络用户的行为分析上. 中文网络数据环境与英文的有较大的差异,除了数据上的,还有使用群体的文化、语言 习惯等差异, 这些都造成了中文搜索引擎用户行为上的特异性. 因此有必要对中文搜索引擎 的用户行为进行分析,以针对中文搜索引擎的算法或检索性能评测方法等指出有益的方向. 本文将对为期一个月的真实规模中文搜索引擎网络日志进行研究, 从较大规模的数据中 分析中文搜索引擎用户行为的一些特点, 以为中文搜索引擎算法的改进和检索性能的评测等 提供一定依据和方向.因为日志数据规模较大,所以更具一般性,更能反映出大部分用户的 行为特征. 在下文中我们将首先对已有工作和搜索引擎的日志设计等作简单的介绍;
然后对 基于日志的搜索引擎用户的行为进行分析;
最后针对中文与英文搜索引擎用户行为差异尝试 提出一些对于中文搜索引擎算法设计、评测方法设计有益的启示.
2 已有工作概述
2003 年中国搜索引擎研究报告[6]指出,2004 年中国搜索引擎用户已占互联网用户的 95.2%,每天的搜索请求量达到近 1.9 亿次.而根据最近发布的两期中国互联网络发展状况 统计报告[7][8],截止到
2005 年12 月31 日,我国的网民数达到了 1.11 亿,65.0%的用户指出 搜索引擎是他们经常使用的网络服务功能. 另外, 根据Sullivan的统计[9],
2004 年底, Google 作为世界上索引量最大和访问频率最高的搜索引擎,能够索引到超过
80 亿的网络页面,而 其每天处理的用户查询则超过 2.5 亿个. 面对如此庞大的搜索需求, 深入挖掘发现用户行为特点, 进而提高搜索引擎算法的效率 和准确率显得尤其重要.1998 年,Craig Silverstein 等人对大规模英文搜索日志进行了分析 [4],结论指出 85%的查询用户都只翻看了查询结果的第一页内容等.这些结论都对英文搜 索引擎的算法改进和发展起到了有益的作用. 由于中文网络数据的特殊性以及中英文网民行 为的差异, 对中文搜索引擎进行较大规模的分析以找出中文搜索引擎用户的行为特征是很有 必要的. 此外,对用户检索目的的分析也是近年来用户行为分析研究的热点之一, IBM研究院 的Broder首先提出了 任务驱动 的概念,在他构想的用户检索流程模型中,查询任务决定 了用户的查询需求,进而反映在查询词上.他在[10]中指出,用户的查询任务包括导航类、 信息类和事物类三类. 对查询任务进行划分的出发点在于, 针对三类检索可以使用不同的检 索模型、参数,甚至评价方法也随着检索类别的变化而有所区别.因此实现检索类别的自动 划分对于提高检索性能和增加检索评价的可信度都有非常重要的意义.
3 搜索引擎用户的行为构成与日志设计 搜索引擎用户的行为构成可由图
1 表示: 图1搜索引擎用户的行为流程 Fig.1 Search engine user'
s query-navigation behavior 用于分析的搜狗网络日志由一系列查询需求组成,每个查询需求都包括如表
1 所示条 目: 表1搜狗网络日志的内容 Tab.1 content of the query log of sogou 名称 记录内容 query 用户提交的查询 URL 用户点击的结果地址 time 用户点击发生时的日期、时间 rank 该URL 在返回结果中的排名 order 用户点击的顺序号(这是用户点击的第几个页面) id 由系统自动分配的用户标识号 submitter information 浏览器信息,计算机信息 利用查询词和用户点击页面的信息,我们可以分析出用户提交的查询一般有什么特点, 如长短、频度等;
而由用户点击结果页面的信息我们能得到用户的点击习惯等.我们的实验 主要是建立在对大量的用户需求进行统计的基础上的宏观分析, 主要目的是寻找用户需求中 的热点、 词频分布规律、 查询行为特点等, 进而对检索系统的系统结构和算法设计做出改进.
4 基于日志的搜索引擎用户的行为分析 4.1 独立的查询分析 实验所使用日志包括搜狗搜索引擎在
2006 年2月1日至
2 月28 日的
28 天内的所有查 询. 其中非空查询共 45,745,985 个, 含非重复查询共 4,345,557 个, session 个数为 26,255,952 个. 4.1.1 查询的长度 查询的长度主要指的是用户提交的查询中包含几个词语或字(用空格隔开的) ,分析结 果中,长度不超过
3 个词的查询占了总查询数的 93.15%,平均长度为 1.85 个词,这说明用 户输入的查询通常都比较短.而且平均长度与Craig Silverstein等人分析的英文查询长度结果 [4]的2.35 个词相比更短,这说明中文搜索引擎得到的用户需求信息更少,需要对用户需求 有更多的分析和经验,才能更加准确地返回用户需求的信息. 4.1.2 查询的频度 查询的频度是指在整个
2006 年2月份的网络搜索日志中, 该查询一共被提交过多少次. 对于出现次数最多的前
150 个查询,我们将其出现次数及排名绘成图
2 所示: 图2查询的频度排名与出现次数的关系 Fig.2 frequency_rank and frequency of query 从图
2 中可以看出少数查询出现的次数很多,而我们得到的结果是:出现次数大于
100 次的 query 总数为 35,177 个,占非重复查询总数的 0.8%,但其总的出现次数却为 59,736,863 次,占总查询数目的近 70%.这说明在搜索引擎每天处理的大量查询中,有很多查询都是 重复的, 很少一部分查询就占了用户需求的大部分. 如果搜索引擎能够通过某些方法提高这 少部分经常出现的词的查询质量, 就能使整体的检索质量提高不少. 同时也证明了在搜索引 擎设计中引入缓存(cache)机制或人为干涉的必要性与可行性. 而在对查询 term (term 指的是用户提交的查询中被空格分隔开的单个的词或字) 的统计 中发现,在出现次数最多(均大于 500,000)的12 个term 中,有50%的term 与图片相关, 表明现在人们对图片信息的需求量越来越大,因此搜索引擎在图片搜索方面应予以重视. 4.2 Session 相关分析 一个 session 指的是同一个用户在某一小段时间内的连续查询.对于某一小段时间的定 义,是由搜狗搜索引擎的网络日志决定的,即对于同一用户,在他开始使用搜索引擎检索到 他关闭浏览器的那段时间就定义为一个 session. 4.2.1 每个 session 中的查询个数分析 在实验中我们对每个session中所含的查询个数进行了分析,得出的结果中在同一个 session内查询的平均个数为 1.75 个,有66.46%的session只含有一个查询,即在那小段时间 内, 大部分用户只提交了一个查询且没有对该查询进行修改. 造成这种情况的原因可能是用 户对检索结果表示满意,找到自己想要找的信息后结束查找,也可能是对检索结果不满意, 但又不想修改查询词后再次搜索了. 这与Craig Silverstein等人分析的结果[4]63.7%基本一致. 4.2.2 在一个 session 内,修改查询方式所占比例 当用户提交一个查询后,如果对搜索引擎返回的结果不满意时,用户有可能会在原有查 询词的基础上进行增加或删减字词.另外一种更普遍的情况是,在一个 session 内,用户很 可能彻底更换查询内容.对于那些一个 session 内提交了
2 个以上查询的........