编辑: 贾雷坪皮 | 2019-07-04 |
1 ,刘奕群
1 ,张敏
1 ,茹立云
2 ,马少平
1 (1.
清华大学智能技术与系统国家重点实验室,北京 100084;
2.搜狗公司研发中心,北京 100084) 摘要: 用户行为分析是网络信息检索技术得以前进的重要基石,也是能够在商用搜索引擎中发挥 重要作用的各种算法的基本出发点之一.为了更好的理解中文搜索用户的检索行为,本文对搜狗搜索 引擎在一个月内的近
5 千万条查询日志进行了分析. 我们从独立查询词分布、同一 session 内的用户 查询习惯及用户是否使用高级检索功能等方面对用户行为进行了分析.分析结论对于改进中文搜索 引擎的检索算法和更准确的评测检索效果都有较好的指导意义. 关键词: 网络信息检索,搜索引擎,用户行为分析,点击信息分析 Research in Search Engine User Behavior Based on Log Analysis Abstract: Huijia Yu1 , Yiqun Liu1 , Min Zhang1 , Liyun Ru2 , Shaoping Ma1 (1.Department of Computer Science and Technology, Tsinghua University, Beijing 100084;
2.Sogou R&
D Centre, Beijing 100084) Abstract: User log analysis is important for both Web information retrieval technologies and commercial search engine algorithms. In order to better understand search behavior of Chinese Web search users, we presents an analysis of Sogou Search Engine query log consisting of approximately
50 million entries for search requests over a period of one month. The analysis includes search retrieval behavior in individual queries distribution, user request customs in the same session and whether using advanced search functions. Conclusions may help improve Web information retrieval algorithms and search performance evaluation methods. key words: Web Information Retrieval;
Search Engine;
User Behavior Analysis, Click Through Data Analysis.
1 引言 随着网络与信息资源的飞速发展,网络搜索引擎已经成为人们获取网络信息的主要途 径. 但现在人们通常只是简单地通过短短几个词的查询与检索系统进行沟通, 而在网络信息 资源规模如此庞大的情况下这种沟通是远远不够的, 检索系统往往不能比较准确地返回用户 所真正需求的信息.因此,进行搜索引擎的用户行为分析是非常必要的. 基金资助:本文相关工作得到国家重点基础研究(973)(2004CB318108),教育部科学技术研究重大 项目资助(104236)和自然科学基金(60223004, 60321002, 60303005)资助 作者简介:余慧佳(1985-) ,女,清华大学计算机系本科生,[email protected]. 搜索引擎日志是网络搜索引擎用户行为的重要载体, 国内外的不少研究者都针对网络搜 索引擎的用户日志进行了相关的研究. 网络信息检索工具得到普及之后, 面向网络信息检索 的用户行为分析得到了更多的关注,Cockburn[1],Catledge[2]和Tauscher[3]等人就分别在
90 年代中期左右对Web用户的浏览行为进行了调研和分析;
到1998 年左右, 部分研究者如[4][5] 等就开始对商业搜索引擎的用户日志进行大规模的分析. 但由于各方面条件的限制, 这种研 究,例如查询词频分布规律的研究等,都很少集中在中文网络用户的行为分析上. 中文网络数据环境与英文的有较大的差异,除了数据上的,还有使用群体的文化、语言 习惯等差异, 这些都造成了中文搜索引擎用户行为上的特异性. 因此有必要对中文搜索引擎 的用户行为进行分析,以针对中文搜索引擎的算法或检索性能评测方法等指出有益的方向. 本文将对为期一个月的真实规模中文搜索引擎网络日志进行研究, 从较大规模的数据中 分析中文搜索引擎用户行为的一些特点, 以为中文搜索引擎算法的改进和检索性能的评测等 提供一定依据和方向.因为日志数据规模较大,所以更具一般性,更能反映出大部分用户的 行为特征. 在下文中我们将首先对已有工作和搜索引擎的日志设计等作简单的介绍;