编辑: 贾雷坪皮 | 2019-07-04 |
3 个词的查询占了总查询数的 93.15%,平均长度为 1.85 个词,这说明用 户输入的查询通常都比较短.而且平均长度与Craig Silverstein等人分析的英文查询长度结果 [4]的2.35 个词相比更短,这说明中文搜索引擎得到的用户需求信息更少,需要对用户需求 有更多的分析和经验,才能更加准确地返回用户需求的信息. 4.1.2 查询的频度 查询的频度是指在整个
2006 年2月份的网络搜索日志中, 该查询一共被提交过多少次. 对于出现次数最多的前
150 个查询,我们将其出现次数及排名绘成图
2 所示: 图2查询的频度排名与出现次数的关系 Fig.2 frequency_rank and frequency of query 从图
2 中可以看出少数查询出现的次数很多,而我们得到的结果是:出现次数大于
100 次的 query 总数为 35,177 个,占非重复查询总数的 0.8%,但其总的出现次数却为 59,736,863 次,占总查询数目的近 70%.这说明在搜索引擎每天处理的大量查询中,有很多查询都是 重复的, 很少一部分查询就占了用户需求的大部分. 如果搜索引擎能够通过某些方法提高这 少部分经常出现的词的查询质量, 就能使整体的检索质量提高不少. 同时也证明了在搜索引 擎设计中引入缓存(cache)机制或人为干涉的必要性与可行性. 而在对查询 term (term 指的是用户提交的查询中被空格分隔开的单个的词或字) 的统计 中发现,在出现次数最多(均大于 500,000)的12 个term 中,有50%的term 与图片相关, 表明现在人们对图片信息的需求量越来越大,因此搜索引擎在图片搜索方面应予以重视. 4.2 Session 相关分析 一个 session 指的是同一个用户在某一小段时间内的连续查询.对于某一小段时间的定 义,是由搜狗搜索引擎的网络日志决定的,即对于同一用户,在他开始使用搜索引擎检索到 他关闭浏览器的那段时间就定义为一个 session. 4.2.1 每个 session 中的查询个数分析 在实验中我们对每个session中所含的查询个数进行了分析,得出的结果中在同一个 session内查询的平均个数为 1.75 个,有66.46%的session只含有一个查询,即在那小段时间 内, 大部分用户只提交了一个查询且没有对该查询进行修改. 造成这种情况的原因可能是用 户对检索结果表示满意,找到自己想要找的信息后结束查找,也可能是对检索结果不满意, 但又不想修改查询词后再次搜索了. 这与Craig Silverstein等人分析的结果[4]63.7%基本一致. 4.2.2 在一个 session 内,修改查询方式所占比例 当用户提交一个查询后,如果对搜索引擎返回的结果不满意时,用户有可能会在原有查 询词的基础上进行增加或删减字词.另外一种更普遍的情况是,在一个 session 内,用户很 可能彻底更换查询内容.对于那些一个 session 内提交了
2 个以上查询的情况(即用户对原 查询进行了修改) ,我们分析了用户修改查询词的各种方式所占比例,详见表 2. 表2在一个 session 内中文搜索引擎用户对查询的修改方式分布 Tab.6 queries modified methods distribution of Chinese search engine users within a session 查询的不同修改方式 平均占 Session 中修改过查询数的比例 Adding terms 9.00% Deleting terms 1.43% Totally changing the query 83.27% 其他修改方式 6.30% 注:Adding terms 和Deleting terms 包括在任意位置增加或删除的改动. 当用户对查询不满意而适当修改时(除去全部改变的情况) ,很大程度是因为返回结果 的搜索范围较大, 因此用户会选择增加查询词以限制搜索范围, 搜索结果过于冗余是搜索算 法应该重视的一个问题. 4.3 其他用户行为相关分析 在不同的用户群体中表现出来的用户行为特征是有所不同的.例如用户习惯点击的结果 在搜索引擎返回结果中的大体位置如何, 或者中文用户有多少会提交含有英文的查询、 有多 少用户会采用高级检索或直接键入 URL 地址作查询词等.这个部分将对这些问题进行一定 分析. 4.3.1 点击次数与 rank 之间的关系分析 用户提交一个查询后,搜索引擎可能会返回很多页结果,但是并不见得这些结果都会对 用户有用,因为用户一般不会将这些结果点击浏览过.在我们的实验中,我们分析了搜索引 擎返回的结果的顺序排名(rank)与被点击次数的关系如图 3,取对数值后则得图 4. 图3返回结果的顺序排名与被点击次数的关系 Fig.4 Rank and click times 图4对返回结果的顺序排名与被点击次数取对数值后的关系 Fig.5 Rank and click times 实验数据显示约 85% 的用户只翻看搜索引擎返回结果的前