编辑: 向日葵8AS | 2019-07-11 |
25 2019/3/16 信息检索与数据挖掘 用Jaccard 系数评分的问题 ? 没有考虑词项频率(词项在文档中出现的次数) ? 罕见词比高频词的信息量更大,更加具有区分 度,Jaccard系数没有考虑这个信息 ? 需要一种复杂的方式来归一化长度 ? 后面我们将用 而不是 来归一化长度
26 2019/3/16 信息检索与数据挖掘 Paul Jaccard(1868-1944) ? 瑞士植物学家,ETH教授 ? 1894年毕业于苏黎世联邦理工 学院ETH(出过包括爱因斯坦在 内的21位诺贝尔奖得主) ? 1901年提出Jaccard Index即Jaccard Coefficient概念
27 2019/3/16 信息检索与数据挖掘 本讲提纲 ? 回顾 ? 排序式检索 ? 词项频率 ? tf-idf权重计算 ? 向量空间模型
28 2019/3/16 信息检索与数据挖掘 词袋模型(Bag of words ) ? 不考虑词在文档中出现的顺序 ? John is quicker than Mary 和 Mary is quicker than John 的表示结果一样 ? 这就是词袋模型 ? 从一定程度上讲,这是一种倒退,位置索引可以很 容易区分这两个文档 ? 在后面的课程中我们将可以看到如何 恢复 位置 信息 ? 现在只考虑:词袋模型
29 2019/3/16 信息检索与数据挖掘 回顾(p3):词项-文档关联矩阵 ? 每个文档用一个二值向量表示∈{0,1}|V|
30 2019/3/16 信息检索与数据挖掘 词项-文档计数矩阵 ? 考虑词项在文档中出现的次数 ? 将每个文档看成是一个计数向量 :矩阵中的一列
31 2019/3/16 信息检索与数据挖掘 词项频率tf(Term frequency ) ? 词项频率:词项t在文档d中出现的次数,记为tft,d ? 如何利用tf计算query-document评分? ? 第一种方法是采用原始的tf值(raw tf) ? 但是,原始tf值不太合适: ? 某个词项在A文档中出现十次,即tf = 10,在B文档中 tf = 1,那么A比B更相关 ? 但是相关度不会相差10倍?相关性并不随词项频率成比例的增加 NB: frequency = count in IR
32 2019/3/16 信息检索与数据挖掘 tf的对数表示 ? 词项t在文档d中频率的对数表示 ? tft,d → wt,d :
0 → 0,
1 → 1,
2 → 1.3,
10 → 2,
1000 →
4 ? 文档-词项的匹配得分是所有同时出现在q和文档d 中的词项的对数词频之和 ? 评分为0,表示文档和query中没有公共词项
33 2019/3/16 信息检索与数据挖掘 本讲提纲 ? 回顾 ? 排序式检索 ? 词项频率 ? tf-idf权重计算 ? 向量空间模型
34 2019/3/16 信息检索与数据挖掘 文档中的词频 vs. 文档集中的词频 ?除词项频率tf之外,我们还想利用词项在整个文 档集中的频率进行权重和评分计算 原始的词项频率tf会面临这样一个严重问题,即在和查询进行 相关度计算时,所有的词项都被认为是同等重要的.实际上, 某些词项对于相关度计算来说几乎没有或很少有区分能力.例如,在一个有关汽车工业的文档集中,几乎所有的文档都会包 含auto,此时,auto就没有区分能力. 一个很直接的想法就是给文档集频率(collection frequency) 较高的词项赋予较低的权重,其中文档集频率指的是词项在文 档集中出现的次数.这样,便可以降低具有较高文档集频率的 词项的权重.
35 2019/3/16 信息检索与数据挖掘 罕见词项所期望的权重 ?罕见词项比常见词所蕴含的信 息更多 ?考虑查询中某个词项,它在整 个文档集中非常罕见 (例如 ARACHNOCENTRIC). ?某篇包含该词项的文档很可能 相关 ?于是,我们希望像 ARACHNOCENTRIC一样的罕 见词项将有较高权重
36 2019/3/16 信息检索与数据挖掘 常见词项所期望的权重 ?常见词项的信息量不如罕见词 ?考虑一个查询词项,它频繁出现在文档集中 (如good , line, increase等等).一篇包含该词项的文档当然比不包含该词项的 文档的相关度要高,但是,这些词对于相关度而言并不是非常 强的指示词. ?于是,对于诸如good , line, increase的频繁词,会给一个正 的权重,但是这个权重小于罕见 词权重