编辑: 865397499 | 2017-09-18 |
1 if a term exists in dj x, y =
0 otherwise 从 一刀切 到 合理拉开差距
15 P-norm模型 将上述只包含两个项目的查询式的相似度计算进一步拓展 为包含 m 个项目的查询式的相似度计算 p p m p p or m x x x d q sim
1 2
1 ... ) , ( ? ? ? ? ? ? + + + = p p m p p and m x x x d q sim
1 2
1 )
1 ( ... )
1 ( )
1 (
1 ) , ( ? ? ? ? ? ? ? + + ? + ? ? = xm 表示第 m 个项目在文档d中的权重 ∞ ≤ ≤ p
1 p 表示项目间逻辑关系严格的程度(degree of strictness), 取值为1最松,取值为无穷大最严
16 2.2 向量空间模型 要点: ? 文档D和查询Q(不妨统称为文本)都可用向量表示 ? 检索过程就是计算文档向量与查询向量之间的相似度 ? 可以根据相似度值的不同,对检索结果进行排序 ? 可以根据检索结果,进一步做相关检索(relevance feedback)
17 从文本到向量空间(vector space) Vector space Vocabulary 文本文本T1 T2 … Tn D1 w1,1 w1,2 … w1,n D2 w2,1 w2,2 … w2,n … Dm wm,1 wm,2 … wm,n Index Term1 Index Term2 … Index Termn 若有 n 个项目(term),文本 Di 就可以表示为一个 n 维向量;
Wi,j 表示文本 Di 的第 j 维的权值,即项目权值(term weight)
18 文档的向量表示示例 T3 ? 假定有三个项目: 葡萄 , 美酒 , 夜光杯 ? 假定以项目在文本中的 出现次数为项目的权值 d2 q
7 3
2 3
2 三维向量空间的几何图示
5 d1
2 0
0 q
2 7
3 d2
5 3
2 d1 夜光杯 T3 美酒 T2 葡萄 T1 T1 T2
19 计算向量之间的相似程度 向量间相似程度的不同度量方法 ? Inner product ? Dice coefficient ? Cosine coefficient ? Jaccard coefficient 在上面的例子中,如何度量 q 跟d1 相似还是跟 d2 相似?
20 夹角余弦:相似程度的度量方法之一 设有查询向量 文档向量 ) ,..., , (
2 1 n q q q q = → ) ,... , (
2 1 n d d d d = → ∑ ∑ ∑ = = = * * = n i i n i i n i i i d q d q d q CosSim
1 2
1 2
1 ) , ( r r
21 夹角余弦计算示例 d1= d2 = q = T3 T1 T2 d1 d2 q
1 θ
2 θ
81 .
0 38
5 5
3 2
2 2
5 0
3 0
2 ) cos( ) , cos(
2 2
2 2
1 1 = = + + * * + * + * = = θ d q r r
13 .
0 59
1 1
7 3
2 2
1 0
7 0
3 ) cos( ) , cos(
2 2
2 2
2 2 = = + + * * + * + * = = θ d q r r q 与d1更相似
22 索引项权值的计算(term weight) 权值的直观含义:一个项目对于一个文本的重要程度 即一个项目在多大程度上可以将这个文档与其他文档区别开 计算权值的两种简单方式: (1)项目- 出现/不出现:1或0 (2)项目- 出现的次数:0,1,2,… 需要更好的加权方法 (3) tf .idf 加权法 (term frequency ? inverse document frequency) 项频率 逆向文档频率
23 tf.idf 加权 ) log( i i df N idf = Term frequency: termi 在文档 dj 中的出现次数,记做 tfi,,
j tfi,,
j 越高,意味着 termi 对于文档 dj 就越重要 比如:一篇谈论乔丹的文章,可以预期 乔丹 、 飞人 的tf 值会比较高 Document frequency: 含有 termi 的文档的数量,记做 dfi dfi 越高,意味着termi 在衡量文档之间相似性方面作用越低, 比如 的 的df值肯定非常高,因此不具有区别性,这类词称为 非焦点词 Inverse document frequency:跟dfi 形成 反比关系 , idfi 值越高,意味着 termi 对于文档的区别意义越大 N 为全部文档的数量.如果一个项目仅出现在一个文档中,idf = logN, 如果一个项目出现在所有文档中,idf = log1 =
0 24 tf.idf 加权(续) 索引项加权:给那些经常出现在一个文档中,而不常 出现在其他文档中的项目以更高的权重,即让 特别的 词 从 一般的词 中凸现出来. 在这个基本精神指导下,有许多不同的加权公式 i j i i j i j i df N tf idf tf weight log , , , * = * = ? ? ? ? ? = ≥ + =