编辑: 865397499 2017-09-18

1 if a term exists in dj x, y =

0 otherwise 从 一刀切 到 合理拉开差距

15 P-norm模型 将上述只包含两个项目的查询式的相似度计算进一步拓展 为包含 m 个项目的查询式的相似度计算 p p m p p or m x x x d q sim

1 2

1 ... ) , ( ? ? ? ? ? ? + + + = p p m p p and m x x x d q sim

1 2

1 )

1 ( ... )

1 ( )

1 (

1 ) , ( ? ? ? ? ? ? ? + + ? + ? ? = xm 表示第 m 个项目在文档d中的权重 ∞ ≤ ≤ p

1 p 表示项目间逻辑关系严格的程度(degree of strictness), 取值为1最松,取值为无穷大最严

16 2.2 向量空间模型 要点: ? 文档D和查询Q(不妨统称为文本)都可用向量表示 ? 检索过程就是计算文档向量与查询向量之间的相似度 ? 可以根据相似度值的不同,对检索结果进行排序 ? 可以根据检索结果,进一步做相关检索(relevance feedback)

17 从文本到向量空间(vector space) Vector space Vocabulary 文本文本T1 T2 … Tn D1 w1,1 w1,2 … w1,n D2 w2,1 w2,2 … w2,n … Dm wm,1 wm,2 … wm,n Index Term1 Index Term2 … Index Termn 若有 n 个项目(term),文本 Di 就可以表示为一个 n 维向量;

Wi,j 表示文本 Di 的第 j 维的权值,即项目权值(term weight)

18 文档的向量表示示例 T3 ? 假定有三个项目: 葡萄 , 美酒 , 夜光杯 ? 假定以项目在文本中的 出现次数为项目的权值 d2 q

7 3

2 3

2 三维向量空间的几何图示

5 d1

2 0

0 q

2 7

3 d2

5 3

2 d1 夜光杯 T3 美酒 T2 葡萄 T1 T1 T2

19 计算向量之间的相似程度 向量间相似程度的不同度量方法 ? Inner product ? Dice coefficient ? Cosine coefficient ? Jaccard coefficient 在上面的例子中,如何度量 q 跟d1 相似还是跟 d2 相似?

20 夹角余弦:相似程度的度量方法之一 设有查询向量 文档向量 ) ,..., , (

2 1 n q q q q = → ) ,... , (

2 1 n d d d d = → ∑ ∑ ∑ = = = * * = n i i n i i n i i i d q d q d q CosSim

1 2

1 2

1 ) , ( r r

21 夹角余弦计算示例 d1= d2 = q = T3 T1 T2 d1 d2 q

1 θ

2 θ

81 .

0 38

5 5

3 2

2 2

5 0

3 0

2 ) cos( ) , cos(

2 2

2 2

1 1 = = + + * * + * + * = = θ d q r r

13 .

0 59

1 1

7 3

2 2

1 0

7 0

3 ) cos( ) , cos(

2 2

2 2

2 2 = = + + * * + * + * = = θ d q r r q 与d1更相似

22 索引项权值的计算(term weight) 权值的直观含义:一个项目对于一个文本的重要程度 即一个项目在多大程度上可以将这个文档与其他文档区别开 计算权值的两种简单方式: (1)项目- 出现/不出现:1或0 (2)项目- 出现的次数:0,1,2,… 需要更好的加权方法 (3) tf .idf 加权法 (term frequency ? inverse document frequency) 项频率 逆向文档频率

23 tf.idf 加权 ) log( i i df N idf = Term frequency: termi 在文档 dj 中的出现次数,记做 tfi,,

j tfi,,

j 越高,意味着 termi 对于文档 dj 就越重要 比如:一篇谈论乔丹的文章,可以预期 乔丹 、 飞人 的tf 值会比较高 Document frequency: 含有 termi 的文档的数量,记做 dfi dfi 越高,意味着termi 在衡量文档之间相似性方面作用越低, 比如 的 的df值肯定非常高,因此不具有区别性,这类词称为 非焦点词 Inverse document frequency:跟dfi 形成 反比关系 , idfi 值越高,意味着 termi 对于文档的区别意义越大 N 为全部文档的数量.如果一个项目仅出现在一个文档中,idf = logN, 如果一个项目出现在所有文档中,idf = log1 =

0 24 tf.idf 加权(续) 索引项加权:给那些经常出现在一个文档中,而不常 出现在其他文档中的项目以更高的权重,即让 特别的 词 从 一般的词 中凸现出来. 在这个基本精神指导下,有许多不同的加权公式 i j i i j i j i df N tf idf tf weight log , , , * = * = ? ? ? ? ? = ≥ + =

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题