编辑: 向日葵8AS 2019-07-11

37 2019/3/16 信息检索与数据挖掘 文档频率(Document frequency,df) ?对于罕见词项我们希望赋予高权重 ?对于常见词项我们希望赋予正的低权重 ?接下来我们使用文档频率df这个因子来计算查询- 文档的匹配得分 ?文档频率是指:出现词项的文档数目

38 2019/3/16 信息检索与数据挖掘 idf 权重 ? dft是词项t的文档频率:文档集合中包含t的文档 数目 ? dft与词项t包含的信息量成反比 ? dft ? N (N是文档的总数) ? 定义t的逆文档频率为idf ? idft 是反映词项t的信息量的一个指标 ? 用log (N/dft) 代替N/dft来抑制idf的作用 对数的底不会对文档的相对排序产生实际影响(习题6-12)

39 2019/3/16 信息检索与数据挖掘 idf的计算举例 N=1,000,000 词项 dft idft calpurnia

1 6 animal

100 4 sunday 1,000

3 fly 10,000

2 under 100,000

1 the 1,000,000

0 文档集合中每个词项t都有一个逆文档频率idft

40 2019/3/16 信息检索与数据挖掘 idf对排序的影响 ? 对于含有两个以上查询词的query,idf才会影响 排序结果 ? 例如: ? Query为 arachnocentric line ,idf会提高 arachnocentric 的相对权重,同时降低 line 的 相对权重. ? 对于只有一个查询词的query,idf对排序结果没 有影响

41 2019/3/16 信息检索与数据挖掘 文档集频率 vs. 文档频率 ? 文档集频率(collection frequency, cf)是指t在整 个文档集合中出现的次数;

? 文档频率(document frequency, df)包含词项t的文 档数目 ? 例如 ? 哪个词项更适合作为query?即应该赋予更高的权重 ? 上例表明, df (和idf) 比cf (和 icf )更适合 权重计算 词项 文档集频率(cf) 文档频率(df) insurance

10440 3997 try 104........

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题