编辑: 865397499 | 2017-09-18 |
0 ,
0 1 , log )) log(
1 ( , , , , j i j i i j i j i tf tf df N tf weight 当当公式一: 公式二: ……
25 tf.idf 加权示例 D1 : 湖畔的夏夜常常很凉爽,…… Query = 夏夜湖畔的蛙鸣 D2 :湖畔有家 湖畔 啤酒花园,花园中 常常是鼓鼓的蛙鸣一片,…… D3 : 蛙鸣 禅社举办 蛙鸣 诗会的消息…… … 0.477 0.477 0.176 0.176
0 0.477 0.176 … idf …
1 1
2 2
3 1
2 … df … 诗会 禅社 蛙鸣 常常 的 夏夜 湖畔 … Term ) log( i i df N idf = N =
3 26 tf.idf 加权示例(续) i j i j i idf tf weight * = , , 公式一:
0 0 0.176 0.176
0 0 0.352 D2 0.477 0.477 0.352
0 0
0 0 D3 …
0 0 0.176
0 0 0.477 0.176 … Q …
0 0
0 0.176
0 0.477 0.176 … D1 … 诗会 禅社 蛙鸣 常常 的 夏夜 湖畔 … Term Wi,j Doc
151 .
0 ) , (
3 = d q Cos
893 .
0 ) , (
1 = d q Cos
400 .
0 ) , (
2 = d q Cos 与查询 q 相似的文档顺序:d1 d2 d3 f f
27 停用词表(stop list) ? 表达实际文档所需的 term 很多,空间开销很大 ? 有些 词 在query 时很少出现,即不大作为用户的 查询目标,比如 常常 , of ,… ? 有些 词 在每个文档中都会出现,比如 的 ,这 些词的 idf 值通常为
0 ? 一般把 的 , of 这类词收集起来,构成一个停用词表 ? 因此,在为文档建索引的时候,可以不停用词表中的 词.这样可以节省资源,同时也不至于太影响检索效果
28 文档索引(inverted index) ... ...
2 蛙鸣
1 夏夜
2 湖畔 ... ... Index terms d2 1,
5 d1
1 d3 2,
7 d2
16 d1
3 dj positions tfj ... df ... ... d1 ... ... 文档 d2 ... ... d3 可选内容 位置表(postings list) Query: 湖畔 AND 蛙鸣 对两个term对应的位置表求交集 Query: 湖畔 OR 蛙鸣 对两个term对应的位置表求并集
29 文档分析的其他问题 ? lemmatization ? stemming ? 索引项的选择(index terms selection) ? 文档的压缩、存贮
30 2.3 概率模型 文档 查询 要求 相关 文档 相关 文档 R 不相关 文档 不相关 文档 NR 检索问题即求条件概率问题 if Prob(R | di , q) >
Prob(NR | di , q) then di 是检索结果, 否则不是检索结果
31 3 信息检索系统的评价 +相关 + 不在检索结果中 D +相关 + 在检索结果中 B 相关 +不相关+不在检索结果中 C +不相关 + 在检索结果中 A 不相关 不属于检索结果集合 NRt 属于检索结果集合 Rt 文档 NR R Rt B = = 检索结果中的文档总数 的文档数 检索结果中和查询相关 准确率 precision R B = = 关的文档数 文档库中所有和查询相 的文档数 检索结果中和查询相关 召回率 recall NR A = = 相关的文档数 文档库中所有和查询不 关的文档数 检索结果中和查询不相 误识率 fallout
32 断点准确率(precision at cutoff) 评价 系统1 系统2 系统3 D1√ D10 * D6 * D2√ D9 * D1√ D3√ D8 * D2√ D4√ D7 * D10 * D5√ D6 * D9 * D6 * D1√ D3√ D7 * D2√ D5√ D8 * D3√ D4√ D9 * D4√ D7 * D10 * D5√ D8 * 断点5处的准确率 100% 0% 40% 断点10处的准确率 50% 50% 50% 系统1的查询结果排序优于系统3,系统3优于系统2
33 TREC评测 ? Text REtrieval Conference http://trec.nist.gov/ ? 组织者 ? NIST(National Institute of Standards and Technology),美国政府部门 ? DARPA(Defense Advanced Research Projects Agency),美国军方 ?
1992 C 2001(每年一届) ? 大测试集 - 测试语料主要来源: LDC语料 ? 自动评估与人工评估相结合,完全公开的评估体系和软件系统 ? 以评估促进研究成果实用化