编辑: 棉鞋 | 2013-03-06 |
0 tf.idf 加权(续) 索引项加权:给那些经常出现在一个文档中,而不常出现在其他文档中的项目以更高的权重,即让 特别的词 从 一般的词 中凸现出来.在这个基本精神指导下,有许多不同的加权公式 tf.idf 加权示例 tf.idf 加权示例(续) 停用词表(stop list) 表达实际文档所需的term 很多,空间开销很大有些 词 在query 时很少出现,即不大作为用户的查询目标,比如 常常 , of ,…有些 词 在每个文档中都会出现,比如 的 ,这些词的idf值通常为0一般把 的 , of 这类词收集起来,构成一个停用词表因此,在为文档建索引的时候,可以不停用词表中的词.这样可以节省资源,同时也不至于太影响检索效果 文档索引(inverted index) 文档分析的其他问题 lemmatizationStemming索引项的选择(index terms selection)文档的压缩、存贮 2.3 概率模型 检索问题即求条件概率问题If Prob(R|di, q) >
Prob(NR|di, q) then di是检索结果,否则不是检索结果
3 信息检索系统的评价 TREC评测 Text REtrievalConferencehttp://trec.nist.gov/组织者NIST(National Institute of Standards and Technology),美国政府部门DARPA(Defense Advanced Research Projects Agency),美国军方1992 C2001(每年一届)大测试集-测试语料主要来源:LDC语料自动评估与人工评估相结合,完全公开的评估体系和软件系统以评估促进研究成果实用化
4 小结 目前比较成熟的正在使用的IR系统并没有用到太多的语言学知识理想的检索系统是所谓的语义层(概念层)的检索系统,要求IR系统对文档库中的文档,以及用户的查询做到 真正的理解 从IR系统向QA(question-answer)系统发展 汉语信息检索的特殊问题 汉字编码标准不统一GB, GIG5, Unicode按字索引/ 按词索引?文本分词问题不分词: 检索 中将 误检 地铁中将可使用移动电话 分词: 检索 旱灾 漏检 抗旱、受旱地区、…… 进一步阅读文献 吴立德等(1997)《大规模中文文本处理》,复旦大学出版社1997年版.第6.2节Christopher D. Manning &
Hinrich Schutze, 1999, Foundations of Statistical Natural Language Processing, The MIT Press. Chapter 15.Ronald A. Cole, et al. eds., 1996, Survey of the State of the Art in Human Language Technology, Cambridge University Press. Chapter 7.2N. Fuhr, 1992, Probabilistic Model in Information Retrieval, In The Computer Journal, Vol. 35, No.3.C.van Rijsbergen, 1979, Information Retrieval, 2nd edtion,Butterworths, London,
1979 Web IR service (2002年) http://www.google.com(google搜索引擎) --全球网页http://e.pku.edu.cn/(北大天网搜索引擎) --中文网页http://www.baidu.com/home.html(百度搜索引擎) --中文网页http://www.portal.com.hk/(香港入门网)--香港、大陆http://www.openfind.com.tw/--台湾http://www.profusion.com/(profusion)--英文网页 复习思考题 请说明布尔检索和向量空间检索模型各自的优缺点.对互联网上一些知名的搜索引擎进行一定规模的调查,从用户的角度撰写调查报告. ........