【PPT】信息检索 - 资源下载

编辑：

棉鞋

2013-03-06

0 tf.idf 加权(续) 索引项加权:给那些经常出现在一个文档中,而不常出现在其他文档中的项目以更高的权重,即让特别的词从一般的词中凸现出来.在这个基本精神指导下,有许多不同的加权公式 tf.idf 加权示例 tf.idf 加权示例(续) 停用词表(stop list) 表达实际文档所需的term 很多,空间开销很大有些词在query 时很少出现,即不大作为用户的查询目标,比如常常 , of ,…有些词在每个文档中都会出现,比如的 ,这些词的idf值通常为0一般把的 , of 这类词收集起来,构成一个停用词表因此,在为文档建索引的时候,可以不停用词表中的词.这样可以节省资源,同时也不至于太影响检索效果文档索引(inverted index) 文档分析的其他问题 lemmatizationStemming索引项的选择(index terms selection)文档的压缩、存贮 2.3 概率模型检索问题即求条件概率问题If Prob(R|di, q) >

Prob(NR|di, q) then di是检索结果,否则不是检索结果

3 信息检索系统的评价 TREC评测 Text REtrievalConferencehttp://trec.nist.gov/组织者NIST(National Institute of Standards and Technology),美国政府部门DARPA(Defense Advanced Research Projects Agency),美国军方1992 C2001(每年一届)大测试集-测试语料主要来源:LDC语料自动评估与人工评估相结合,完全公开的评估体系和软件系统以评估促进研究成果实用化

4 小结目前比较成熟的正在使用的IR系统并没有用到太多的语言学知识理想的检索系统是所谓的语义层(概念层)的检索系统,要求IR系统对文档库中的文档,以及用户的查询做到真正的理解从IR系统向QA(question-answer)系统发展汉语信息检索的特殊问题汉字编码标准不统一GB, GIG5, Unicode按字索引/ 按词索引?文本分词问题不分词: 检索中将误检地铁中将可使用移动电话分词: 检索旱灾漏检抗旱、受旱地区、…… 进一步阅读文献吴立德等(1997)《大规模中文文本处理》,复旦大学出版社1997年版.第6.2节Christopher D. Manning &

Hinrich Schutze, 1999, Foundations of Statistical Natural Language Processing, The MIT Press. Chapter 15.Ronald A. Cole, et al. eds., 1996, Survey of the State of the Art in Human Language Technology, Cambridge University Press. Chapter 7.2N. Fuhr, 1992, Probabilistic Model in Information Retrieval, In The Computer Journal, Vol. 35, No.3.C.van Rijsbergen, 1979, Information Retrieval, 2nd edtion,Butterworths, London,

1979 Web IR service (2002年) http://www.google.com(google搜索引擎) --全球网页http://e.pku.edu.cn/(北大天网搜索引擎) --中文网页http://www.baidu.com/home.html(百度搜索引擎) --中文网页http://www.portal.com.hk/(香港入门网)--香港、大陆http://www.openfind.com.tw/--台湾http://www.profusion.com/(profusion)--英文网页复习思考题请说明布尔检索和向量空间检索模型各自的优缺点.对互联网上一些知名的搜索引擎进行一定规模的调查,从用户的角度撰写调查报告. ........

注：以上内容是本站开源项目的机器提供的预览内容，更完整和更好的阅读体验请直接免费下载资源后阅读

下载（注：源文件不在本站服务器，都将跳转到源网站下载）

备用下载

PPT《信息检索》