编辑: 865397499 | 2017-09-18 |
34 4 小结 ? 目前比较成熟的正在使用的IR系统并没有用到太多 的语言学知识 ? 理想的检索系统是所谓的 语义层(概念层)的检 索系统,要求IR系统对文档库中的文档,以及用户 的查询做到 真正的理解 ? 从IR系统向QA(question-answer)系统发展
35 汉语信息检索的特殊问题 ? 汉字编码标准不统一 GB, GIG5, Unicode ? 按字索引 / 按词索引? ? 文本分词问题 ? 不分词: 检索 中将 误检 地铁中将可使用移动电话 ? 分词: 检索 旱灾 漏检 抗旱、受旱地区、……
36 进一步阅读文献 ? 吴立德 等(1997)《大规模中文文本处理》,复旦大学出版社1997年版.第6.2节?Christopher D. Manning &
Hinrich Schutze, 1999, Foundations of Statistical Natural Language Processing, The MIT Press. Chapter 15. ? Ronald A. Cole, et al. eds., 1996, Survey of the State of the Art in Human Language Technology, Cambridge University Press. Chapter 7.2 ? N. Fuhr, 1992, Probabilistic Model in I........