编辑: ACcyL | 2018-11-09 |
4 .和用模板提取的方法相比,概率 模型具有更好的灵活性和描述能力,即使引文的格式发生了轻微改动也能良好应 对,对于大多数引文内容的提取而言性能十分稳定. 本文通过运用隐马尔可夫模型和条件随机域模型,重新实现了PARADISE文 献检索引擎中的引文内容提取子系统.具体而言,本文有如下贡献: 1. 我们改进了PARADISE文献检索系统对于文献引文的提取效果,使之达到 了state-of-the-art的性能水平. 2. 我们制作了具有相当规模的文献引文数据集,能够有效地用于学习模型的训 练和提取系统的评测工作.同时我们还制作了方便的序列分割、序列标注、 数据评测工具,能够有效地应用于类似的序列标注问题. 3. 通过对比实验,我们总结出了隐马尔可夫模型和条件随机域模型在具体实践
4 http://en.wikipedia.org/wiki/Sequence labeling C
2 C 北京大学本科生毕业论文 上的优缺点. 4. 通过各种对比实验我们探讨了条件随机域模型在解决序列标注问题中特征 选择和特征设计的技巧,总结出了条件随机域的实践经验. 论文剩余部分的组织方式如下:
第二章概述了引文提取子系统的功能模块和 主要工作流程;
第三章介绍序列标注问题和两个概率模型――隐马尔可夫模型和 条件随机域模型的理论基础和实现细节;
第四章详细介绍了对两个模型在引文提 取问题上的实证研究,包括模型的比较和条件随机域中特征设计和选取的方法;
第五章介绍了引文提取问题的相关研究工作;
最后一章是对本文的总结及未来工 作的展望. C
3 C
第一章 引言 北京大学本科生毕业论文 C
4 C
第二章 引文提取子系统功能与设计 2.1 系统功能和模块 引文提取系统作为文献检索引擎中信息提取部分的一个子系统,功能上需要 满足特定要求: 1. 系统具有定义良好的输入和输出,接口简介,调用方便;
2. 由于搜索引擎需要处理大量数据,引文提取作为原始文献处理过程中必被调 用的模块,必须具有很好的运行效率和健壮性;
对于第一个要求,由于引文系统的文献都是统一格式的(PDF文档) ,可以 做出如下定义: 系统输入 由一系列PDF文献的URI(Universal Resource Identi?er)组成,每个URI代表了一篇文献的存放位置,URI之间通过换行符分隔. 引文信息提取的目的就是为了整理原有信息以方便利用,因此我们选 用XML格式作为系统的输出.XML格式的自描述信息能让文献引文变得一目了 然.具体的XML输出格式样例如下: http://www.cs.umass.edu/?mccallum/papers/hlt2004.pdf Accurate Information Extraction from C
5 C
第二章 引文提取子系统功能与设计 北京大学本科生毕业论文 Research Papers using Conditional Fuchun Peng Andrew McCallum S. Chen R. Rosenfeld January
2000 A Survey of Smoothing Techniques for ME Models IEEE Trans. Speech and Audio Processing
8 1 pp. 37{50 对于第二个需求,引文提取系统本身并没有特别复杂的逻辑结构,可以通过 数据流驱动的方式进行模块化设计,得到的系统具有耦合度底,等优点,与需求 较为契合.顶层的系统结构如图2.1所示. 在该顶层结构中,输入数据按顺序通过三个模块,并在每个模块中被加工和 变换.本章的剩余部分将介绍三个模块的详细设计. 2.2 系统前端的实现 引文提取系统的前端模块负责对处理输入的PDF文档进行预处理,为系统的 主要模块提供格式良好的引文项作为输入.前端模块的工作流程也是顺序的,步 骤如表2.1所示. 各个模块的具体实现说明如下: C