编辑: ACcyL | 2018-11-09 |
13 3.2 隐马尔可夫模型
13 3.2.1 使用隐马尔可夫模型解决序列标注问题
14 3.2.2 隐马尔可夫模型的数据平滑
16 3.3 条件随机域模型
18 3.3.1 条件随机域的定义
18 3.3.2 条件随机域和隐马尔可夫模型的比较
21 3.3.3 使用条件随机域解决序列标注问题
22
第四章 引文提取的实证研究
27 4.1 数据集和标注工具
27 4.1.1 引文提取的标注类别和数据集
27 4.1.2 数据处理工具链简介
28 4.2 HMM和CRF软件工具简介
29 4.2.1 HMM序列标注工具
29 C ix C 目录 北京大学本科生毕业论文 4.2.2 CRF工具
30 4.3 模型的评测标准
31 4.4 基本模型的实验结果
32 4.4.1 隐马尔可夫模型
32 4.4.2 条件随机域模型
33 4.5 实验结果分析
33 4.5.1 HMM和CRF的比较
33 4.5.2 CRF特征内容效果分析
36 4.5.3 CRF特征函数对标注序列Y的使用分析
36 4.5.4 CRF特征函数对于观测序列X的使用分析
37 4.5.5 CRF参数训练方法分析
38
第五章 相关研究工作总结
41 5.1 隐马尔可夫模型和引文提取
41 5.2 条件随机域和引文提取
41 结论
43 参考文献
45 致谢
47 C x C
第一章 引言 互联网的开放存取(Open Access)打破了传统模式下科技成果交流滞后、受 限的弊端,使得任何人都能及时免费获得各类文献信息.这种模式促成了科技 成果的广泛传播和交流.为了提高海量信息环境下的文献利用率,面向文献检 索的搜索引擎应运而生,常见的有 Google Scholar1 , Microsoft Academic Search2 , ArnetMiner3 等. 和传统的Web搜索引擎或文本检索系统中的网页或文档不同,科技文献除 了正文内容以外还包含了参考文献(以下简称引文) 、关键词、主题评论、合 著者等多维度信息,每个维度或多个维度的组合都可以构成特别的文献关系网 络.在这些网络的基础上,文献检索引擎能够进行大规模的数据挖掘分析,得到 比bag-of-words更有深度的信息:例如从传统的引文网络中可以计算出文献的影响 因子,从合著者网络中可以挖掘出某领域的专家学者,甚至可以从引文的主题评 论中对某篇文献或该文献相关的领域进行总结.上述这些应用都离不开一个前提 ――文献网络关系的准确提取,比如提取每篇文献的作者名称,文献中引用的其 他文献的名称等等.然而这些信息的提取存在下述困难: 1. 文献检索系统建立索引所用的原始文档大多为PDF文件格式.这种文档的 内部格式较为复杂,不像XML文档那样包含清晰的自描述信息,因而无法 直接提取文献内容中的各种元数据. 2. 即使获得了文献中的文本内容,由于每篇文献的具体格式各不相同(通常和 具体的期刊会议的要求有关) ,想要精确地提取所需的信息仍非易事. 3. 即使提取出了文献中某些具体的信息(参考文献的标题,作者等等) ,相同 的信息之间仍然存在细微的出入,例如人名的不同简写方式,标题内容排印
1 http://scholar.google.com/
2 http://academic.research.microsoft.com/
3 http://www.arnetminer.org/ C
1 C
第一章 引言 北京大学本科生毕业论文 不一致等等. 在我们基于PARADISE搜索引擎平台搭建的文献检索系统中,文献引文内容 的提取是通过固定的模板来实现的:对于待处理的每篇文献,首先确定文献所发 表的期刊或会议,然后根据这些期刊/会议对应的模板格式来提取每个引用文献 的标题、作者、发表时间、期刊/会议名称等.这种做法具有一定的实用性,但却 存在诸多显而易见的缺点: 1. 文献引文的提取对每个期刊/会议的模板格式有极强的依赖性,一旦模板格 式被修改就需要修改相应的系统实现,同时还要应对不同版本模板的前后兼 容问题. 2. 同一个期刊/会议的文献仍然有许多不易使用模板描述的引文内容,例如引 文的内容可能是某一篇文献,也可能是网址、书籍的章节、软件或技术文档 等等,很难总结出一个统一的模板来描述不同类型的引文. 事实上文献引文的提取可以看成是机器学习领域中的序列标注(Sequence Labeling)问题:对于一篇文献中的每条引文,我们首先把引文的内容切割成符 号(Token)序列,然后运用某种算法来预测每个符号所属的类别,这些类别可以 是标题,作者,日期,期刊/会议名等等.序列标注问题通常使用概率统计模型来 解决,其中常用的有隐马尔可夫模型(Hidden Markov model,以下简称HMM) , 最大熵模型(Maxium entropy Markov model,以下简称MEMM)和条件随机域 (Conditional random ?eld,以下简称CRF)