编辑: ACcyL | 2018-11-09 |
6 C 北京大学本科生毕业论文 2.2 系统前端的实现 图2.1: 引文提取系统顶层结构图 步骤 内容 PDF内容提取 把PDF文档转化成可操作的文本文档 引文块提取 从PDF中提取的文字中定位出文献的引文部分,并提 取引文部分的文字内容 引文块去躁 清除引文块文字中夹杂的其余部分信息,如
图表、文 献附录内容 引文块分割 把引文块分割成引文项,每个引文项对应于一篇参考 文献、文档或URL等表2.1: 前端模块工作流程 【PDF内容提取】 PDF文档本身格式较为复杂,我们使用开源工具包???来进行PDF文档到文 本文档的转化. 【引文块提取】 大多数情况下,文献的引文部分都出现在文章内容的最后,因此我们可以在 文本中从后往前查找关键词 REFERENCE 或 Reference ,把该关键词之后 的正文内容都当成文献的引文内容. C
7 C
第二章 引文提取子系统功能与设计 北京大学本科生毕业论文 【引文块去躁】 从上一步骤中提取的引文块可能存在两种文字噪声:1)文献末尾在引文部 分之后仍然包含其它内容,例如附录 APPENDIX ;
2)引文部分的文字中间 可能夹杂有
图表中的数据信息.对于第一种噪声,我们可以在提取出的引文块中 查找关键词 APPENDIX 等,然后去掉相应的附录部分内容.对于第二种噪 声? ? ? 【引文块分割】 由于PDF文档的排版原因,提取出的引文块中的每个引文项可能分布在多 行,这需要我们通过其它特征来识别单个引文项.例如可以查找引文项开头的序 号,通常形式为[1],[2],[3],...等,通过序号就可以划分出引文项的前后边界,并去 除每个引文项中多余的换行符和空白字符. 2.3 主系统的实现 主系统的唯一功能就是对输入的引文项进行序列标注,具体而言又可分为若 干个顺序执行的子任务,如表2.2所示. 其中每个任务的具体实现细节如下: 步骤 内容 引文项的Tokenization 把单个引文项变成序列化标注的基本单位token的序列 特征提取 计算每个token的附加特征,以便接下来的标注模型利 用 序列标注 把token和特征组织成HMM或CRF对应的第三方工具 的输入格式,运用训练好的概率模型进行标注类别的 预测 表2.2: 主系统工作流程 【引文项的Tokenization】 Tokenization的含义是把一个文本流分割成具有特殊含义的语义单位,这个 语义单位一般为单词、短语等
1 .最简单的Tokenization方法就是以空格和一些标 点符号为分隔符,确定每个token的边界. Tokenization是主系统中极为关键的步 骤:
1 http://en.wikipedia.org/wiki/Tok........