【PDF】本科生毕业论文 - 资源下载

编辑：

ACcyL

2018-11-09

6 C 北京大学本科生毕业论文 2.2 系统前端的实现图2.1: 引文提取系统顶层结构图步骤内容 PDF内容提取把PDF文档转化成可操作的文本文档引文块提取从PDF中提取的文字中定位出文献的引文部分,并提取引文部分的文字内容引文块去躁清除引文块文字中夹杂的其余部分信息,如

图表、文献附录内容引文块分割把引文块分割成引文项,每个引文项对应于一篇参考文献、文档或URL等表2.1: 前端模块工作流程【PDF内容提取】 PDF文档本身格式较为复杂,我们使用开源工具包???来进行PDF文档到文本文档的转化. 【引文块提取】大多数情况下,文献的引文部分都出现在文章内容的最后,因此我们可以在文本中从后往前查找关键词 REFERENCE 或 Reference ,把该关键词之后的正文内容都当成文献的引文内容. C

7 C

第二章引文提取子系统功能与设计北京大学本科生毕业论文【引文块去躁】从上一步骤中提取的引文块可能存在两种文字噪声:1)文献末尾在引文部分之后仍然包含其它内容,例如附录 APPENDIX ;

2)引文部分的文字中间可能夹杂有

图表中的数据信息.对于第一种噪声,我们可以在提取出的引文块中查找关键词 APPENDIX 等,然后去掉相应的附录部分内容.对于第二种噪声? ? ? 【引文块分割】由于PDF文档的排版原因,提取出的引文块中的每个引文项可能分布在多行,这需要我们通过其它特征来识别单个引文项.例如可以查找引文项开头的序号,通常形式为[1],[2],[3],...等,通过序号就可以划分出引文项的前后边界,并去除每个引文项中多余的换行符和空白字符. 2.3 主系统的实现主系统的唯一功能就是对输入的引文项进行序列标注,具体而言又可分为若干个顺序执行的子任务,如表2.2所示. 其中每个任务的具体实现细节如下: 步骤内容引文项的Tokenization 把单个引文项变成序列化标注的基本单位token的序列特征提取计算每个token的附加特征,以便接下来的标注模型利用序列标注把token和特征组织成HMM或CRF对应的第三方工具的输入格式,运用训练好的概率模型进行标注类别的预测表2.2: 主系统工作流程【引文项的Tokenization】 Tokenization的含义是把一个文本流分割成具有特殊含义的语义单位,这个语义单位一般为单词、短语等

1 .最简单的Tokenization方法就是以空格和一些标点符号为分隔符,确定每个token的边界. Tokenization是主系统中极为关键的步骤:

1 http://en.wikipedia.org/wiki/Tok........

注：以上内容是本站开源项目的机器提供的预览内容，更完整和更好的阅读体验请直接免费下载资源后阅读

下载（注：源文件不在本站服务器，都将跳转到源网站下载）

备用下载

PDF《本科生毕业论文》