编辑: 于世美 | 2018-11-04 |
072529 关键词:信息抽取 信息处理技术 分词 句法及语义分析 摘要: 面向实际应用和潜在需求,建立自适应的、可移植的系统是未来信息抽取的发展方向,立足于目前已有的研究成果,建立受测试集驱动、通过机器学习构建有监督机制的规则库并在此基础上实现知识获取将成为一条发展的思路.
一、信息抽取概述 随着计算机在各个领域的广泛普及和Internet的迅猛发展,社会的信息总量呈爆炸式的指数增长.信息总量的量级,从20世纪90年代初的MB(106)过渡到GB(109)再到现在的TB(1012).进入21世纪后,全世界信息总量更是以每三年增加一倍的速度递增.据统计,在这些海量信息中,有60%~70%是以电子文档的形式存在.为了应对信息爆炸带来的挑战,迫切需要一些自动化的技术帮助人们在海量信息中迅速找到自己真正需要的信息.信息抽取(Information Extraction,IE)正是解决这个问题的一种方法. 信息抽取技术是指从一段自然语言文本中抽取指定的事件、事实信息,并以结构化形式描述信息,供信息查询、文本深层挖掘、自动回答问题等应用,为人们提供有力的信息获取工具.也就是从文本中抽取用户感兴趣的事件、实体和关系,被抽取出来的信息以结构化的形式描述,然后存储在数据库中,为情报分析和检测、比价购物、自动文摘、文本分类等各种应用提供服务.广义上信息抽取技术的抽取对象并不局限于文本,其他形式存在的信息也可以作为信息抽取的对象,而抽取的结果则变为相应的结构化数据.后文如无说明只涉及中文文本信息抽取. 信息抽取技术的最终目的就是开发实用的信息抽取系统,从自由文本中抽取、分析信息,从而得到有用的、用户感兴趣的信息.信息抽取技术在军事、经济、医学、科学研究等领域有着极大的应用空间. 与信息抽取密切相关的一项研究是信息检索(Information Retrieval,IR)技术.信息抽取并不同与信息检索,两种的功能、处理技术、适用领域均不相同,但它们俩是可以互补的.为了处理海量文本,信息抽取系统通常以信息检索系统(如文本过滤)的输出作为输入;
而信息抽取技术又可以用来提高信息检索系统的性能.二者的结合能够更好地服务与用户的信息处理需求.另外,和信息抽取相关的技术还有自动文摘、文本理解、自然语言生成、机器翻译和数据挖掘等.
二、信息抽取系统的构建 在信息抽取技术中,对自由文本进行信息抽取需要运用许多自然语言处理(NLP)知识,所以自由文本信息抽取系统的构建是比较复杂和困难的.在信息抽取系统的构建过程中,最重要的是如何获得抽取模式(Extraction Pattern).根据抽取模式获得的方式的不同,信息抽取系统的构建主要有两种方法,即知识工程方法(Knowledge Engineering Approach)和机器学习方法(Machine Learning Approach,也叫自动训练方法automatically trainable system). 知识工程(KE)方法依靠人工编写抽取模式,使系统能处理特定知识领域的信息抽取问题.这种方法要求编写抽取模式的知识工程师对特定知识领域有深入的了解,具有性能好和易开发等优点.这种方法一般用于构建具有以下特点的系统: 已有相应的资源,如词典、表等;
已经有了可用的规则;
数据训练代价大或者不容易实现;