编辑: 于世美 | 2018-11-04 |
抽取的规格变化频繁;
性能要求高. 机器学习(ML)方法是利用机器学习技术让信息抽取系统通过训练文本来获得抽取模式,实现特定领域的信息抽取功能.任何对特定知识领域比较熟悉的人都可以根据事先约定的规则来标记训练文本.利用这些训练文本训练后,系统能够处理没有标记的新的文本.这种方法构建的系统具有的特点刚好与用KE方法的系统特点相反. 知识工程方法的设计初始阶段较容易,但是要实现较完善的规则库的过程往往比较耗时耗力.自动学习方法抽取规则的获取是通过学习自动获得的,但是该方法需要足够数量的训练数据,才能保证系统的抽取质量. 下面介绍以下两种信息抽取结构:通用信息抽取结构和Bare Bones结构. 通用信息抽取结构:Hobbs提出的,也叫Hobbs结构. 将信息抽取系统抽象为 级联的转换器或模块集合,利用手工编制或自动获得的规则在每一步过滤掉不相关的信息,增加新的结构信息 .其组成如图1所示. 图1 信息抽取过程 文本分块:将输入文本分割为不同的部分――块. 预处理:将得到的文本块转换为句子序列,每个句子由词汇项(lexical items,词或特点类型短语)及相关的属性(如词类)组成. 过滤:过滤掉不相关的句子. 预分析:在词汇项序列中识别确定的小型结构,如名词短语、并列结构等. 片段组合:如果上一步没有得到完整的分析树,则需要将分析树片段集合或逻辑形式片段组合成整句的一颗分析树或其他逻辑表示形式. 语义解释:从分析树或者分析树片段集合生成语义结构、意义表示或其他逻辑形式. 词汇消歧:消解上一模块中存在的歧义得到唯一的语义结构表示. 共指消解:也称篇章处理,通过确定同一实体在文本不同部分中的不同描述将当前句的语义结构表示合并到先前的处理结果中. 模板生成:由文本的语义结构表示生成最终的模板. 当然,不是所有的信息抽取系统都包含所有的模块,并且也未必完全遵循以上的处理顺序.但一个信息抽取系统应该包含以上模块中描述的功能.一个典型的信息抽取系统的工作过程主要包括: 用一组信息模式(info patterns)描述感兴趣的信息.信息模式一般可表示为一个简单的句子,如 推出 .系统针对某一领域的信息特征预定义一系列信息模式存于模式库中. 对文本进行 适度的 词法、句法及句子分析,并作各种文本标引.这个过程通常包含识别特定的名词短语(人名、机构名等)和动词短语(事件描述、事件陈述).这需要使用合适的词典、构词规则库和分词算法等等支持. 使用模式匹配方法识别指定的信息(找出信息模式的各个部分). 使用上下文关联、指代、引用等分析和推理,确定信息的最终模式. 输出结构(例如生成一个关系数据库或给出自然语言陈述等). 典型的信息抽取系统还包括一个预处理过程,目的在于过滤掉与抽取目标不相干掉文本;
然后通过词法分析和标引,识别所有相关的词汇( 关键词 识别与标引);
句法和语义分析只应用于所有包含了关键词典句子的集合,对每个句子的分析结果近似于该句子的语义框架表示;
最后对这些框架进行合并和综合,便可得到所需的信息的各种数据项(关系数据模式的各个字段). Bare Bones结构: 如图2的结构是空骨架(Bare Bones)结构,是Hobbs结构的一个简化. 图2 Bare Bones结构图 其实一个信息抽取系统只有图上4个部分是不够的,所以以上结构称为 空骨架 .如图3所示,是一个添加了词分割、部分语音标记、词组理解等内容的完整的、有 血肉 的信息抽取系统. 图3 一个有 血肉 的信息抽取系统结构 其中,符号化的工作主要是进行词的分割,类似与Hobbs结构的文........