编辑: 达达恰西瓜 2018-08-26

3 种类型的文本上标注了否定与不确定线索词及其覆盖域,其规模达 到16

841 句,能够客观反映汉语中否定性与不确定性表述的语言现象,为相关研究提供资源支持;

其次,本文系 统地探索了序列化依存特征和结构化句法树特征的有效性,通过利用序列标注模型与卷积树核模型的互补性 特点,采用元决策树模型对二者进行融合,并提出基于依存句法规则的后处理策略,实现了一套面向自然语言文 本的否定性与不确定性信息抽取方法.实验结果表明:该方法能够有效地抽取出否定性和不确定性信息,在本文 构建的语料库上,否定性与不确定性信息抽取的精确率分别达到 68.84%和58.57%. 本文第

1 节介绍否定性与不确定性信息抽取的相关工作.第2节介绍本文构建的汉语否定性与不确定性信 息抽取语料库.第3节着重阐述本文提出的否定性与不确定性信息抽取方法.第4节介绍实验设置,给出实验结 果并进行详细地分析.第5节给出本文的结论,并对未来的工作进行展望.

1 相关工作 否定性与不确定性信息抽取研究主要围绕线索词检测和覆盖域界定两个子任务展开.早期研究大多采用 基于启发式规则的方法识别线索词和覆盖域,其优势在于实现简单并且准确率较高,而缺点是健壮性和可扩展 性较差.后来,随着语料库的标注和发布,研究者们开始逐渐尝试借助机器学习算法,提出了各类自然语言处理 邹博伟 等:面向自然语言文本的否定性与不确定性信息抽取

311 模型来识别否定性与不确定性信息.本节分别介绍线索词检测和覆盖域界定的相关研究,最后介绍汉语的否定 性与不确定性信息抽取研究现状. 线索词检测的相关研究主要包括: 1) 基于词表的方法.该方法的关键在于如何构建高质量否定或不确定线索词表,例如,Kilicoglu 等人[19] 借助 WordNet 和生物医学的专业词表中的不确定概念和事实概念的语义和词法关系,抽取文本中的 不确定线索词. 2) 基于分类的方法.该方法以词或语块为样本,筛选和融合了各种有效的句法或语义特征,采用分类方 法标识线索词.其中具有代表性的是 ?zgür 等人[20] 和?vrelid[21] 等人的工作,均探索了各类词法和句 法特征,其中包括词干、词性、位置、邻接词、依存关系、句法范畴等.然而,由于一段文本中线索词 的比重极小,因此,训练数据的不平衡性成为影响该方法性能的关键因素. 3) 基于序列标注的方法.以单个词作为分类对象,很难有效利用上下文信息,而序列标注模型能够利用 标签之间的结构信息,在线索词检测任务中获得比传统分类方法更好的性能.Tang 等人[22] 采用条件 随机场模型在 BioScope 语料上取得了最好的性能,F 值为 86.4%. 覆盖域界定任务的目标是识别线索词的语义作用范围.早期的覆盖域界定研究通常采用基于句法树的启 发式规则方法,此类方法较好地利用了整体或局部句法结构的特点,尤其是语料符合语法时,该方法能够获得较 高的准确率.基于启发式规则方法的覆盖域界定研究最突出的问题在于其可扩展性差,目前研究通常采用基于 机器学习的方法.例如,Morante 等人[23] 采用基于存储的 k 最近邻分类器,并在浅层句法特征的基础上加入了依 存句法特征,取得了 CoNLL'

2010 覆盖域界定任务最好性能,F 值为 57.3%.Vlachos 等人[24] 以候选词与线索词之 间的依........

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题