编辑: 达达恰西瓜 | 2018-08-26 |
修改时间: 2015-04-14;
采用时间: 2015-05-08;
jos 在线出版时间: 2015-11-12 CNKI 网络优先出版: 2015-11-11 17:00:18, http://www.cnki.net/kcms/detail/11.2560.TP.20151111.1700.002.html
310 Journal of Software 软件学报 Vol.27, No.2, February
2016 否定性信息在认知学、哲学和语言学等领域中均有各自的定义和描述,本文中,我们借鉴 Morante 和Sporleder 在其综述中给出的定义[1] :否定性信息包括一个运算符以及若干受其影响并发生含义反转的要素.而 针对不确定性信息的定义,由于较难给出其形式化范畴,因此,学者们尝试从不同的角度给出了描述性定义,其 中包括情态(modality)[2] 、言据性(evidentiality)[3] 、不确定性(uncertainty)[4] 和主观性(subjectivity)[5] 等方面,本文 中,对不确定性信息的定义主要借鉴 Lakoff 的描述[6] :任何不确定性命题或信息,从认知程度上介于肯定信息和 否定信息之间,该信息的整体或部分具有或然性. 否定性与不确定性信息抽取研究起源于面向生物医学科技文献的信息抽取任务中[7?9] ,目的是将文献中的 否定性与不确定性信息过滤掉,以避免文本挖掘和知识生成等应用系统将错误或存疑信息与真实信息混淆.否 定性与不确定性信息抽取是信息抽取和语义分析相结合所产生的一项新任务,其在自然语言处理的各个领域 具有广泛的应用前景,如情感分析[10,11] 、信息检索[12] 、文本分类[13] 、机器翻译[14] 等领域. 目前,否定性与不确定性信息抽取研究主要包括两个子任务: 1) 线索词检测(cue detection).线索词指能够标识出否定或不确定语义的词或短语,有些文献中也称触 发词(trigger).在例句
1 和例句
2 中,以下划线表示的 不 和 有望 分别是否定线索词和不确定线索词. 2) 覆盖域界定(scope resolution).覆盖域是指线索词的语义作用范围,通常是句子中的某一连续片段(例 句中以方括号表示).在例句
1 中,否定线索词 不 否认了 (所有住客)会追究酒店的这次管理失职 这 一命题,而 所有住客均表示 则是实际发生的事情,故不在否定线索词的覆盖域之内. 例句 1:所有住客均表示[不会追究酒店的这次管理失职]. 例句 2:尽管上周五沪指盘中还受创业板的下跌所拖累,但[明天创业板仍有望反弹]. 英语中的否定性与不确定性信息抽取研究已逐渐成为自然语言处理领域的热点,并取得了大量成果;
然而, 汉语中的相关研究仍处于探索阶段.主要归结为两方面原因. ? 首先,面向汉语的否定性与不确定性信息抽取研究缺乏公认的语料资源.语料库建设是开展自然语言 处理研究的重要基础,英语中有 BioScope 生物医学文献语料库[15] 等,而目前尚未有研究机构发布汉语 语料库;
另一 方面,英语 中 的相关 研究 已开展 了一 系列较 为成 熟的评 测,例如BioNLP'
2009[16] , CoNLL'
2010[17] ,*SEM'
2012[18] 等,而面向汉语的相关评测尚未开展. ? 第2个原因是,英语语法结构相对严格,而汉语语法结构则较为松散,这使得无法将英语中否定性与不 确定性信息抽取方法和技术直接移植到汉语上来,需要有针对性地采用适应汉语特点的相关自然语 言处理技术. 鉴于以上困难和缺陷,本文首先构建了面向汉语自然语言文本的否定性与不确定性信息抽取语料库,该语 料库在科技文献、金融新闻、酒店评论这