编辑: 雷昨昀 | 2017-09-19 |
另一类是利用知识库,知识库中的词具有一定的关系和层次结构, 如概念之间的上下位关系和同位关系,这是计算句子相似度的基础[6]. 本研究从汉语句子的特征出发,计算对话者所提问题与模板库中句子的语义相似度,从而选出合适的回答提供给说话者.本研究的成果已经用在了网络聊天机器人 瞎聊 中并取得了良好的效果和点击率. 句子相似度相关研究 一般来说,句子相似度计算就是寻找和量化目标文本A和B中的相同成分.句子之间的相同成分可以从三方面进行量化:阐释(paraphrase)、蕴含(entailment)、拓展(elaboration).阐释是使用不同表达方式重述相同的文本信息.在自然语言中阐释现象非常普遍,这就决定了有必要从阐释角度计算句子之间的相似度.在早期的相似度计算中使用编辑距离[7]的方法,在编辑距离达到一定阈值时可以确定句子之间的阐释关系.阐释关系识别的研究成果广泛应用于自然语言处理的各项任务.不同文本之间的第二种关系为蕴含.蕴含的研究分为两种:基于逻辑的(logic-based和基于图的(graph-based). 蕴含 一词源于逻辑[8],从逻辑角度研究句子蕴含关系符合常规.将自然语言用逻辑表达式表示,然后判断是否可以从文本T推断出假设H.蕴含关系的研究将有助于词义排歧等自然语言处理任务.如多义词 bank 的某个义项可能蕴含在不同的句子中(He is walking on the bank和He went to the bank to withdraw some money).拓展是在原有信息基础上的一种扩展,以形成更复杂的、新兴的整体(complex, emergent whole).这包括对事物某种细节的进一步阐述或者对事件结果和未来的预测.对于句子拓展关系的研究属于新兴的研究方向,目前成果不多.但是拓展是语言相似度的新视角,拓展关系的存在可以让本来不具相似度的句子具有一定的相关度,如反义关系和部分整体关系[9]. 自然语言中的语义涉及因素很多,有语言本身的、也有社会环境的.在计算句子语义相似度的过程中需要考虑各方面因素.目前的研究集中于句子之间的阐释关系,这种研究已........