编辑: 雷昨昀 | 2017-09-19 |
Technology, Beijing 100083;
School of Foreign Language Education, Liaocheng University, Liaocheng 252000|张子宪(1976-),男,讲师,博士研究生,主要研究方向:自然语言处理.|山东省聊城市东昌府区柳园南路学府花园5号楼|252000|[email protected]|15263565622|15263565622|2|张德东|ZHANG Dedong|北京飞舜信息技术有限公司,北京 100083|Feishun Information Technology Co.Ltd., Beijing 100083|张德东(1976-),男,软件工程师,主要研究方向:自然语言处理、程序设计.|||[email protected]||基于规则的句子相似度计算|Rule-based computing of sentence similarity| (1. 中国矿业大学(北京)机电与信息工程学院,北京 100083;
2. 北京飞舜信息技术有限公司,北京 100083;
3. 聊城大学大学外语教育学院,聊城 252000) 摘要:句子相似度计算是诸多自然语言处理任务的基础,一般采用规则或统计的方法计算句子相似度,但是统计方法也离不开语言规则,本文从语言规则出发给出了一种新的句子相似度计算方法.自动对话系统是本文所提算法的立足点,该算法从5方面分析用户问句,对比该问句和问题库中的问句,然后给出最有可能问句的答案作为返回结果.这5方面包括:相同关键词个数、句子长度对比、逆序数、关键词距离、相同关键词在问题库问句中所占比例.这5方面在计算时具有不同的比重,该比重系数根据经验给出,然后在训练时不断优化.这样从一定程度上提高了自动对话系统给出答案的精度,并成功地用于网络聊天机器人 瞎聊 ,使机器人具有了一定的智能. 关键词:计算机应用;
句子相似度;
逆序数;
自然语言处理;
对话系统 中图分类号:TP391.1 Rule-based computing of sentence similarity ZHANG Zixian1,3, ZHANG Dedong2 (1. Department of Computer, China University of Mining &
Technology, Beijing 100083;
2. Feishun Information Technology Co.Ltd., Beijing 100083;
3. School of Foreign Language Education, Liaocheng University, Liaocheng 252000) Abstract: Sentence similarity computing is the basis for many natural language processing tasks, and the methods used are usually rule-based or statistics-based. However, statistics-based methods also need rules as the basis. A rule-based method for sentence similarity computing is provided in this article. The method provided hereafter is for the purpose of automatic dialogue system, and it takes into consideration five aspects: number of key words, sentence length, inverse order, key word distance, key word ratio in candidate question. The five apsects are assigned different weights in sentence similarity computing, and the weights are obtained by experience and are opitimized in training. This method is successfully used in the dialogue system named Xialiao (FreeTalker), and it acquires some intelligence with the method. Key words: computer application;
sentence similarity;
inverse order;
natural language processing;
dialogue system 引言 随着计算机和网络的发展,计算机自动对话系统(俗称聊天机器人)越来越受到人们的关注.自动对话系统是人工智能的研究领域,是一个用来模拟人类对话或聊天的程序.它模仿人的语言习惯,给出的答案较为人性化[1].比较著名的聊天机器人如 Eliza [2]、 小图 [3]等.国内的网络聊天机器人有小i、腾讯的小q以及中国移动的飞信助手等.它们试图建立一种计算机程序,这个程序至少暂时性地让一个真正的人类认为他们正在和另一个人聊天. 自动对话系统的设计有两个难点.首先,对话系统给出的回答要符合人们的说话习惯、贴近实际生活.其次,机器人的反应速度要快,和人的交流不能有过多的时间延迟.要解决这两个问题除了计算机硬件的要求外,需要从计算机算法上进行改进.比如,在理解句子输入上需要稳健的计算机算法[4],还有的从输入文本中寻找合适的规律[5].让机器人很自然地 和人聊天首先需要理解输入的句子.其中,句子相似度的计算是关键技术.相似度的计算方法分为两类:一类方法称为基于统计的方法,它利用自然语言组成的语料语,收集统计数据,来计算句子之间的相似度;