编辑: 飞鸟 2017-09-19

代表保?) 图1(a):传统编辑距? 图1(b):语义型编辑距? 从上面的计算过程可以看出,?仅使用编辑距?的方法,则计算出的语义距?和的实际情况 将有许多差距.就语义而言,词语之间的编辑操作代价应当各?相同.?如,上述???,虽 然字面上的词汇都?一样,但?细细探究其中的涵义,可以发现其中的词汇所扮演的文法角色及 上位词的语义内涵,有一定程?的相似.此外?在检?目标的?子或短语的词汇之中,加入具有 修饰功能的词汇,其语义也具有相似性.?如「果树怎麽成功种植」与「细菌应如何快速培养」 可视为相似?.基於以上的观点,本研究采用编辑距?的改进演算法[2],即以辞汇为基本的计 算单位,同时以 HowNet 和《同义词词?》作为语义距?的计算资源,以涵盖?多的中文词汇. 在《同义词词?》中,将词汇按照语义关系的远近亲疏,赋予?一或多个语义代码.按照树 ?的层次结构把所收?的词条分别归?.同一层的词语其关系有词义相同或相近,或词义在真实 世界中有很强的相关性.?如:「大豆」、「毛豆」和 「黄豆」在同一层;

这些词?同义,但 相关.从树?结构?看,《同义词词?》有五层结构,越靠近根节点,语义的概?越抽象.具体 的词汇,只分布在节点末端.?用《同义词词?》?计算词与词之间的语义距?,可视为单纯的 代?操作.但词义的操作代价,应随同义词典的级距分歧?加大而增加,而非等?的增加.因此 我们定义 X、Y ?词之间的词义距?如下: ) , ( ) , ( D , y x dist Min Y X ist Y y X x ∈ ∈ = (1) 其中 x,y 为分属於 X,Y ?词之语义集合,根锻宕蚀?》的结构,其计算公式定义如 下: ) * ( y) Csim(x, ) , ( α ld y x dist + = (2) 0.1] )/10) )

4 *( |

5 (| [( ) , ( Csim + ? ? = n n y x (3) Csim(x,y)是指?词在同一棵语义结构树之中,且?词的词义从第 n 层结构开始有所?同;

而ld 为该?词汇在个别的?子中的位置差距,α为系统定义的同义词位移编辑代价.由於同义 词在距?相对词语的位置超过三个以上时,其语义角色就已经产生变化,?如:「我对你很好, 对?对?」?中的「对」这个词,虽然,在?子中出现??次,但其语义已然?同.为将词语的 位移控制在三以内,於是我们以计算同义词?第一层语义代价除以三,将α设为 0.3. 另外,我们认为在词语中进?插入或删除等操作,将有可能影响并改变?子的整体意义及结 构,因此这些操作将有较高的操作代价.我们定义为:?进?删除或插入操作,则操作代价应等 同於?词?同义的代价,因此,我们以 n=0 代入公式(3)计算而设定为 2.1. HowNet 中同义词的定义为具有相同的英语译文(W_E)和语义定义(DEF)的辞汇,其操作 代价设定为 0.1.?如「爱」和「喜欢」 ,其简化词条如下: 表1:HOWNET 同义词举? NO W_C G_C W_E DEF

514 爱Vlove FondOf|喜欢

89949 喜欢 V love FondOf|喜欢 在系统的计算过程中,先比对在 HowNet 中,?词是否为同义词,?是则?词之操作代价为 0.1,?否则比对《同义词词?》并引用(1)作为决定操作代价之依. 2.2 未知词词义处? 我们定义在 HowNet 及《同义词词?》中未收?的词汇称为未知词.我们先在现有的语?库 中搜寻包含该未知词的?子,并使用上下文资讯的相似??协助判断?个词语的相似程?,设定 前后文的词窗个?为三个邻近词 , 并用共现值 I ?抽取相关?高的上下文词组 , 其计算公式如下 : I(Xu, Zw) ) / ) ( )( / ) ( ( / ) , ( log N Z f N X f N Z X f w u w u = (4) 其中N表示语?词??,Xu 为未知词,Zw 为位於Xu 前后的

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题