编辑: 飞鸟 | 2017-09-19 |
nctu.edu.tw 摘要 近??受惠於国内外各项语?库资源的建置及网际网?上的大?中文语? , 使电脑语文辅助教材 的涵盖层面日趋广泛 . 因此如何产生大?且具高品质之辅助教材日益受到许多自然语言处?研究 者的重视.有鉴于此,本?文提出以中文?子相似?为基础的研究与应用.相似?的计算乃考虑 ?子的组合及聚合性.我们实作此一应用,并提出解决未知词的语意计算问题的方法.实验结果 显示系统的检? MRR 值可以提升到 0.89 且每一检??皆可找到可堪用之??. 1. 绪? ?子是可完整表达语意的基本单位[21],也是语法的具体表现.因此,在语言学习中,学童 ?是学会?各种?型,也就学会?隐含在?型中的语法规则.藉由语言学家的归纳整?[14],我 们知道?子的结构并?是词语的随意组合,而是依照一定的「语法规则」 .根[15],语法规则 可进一步分为 「组合规则」 及 「聚合规则」 .组合规则是指语法单位的横向组合,?如, 「我」 、 「买」 、 「书」这三个词汇可以组合成「我买书」 ,但却?能组合成「书买我」 .当词组合成结构之后,将 具有语法意义,并使得整体结构的意义大於个别词汇的意义总和,?如: 「?」 、 「?」这?个词 各自有其意义,但组合之后则形成?「?」修饰「?」的语法意义. 至於聚合规则是指在?子中,每个位置的语法单位都有其适合替换的词语集合,?如,在 「我 买书」这个?子?, 「我」可以替换成「你」 ,但「买」却?能替换成「花」 .?子中的聚合替换 规则可以视为词汇的语义替换问题,?如:语义同属植物的「花」 、 「草」可以互相替换. ?型在学习语法时十分重要,因此融合语法变化的「?型?习」就成为国小学童语言学习时 的一个重要活动[18].国语习作是现?国语课程的辅助教材,主要供国小学童课后?习使用,而 习作的内容中几乎每课都有「造?」 、 「照样造?」 、 「替换语词」等?型的?习 [16].然而,由 於习作中所提供的?????多 , 再加上国小学童??在阅?的文章??及习得的词汇??皆有 所?足,因此,本研究之目的为设计一有效?之?子相似?计算方法,以自动撷取国小学童?型 ?习中的「照样造?」所需的???.我们将?子相似?定义为计算?个?子之间的语法规则 相似?,也就是?如果?个?子的语法组合及聚合规则越相似,则其相似?越高. ?子相似?计算可依照语?的分析深?分成?种方式.一种是基於向?空间模型的方法,把 ?子当成词的线性序?,因此语?相似?衡?机制只能?用?子的表层资讯,即组成?子的词的 语义资讯.由於?加任何结构分析,这种方法在计算语?之间的相似?时无法考虑?子整体结构 的相似性.?如在[8] [20]是以比对相同辞汇?计算相似?,对於?子之中,普遍存在的同义或 近义词之间的取代及比对,并没能有效的解决.在[9]则提出搭配语义词典检?,并分配字义权 重,以解决单纯语义匹配的问题;
但是,只使用语义词典检??作为相似?的计算依,而没有 考虑到?子内部的结构和词汇之间的相互关系,因此准确?并??想.在[11]中提出使用编辑距 ?的方法,其规定的操作模式,并?完全适用於整体?义相似的计算,也缺乏同义或近义词替换 的设计.另一方面,使用统计之语言模型的方法 [6]则需要建置大?的训?语?.在[2][4]中结 合?语义词典检?方法及传统编辑距?方法[10]的优点,并?用 HowNet[5]和 《同义词词?》 [7] ?种语义辞典,以计算辞汇之间的语义距?,同时赋予?同编辑操作?同的权重,因此具有较好 的输出结果.由於其方法是基於同义词典,?进?语义判定,因而衍生出未知词及专有名词语义 判定的问题.另外.检讨其所使用的编辑操作权重,筛选候选?的计算方式,及评估输出结果的 方法,仍有改进的空间. 另一种方法则是对语?进?结构的?法与语义分析,并在分析结果的基础上进?相似?计 算,?如[17][19]先对被比较的?个?子进?深层的?法分析找出依存关系,并在依存分析结果 的基础上进?相似?计算,但目前的语义依存?法分析器的准确?只有 86%,因此造成依存分析 的结果并?准确,导致?子的核心词无法正确判断,因而产生?错误的计算结果. 在本?文中 , 我们提出以聚合规则相似?和组合规则相似??设计并实作中文相似?子撷取 系统.我们使用?个?子中所含的词汇之同义或近义词?计算聚合语义的相似?,以及改?式编 辑距?计算的方法,并设计新的权重配置比?、候选?筛选原则.在语义计算过程中,加入词性 标记资讯,以节?语义计算的次?,最后使用语义相似?矩阵,将所输出的??加以正规化,以 取代人工评分的方法. 由於本?文所提之「?子相似?」可应用於学童?型?习中「照样造?」所需之???, 操作方法即是按照原??子的?型造?,?如:输入「今天看到一幅画」 ,输出「昨天想到一个 人」 ,因此只需要计算词的线性序?相似?,而?需用深层的树?结构分析.此外,本研究将同 时使用全域匹配(Global Alignment)及局部匹配(Local Alignment)的策?,求取??在全?和 部分?段的结构相似?. 2. 聚合结构相似? 我们定义?子的聚合结构相似?为?个?子之间的词语是否可使用同义或者近义词替代 . ?如: 「我爱你」与「你喜欢哥哥」就是一对聚合规则相似的?子.本研究改?并采用,以语义为 基础的编辑距?演算法,?计算?子之间的聚合规则相似?.重新考虑编辑操作代价,及使用上 下文资讯以解决未知词及专有名词语义判定问题 , 并?用网?语??改进因资?稀疏而无法有效 进?词义比对的计算问题. 2.1 语义相似?计算 一般的编辑距?指的是,从一个?子变为另一个?子,所需要的最小编辑操作的步骤?.传 统的编辑操作共有「保?」 、 「插入」 、 「删除」和「替换」四种.以下图为?: ( :代表删 除;