编辑: 颜大大i2 | 2019-07-18 |
2 文术语互译的实际需求.利用计算机和 Web 等先进的信息技术手段成为双语术 语互译的一个必然趋势. 由于中文术语多产生于外来词,特别是英语,所以中英文术语词典的获取 及更新对各学科的发展及术语学本身的研究有着重要的意义.如何准确高效地 从海量的网络文本语料中获取有价值的双语术语,在是本文所要解决的问题. 1.2 国内外对双语术语自动抽取的相关研究 目前,双语术语研究大都是基于平行语料库进行的,一般运用句法分析或 者引入双语词典的方法,实现句子对齐,在对齐的句子中抽取双语术语互译. 这种方法大都通过两个步骤完成:第一步是将双语术语从不同语料库中提取出 来;
第二步运用句法分析的方法或引入词典将两种语言的术语建立联系. 1.2.1 国外的研究情况 国外对双语术语的研究工作起步较早,早在上世纪
90 年代初期就有人进行 过研究.当时,双语术语的抽取大都使用基于规则的方法,在平行语料库上进 行词性标准,按词性找到符合一定规则的结构,进行词层面的对应,寻找互译 词. DEC(Digital Equipment Corporation)的Eijk 在1993 年提出了一种通过词性标 注选取形如(Adj)*(Noun) + patterns 的词对抽取术语的方法[4],该方法通过比较 词语在区域和全局中的共现来进行候选词的对齐,他将这种方法在英语和荷兰 语的术语抽取上,正确率达到 68%,召回率 64%.1994 年,AT&
T 贝尔实验室 的Dagan 开发了 Termight 工具,该工具运用词性标注和对齐程序从原始语料中 提取出翻译候选,可以把它看作是构建双语词典的工具[5],可以进行技术术语 的识别,并支持译文转换处理;
但这个抽取程序仅仅降低了人工筛选的难度. 作者把这种方法运用于英法语互译上,一定程度上提高了术语抽取的效率. 到上世纪
90 年代末期,双语术语的抽取中开始出现基于统计的方法. Gaussier 在98 年提出的一种英法互译的方法[6],它主要是靠句子层面的网络对 齐来完成的.该方法计算出单一词之间的联合概率,将其作为一个对齐句中双 语词共现的依据.把计算出来的概率放入一个流网络模型,从图中选取最小流 值的部分,作为发现的英法术语词对.而Hull 的方法[7]和Gaussier 的不同.他 将单个词的对齐、术语的抽取和术语的对齐分成三个独立的部分.术语和词通 第1章引言
3 过一个贪婪算法达到........