编辑: yyy888555 | 2019-11-27 |
52 期,4-9.
一个新兴的术语学科 -- 计算术语学 冯志伟 摘要:术语在科学技术文献中分布很广,术语的自动处理和识别对于科学技术文献的分析、识别和 生成至关重要.本文介绍了术语学中的一个新兴学科―计算术语学,分别介绍了术语的发现、术语 的充实、术语的受控标引、术语的自由标引等问题. 关健词:计算术语学,术语发现,术语充实, 受控标引,自由标引. A new scientific domain in terminology CComputational Terminology Feng Zhiwei Abstract: Terms are pervasive in scientific and technical documents;
their automatic processing and identification are the crucial issues for any application dealing with the analysis, understanding, generation or translation of such documents. This paper introduces a new scientific domain in terminology C computational terminology, it presents term acquisition, term enrichment, term controlled indexing and term free indexing. Key words: computational terminology, term acquisition, term enrichment, controlled indexing, free indexing. 近年来,在术语学的研究中,开始引进自然语言的计算机处理的方法和技术,出现了 计 算术语学
1 (computational terminology)这样的学科.1998 年的计算语言学国际会议 COLING-ACL'
98 上,组织了世界上第一次计算术语学的讨论会(First Workshop on Computational Terminology),这次讨论会首次使用的 计算术语学 这个学科名称.这次 讨论会讨论的问题主要有: ? 如何抽取术语以满足信息检索的需要;
? 如何抽取术语以便使用双语语料库来进行翻译;
? 如何进一步完善和原有术语抽取的工作(例如,如何建立概念层级网络,如何搜索语 义信息或概念信息).
1 D. Bourigault, Ch. Jacquemin, Marie-Claude L'
Homme, Recent Advances in Computational Terminology, John Benjamins Publishing Company, 2001.
1998 年的这次讨论会成为了计算术语学发展的催化剂,从此,计算术语学便成为一个新 兴的术语学的学科,活跃在当代科学技术的百花园中,并且一天天地成熟起来,初步具备了系 统的理论和有效的方法,值得我们特别地关注.在 计算术语学 这个名称出现
10 年之前, 我国冯志伟在
1988 年就注意到术语的自动处理问题,他在德国夫琅禾费研究院(Fraunhofer Institute)使用计算机对汉语的词组型术语进行了自动结构分析,是国际上最早进行计算术语学 研究的学者之一
2 .计算术语学的研究主要包括术语结构的自动剖析、术语的自动发现、术语 的自动标引等. 本文主要介绍术语的术语的自动发现和术语的自动标引. 在自然语言的计算机处理的诸多领域中,都离不开术语,例如,机器翻译(machine translation)目前主要是翻译专业性的文献,术语的自动处理与机器翻译系统的译文质量有 密切的关系;
此外,信息检索(information retrieval)、信息抽取(information extraction)、文本分类(text classification)的运算的基本单位都是单词型术语或词组 型术语,也离不开术语的自动处理. 术语是自然语言处理中的一种特殊的词汇数据,与语言中一般的普通词汇不同,术语大多 数都是由多个单词组成的词组型术语,它们对于科学技术的发展特别敏感,时时刻刻随着科学 技术的发展而发展.在术语的发展过程中,它们不断地丰富,不断地充实,不断地变化,术语 的语义也在不断地转移,旧的术语消失了,新的术语产生了.在这样的情况下,术语数据库需 要经常地维护,不断地用新的术语充实原来的内容,有时甚至需要重建,以反映科学技术的日 新月异发展的要求.这样,术语的发现(term detection)或术语的获取(term acquisition)就成为了术语自动处理的一个重要内容.术语发现可以进一步分成两个类型: 如果在术语发现中不依赖初始的术语数据,那么,这样的术语发现叫做 初始术语发现 (initial term acquisition);
如果在术语发现中要使用初始的术语数据,那么,这样的术 语发现叫做 原有术语充实 (term enrichment). 在文本自动处理中,术语的使用与术语的自动辨识(term recognition)是紧密联系在一 起的.术语的自动辨识主要研究如何进行术语的自动标引(automatic indexing).在自然语 言处理中,为了便于信息的存取,文本文献总是要使用单词表或词组表,因此,有必要在文本 文献中进行术语的自动标引(automatic indexing of terms),然后根据自动标引的结果, 使用计算机来自动地生成单词型术语表或词组型术语表.由于术语是科学技术知识在自然语言 中的结晶,术语能够浓缩地表示特定的科学技术领域中的主要概念,它们可以被看成是文本内 容的抽象描述,文本文献经过术语的自动标引之后,就能大体上反映出其内容.因此,在文本 自动处理中,术语的自动标引是非常重要的. 根据在标引时是否依赖初始的术语数据,术语的自动标引也可以分为两个类型:如果在术 语标引中不依赖初始的术语数据,那么,这样的术语标引叫做 自由标引 (free indexing);
如果在术语标引中要使用初始的术语数据作为参照,那么 ,这样的术语标引叫 做 受控标引 (controlled indexing). 总起来说,术语自动处理可以这样来分类:如表
1 所示:
2 Feng Zhiwei, Analysis of Chinese Terms in Data Processing, Report in Fraunhofer Institute, 1988, Stuttgart. 表1术语自动处理的四个主要领域 不依赖于初始术语数据 依赖于初始术语数据 术语发现 初始术语发现 原有术语充实 术语辨识 自由标引 受控标引 下面我们介绍国外的术语发现研究和术语标引研究情况
3 . 首先介绍 术语发现 的研究.发现候选术语的方法基本上分为符号法(symbolic approach)和统计法(statistical approach)两种.符号法根据术语(主要是名词词组)的 句法描述来发现候选术语;
统计法根据词组型术语中组成成分的互信息(Mutual Information)来发现术语,组成成分之间的互信息越大,它们组成术语的可能性也就越大. (1) 基于语法的术语发现方法:例如,在1994 年, Lauriston 在TERMINO 系统中提出了 一种基于语法的术语发现方法,这种方法要对文本进行剖析,利用文本中的单词和句 法线索(lexical and syntactic clues)来发现术语
4 .剖析模型的操作顺序如下: a. 预处理:首先对文本进行过滤,除去对于术语发现无用的那些形式特征(虚词,停用 词);
b. 剖析并抽取术语: ? 形态分析;
? 名词短语剖析;
? 术语生成. c. 交互式术语数据库的构建和管理:给用户提供友好的界面,把前面步骤中抽取出来的 术语构建成术语数据库. (2) 句法模式与机器学习到的选择限制相结合的方法:例如,在1996 年,D. Bourigault 研制的术语自动处理工具 LEXTER
5 .LEXTER 使用带标记的语料库,语料库中的标记有 词汇特征的标记和句法模式的标记两种,这个工具有一个可视化的界面,可用来确认 并组织从带标记的语料库中抽取出来的术语. a. 最大名词短语的分离:LEXTER 可使用分离规则,从最大名词短语(maximal noun phrase)中把可能性最大的术语边界分离出来.例如,在法语的最大名词短语中,过 去分词与介词结合而成的组合很可能是术语的边界,在法语最大名词短语 les clapets situés sur les tubes d'
alimentation (位于进气管上的阀门)中,situ és sur 是术语的边界,把整个名词短语分离为 les clapets(阀门) 和les tubes d'
alimentation(进气管) 两部分,这两部分分别是两个不同的术语. 其中, situés sur 是句法模式,这个模式的使用取决于动词的选择限制,而动词的选择 限制是通过内置的机器学习程序从语料库中自动地学习得到的.
3 Christian Jacquemin, Spotting and Discovering Terms through Natural Language Processing, The MIT Press, 2001.
4 A. Lauriston, Automatic recognition of complex terms: problems and the TERMINO solution, Terminology, 1(1), 147-170, 1995.
5 D. Bourigault, LEXTER: a natural language tool for terminology extraction, Proceedings of the 7th EURALEX International Congress, 771-779, 1996. b. 把最大名词短语分解成候选术语:确定边界之后,最大名词短语被分离为两个部分, 通过后处理,最后由人来判定这些候选术语,并把确认后的术语加入到术语数据库 中.例如,从最大名词短语 les clapets situés sur les tubes d'
alimentation 中,把术语 les clapets 和 术语 les tubes d'
alimentation 自动地抽取出来,作为 候选术语,加入到术语数据库中.又如,在法语中,pyl?ne à haute tension (高压 电线架)的结构是:N + prep + N + Adj,经过最大名词短语分离之后,把haute tension(高压电)作为候选术语提取出来,加入到术语数据库中. c. 最后,还可以根据这些候选术语在句法位置上的相似程度,把它们组织起来.例如, 法语中的 vanne motorisés(电动门)、vanne pneumatique (气动门)、vanne d'
alimentation(进气门)都有共同的中心词 vanne,就把它们组织起来,形成一组有 关系的候选术语. d. 这些进入术语数据库的候选术语,由专家做最后的审定,确定为正式的术语,充实了 原有的术语. (3) 句法模式与统计过滤相结合的方法:例如,在1996 年,Daille 研制的 ACABIT 是一个 把句法模式与统计过滤结合起来的术语研究工具
6 .ACABIT 获取候选术语的步骤如 下: a. 语言规则过滤(linguistic filtering):根据术语结构的语言学........