【PDF】–Computational Terminology - 资源下载

编辑：

yyy888555

2019-11-27

《术语标准化与信息技术》,2008 年第四期,总第

52 期,4-9.

一个新兴的术语学科 -- 计算术语学冯志伟摘要:术语在科学技术文献中分布很广,术语的自动处理和识别对于科学技术文献的分析、识别和生成至关重要.本文介绍了术语学中的一个新兴学科―计算术语学,分别介绍了术语的发现、术语的充实、术语的受控标引、术语的自由标引等问题. 关健词:计算术语学,术语发现,术语充实, 受控标引,自由标引. A new scientific domain in terminology CComputational Terminology Feng Zhiwei Abstract: Terms are pervasive in scientific and technical documents;

their automatic processing and identification are the crucial issues for any application dealing with the analysis, understanding, generation or translation of such documents. This paper introduces a new scientific domain in terminology C computational terminology, it presents term acquisition, term enrichment, term controlled indexing and term free indexing. Key words: computational terminology, term acquisition, term enrichment, controlled indexing, free indexing. 近年来,在术语学的研究中,开始引进自然语言的计算机处理的方法和技术,出现了计算术语学

1 (computational terminology)这样的学科.1998 年的计算语言学国际会议 COLING-ACL'

98 上,组织了世界上第一次计算术语学的讨论会(First Workshop on Computational Terminology),这次讨论会首次使用的计算术语学这个学科名称.这次讨论会讨论的问题主要有: ? 如何抽取术语以满足信息检索的需要;

? 如何抽取术语以便使用双语语料库来进行翻译;

? 如何进一步完善和原有术语抽取的工作(例如,如何建立概念层级网络,如何搜索语义信息或概念信息).

1 D. Bourigault, Ch. Jacquemin, Marie-Claude L'

Homme, Recent Advances in Computational Terminology, John Benjamins Publishing Company, 2001.

1998 年的这次讨论会成为了计算术语学发展的催化剂,从此,计算术语学便成为一个新兴的术语学的学科,活跃在当代科学技术的百花园中,并且一天天地成熟起来,初步具备了系统的理论和有效的方法,值得我们特别地关注.在计算术语学这个名称出现

10 年之前, 我国冯志伟在

1988 年就注意到术语的自动处理问题,他在德国夫琅禾费研究院(Fraunhofer Institute)使用计算机对汉语的词组型术语进行了自动结构分析,是国际上最早进行计算术语学研究的学者之一

2 .计算术语学的研究主要包括术语结构的自动剖析、术语的自动发现、术语的自动标引等. 本文主要介绍术语的术语的自动发现和术语的自动标引. 在自然语言的计算机处理的诸多领域中,都离不开术语,例如,机器翻译(machine translation)目前主要是翻译专业性的文献,术语的自动处理与机器翻译系统的译文质量有密切的关系;

此外,信息检索(information retrieval)、信息抽取(information extraction)、文本分类(text classification)的运算的基本单位都是单词型术语或词组型术语,也离不开术语的自动处理. 术语是自然语言处理中的一种特殊的词汇数据,与语言中一般的普通词汇不同,术语大多数都是由多个单词组成的词组型术语,它们对于科学技术的发展特别敏感,时时刻刻随着科学技术的发展而发展.在术语的发展过程中,它们不断地丰富,不断地充实,不断地变化,术语的语义也在不断地转移,旧的术语消失了,新的术语产生了.在这样的情况下,术语数据库需要经常地维护,不断地用新的术语充实原来的内容,有时甚至需要重建,以反映科学技术的日新月异发展的要求.这样,术语的发现(term detection)或术语的获取(term acquisition)就成为了术语自动处理的一个重要内容.术语发现可以进一步分成两个类型: 如果在术语发现中不依赖初始的术语数据,那么,这样的术语发现叫做初始术语发现 (initial term acquisition);

如果在术语发现中要使用初始的术语数据,那么,这样的术语发现叫做原有术语充实 (term enrichment). 在文本自动处理中,术语的使用与术语的自动辨识(term recognition)是紧密联系在一起的.术语的自动辨识主要研究如何进行术语的自动标引(automatic indexing).在自然语言处理中,为了便于信息的存取,文本文献总是要使用单词表或词组表,因此,有必要在文本文献中进行术语的自动标引(automatic indexing of terms),然后根据自动标引的结果, 使用计算机来自动地生成单词型术语表或词组型术语表.由于术语是科学技术知识在自然语言中的结晶,术语能够浓缩地表示特定的科学技术领域中的主要概念,它们可以被看成是文本内容的抽象描述,文本文献经过术语的自动标引之后,就能大体上反映出其内容.因此,在文本自动处理中,术语的自动标引是非常重要的. 根据在标引时是否依赖初始的术语数据,术语的自动标引也可以分为两个类型:如果在术语标引中不依赖初始的术语数据,那么,这样的术语标引叫做自由标引 (free indexing);

如果在术语标引中要使用初始的术语数据作为参照,那么 ,这样的术语标引叫做受控标引 (controlled indexing). 总起来说,术语自动处理可以这样来分类:如表

1 所示:

2 Feng Zhiwei, Analysis of Chinese Terms in Data Processing, Report in Fraunhofer Institute, 1988, Stuttgart. 表1术语自动处理的四个主要领域不依赖于初始术语数据依赖于初始术语数据术语发现初始术语发现原有术语充实术语辨识自由标引受控标引下面我们介绍国外的术语发现研究和术语标引研究情况

3 . 首先介绍术语发现的研究.发现候选术语的方法基本上分为符号法(symbolic approach)和统计法(statistical approach)两种.符号法根据术语(主要是名词词组)的句法描述来发现候选术语;

统计法根据词组型术语中组成成分的互信息(Mutual Information)来发现术语,组成成分之间的互信息越大,它们组成术语的可能性也就越大. (1) 基于语法的术语发现方法:例如,在1994 年, Lauriston 在TERMINO 系统中提出了一种基于语法的术语发现方法,这种方法要对文本进行剖析,利用文本中的单词和句法线索(lexical and syntactic clues)来发现术语

4 .剖析模型的操作顺序如下: a. 预处理:首先对文本进行过滤,除去对于术语发现无用的那些形式特征(虚词,停用词);

b. 剖析并抽取术语: ? 形态分析;

? 名词短语剖析;

? 术语生成. c. 交互式术语数据库的构建和管理:给用户提供友好的界面,把前面步骤中抽取出来的术语构建成术语数据库. (2) 句法模式与机器学习到的选择限制相结合的方法:例如,在1996 年,D. Bourigault 研制的术语自动处理工具 LEXTER

5 .LEXTER 使用带标记的语料库,语料库中的标记有词汇特征的标记和句法模式的标记两种,这个工具有一个可视化的界面,可用来确认并组织从带标记的语料库中抽取出来的术语. a. 最大名词短语的分离:LEXTER 可使用分离规则,从最大名词短语(maximal noun phrase)中把可能性最大的术语边界分离出来.例如,在法语的最大名词短语中,过去分词与介词结合而成的组合很可能是术语的边界,在法语最大名词短语 les clapets situés sur les tubes d'

alimentation (位于进气管上的阀门)中,situ és sur 是术语的边界,把整个名词短语分离为 les clapets(阀门) 和les tubes d'

alimentation(进气管) 两部分,这两部分分别是两个不同的术语. 其中, situés sur 是句法模式,这个模式的使用取决于动词的选择限制,而动词的选择限制是通过内置的机器学习程序从语料库中自动地学习得到的.

3 Christian Jacquemin, Spotting and Discovering Terms through Natural Language Processing, The MIT Press, 2001.

4 A. Lauriston, Automatic recognition of complex terms: problems and the TERMINO solution, Terminology, 1(1), 147-170, 1995.

5 D. Bourigault, LEXTER: a natural language tool for terminology extraction, Proceedings of the 7th EURALEX International Congress, 771-779, 1996. b. 把最大名词短语分解成候选术语:确定边界之后,最大名词短语被分离为两个部分, 通过后处理,最后由人来判定这些候选术语,并把确认后的术语加入到术语数据库中.例如,从最大名词短语 les clapets situés sur les tubes d'

alimentation 中,把术语 les clapets 和术语 les tubes d'

alimentation 自动地抽取出来,作为候选术语,加入到术语数据库中.又如,在法语中,pyl?ne à haute tension (高压电线架)的结构是:N + prep + N + Adj,经过最大名词短语分离之后,把haute tension(高压电)作为候选术语提取出来,加入到术语数据库中. c. 最后,还可以根据这些候选术语在句法位置上的相似程度,把它们组织起来.例如, 法语中的 vanne motorisés(电动门)、vanne pneumatique (气动门)、vanne d'

alimentation(进气门)都有共同的中心词 vanne,就把它们组织起来,形成一组有关系的候选术语. d. 这些进入术语数据库的候选术语,由专家做最后的审定,确定为正式的术语,充实了原有的术语. (3) 句法模式与统计过滤相结合的方法:例如,在1996 年,Daille 研制的 ACABIT 是一个把句法模式与统计过滤结合起来的术语研究工具

6 .ACABIT 获取候选术语的步骤如下: a. 语言规则过滤(linguistic filtering):根据术语结构的语言学........

注：以上内容是本站开源项目的机器提供的预览内容，更完整和更好的阅读体验请直接免费下载资源后阅读

下载（注：源文件不在本站服务器，都将跳转到源网站下载）

备用下载

下一篇: 项目环境影响报告表技术评审会专家组意见
上一篇: 期铜周报

PDF《–Computational Terminology》