编辑: 无理的喜欢 2019-07-02

一、在扩大标注中观察该义原的覆盖面.我们有一条原则:我们已有的义原一定要能够描述全部的概 念.这里有一个比较硬性的规定,即当我们发现一个具有多个概念的词语,例如八个,而我们已有的义 原不能够把这八个概念区别开来时,我们就必须对我们的标注集加以调整,这是绝大多数的情况.在很 个别的情况下我们不排除怀疑其中某个概念是否存在,以决定取舍. 第

二、 观察某一个义原在概念之间关系中的地位. 如果一个义原在同类别的许多概念中出现或者不同类 别的概念中出现,那么这样的义原就是稳定的义原是一个必须确定的义原.以事件类 医治 这个义原 为例,它不仅出现在 医 、 治 、 治疗 、 医疗 、 治病 、 求医 、 看病 等概念中, 并且还出现在 医生 、 医院 、 医药 、 诊所 、 不治之症 、 有病乱投医 .因此, 医治 这个义原是稳定的、是必须确定的. 无论是义原的提取还是义原的考核与确定, 在知网的建设中都是至关重要的和具有决定意义的. 它们贯 穿于知网建设的全过程.因此,知网建设的方法的主要特点是:(1)自下而上的;

(2)标注集的形成 和知网建设是互动的. 5. 知网系统的概貌 5.1 知网系统包括下列数据文件和程序:

5 (01) 中英双语知识词典 (02) 知网管理工具 (03) 知网说明文件 l 动态角色与属性 l 词类表 l 同义、反义以及对义组的形成 l 事件关系和角色转换 l 标识符号及其说明 知网的规模主要取决于双语知识词典数据文件的大小.由于它是在线的,修改和增删都很方便,因此它 的规模是动态的.它的规模通常以词语的条数以及由词语所表述的概念的条数计算.作为2.0版,它现 有规模如下表所示. 语种 词语总量 N范畴 V范畴 A范畴 汉语

050220 026037

016657 09768 英语

055422 028876

016706 10716 语种 概念总量 N范畴 V范畴 A范畴 汉语

062174 029787

020468 011173 英语

072994 036770

021203 014339 表1 注意:这里的N,V,A诸范畴不等同于句法上的名词,动词,形容词. 5.2 知识词典的记录样式 知识词典是知网系统的基础文件. 在这个文件中每一个词语的概念及其描述形成一个记录. 每一种语言 的每一个记录都主要包含4项内容.其中每一项都由两部分组成,中间以 = 分隔.每一个 = 的左 侧是数据的域名,右侧是数据的值.它们排列如下: W_X= 词语 G_X= 词语词性 E_X= 词语例子

6 DEF= 概念定义 5.2.1 词语及其概念的选择 《知网》的知识词典是以词语及其概念为基础的.我们是怎样选择和确定词语及其概念的呢? 这里要 回答以下几个问题. 第一,我们不认为汉语有很严格的、如印欧语言那样的 词 .因此知识词典的描述的最基本单位,不 必要去追求严格的关于词的定义.我们选择词语的依据是建立于4亿字汉语语料库按出现频率形成的词 语表, 而不是仅仅依据某一本现成的词典. 知识词典很注意收集已经流行又有较固定可能的词语, 如 因 特网 、 欧元 、 二恶英 、 下载 、 点击 、 黑客 等,但又不盲目求新,如不收 打的 . 第二, 词语的概念或称义项的选择也是经过精心考虑的. 一般很注意某一义项的现代的流通性. 例如 曹 在普通词典中至少有两个义项,一是 姓 ,另一是 辈 如用于 尔曹 .而知识词典只选择第一个 义项. 第三, 我们同时给出了与词语相对应的英文释义. 我们的目的是体认知识词典对概念的描述方法是否也 适用于另一种语言.按理是应该能够适合的.我们的目的当然不是为最终用户提供普通的汉英词典. 5.2.2 关于词语的例子 迄今为止,我们主要是为那些具有多个义项提供例子.这些例子的要求是:强调例子的区别能力而不是 它们的释义能力.它们的用途在于为消除歧义提供可靠的帮助.这里试以 打 的两个义项为例,一个 义项是 buy|买 ,另一个是 weave|辫编 . NO.=000001 W_C=打G_C=V E_C=~酱油,~张票,~饭,去~瓶酒,醋~来了 W_E=buy G_E=V E_E= DEF=buy|买NO.=015492 W_C=打G_C=V E_C=~毛衣,~毛裤,~双毛袜子,~草鞋,~一条围巾,~麻绳,~条辫子 W_E=knit G_E=V E_E= DEF=weave|辫编 设我们要判定的歧义语境是 我女儿给我打的那副手套哪去了 .我们通过对 手套 与 酱油 等的 语义距离的计算以及跟 毛衣 等的语义距离的计算的比较, ........

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题