编辑: 无理的喜欢 | 2019-07-02 |
3 图1 总的来说,知网描述了下列各种关系: (a) 上下位关系 (由概念的主要特征体现,请参看《知网管理工具》) (b) 同义关系(可通过《同义、反义以及对义组的形成》获得) (c) 反义关系(可通过《同义、反义以及对义组的形成》获得) (d) 对义关系(可通过《同义、反义以及对义组的形成》获得) (e) 部件-整体关系(由在整体前标注 % 体现,如 心 , CPU 等) (f) 属性-宿主关系(由在宿主前标注 &
体现,如 颜色 , 速度 等) (g) 材料-成品关系(由在成品前标注 ? 体现,如 布 , 面粉 等) (h) 施事/经验者/关系主体-事件关系(由在事件前标注 * 体现,如 医生 , 雇主 等) (i) 受事/内容/领属物等-事件关系(由在事件前标注 $ 体现,如 患者 , 雇员 等) (j) 工具-事件关系(由在事件前标注 * 体现,如 手表 , 计算机 等) (k) 场所-事件关系(由在事件前标注 @ 体现,如 银行 , 医院 等) (l) 时间-事件关系(由在事件前标注 @ 体现,如 假日 , 孕期 等) (m) 值-属性关系(直接标注无须借助标识符,如 蓝 , 慢 等) (n) 实体-值关系(直接标注无须借助标识符,如 矮子 , 傻瓜 等) (o) 事件-角色关系(由加角色名体现,如 购物 , 盗墓 等) (p) 相关关系(由在相关概念前标注 # 体现,如 谷物 , 煤田 等) 知网的一个重要特点是:类似于同义、反义、对义等种种关系是借助于《同义、 反义以及对义组的形成》 由用户自行建立的,而不是逐一地、显性地标注在各个概念之上的. 知网是一个知识系统, 而不是一部语义词典. 尽管被我们称为知识词典的常识性知识库是知网的最基本 的数据库. 知网的全部的主要文件包括知识词典构成了一个有机结合的知识系统. 例如, 主要特征文件、 次要特征文件、同义、反义以及对义组的形成,以及事件关系和角色转换等都是系统的重要组成部分, 而不仅仅是标注的规格文件.我们预计用户将来把它们与知识词典一起加以利用. 4. 知网建设的方法 知网是一个以上述各类概念为描述对象的知识系统. 知网不是一部义类词典. 知网是把概念与概念之间 的关系以及概念的属性与属性之间的关系形成一个网状的知识系统. 这是它与其他的树状的词汇数据库 的本质不同.知网的哲学和它的根本特性决定了它的特别的建设方法.
4 4.1 义原的提取 什么是义原, 跟什么是词一样的难以定义. 但是也跟词一样并不因为它难于定义人们就无法把握和利用 它们.大体上说,义原是最基本的、不易于再分割的意义的最小单位.例如: 人 虽然是一个非常复 杂的概念,它可以是多种属性的集合体,但我们也可以把它看作为一个义原.我们设想所有的概念都可 以分解成各种各样的义原. 同时我们也设想应该有一个有限的义原集合, 其中的义原组合成一个无限的 概念集合. 如果我们能够把握这一有限的义原集合, 并利用它来描述概念之间的关系以及属性与属性之 间的关系, 我们就有可能建立我们设想的知识系统. 利用中文来寻求这个有限的集合, 应该说是个捷径. 中文中的字(包括单纯词)是有限的,并且它可以被用来表达各种各样的单纯的或复杂的概念,以及表 达概念与概念之间、概念的属性与属性之间的关系. 我们的方法的一个重要特点是对大约六千个汉字进行考察和分析来提取这个有限的义原集合. 以事件类 为例,在中文中具有事件义原的汉字(单纯词)中我们曾提取出3200个义原.试以下面为例我们得到了 9个义原但其中有两对是重复应予合并. 治:医治 管理 处罚 …… 处:处在 处罚 处理 …… 理:处理 整理 理睬 …… 3200个事件义原在初步合并后大约可以得到1700个,然后我们再进一步加以归类,我们便得到大约700 多个义原.请注意,到现在为止完全不涉及多音节的词语.然后我们用这700多个义原作为标注集去标 注多音节的词, 当我们发现这700多个义原不符合或不满足要求时, 我们便进行的合理调整或适当扩充. 这样就形成了今天的800多个事件义原的标注集以及由它们标注的中文的事件概念. 综上所述, 知网的建设方法的一个重要特点是自下而上的归纳的方法. 它是通过对全部的基本义原进行 观察分析并形成义原的标注集,然后再用更多的概念对标注集进行考核,据此建立完善的标注集. 4.2 义原的考核与确定 在初步确定了一批义原并形成了一个基本的标注集之后,如何加以考核和确定? 第