编辑: 无理的喜欢 | 2019-07-02 |
keenage.com 董振东 董强 e-mail:[email protected] 知网(英文名称 HowNet)是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之 间以及概念所具有的属性之间的关系为基本内容的常识知识库. 今天它终于上网面世了. 我们期待会有 越来越多的人关心它,使用它,甚至参与它的完善、扩充和发展. 1. 问题的提出 1988年前后,董振东曾在他的几篇文章中提出以下的观点: (1) 自然语言处理系统最终需要更强大的知识库的支持. (2) 关于什么是知识,尤其是关于什么是计算机可处理的知识,他提出:知识是一个系统,是一个包含 着各种概念与概念之间的关系, 以及概念的属性与属性之间的关系的系统. 一个人比另外一个人有更多 的知识说到底是他不仅掌握了更多的概念, 尤其重要的是他掌握了更多的概念之间的关系以及概念的属 性与属性之间的关系. (3) 关于如何建立知识库,他提出应首先建立一种可以被称之为知识系统的常识性知识库.它以通用的 概念为描述对象,建立并描述这些概念之间的关系. (4) 关于由谁来建立知识库,他指出知识掌握在千百万人的手中,知识又是那样博大精深,靠
三、五个 人甚至
三、五十个人是不可能建成真正意义上的全面的知识库的.他提出:首先应由知识工程师来设计 知识库的框架,并建立常识性知识库的原型.在此基础上再向专业性知识库延伸和发展.专业性知识库 或称百科性知识库主要靠专业人员来完成. 这里很类似于通用的词典由语言工作者编纂, 百科全书则应 由各专业的专家编写.知网的研究和建设是实践上述观点的努力. 2. 知网的哲学 要掌握和利用好知网系统, 必须首先了解知网系统的哲学思想. 知网系统的哲学也就是它对客观世界的 认识与把握.知网哲学的根本点是:世界上一切事物(物质的和精神的)都在特定的时间和空间内不停 地运动和变化.它们通常是从一种状态变化到另一种状态, 并通常由其属性值的改变来体现.试以人 为例,人的生老病死是一生的主要状态.这个人的年龄(属性)一年比一年大{属性值},随着年龄的 增长头发的颜色(属性)变为灰白{属性值}.另一方面,一个人随着年龄的增长他的性格(精神)变 得日益成熟{属性值},他的知识(精神产品)愈益丰富{属性值}.基于上述,知网的运算和描述的 基本单位是:万物,其中包括物质的和精神的两类,部件,属性,时间,空间,属性值以及事件. 特别要强调的是,部件和属性,这两个基本单位在知网的哲学体系中占有着重要的地位.关于对部件的 认识是:每一个事物都可能是另外一个事物的部件,同时每一个事物也可能是另外一个事物的整体.门 和窗是建筑物的部件;
手和脚是动物的部件.但与此同时,一个建筑物又可能是一个社区的部件;
一个
2 人又可能是他所属的家庭或社会的部件.一切事物都可以分解为部件.空间可以分解为上下左右;
时间 可以分解为过去、 现在和未来. 没有一种事物只能是部件, 而不能是整体;
也没有一种事物只能是整体, 而不会是部件.我们认为一个事物被视为是整体还是部件,可以因系统的不同,而不同对待.关于部件 在整体中的部位和它的功能,知网遵循这样一种认识:事物的部件在它整体中的部位和功能 的描述大体上比照人体.例如:山头、山腰、山脚、桌腿、椅背、河口,建筑物的门和窗比照人体的口 和眼等等.汉语用拟人的手法来描述部件,别的语言也类似,这反映了人类认识事物方法的共性. 关于对属性的认识是:任何一个事物都一定包含着多种属性,事物之间的异或同是由属性决定的,没有 了属性就没有了事物.人有种族、肤色、性别、年龄、性格、会思维、会使用语言等自然属性以及国籍、 出身、职业、贫富等社会属性.在某些特定的情况下可以说属性比事物更重要,这一点在人们的日常生 活的替代活动中可以得到体现.如:当我们要把一个钉子钉到墙上,但我们没有锤子,于是我们要找锤 子的替代物, 那么什么是锤子的替代物呢?那应该是属性最接近锤子的属性的物品才可能是替代物, 而 这时重量和硬度是关键性的属性. 属性和它的宿主之间的关系是固定的, 这是说有什么样的宿主就有什 么样的属性,反之亦然.属性与宿主之间的关系同部件与整体之间的关系是不同的.这也体现在知网在 涉及属性的标注规范上, 知网规定在标注属性时必须标注它可能的宿主的类型. 知网还规定在标注属性 值时都必须标注它所指向的属性. 3. 知网的特色 计算机化是知网的重要特色.知网是面向计算机的,是借助于计算机建立的,将来可能是计算机的智能 构件. 知网作为一个知识系统,实副其名是一个网而不是树.它所着力要反映的是概念的共性和个性,例如: 对于 医生 和 患者 , 人 是它们的共性.知网在主要特性文件中描述了 人 所具有的共性, 那么 医生 的个性是他是 医治 的施事,而 患者 的个性是他是 患病 的经验者.对于 富翁 和 穷人 , 美女 和 丑八怪 而言, 人 是它们的共性.而它们的个性,即: 贫 、 富 与 美 、 丑 等不同的属性值,则是它们的个性. 同时知网还着力要反映概念之间和概念的属性之间的各种关系. 知网把下面的一种知识网络体系明确的 教给了计算机进而使知识对计算机而言是可操作的.