编辑: 怪只怪这光太美 2019-07-01
基于隶属度的汉语词类的模糊划分 袁毓林本文根据每类词的典型成员的语法表现来选定一组分布特征, 按照这些分布特征对于相关词 类的重要性、根据经验给其中的每个特征设定权值;

再用每类词的非典型成员的语法表现作校验, 做成一套可用以对汉语有关的词进行词类模糊划分和隶属度计算的量表.

希望借此可以使得现代 汉语中有关的词不仅能划归到某一个或几个词类之中 ( 即词有定类) , 而且能显示出它从属于这一 个或几个词类的程度到底有多大 ( 即类中有别) . 关键词 词类划分 典型成员 分布特征 权值设定 模糊分类 隶属度 作者袁毓林,

1962 年生, 语言学博士, 北京大学中文系教授 ( 北京 100871) . 1. 引言: 汉语词类模糊划分的基本步骤 笔者在 5词类范畴的家族相似性6? 一文中, 曾经尝试用原型理论来考察汉语词类的范畴性 质, 指出汉语词类是一种原型范畴, 是根据词与词之间在分布上的家族相似性而聚集成类的. 但是, 当时还不能从操作上提出有效的方法.此后, 我们逐步认识到: 既然汉语词类并不是边 界明确的普通集合, 而是从内涵到外延都不甚清晰的模糊集合;

对于为数众多的词来说, 它们 跟某些词类的隶属关系并不是简单的是 ( 即隶属度为 1) 或非 ( 即隶属度为 0) 这种两极对立, 而只是在一定程度上属于某一种或几种词类.那么, 我们应该运用模糊数学中的模糊集合 ( fuzzy set) 和模糊聚类 ( fuzzy clustering) 的有关观念和方法来处理汉语词类问题.于是, 形成 了这样的研究思路: 采用动态聚类的方法, 以各词类的典型成员作为初始的聚类中心.具体的 工作步骤是: 首先, 根据每类词的典型成员的语法表现, 来选定一组分布特征;

并按照这些不 同的分布特征对于相关词类的重要性, 根据经验给其中的每个特征设定权值 ( w eight) ;

其中有 正分 ( 即加分) , 也有负分 ( 即扣分) .然后, 计算总分, 典型成员应该得

100 分或接近

100 分, 非典型成员则小于

100 分、但一般大于

50 分.最后, 折合成介于区间 [ 0, 1] 中的不同的值来 描写词类归属模糊的词对于有关词类的隶属度 ( degree of membership) , 从而从量上确定这些词 的词类归属.比如, 某个词相对于某种词类的隶属度越趋近 1, 那么就越趋近该词类的典型成 员.这时, 根据实际的测试, 借鉴利用模糊关系进行聚类的方法中的K值设定法, 通过设定不同 的K值, 来确定不同的词从属于某个词类的典型性等级.比如, 隶属度

0 1

8 以上为典型成员, #

164 # ? 袁毓林: 5词类范畴的家族相似性6 , 5中国社会科学6

1995 年第

1 期.

0 1

6 以上为一般成员,

0 1

6 以下为非典型成员.当一个词从属于不同的词类的最高得分相同或相 近时, 就说明该词兼属于这些词类 ( 即一词多类) . 为了达到上述目标, 我们先后调查和分析了近万个词类归属比较明确的常用词的分布情况, 以设定不同词类的有关分布特征的权值.接着, 又调查和分析了上千个词类归属不明的常用词 的分布情况, 以此作为对先前设定的分布权值的校验;

然后用校验过的权值来计算它们相对于 有关词类的得分情况, 确定这些词对于有关词类的隶属度;

并对这种校验过的权值的合理性进 行评估, 不断地加以修正, 尽可能调整到令人满意的水平. 现在, 我们先有选择地公布这套用以对汉语词类进行模糊划分的分布特征及其权值设定, 希望它们能够成为对现代汉语的词进行隶属度计算和模糊聚类的量表 ( scale) 或标尺性的东西 ( yardstick) , 借此可以对现代汉语的词类进行模糊划分. 2. 权值设定和隶属度计算的约定 为了统一规范和便于计算, 我们制定如下关于分布特征的权值设定和有关词对于有关词类 的隶属度的计算办法的约定: ( 1) 任何一个词, 它对于某个词类的隶属度, 总是在闭区间 [

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题