编辑: JZS133 | 2017-10-12 |
(3)在Bakeoff数据上的估 算结果表明,未登录词(OOV)造成的分词精度失落 收稿日期:2007―03―22定稿日期:2007―03―22 作者简介:黄昌宁(1937一),男,微软亚洲研究院高级顾问,主要研究方向为计算语言学、中文信息处理. 万方数据 3期 黄昌宁等;
中文分词十年回顾
9 至少比分词歧义大5倍以上;
(4)迄今为止的实验 结果证明,能够大幅度提高未登录词识别性能的字 标注统计学习方法优于以往的基于词(或词典)的方 法,并使自动分词系统的精度达到了新高.
1 词 是否有清晰的界定? 自动分词的一个重要前提是:至少要在计算的 意义上清楚界定真实文本中每个词语的边界.然而,这样一个起码的要求在十年前还是可望而不可 及的奢想. 在每本汉语语法教科书中,都可以找到有关 词 的一条相当抽象的定义:语言中有意义的能单 说或用来造句的最小单位.在计算上,这种模棱两 可的定义是不可操作的,或者说,是不可计算的.即 使在母语为汉语的话者之间,中文词语的平均认同 率也只有0.76左右¨]. 经过信息界和语言学界的共同努力,在1993年 作为国家标准公布的《信息处理用现代汉语分词规 范》[4]中,文本中的词语被称为 分词单位 ,以区别 于语言学中更严格的 词 概念.国家标准按词类分 别给出了各类分词单位的定义;
然而,在许多地方无 可奈何地把 结合紧密、使用稳定 视为分词单位的 界定准则.众所周知,像 紧密 和 稳定 这样的判 断是相当主观的,见仁见智.因此,无论在分词系统 的实现上还是评测上都造成了极大的困惑.一句 话,对文本中的词,人都没界定清楚,让计算机去做 自动分词不是勉为其难了吗? 同许多同行一样,十年前笔者只认识到这是计 算机自动分词面临的最大难题,而且寄希望于1993 年公布的那个分词规范能够最终成为被公众普遍认 同的标准.当时还认为 分词规范+词表 也许能更 好地界定句子中的词语,即经过大规模语料的计算 筛选,实现 结合紧密 和 使用稳定 的定量化[5]. 大陆举办的历届
863、973分词评测[6'
7]也是遵照统 一分词规范的思路来组织的.在这些评测中,组织 者不公布词表和相关的分词语料,而参评系统输出 的分词结果有时还允许有一定的 柔性 [8],即分词 结果尽管同标准答案不一样,如果仍符合 结合紧 密,使用稳定 的规范条款,就不算出错.这种评测 方法的不足在于一定程度上引入了评测人员的主观 判断,说到底还是缺少对什么是词的可计算定义. 比如分词系统的 召回率 指标,其分母本该是标准 答案中的总词次数,现在究竟是标准答案中的总词 次数,还是待测系统输出中符合 柔性 答案的总词 次数呢?如果是前者,就忽视了标准答案非同一性 带来的偏误;
如果是后者,又在一定程度上损失了可 比性. 1.1 国际中文分词评测Bakeoff 2003年7月SIGHAN①在日本札幌举办了首 届国际中文分词评测Bakeoff[2].Bakeoff采用了不 同于国内
863、973评测的另外一种分词评测方案. 即事先在网上公布四种不同标准的训练语料(带标 语料),一个月后公布与这四种标准相应的测试语料 (原始语料).表1是历届Bakeoff公布的12种分 词语料库的统计数据.参评系统可以在这些语料中 任意选择一种或多种标准来考评自己的分词系统. 在每种语料库上又分封闭和开放两种测试:封闭测 试只允许使用从指定训练语料中获取的知识(如词 表、N元文法等)来从事自动分词学习;