编辑: JZS133 | 2017-10-12 |
开放测试则 不受这样的约束.换句话讲,Bakeoff认识到短时期 内各界不可能在一种分词标准上达成共识.那么不 如换一个思路,让多个不同标准的分词语料同台测 试.因为评测的主要目的是推动分词技术的进步, 而不是制定统一的分词规范.由于为Bakeoff提供 训练/测试语料库的单位都有各自的分词规范和词 表,而且这些语料库都经过人工审定.因此,至少在 每种语料库内部可以保证分词标准的一致性. 1.2严格的质量控制 笔者认为,Bakeoff通过不同标准的分词语料同 台测试,完成了从 分词规范 到 规范+词表 ,再从 规范+词表 到 分词语料库 的 词语 定义过程. 这是因为语料库的提供单位并不公布他们使用的词 表(如果存在这样一个词表的话),所以在封闭测试 中可供参评系统学习(或观察)的唯一材料就是分词 语料库本身.从计算的意义上来说,一定规模的分 词语料库(层11i31J练集)不仅代表了一种特定的分词规 范,而且体现了词语的一种可计算定义.然而,要制 作高质量的分词语料库,分词规范和词表都是不可 或缺的. 有些语料库提供单位对语料标注的质量重视不 足,如2003年PKU和AS的测试语料出错率分别 达到了1.29%和2.26%[113,造成了Bakeoff评测结 ①SIGHAN是国际计算语言学会(ACL)下属的 中文处理专 业委员会 的简称,网址http://www.sighan.org. 万方数据
10 中文信息学报 表1历届Bakeoff公布的分词语料库一览表'
2'
'
] 提供者 语料库 编码 训练集词次数 测试集词次数 OOV蛊① A$2003 5..8M 12K O.022 台湾 中研院 A$2005 5.45M 122K 0.043 A$2005 5.45M 91K 0.042 Bi95 CityU2003 240K 35K 0.071 香港城市大学 CitvU2005 1.46M 41K 0.074 CityU2006 1.64M 220K 0.040 CTB2003 250K 40K O.181 美国宾州大学 CTB2006 508K 151K 0.088 MSRA2005 2.37M 107K 0.026 微软亚洲研究院 GB MSRA2006 1.26M 100K 0.034 PKU2003 1.1M 17K 0.069 北京大学 PKU2005 1.1M 104K 0.058 果的偏误[11,131.其实,进一步提高分词语料的标注 质量不仅是自动评测的需要,而且也是寻求中文词 语可计算定义的必由之路. 笔者在标注和审定MSRA分词语料库的实践 中体会到,语料标注的质量取决于以下三条:(1)严 格执行 词表驱动 原则;
(2)把人名、地名、机构名 等命名实体和日期、时间等数字表........