【PDF】中文分词十年回顾 - 资源下载

编辑：

JZS133

2017-10-12

开放测试则不受这样的约束.换句话讲,Bakeoff认识到短时期内各界不可能在一种分词标准上达成共识.那么不如换一个思路,让多个不同标准的分词语料同台测试.因为评测的主要目的是推动分词技术的进步, 而不是制定统一的分词规范.由于为Bakeoff提供训练/测试语料库的单位都有各自的分词规范和词表,而且这些语料库都经过人工审定.因此,至少在每种语料库内部可以保证分词标准的一致性. 1.2严格的质量控制笔者认为,Bakeoff通过不同标准的分词语料同台测试,完成了从分词规范到规范+词表 ,再从规范+词表到分词语料库的词语定义过程. 这是因为语料库的提供单位并不公布他们使用的词表(如果存在这样一个词表的话),所以在封闭测试中可供参评系统学习(或观察)的唯一材料就是分词语料库本身.从计算的意义上来说,一定规模的分词语料库(层11i31J练集)不仅代表了一种特定的分词规范,而且体现了词语的一种可计算定义.然而,要制作高质量的分词语料库,分词规范和词表都是不可或缺的. 有些语料库提供单位对语料标注的质量重视不足,如2003年PKU和AS的测试语料出错率分别达到了1.29%和2.26%[113,造成了Bakeoff评测结 ①SIGHAN是国际计算语言学会(ACL)下属的中文处理专业委员会的简称,网址http://www.sighan.org. 万方数据

10 中文信息学报表1历届Bakeoff公布的分词语料库一览表'

] 提供者语料库编码训练集词次数测试集词次数 OOV蛊① A$2003 5..8M 12K O.022 台湾中研院 A$2005 5.45M 122K 0.043 A$2005 5.45M 91K 0.042 Bi95 CityU2003 240K 35K 0.071 香港城市大学 CitvU2005 1.46M 41K 0.074 CityU2006 1.64M 220K 0.040 CTB2003 250K 40K O.181 美国宾州大学 CTB2006 508K 151K 0.088 MSRA2005 2.37M 107K 0.026 微软亚洲研究院 GB MSRA2006 1.26M 100K 0.034 PKU2003 1.1M 17K 0.069 北京大学 PKU2005 1.1M 104K 0.058 果的偏误[11,131.其实,进一步提高分词语料的标注质量不仅是自动评测的需要,而且也是寻求中文词语可计算定义的必由之路. 笔者在标注和审定MSRA分词语料库的实践中体会到,语料标注的质量取决于以下三条:(1)严格执行词表驱动原则;

(2)把人名、地名、机构名等命名实体和日期、时间等数字表........

注：以上内容是本站开源项目的机器提供的预览内容，更完整和更好的阅读体验请直接免费下载资源后阅读

下载（注：源文件不在本站服务器，都将跳转到源网站下载）

备用下载

下一篇: 地址242 新北市新庄区铭德街 81 号
上一篇: Significant Investor Stream

PDF《中文分词十年回顾》