编辑: 旋风 | 2019-07-11 |
5 个人的
1018 个语 句(约2小时)用于测试.文献[6,7,8,18]中的 数据库包括男女各
32 人的数据,每个发音人朗读
100 个随机选择的句子, 其中
54 个人的数据用于训 练,其余人的数据用于测试.文献[9,10]中的语料 库为维吾尔语口语语料,包含词条分别为
21196 和35056 条.文献[11]中的语料库由 1.2 万句约 9.6 个 小时的语料组成.文献[12,13,23,24,25]中的 训练集包含
353 个发音人的
150 个小时数据,测试 集包含
23 个人的
1248 条语音数据.文献[14]中训 练集约为
15 小时数据,测试集约为 0.5 小时数据. 文献[15]中的训练集由
1052 个人的
470 个小时数据 组成,测试集由
11 个人的
2186 条语句(约2个小 时)组成.文献[20]中的数据库包含
94 个发音人, 每个人参加
30 分钟左右的电话聊天.? 可见,维吾尔语研究过程中确实积累了相当规 模的语音数据.然而,这些数据由各研究机构内部 或小范围合作者使用,数据库标准不统一,数据内 容不公开,发表的研究结果无法由其他研究者重 ? 作者简介:艾斯卡尔・肉孜(1978-) ,男(维吾尔族) , 新疆,博士研究生 通讯联系人:郑方,研究员,[email protected] 现,也无法进行横向对比.更重要的是,由于各研 究机构的封闭性,学者们在进行维吾尔语语音研究 时多倾向于自行建立语料库,造成了严重的重复劳 动和资源浪费,极大制约了维吾尔语语音识别技术 的发展.因此,一个标准的、公开的、免费的、高 质量的维吾尔语语音数据库,对推动维吾尔语语音 识别及相关研究的发展具有重要意义.
2 THUYG-20:免费的维吾尔语语音数据库 本文发布维吾尔语语音数据库 THUYG-20 可以 在网上免费下载2 .数据库包含的资源包括:约20 小时的语音数据,约12M 单词的文本数据,包含约 4.5 万余单词的词表,基于 Kaldi 的系统构建脚本. 本节我们给出该数据库的基本信息,下一节给出在 两个测试集上我们得到的基线系统识别结果. 2.1 数据库规模 表1给出 THUYG-20 数据库中语音数据的统 计结果,其中训练集用于声学模型训练,开发集用 来选择模型参数,测试集用来进行性能测试.表2给出该数据库中文本数据的统计结果,其中训练集 用来训练语言模型,测试集用来测试语言模型性能. 表1THUYG-20 语音语料库参数 语料库 说话人 男女年龄 句数 时长 训练集
348 163
185 19-28
7600 20.15 开发集
224 113
111 19-28
400 1.08 测试集
23 13
10 22-28
1468 2.4 表2THUYG -20 文本语料库参数 语料库 句子 单词 词素 音节 字符 训练集 1620k 11.58m 21.88m 31.74m 78.18m 测试集
11888 0.217m 0.408m 0.592m 1.46m 2.2 语音数据来源 1) 录音环境 办公室环境,不包括其他说话人声音. 2) 录音设备 IBM-联想台式机,外置麦克风. 3) 录音人
348 名高校在校本科生及研究生,均为维吾 尔族说话人,来自新疆
30 多个地州. 4) 录音内容 常规话题,包括小说、报纸和各类书籍. 5) 录音时间: 2012/1-2012/9
2 http://cslt.riit.tsinghua.edu.cn:8081/data/thuyg20/README.html 2.3 数据库用途 1) 维吾尔语语音识别研究 2) 维吾尔语说话人识别研究 3) 维吾尔语语音与语言特性研究 2.4 语料库数据规格 1) 信息文件:文本文件,存放说话人性别、年龄、族别及文化程度 2) 脚本文件: 文本文件, 存放说话人发音文本, 每句文本包括句子编号、发音文本. 3) 语音文件:语音文件,存放说话人语音,文 件名由性别、说话人编号和句子编号组成, 如F00108000148, 表示编号为