【PDF】THUYG-20：一个免费的维吾尔语语音数据库* - 资源下载

编辑：

旋风

2019-07-11

5 个人的

1018 个语句(约2小时)用于测试.文献[6,7,8,18]中的数据库包括男女各

32 人的数据,每个发音人朗读

100 个随机选择的句子, 其中

54 个人的数据用于训练,其余人的数据用于测试.文献[9,10]中的语料库为维吾尔语口语语料,包含词条分别为

21196 和35056 条.文献[11]中的语料库由 1.2 万句约 9.6 个小时的语料组成.文献[12,13,23,24,25]中的训练集包含

353 个发音人的

150 个小时数据,测试集包含

23 个人的

1248 条语音数据.文献[14]中训练集约为

15 小时数据,测试集约为 0.5 小时数据. 文献[15]中的训练集由

1052 个人的

470 个小时数据组成,测试集由

11 个人的

2186 条语句(约2个小时)组成.文献[20]中的数据库包含

94 个发音人, 每个人参加

30 分钟左右的电话聊天.? 可见,维吾尔语研究过程中确实积累了相当规模的语音数据.然而,这些数据由各研究机构内部或小范围合作者使用,数据库标准不统一,数据内容不公开,发表的研究结果无法由其他研究者重 ? 作者简介:艾斯卡尔・肉孜(1978-) ,男(维吾尔族) , 新疆,博士研究生通讯联系人:郑方,研究员,[email protected] 现,也无法进行横向对比.更重要的是,由于各研究机构的封闭性,学者们在进行维吾尔语语音研究时多倾向于自行建立语料库,造成了严重的重复劳动和资源浪费,极大制约了维吾尔语语音识别技术的发展.因此,一个标准的、公开的、免费的、高质量的维吾尔语语音数据库,对推动维吾尔语语音识别及相关研究的发展具有重要意义.

2 THUYG-20:免费的维吾尔语语音数据库本文发布维吾尔语语音数据库 THUYG-20 可以在网上免费下载2 .数据库包含的资源包括:约20 小时的语音数据,约12M 单词的文本数据,包含约 4.5 万余单词的词表,基于 Kaldi 的系统构建脚本. 本节我们给出该数据库的基本信息,下一节给出在两个测试集上我们得到的基线系统识别结果. 2.1 数据库规模表1给出 THUYG-20 数据库中语音数据的统计结果,其中训练集用于声学模型训练,开发集用来选择模型参数,测试集用来进行性能测试.表2给出该数据库中文本数据的统计结果,其中训练集用来训练语言模型,测试集用来测试语言模型性能. 表1THUYG-20 语音语料库参数语料库说话人男女年龄句数时长训练集

348 163

185 19-28

7600 20.15 开发集

224 113

111 19-28

400 1.08 测试集

23 13

10 22-28

1468 2.4 表2THUYG -20 文本语料库参数语料库句子单词词素音节字符训练集 1620k 11.58m 21.88m 31.74m 78.18m 测试集

11888 0.217m 0.408m 0.592m 1.46m 2.2 语音数据来源 1) 录音环境办公室环境,不包括其他说话人声音. 2) 录音设备 IBM-联想台式机,外置麦克风. 3) 录音人

348 名高校在校本科生及研究生,均为维吾尔族说话人,来自新疆

30 多个地州. 4) 录音内容常规话题,包括小说、报纸和各类书籍. 5) 录音时间: 2012/1-2012/9

2 http://cslt.riit.tsinghua.edu.cn:8081/data/thuyg20/README.html 2.3 数据库用途 1) 维吾尔语语音识别研究 2) 维吾尔语说话人识别研究 3) 维吾尔语语音与语言特性研究 2.4 语料库数据规格 1) 信息文件:文本文件,存放说话人性别、年龄、族别及文化程度 2) 脚本文件: 文本文件, 存放说话人发音文本, 每句文本包括句子编号、发音文本. 3) 语音文件:语音文件,存放说话人语音,文件名由性别、说话人编号和句子编号组成, 如F00108000148, 表示编号为

注：以上内容是本站开源项目的机器提供的预览内容，更完整和更好的阅读体验请直接免费下载资源后阅读

下载（注：源文件不在本站服务器，都将跳转到源网站下载）

备用下载

下一篇: 六、投标产品报价清单
上一篇: 行政专家组裁决案件编号：DCN-1500640

PDF《THUYG-20：一个免费的维吾尔语语音数据库*》