AISHELL-3 开源
自2017年AISHELL首次开源以来,已经浩浩荡荡的过了三年,在这三年里希尔贝壳陆续开源了AISHELL-1、AISHELL-2以及AISHELL-WakeUp-1总时长2739.12小时的数据集,作为全球领先的人工智能大数据方案服务商,希尔贝壳多年来秉承着“以人工智能民主化为目标,开放数据、数据交换、数据制作方案变革创新为理念”的企业愿景。因此,为解决在各应用领域数据匮乏的现状,帮助更多研究人员拓宽研究领域,丰富研究内容,加速迭代,再度开源中文普通话语音数据集——AISHELL-3,语音共88035句子,数据库音字确率在98%以上。所有开源数据以硬盘和网盘形式免费开放给高校科研教育机构。
https://github.com/kaldi-asr/kaldi/tree/master/egs/aishell
sample:
http://aishell-3.oss-cn-beijing.aliyuncs.com/AISHELL-3-Sample.rar
Readme:
http://aishell-3.oss-cn-beijing.aliyuncs.com/AISHELL-3%20ReadMe.pdf
开源地址:
http://www.aishelltech.com/aishell_3
开源方案:
数据介绍
希尔贝壳中文普通话语音数据库AISHELL-3的语音时长为85小时88035句,可做为多说话人合成系统。录制过程在安静室内环境中, 使用高保真麦克风(44.1kHz,16bit)。218名来自中国不同口音区域的发言人参与录制。专业语音校对人员进行拼音和韵律标注,并通过严格质量检验,此数据库音字确率在98%以上。
System Paper