AISHELL-3 开源

2020-10-27

自2017年AISHELL首次开源以来,已经浩浩荡荡的过了三年,在这三年里希尔贝壳陆续开源了AISHELL-1、AISHELL-2以及AISHELL-WakeUp-1总时长2739.12小时的数据集,作为全球领先的人工智能大数据方案服务商,希尔贝壳多年来秉承着“以人工智能民主化为目标,开放数据、数据交换、数据制作方案变革创新为理念”的企业愿景。因此,为解决在各应用领域数据匮乏的现状,帮助更多研究人员拓宽研究领域,丰富研究内容,加速迭代,再度开源中文普通话语音数据集——AISHELL-3,语音共88035句子,数据库音字确率在98%以上。所有开源数据以硬盘和网盘形式免费开放给高校科研教育机构。


   AISHELL-1


发布时间:2017年7月
开源地点:
http://www.openslr.org/33/ 
http://www.aishelltech.com/kysjcp
Kaldi Recipe:

https://github.com/kaldi-asr/kaldi/tree/master/egs/aishell


   AISHELL-2


发布时间:2018年6月
开源地点:
http://www.aishelltech.com/aishell_2
Kaldi Recipe:
https://github.com/kaldi-asr/kaldi/tree/master/egs/aishell2




AISHELL-3



sample:

http://aishell-3.oss-cn-beijing.aliyuncs.com/AISHELL-3-Sample.rar

Readme:

http://aishell-3.oss-cn-beijing.aliyuncs.com/AISHELL-3%20ReadMe.pdf

开源地址:

http://www.aishelltech.com/aishell_3

开源方案:

https://sos1sos2sixteen.github.io/aishell3




   数据介绍

希尔贝壳中文普通话语音数据库AISHELL-3的语音时长为85小时88035句,可做为多说话人合成系统。录制过程在安静室内环境中, 使用高保真麦克风(44.1kHz,16bit)。218名来自中国不同口音区域的发言人参与录制。专业语音校对人员进行拼音和韵律标注,并通过严格质量检验,此数据库音字确率在98%以上。



   System Paper



本网站由阿里云提供云计算及安全服务