开源语音数据库发布丨AISHELL-6

随着人工智能新一轮浪潮兴起，AI语音对话技术日趋成熟，带来越来越好的智能语音交互体验。但全球仍有大量语言障碍的人无法进行正常的沟通交流以及与智能语音产品交互。因此，为了加快技术迭代，快速推动相关项目的研发，希尔贝壳（AISHELL）开源了AISHELL-6A（中文口吃数据库）以及AISHELL-6B（中文构音障碍数据库）。

AISHELL-6A

数据组成

数据库总时长为48.8h，包含70名母语为普通话口吃者，其中男46人，女24人。每位录音人录制一小时，包含对话和语控词朗读两部分。

对话部分：通过Zoom或腾讯会议等平台进行的在线访谈，旨在能够捕捉在多样化主题下录音人的自然口语。以提前准备的问题列表，根据实际需求灵活引入话题。
语控词朗读部分：录音人朗读200个语控词集，包含车载和智能家居等领域。考虑到多样性，每25位录音人更换一批新的语控词，数据库共有600个不重复语控词。

数据说明

录音人在录制期间，鼓励使用口吃技术，故意引入口吃语音，注释文本包含五中口吃类型，如下：

[]：用于标注重复的完整的字、多字或词（如果只是单音重复，请用/r）。

/b: 标注明显的长时间卡壳或短时间卡断（b指block）。

/p: 标住托长音（p指prolongation）。

/r：标注声音重复，比如单个辅音或元音，不足以构成一个字（r指repetition）。

/i: 插入语，比如不自然的嗯、啊、呃（i指interjection）。如果是听感自然的插入语不用标。

开源地址

https://www.aishelltech.com/aishell_6A

数据赛事

以 AISHELL-6A 中文口吃数据库为赛事数据，由StammerTalk、希尔贝壳、西工大音频语音与语言处理研究组、新加坡南洋理工大学、昆山杜克大学、中国科学技术大学、南开大学、WeNet开源社区等单位发起的“口吃事件检测和语音识别挑战赛”（StutteringSpeech Challenge）已经作为IEEE Spoken Language Technology Workshop（SLT2024）的旗舰赛事举办。

赛事详情请见：https://stutteringspeech.org/

AISHELL-6B

数据组成

数据库总时长为17h，18630句，包含：

正常录音者：25人（13女，12男），共7.6h，10125句；
构音障碍者：21人（12女，9男），共8505句。

数据说明

参加的构音障碍者具备以下特征：

母语为普通话；
性别相对均衡，年龄覆盖18~48岁；
构音的病因多样，包含脑瘫和肝豆状核变性。

录音包含10个唤醒词，每个用不同语速朗读5遍，同时还有355个非唤醒词，包含固定命令词、非固定命令词、家庭指令词以及其他短语。单人不重复文本295条。录音人在安静环境下通过手机录制，麦克风距离约20cm，音频采样率为16kHz。

开源地址

https://www.aishelltech.com/AISHELL_6B

数据赛事

为满足赛事需求，新录制了一批构音障碍测试集MDSC-Eval，共计9h，8760句。MDSC-Eval共包含20人，全部为构音障碍者，病因构成包含脑瘫、新生儿窒息、小儿麻痹以及神经引发的语言障碍。在MDSC录音文本基础上每个人新增11个唤醒词负例，每个负例朗读3遍。最后，以AISHELL-6B、MDSC-Eval为赛事数据，由中国科学技术大学、昆山杜克大学、希尔贝壳、佐治亚理工学院、语音之家等单位发起的 Low-Resource Dysarthria Wake-Up Word Spotting Challenge (LRDWWS Challenge) 已经作为IEEE Spoken Language Technology Workshop（SLT2024）的旗舰赛事举办。