开源语音数据库发布丨RealMAN

 

由于大规模实录多通道音频数据集的匮乏,基于深度学习的多通道语音增强和声源定位非常依赖于房间冲激响应以及多通道扩散噪声的仿真。然而,仿真数据与实录数据的声学特性差异会使得模型在泛化到真实场景中时增强与定位性能下降。为了降低仿真到真实泛化带来的影响,希尔贝壳(AISHELL)与西湖大学音频信息与信号处理实验室(AUDIOLAB)联合开源了一个规模较大、实录、带标注的多通道麦克风语音与噪声数据集( RealMAN)。

 

 

 

 数据价值

 

该数据集具有两方面重要价值:

  • 提供评估真实场景下语音增强和定位算法的基准;

  • 提供大量的实录多通道音频数据用于模型训练,潜在地提高了模型泛化到真实场景下的性能。

 

 数据组成

 

RealMAN是一个面向动态声学场景语音增强与声源定位任务的麦克风阵列音频数据集。具体而言,该数据集使用32通道高精度麦克风阵列进行录音,使用扬声器播放语音源信号。总共包括32个场景下录制的语音信号83小时(其中48小时为静态扬声器,35小时为移动扬声器),31个场景下录制的背景噪声144小时。

 数据说明

RealMAN语音和噪声录制场景覆盖了各种常见的室内、室外、半室外和交通环境。录音设备见图1。借助于全向鱼眼摄像机标注扬声器相较于麦克风阵列的水平角,该标注可用于声源定位网络的训练。使用估计得到的直达路径滤波器对播放的语音源信号进行滤波,进而得到直达路径信号,方便语音增强网络的训练。

 

 

 实验结果

GitHub:https://github.com/Audio-WestlakeU/RealMAN/tree/main

  • 相比模拟数据,使用RealMAN数据集能够训练出更好的语音增强和声源定位网络;

  • 使用32通道麦克风阵列组成的不同子阵列可以训练出直接用于未见阵列的变阵列网络。

     

     

    开源地址

    https://www.aishelltech.com/RealMAN

    Paper

    https://arxiv.org/abs/2406.19959

     

    人工智能民主化,是希尔贝壳成立之初的愿景,也是众多人工智能领域研究者和学习者的共同期待。此次开源 AISHELL-RealMAN 数据库,旨在可以推动人工智能产品快速落地应用。


    希尔贝壳深耕AI数据服务领域多年,拥有专业的数据工程团队和强大的数据采集、处理能力,在数据采集和标注方面具备丰富的实践经验,欢迎感兴趣的行业伙伴联系我们~

     

 

希尔贝壳,以人工智能民主化为目标