竞赛简介

语音识别(Automatic Speech Recognition)、说话人日志(Speaker Diarization)等语音处理技术的最新发展激发了众多智能语音的广泛应用。会议场景是语音技术应用中最有价值、同时也是最具挑战性的场景之一。因为这样的场景包含了丰富的讲话风格和复杂的声学条件,需要考虑到重叠语音、数量未知的说话人、大型会议室中的远场信号、噪音和混响等挑战。

 

然而,该领域的发展一直以来因为缺乏大型公开真实会议数据而受到制约。由于会议转录涉及复杂的处理过程,因此必须仔细收集和标注更丰富的信息,如说话人身份、语音上下文、开始/结束时间等。所有这些信息都需要准确的标注,这既昂贵又耗时。虽然目前已有多个的相关的数据集,但它们的都有着各自的局限,从语料库设计(如语料库大小、说话人数量、空间位置、收集条件等)到语料库内容(如录音质量、重音语音、说话风格)难以尽如人意。此外,大多数公开的会议语料库都是用英语收集的,语言之间的差异大大制约了中文会议转录技术的发展。

 

AliMeeting语料库,该语料库包含120小时真实记录的中文会议数据,包括8通道麦克风阵列采集的远场数据以及每个参会者的耳机麦克风采集的近场数据。基于该数据集,我们将推出多通道多方会议转录挑战赛(M2MeT),作为ICASSP2022信号处理大挑战(Grand Challenge)之一。M2MeT挑战赛包括说话人日志和多说话人语音识别两个赛道,同时我们提供数据集、规则、评估方法和基线系统的详细介绍,旨在进一步促进该领域的深入研究。详细内容也可以参考我们已经发布的论文:M2MET论文

 

我们将提供会议场景中语音识别和说话人日志的基线系统的代码作为参考,目标是为了简化训练和评测程序,使参与者能够轻松灵活地进行实验和验证基于神经网络的方法。参考github链接

 

所有参赛队伍在提交结果的同时,需提交系统描述论文,主办方将按照竞赛排名和论文学术贡献择优选择论文进入 ICASSP2022 论文集。

 

Kong Aik Lee

新加坡A*STAR 资讯通信研究院高级科学家

鄢志杰

阿里巴巴首席工程师

钱彦旻

上海交通大学副教授

卜辉

希尔贝壳CEO