ICASSP 2022
多通道多方会议转录(M2Met)国际挑战赛
ICASSP 2022 MULTI-CHANNEL MULTI-PARTY MEETING TRANSCRIPTION CHALLENGE (M2MeT)
竞赛简介
语音识别(Automatic Speech Recognition)、说话人日志(Speaker Diarization)等语音处理技术的最新发展激发了众多智能语音的广泛应用。会议场景是语音技术应用中最有价值、同时也是最具挑战性的场景之一。因为这样的场景包含了丰富的讲话风格和复杂的声学条件,需要考虑到重叠语音、数量未知的说话人、大型会议室中的远场信号、噪音和混响等挑战。
然而,该领域的发展一直以来因为缺乏大型公开真实会议数据而受到制约。由于会议转录涉及复杂的处理过程,因此必须仔细收集和标注更丰富的信息,如说话人身份、语音上下文、开始/结束时间等。所有这些信息都需要准确的标注,这既昂贵又耗时。虽然目前已有多个的相关的数据集,但它们的都有着各自的局限,从语料库设计(如语料库大小、说话人数量、空间位置、收集条件等)到语料库内容(如录音质量、重音语音、说话风格)难以尽如人意。此外,大多数公开的会议语料库都是用英语收集的,语言之间的差异大大制约了中文会议转录技术的发展。
AliMeeting语料库,该语料库包含120小时真实记录的中文会议数据,包括8通道麦克风阵列采集的远场数据以及每个参会者的耳机麦克风采集的近场数据。基于该数据集,我们将推出多通道多方会议转录挑战赛(M2MeT),作为ICASSP2022信号处理大挑战(Grand Challenge)之一。M2MeT挑战赛包括说话人日志和多说话人语音识别两个赛道,同时我们提供数据集、规则、评估方法和基线系统的详细介绍,旨在进一步促进该领域的深入研究。详细内容也可以参考我们已经发布的论文:M2MET论文
我们将提供会议场景中语音识别和说话人日志的基线系统的代码作为参考,目标是为了简化训练和评测程序,使参与者能够轻松灵活地进行实验和验证基于神经网络的方法。参考github链接
所有参赛队伍在提交结果的同时,需提交系统描述论文,主办方将按照竞赛排名和论文学术贡献择优选择论文进入 ICASSP2022 论文集。
数据集
AliMeeting共包含118.75小时的语音数据,包括104.75小时的训练集(Train)、4小时的验证集(Eval)和10小时的测试集(Test)。训练集和验证集分别包含212场和8场会议,其中每场会议由多个说话人进行15到30分钟的讨论。训练和验证集中参与会议的总人数分别为456人和25人,并且参会的男女比例人数均衡。训练集和验证集将在挑战开始时通过邮件发送给参与者,而测试集数据将在最后的评测阶段发布。 该数据集收集于13个不同的会议室,按照大小规格分为小型、中型和大型三种,房间面积从8到55平方米不等。不同房间具有不同的布局和声学特性,每个房间的详细参数也将发送给参与者。会议场地的墙体材料类型包括水泥、玻璃等。会议场地的家具包括沙发、电视、黑板、风扇、空调、植物等。在录制过程中,麦克风阵列放置于桌上,多个说话人围坐在桌边进行自然对话。麦克风阵列离说话人距离约0.3到5.0米之间。所有说话人的母语均是汉语,并且都是普通话,没有浓重的口音。在会议录制期间可能会产生各种室内的噪音,包括键盘声、开门/关门声、风扇声、气泡声等。所有说话人在会议的录制期间均保持相同位置,不发生走动。训练集和验证集的说话人没有重复。图1展示了一个会议室的布局以及麦克风的拓扑结构。
每场会议的说话人数量从2到4人不等。同时为了覆盖各种内容的会议场景,我们选择了多种会议主题,包括医疗、教育、商业、组织管理、工业生产等不同内容的例会。训练集和验证集的平均语音重叠率分别为42.27%和34.76%。AliMeeting训练集和验证集的详细信息见表1。表2显示了训练集和验证集中不同发言者人数会议的语音重叠率和会议数量。
我们还使用耳机麦克风记录了每个说话人的近场音频信号,并确保只转录对应说话人自己的语音。需要注意的是,麦克风阵列记录的远场音频和耳机麦克风记录的近场音频在时间上是同步的。每场会议的所有抄本均以TextGrid格式存储,内容包括会议的时长、说话人信息(说话人数量、说话人ID、性别等)、每个说话人的片段总数、每个片段的时间戳和转录内容。
赛道设置以及测评介绍
赛道1:
说话人日志 说话人日志,也称为说话人分段聚类,通过记录多说话人音频数据上属于特定说话人的语音事件来解决“谁在什么时候说话”的问题。组织者规定允许使用的限定数据集包括AliMeeting、AISHELL-4和CN Celeb。AliMeeting的训练集和验证集数据不仅包括麦克风阵列录制的远场多通道音频,还包括每个说话人耳机麦克风录制的近场单通道音频。10小时的测试集数据将于之后发布(根据时间安排),用于对各支参赛队伍评分和排名。需要注意的是,最终评测时主办方将只提供麦克风阵列录制的8通道远场测试集音频和相应的句子分段时间戳。组织者不会提供耳机麦克风的近场音频。参赛者需要确定每个时间点的说话人,并且为每场会议提供相应的RTTM文件。
该赛道中说话人日志系统的准确度通过日志错误率(DER)来衡量,其中DER的计算公式为:说话人混淆(SC)、误报(FA)和漏检(MD)三种不同错误的总时长除以总持续时长:DER=(T_SC+T_FA+T_MD)/T_Total * 100%,其中 T_SC、T_FA 和T_MD 是三种错误各自发生的时长,T_Total是总的时长。我们采用匈牙利算法对预测抄本和真实转录抄本进行对齐。Rich Transcription 2006 evaluation在真实标签片段的每个边界周围设置了一个0.25秒的“不计算分数”区域来减少转录抄本中注释不准确和人为错误的影响。由于该评估方案已在文献中被广泛采用,我们也将遵循此设置。
赛道2:
多说话人语音识别 多说话人语音识别赛道要求处理重叠语音并识别多个说话人的内容,组织者将AliMeeting、AISHELL-4和CN Celeb三个数据作为赛道2的可用的限定数据。最终提供的测试集数据与赛道1相同。参赛者最终需要转录每个发言者的发言,但不需要为每段转录文本标注对应发言者。
多说话人语音识别赛道的精度采用字符错误率(CER)来衡量。对于给定的预测输出,CER计算将其转化为参考转录本所需的最小字符插入数(Ins)、替换数(SUB)和删除数(Del)与转录抄本的字符总数(包括空格)的比例:CER=(N_Ins+N_Subs+N_Del)/N_Total * 100% ,其中N_Ins, N_Subs, N_Del 是三种错误的字符数, N_Total 是字符总数。考虑到置换不变训练(PIT)问题,我们提出了两种计算重叠语音CER的方案。
第一种计算方案是基于语句的先进先出(FIFO)方法:我们根据每条语句的开始时间对真实标签进行排序,并使用标记连接这些语句,然后按照这种固定的排列顺序计算CER。
第二种方法基于说话人的方法:参赛者直接预测得到每个说话人的抄本或者自行对相同说话人的抄本进行合并,然后组办方会对所有说话人的连接方式进行计算(相同说话人的语句合并需要参赛者自行处理或者预测)。
子赛道设置
对于每条赛道,我们还设置了两个子赛道:
● 子赛道一(限定训练数据):
参与者只能使用限定数据构建两个系统,严禁使用额外数据。赛道1(说话人日志)和赛道2(多说话语音识别)仅能使用AliMeeting、AISHELL-4和CN Celeb。
● 子赛道二(开放训练数据):
除了限定数据外,参与者可以使用任何公开可用、私人录制和模拟仿真的数据集。但是,参与者必须清楚地列出使用的数据。如果使用模拟仿真数据,请详细描述数据模拟的方案。
竞赛报名
来自学术界和工业界的有意向参赛者均应在2021年11月15日前向 m2met.alimeeting@gmail.com 发送邮件,按照以下要求注册参加挑战赛:
● 主题: [ICASSP2022 M2MeT Challenge Registration] – 团队名(英文或者拼音)- 参与的赛道;
● 提供团队名称、隶属关系、参与的赛道、团队队长以及联系人信息(团队人数不限定);
主办方将在3个工作日内通过电子邮件通知符合条件的参赛团队,团队必须遵守将在挑战网站上发布的挑战规则。
Kong Aik Lee
新加坡A*STAR 资讯通信研究院高级科学家
鄢志杰
阿里巴巴首席工程师
钱彦旻
上海交通大学副教授
卜辉
希尔贝壳CEO
竞赛规则
所有参赛者都应遵守以下规则:
-
允许在原始训练数据集上进行数据增强,包括但不限于添加噪声或混响、速度扰动和音调变化;
-
严格禁止以任何形式使用测试数据集,包括但不限于使用测试数据集微调或训练模型;
-
允许多系统融合,但不鼓励使用具有相同结构仅参数不同的子系统融合;
-
如果两个系统的测试DER或CER相同,则计算复杂度较低的系统将被认定为更优;
-
如果使用强制对齐模型获得了逐帧分类标签,则必须使用相应子赛道允许的数据对强制对齐模型进行训练;
-
端到端方法中允许使用浅层融合语言模型,模型可以选择LAS、RNNT和Transformer等,但浅层融合语言模型的训练数据只能来自于允许的训练数据集的转录抄本;
-
最终解释权属于主办方。如遇特殊情况,主办方将协调解释。
微信公众号
联系我们
商务合作:bd@aishelldata.com
技术服务:tech@aishelldata.com
联系电话:+86-010-80225006
公司地址:
北京市海淀区西北旺东路10号院东区10号楼新兴产业联盟大厦3层316室
开源数据