竞赛简介

文语转换(TTS)又称为语音合成,旨在将文本转换成自然语音的一类技术,是智能语音领域的前沿技术,在语音助手、信息播报、有声读物等方面具有重要的应用价值。在深度学习的帮助下,语音合成已实现了效果上的显著提升。端到端语音合成框架和神经声码器的最新进展使得我们能够生成特定领域内非常逼真和自然的语音,几乎可以以假乱真。但是,这种令人惊叹的能力仍然受限于训练集是大量单一说话人且表现力不够丰富数据的的理想情况。对于多说话人和多风格的语音合成,特别是在真实环境录制或是低资源的情况下表现力和鲁棒性仍然不能令人满意。例如,仅拥有每个说话人非常少量的音频样本时,语音的质量和目标说话人的相似度、表现力和鲁棒性仍然不能令人满意。即便是现有公开的音色克隆方案,对集外数据的音色复刻缺乏鲁棒性。我们称这种有挑战性的任务为多说话人和多风格的语音克隆任务(M2VoC)。

 

 

近年来,迁移学习、风格迁移,说话人编码和因素解耦方面的最新进展,为低资源语音克隆的提供了潜在的解决方案。作为2021年声学、语音和信号处理国际会议(ICASSP2021)信号处理挑战旗舰任务之一,M2VoC挑战赛旨在提供一个通用的数据集以及一个公平的测试平台,对语音克隆任务进行研究。我们非常鼓励学术界和工业界的研究人员加入挑战,一起进行深入的讨论和合作。