ICASSP 2022丨希尔贝壳1篇论文被录用

ICASSP(英文全称International Conference on Acoustics, Speech and Signal Processing)即国际声学、语音与信号处理会议,是全世界最大的,也是最全面的信号处理及其应用方面的顶级会议。它涵盖了音频和声学信号处理,图像、视频和多维信号处理,物联网的信号处理等多个方向,是中国计算机学会CCF推荐的B类会议。ICASSP2022拟于今年5月在新加坡举行。

 

 

近日,收到ICASSP 2022组委会正式通知,由西北工业大学音频语音和语言处理研究组(ASLP Lab)、出门问问、希尔贝壳合作的论文《WENETSPEECH: A 10000+ HOURS MULTI-DOMAIN MANDARIN CORPUS FOR SPEECH RECOGNITION》成功被ICASSP 2022录用。

 

题目:

《WENETSPEECH: A 10000+ HOURS MULTI-DOMAIN MANDARIN CORPUS FOR SPEECH RECOGNITION》

 

论文下载地址:

https://arxiv.org/pdf/2110.03370.pdf

 

作者:

Binbin Zhang,  Hang Lv,  Pengcheng Guo,  Qijie Shao,  Chao Yang,  Lei Xie,  Xin Xu,  Hui Bu,  Xiaoyu Chen,  Chenchen Zeng,  Di Wu,  Zhendong Peng.

 

 

全球最大多领域中文语音识别数据集

 WenetSpeech

WenetSpeech是由西北工业大学音频语音和语言处理研究组(ASLP Lab)、出门问问、希尔贝壳联合发布的1万小时多领域中文语音识别数据集 。

 

 

WenetSpeech 除了含有 10000+ 小时的高质量标注数据之外,还包括2400+ 小时弱标注数据和 22400+ 小时的总音频,覆盖各种互联网音视频、噪声背景条件、讲话方式,来源领域包括有声书、解说、纪录片、电视剧、访谈、新闻、朗读、演讲、综艺和其他等10大场景。

 

△ 领域详细统计数据

 

数据收集

WenetSpeech 所有的数据均来源于网络,其中三分之二的数据来自 Youtube,三分之一来自 Podcast。对于 Youtube 数据,我们人工选择含有嵌入式硬字幕(字幕嵌入在视频流中,非外挂字幕)的视频资源,并构建了基于 OCR 的系统进行数据挖掘。

 

数据校验:

OCR 字幕识别和 ASR 语音转写生成的候选平行数据中不可避免的存在一些错误,如人工字幕本身有错误,字幕时间不准,OCR 识别错误,转写错误等。为了检测该错误,WenetSpeech 中提出一种基于端到端的自动标注错误检测算法,如下图所示。该算法首先根据候选平行数据的文本(ref)构建一个一个强制对齐图,该图中允许在任意位置进行删除、插入和替换操作。然后将候选平行数据的语音输入到该图进行解码得到识别结果(hyp),最终计算 ref 和 hyp 的编辑距离并做归一化从而得到该候选平行数据的置信度。当候选语音和文本一致性高时,ref 和 hyp 一致性高,置信度高,反之,当候选语音和文本一致性低时,置信度低。

 

 

WenetSpeech 中选取置信度>=95%的数据作为高质量标注数据,选取置信度在0.6和0.95之间的数据作为弱监督数据。关于该算法的详细内容,请参考我们的论文。

 

排行榜

除了训练中校验用途的 Dev 集外,我们还设计了两个人工精标测试集,互联网测试集 Test_Net 和会议测试集 Test_Meeting,作为“匹配”和“不匹配”测试,同时提供三个语音识别主流工具包(Kaldi,ESPNet,WeNet)上搭建的基线系统,方便大家复现。在 10000+ 小时的高质量标注数据上,目前三个系统的语音识别率如下表所示(结果为 MER%,中文算字错误,英文算词错误)。

 

 

开源·共享·创新

西北工业大学音频语音和语言处理研究组(ASLP Lab)、出门问问、希尔贝壳联合发布1万小时多领域中文语音识别数据集 WenetSpeech,在腾讯会议天籁实验室、华为昇思 MindSpore、 西安未来人工智能计算中心等机构大力支持下,该数据集于2021年11月已经开放下载。

 

数据申请入口:

https://wenet-e2e.github.io/WenetSpeech/

 

在此,特别感谢所有合作方的支持和帮助。未来,希尔贝壳将持续投入内核技术创新,坚持开源开放,用更多的开源数据与教育、研发、产品等相结合让技术落地走进更多的场景,从而更好的支撑人工智能语音技术产业的蓬勃发展。

希尔贝壳,以人工智能民主化为目标