第五届Kaldi技术交流会圆满落幕

为更好的推动语音识别技术落地稳定发展，促进技术交流合作，由北京希尔贝壳科技有限公司（AISHELL）、中国计算机学会语音对话与听觉专业组、AISHELL基金会主办，小米科技、昆山杜克大学、西北工业大学音频语音与语言处理研究组、中国科学技术大学共同协办的“第五届 kaldi技术交流会”，于2020年11月15日完美收官。

本届大会以“共创未来”为主题，与往期相比，融入了语音顶级赛事分享、语音顶级会议paper的分享结合，内容上结合了线上线下同步进行，更加突出了开放交流的宗旨。会议邀请了在当下学术界的精英以及小米集团副总裁崔宝秋博士、Kaldi之父Daniel Povey，这也是Daniel Povey首次亲临Kaldi技术交流会现场。

大会上午通过线上形式进行，会议上来自西北工业大学音频语音与语言处理研究组的胡炎鑫、昆山杜克大学大数据研究中心 SMIIP 实验室的覃晓逸以及腾讯国际事业部的周飞飞代表各自的团队分别分享了在Deep Noise Suppression Challenge 2020（深度噪声抑制挑战赛，简称DNS）、VoxCeleb Speaker Recognition Challenge 2020（VoxSRC20）、IBG AI Speaker Recognition System for Far-Field Speaker Verification Challenge 20209（FFSVC2020）三场顶级语音赛事上获奖技术方案。

来自中国科学技术大学语音及语言信息处理国家工程实验室的王雅健、马洁锋、得意音通研究院执行副院长、清华信息国家研究中心助理研究员李蓝天以及武汉大学计算机学院的史尧分别分享了《基于两阶段注意力机制和卷积神经网络的声学场景分类》、《2D-GMM-HMM系统在Kaldi上的实现，及其在手写中文字符识别上的应用》、《CN-Celeb: multi-genre speaker recognition》以及《AISHELL-3多说话人语音合成数据集基线系统描述》为主题的内容。

大会下午在北京小米科技园举行，小米集团副总裁崔宝秋博士发表致辞。他讲到：“拥抱开源是小米的工程文化的重要组成部分，不仅要站着巨人的肩膀上，更要为巨人指路，而kaldi正是这样的“巨人”，开源是当今时代人类进步的最佳平台与模式。”同时他也希望kaldi技术交流会越做越大，希望中国能够在更多的领域崛起，成为人才向往的高地，让中国走在科技的前沿！

来自北京邮电大学的陈堃分享了在Detection and Classification of Acoustic Scenes and Events赛事上的方案《Audio Captioning based on Transformer and pre-trained CNN》，在报告中他讲解了自动音频描述（Automated audio captioning）的构成，以及使用Future works 后可以有效的提升音频特征的提取能力使其能够获得更全面的音频信息以及提升生成的多样性。

作为AISEHLL& AISHELLFoundation的创始人，卜辉在AISHELL数据+技术的开源工作上做了报告，并回顾了从2017年开源的AISHELL1到2018年开源的AISHELL2再到今年的AISHELL3。AISHELL3与AISHELL1和AISHELL2不同的地方在于采用44.1KHz的采样率。在去年kaldi交流会发布的HI-MIA,，如今也已经开源到Openslr，没有开源的数据总时长为1561小时，虽然内容只有“你好，米雅”和“HI,MIA”,其关键在于尝试用阵列的方式在真实的室内收集大量的人声，并以此让开发者和研发人员能够实现解决远场声纹方案。卜辉讲到“当下AISHELL所开源的项目里包含了ASR、VPR、TTS三种方案，在语音交互的三驾马车面前已经完成矩阵式的开源。至此，我们仍未结束开源之路，还在尝试更多的努力，做更多的开源项目。”

会议上Kaldi之父Daniel Povey首次亲临Kaldi技术交流会现场，与大家深入交流了下一代kaldi及K2的目前开发情况和未来的规划。

由Daniel Povey开发和维护的Kaldi 集成了多种语音识别模型，包括隐马尔可夫和最新的深度学习神经网络，公认是业界语音识别框架的基石。在加入小米的一年里，Daniel Povey设计并开发出了新一代Kaldi。新一代Kaldi分成三个部分，包括核心算法部分，训练数据准备部分、示例脚本集合部分。

①Lhotse（训练数据准备部分）将替代以前Kaldi中所有数据准备相关的工作，操作各种音频和文本的元数据。②Icefall（示例脚本集合部分）将代替Kaldi中的示例脚本集合，并独立成为一个单独的子项目。③新一代Kaldi的核心部分k2可以让开发者很容易在PyTorch/TensorFlow中实现各种语音识别相关算法，消除以往语音识别算法中训练跟解码不匹配的问题。同时，通过k2可以非常容易实现（置信度逐渐提高的）多轮解码过程。