深话AI智能语音技术应用沙龙·第一期成功举办

2020年10月23日,由中国信息通信研究院云计算和大数据研究所、北京希尔贝壳科技有限公司、北京得意音通技术有限责任公司联合主办、中国人工智能产业发展联盟开源开放推进组共同创办的“深话AI智能语音技术应用沙龙·第一期 声纹识别,听音识人”成功举办。


此次沙龙以线上形式举办,在腾讯会议上进行了线上直播,沙龙以“聚焦智能语音技术,大话应用产业热点”为核心,汇聚了学术和产业技术应用专家及开发者,并与kaldi线下交流会紧密合作,会议上探讨了“声纹识别,听音识人”这一话题,分享了声纹识别技术解决方案和数据构建,解读声纹识别应用产品场景。

北京希尔贝壳科技有限公司(AISHELL)作为本次沙龙的主办方之一,CEO 卜辉分享了“声纹数据库建设和AISHELL-VRR赛事项目”,在会议上介绍了声纹识别技术原理:“声纹的目的就是来确认是与否,在应用到场景上时需要进行声纹的确认Verification、追踪Diarization、辨别Identification,在辨别时还需要通过x-vector、i-vector、D-vector这些算法来实现。

在讲到声纹技术需求时,表示“在当今社会对声纹技术的需求正逐渐变为刚需,除了应用于车载人机交互、智能家居、智能客服机器人以及智能可穿戴设备上,声纹识别已经成为刑侦重要的辨别技术,根据中国产业研究院发布的中国智能语音产业规模图表中可以清晰的发现,从2019年的204亿元开始智能语音产业正以每年34.32%的速率增长,伴随着5G的到来,相信今后声纹技术将在更多领域落地”。



在讲声纹数据库建设时,分享了AISHELL-VPR0061和AISHELL-VPR0062两个数据库,AISHELL-VPR0061的总时长为410小时,共邀请了1300名来自中国不同口音区域的发音人,时间跨度为7—78天完成一个人的录制。AISHELL-VPR0062的总时长达到了625小时,7500名不同地域不同口音的人参与录制,每人5分钟时长,通过手机采集语音,采样率为16000Hz,比特率为16bit。2000人采集环境为车内,646人在家居环境,4854人在安静录音室。



讲到“因为语音数据考虑到多场景产业用途,所以录音分为三次收集,分别是①每人130句,内容为数字串,例如“零幺一二三四五六七八九,每句5~15个数字,平均10个数字。②每人160句,内容覆盖语控词+唤醒词,盖安防、医药等敏感词汇。③广域自由文本。



此外还分享了去年由AISHELL举办的“AISHELL Speaker Verification Challenge2019竞赛”,以及赛事使用的数据AISHELL-WakeUp-1。AISHELL-WakeUp-1语音数据库共唤醒词语音3936003条,1561.12小时。录音语言是中文和英文;Sampling Rate:44.1kHz&16bit。Sample Format:16bit,字正确率100%。



还讲到“今年由昆山杜克大学、新加坡国立大学、美国南加州大学与AISHELL合作举办的INTERSPEECH 2020 远场声纹识别比赛(FFSVC 2020)已经正式发布了,其包含几百G的数据分享。这次比赛着眼智能家居实际场景,从多阵列多通道远场带噪、手机注册远场测试、文本相关及文本无关等多种实际挑战出发,本次赛事的数据来自AISHELL的DMASH数据库。将在10月28号INTERSPEECH 2020会议上会公布赛事结果,欢迎大家关注!


最后希望通过更多AI人的共同努力,共推进语言智能化产业发展。聆听语音之美,感叹语言之魅,打造一个精彩的语言智能化世界。

希尔贝壳,以人工智能民主化为目标