Kaldi技术交流会:AISHELL-2上线,希尔贝壳开源了1000小时语音数据

2018-06-27



语音技术开发者福利。

【本文转自猎云网(微信:ilieyun)北京】6月26日报道(文/都保杰)

2018年6月23日,Kaldi第三届线下技术交流会在北京猎豹移动全球总部举办,本次交流会的主题是“语音、技术、开源”,作为语音技术从业者的思维碰撞盛宴,吸引了来自全国各地近400人的开发者和高校学生前来交流学习。

Kaldi线下技术交流会由AISHELL Foundation发起,由北京希尔贝壳科技有限公司,中国计算机学会(CCF)语音对话与听觉专业组,北京猎户星空科技有限公司联合主办,这次交流会邀请到了京东AI平台、出门问问、地平线、阿里巴巴、PerfXLab、快商通等企业的语音技术代表出席做了分享。

一个十分值得关注的好消息是,在这次会议上,AISHELL Foundation和北京希尔贝壳科技有限公司宣布开源数据规模达1000小时的目前全球最大中文开源数据库AISHELL-2,并配套研发了更优秀的系统级recipe,AISHELL-2还配备了一套evaluation数据集,TEST&DEV数据包含了iOS、Android、高保真Mic三种设备,能使实验测试更科学和多样性。

1.jpg

据悉,AISHELL-2由1991名来自中国不同口音区域的发言人参与录制,经过专业语音校对人员转写标注,通过了严格质量检验,数据库文本正确率在96%以上,录音文本涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等12个领域。

无论对于工业界还是学术界,AISHELL-2数据库开源的现实价值都相当高,数据为免费开源以硬盘和网盘形式开放给高校科研教育机构使用。这并不是第一次做数据开源共享,2017年7月,北京希尔贝壳科技有限公司(AISHELL)就曾在Kaldi平台上开源178小时中文普通话数据库(AISHELL-1),将以aishell命名的recipe项目merge到kaldi里,2017年12月,aishell的recipe还更新添加了说话人识别到kaldi。如今AISHELL-2开源1000小时数据库和配套中文系统的recipe,对于Kaldi社区、学术界、工业界来讲都具有一种里程碑式的意义。

Kaldi是一个非常强大的语音识别工具库,主要由“灵魂人物”Daniel Povey开发和维护,目前支持GMM-HMM、SGMM-HMM、DNN-HMM等多种语音识别的模型的训练和预测。其中DNN-HMM中的神经网络还可以由配置文件自定义,DNN、CNN、TDNN、LSTM以及Bidirectional-LSTM等神经网络结构均可支持,目前是Github上十分活跃的项目之一,很多国内外语音类技术公司的研发测试都是基于Kaldi做初始起步。Daniel Povey还特地为这次技术交流会发来了一段祝贺视频。

AISHELL开源项目初衷

AISHELL Foundation的主要发起人都家宇、那兴宇介绍了AISHELL开源项目过程中的背景和故事,从2015年4月第一次Kaldi线下交流会、2017年4月第二次Kaldi线下交流会到本届会议的举行,Kaldi社区中一些志同道合的技术人员不断推进了AISHELL项目开源发展。

都家宇说:“只有上千小时的数据才有望激发真正的变革。因为在学术界、高校里面,对于那些没有工业界企业做支撑的实验室,老师和学生们只有基于这个量级的数据库才能做出比较扎实有影响力的工作,这样全国各个实验室的学生毕了业才能去各大公司找到更好的工作。从这个角度讲,工业级的开源项目真正为这个行业输送了资源和人才,在我们看来意义重大。

WechatIMG1757.jpeg

AISHELL Foundation主要发起人之一都家宇

另外,这个开源项目不只局限于数据,包括Kaldi社区的基础设施和配套的recipe应用系统,这也为一些有语音技术需求的中小创业企业提供一个启动平台。巨头们不屑去支持的小公司还有一些不愿单独做定制数据的中小公司,可以利用我们开源的数据创建自己的技术闭环,配上自己独有的业务数据想象空间还是蛮大的,这是一个很迫切的行业需求一直未被很好满足,也是我们做这件事的另外一个初衷。”

他表示AISHELL Foundation会和希尔贝壳持续探索降低语音行业的数据和技术门槛,推动开源发展的这个愿景。从最早的巨型计算机、到PC、笔记本、智能手机、智能电视、智能车载等,发展路径上的每一个外延点都有可能触发一次产业升级,或者全新的行业。如今随着人工智能技术的发展,语音技术正在从边缘化的存在向主导地位迈进,对于学生和从业者来说,这是历史上最好的一次机会。

在这里我们需要了解的前提是,如果没有HTK和Kaldi这样的开源软件和recipe的话,很多团队都要用很长时间才能搭建一个还凑活的系统,即使DNN的使用已经大幅降低了门槛。现在因为有了开源软件和recipe,包括像CNTK这样的深度学习工具包,事情已经容易多了,但还有继续简化的空间。另外一个方面,最近的几年里大家已经从一开始使用简单的DNN发展到了后来相对复杂的LSTM和Deep CNN这样的模型,推动语音行业实现快速进步。

WX20180625-195646@2x.jpg

清华大学cslt中心副主任、语音识别实验室主任王东

这次会议也邀请到了清华大学cslt中心副主任、语音识别实验室主任王东老师做分享,他是thchs30(清华大学中文语料库)的发起者,在kaldi上提供了第一个免费的中文语音识别例子。

王东老师回顾了自己从业语音技术行业的主要历程与开源数据库的思考,以及thchs30语音数据库的录制和开源的来龙去脉,如何一步步Check into Kaldi的过程,最终供所有入门语音技术的学生们做起步学习使用,感慨良多。

王东老师把数据开源共享的做法定义为“work for initialization”(做初始化工作)。“其实最重要的是thchs30作为一个出发,一颗火种,而后有很多的追随者认同这样的价值观,例如AISHEL,这让大家认识到开源对行业的重要性,这是具有奉献意义的做法,但行业需要有一些人站出来做一些初始化的事情。”

王东老师还提出一个观点:解决语音识别的问题不应该语音识别本身来解决,需要扩展开发者的思路,把任务放在更大舞台里面去统筹考虑如何实现突破,语音技术的突破是方法的创新而不只是模型上改来改去。

基于Kaldi的技术起步和崛起

来自京东AI平台语音技术总监牛小川博士介绍,2017年京东成立了AI Resaerch&Platform部门,开始推出语音服务的概念,后来公布了NeuHub平台,整个AI部门包括了三大部分:计算机视觉、语音识别、NLP,提供在线服务API,目前平台技术比较聚焦在电商、客服等应用方面。

谈及跟Kaldi的关系,牛小川表示NeuHub在开始的时候确实使用了Kaldi。“我们把Kaldi当成了一个baseline(基线),同时当成了experimentPlatform(实验平台),Kaldi能够提供很好的支持。与此同时我们也对model做enhancement(增强改善),因为从工业界的角度来讲Kaldi是一个半产品的东西,我们需要在Decoder(解码器)进行一些增强,把它建设成ASR、TTS进而形成一种服务。”

WX20180625-193800@2x.jpg

京东AI平台语音技术总监牛小川

在实践操作的过程中,牛小川也对Kaldi的优点和不足发表了一些看法。

优点:1、Research-oriented recipes(研究导向技巧)。开发者Daniel把他从IBM和微软的工业化经验推向了开源,这些recipes当时都是一些公司的技术秘密,这是一个很大的贡献。2、WFST Decoder解码器更适合工业化,改进了openFST(FST在语音识别中的应用:语言模型文法、发音词典、上下文相关声学单元、HMM都可以用FST来表示;将它们复合在一起构成HCLG.fst与viterbi联合,可用来做语音识别的解码);3、比较好的C++coding practices(编码惯例),成为受欢迎的一大原因;4、open license(公开许可证),大家都可以用。

当然Kaldi也有不足之处,比如Shell和Perl脚本不易维护和测试,与工业水平模型测试还存在一些差距;WFST Decoder的不足:添加新的词汇不太灵活,不支持动态LMs,不支持在线的NNLM解码。

牛小川认为,从发展历程来看Kaldi似乎一直在追赶整个DNN的发展,如果社区只有一个KING主要靠Daniel Povey其实也不是一件好事,这是社区的局限性,想要跑得更快,大家需要做更多创新性工作。Kaldi极大降低了ASR研究与工程的技术门槛,接下来可扩展的方向或许是解码器对复杂LM的支持,与同用NN训练工具(mxnet,tensorflow,pytorch)的融合。

Kaldi也在出门问问的语音产品中广泛应用,出门问问资深语音工程师胡亚光对此进行了讲解。“我们应该是把kaldi用在产品上面比较早的一家公司,我们自己的产品有应用到kaldi的语音识别、语音交互,我们自己在训练kaldi的一些声学模型方面也发现了一些方法和技巧。”

出门问问是怎么在kaldi上面训练大规模声学模型的?胡亚光透露,团队遇到的第一个问题是怎么并行训练。2013年开始基于神经网络的声学模型研究的时候遇到的第一个问题是训练速度特别慢,虽然当时数据并不是特别大,于是调研了一些实现并行训练的方法工具。

首先是Lock-free SGD(用于并行机器学习的Hogwild算法,2011),这种方法是最容易实现的,但是有一个问题是每次更新的梯度不是最新的,会带来精度上的偏差;第二个是谷歌的Gradient averaging(深度学习基础架构DistBelief,2012),然后是微软的1-bit SGD(CNTK,微软出品的开源深度学习工具包,2014)。

最后就是kaldi在2014年提出的NG-SGD Model averaging,这能够实现最小化的网络传输开销,可以使用更大的并行任务数量,接近线性的加速比,不需要频繁地进行模型平均,大幅提高模型训练的收敛速度。

WechatIMG1756.jpeg

出门问问资深语音工程师胡亚光

然后是kaldi的声学模型(TDNN),出门问问在2015年的时候把TDNN放到了线上的系统里面,TDNN的好处是可以用来建模较长的音素上下文,网络结构类似于RNN,使用了重采样技术加速训练和解码速度,和RNN/LSTM比起来计算效率更高。

然后是数据聚合的一些功课,在kaldi里面主要会有速度扰动、音量扰动、模拟混响、加背景噪声等,在出门问问的实验结果里面,速度扰动和混响的影响是最大的。

kaldi还有基于iVector的说话人和环境自适应模型,可以提升整个语音识别系统的鲁棒性。以及语言模型(RNNLM),使用RNN语言模型做Rescoring,能更好地对长相关的单词做建模。kaldi的主流声学模型:Chain model,在公开数据集上WER能相对降低6%~8%,训练准则从CE+sMBR变成LF-MMI,能够实现三倍帧率的训练和解码,同时支持tdnn/lstm/rnn网络结构。

从2011年kaldi出现,2013年把DNN放上去,这期间伴随的是出门问问的崛起。胡亚光介绍,出门问问2012年成立,2013年初开始做语音,当时kaldi上DNN的脚本正好已经ready,出门问问团队直接调用kaldi的recipe开始了初期的研发工作,也得益于此,出门问问在2013年中的时候就快速把语音系统做好了,当年年底语音系统就完成上线,至今,kaldi满足了出门问问很多方向的技术研发需求。

WX20180625-194543@2x.jpg

快商通声纹技术负责人李希敏

在专项技术领域,Kaldi也帮助一些创业者实现弯道超车。快商通声纹技术负责人李希敏博士讲述了自己基于Kaldi的声纹识别实践,快商通的核心技术是做声纹识别,先后基于Kaldi尝试了从i-vector(声学特征)、dnn ubm /i-vector基于端到端深度学习的说话人信息提取声纹识别主流方法,最终形成嵌入式的技术路线,目前正着力推动声纹识别技术在城市物联网、金融场景、公安司法、交通、医疗、教育等领域的应用方案快速落地。

高性能计算、AI芯片、声学建模框架

来自PerfXlab澎峰科技创始人兼CEO张先轶是另一个开源项目OpenBLAS的作者和维护者,他主要从事高性能计算研究方向。OpenBLAS跟Kaldi一样同是Github上最受欢迎的项目之一,也是目前全球最好的开源矩阵计算函数库,乃至IBM、ARM、英伟达等公司也都在他们的产品里边使用了OpenBLAS。据了解,OpenBLAS同时是Kaldi社区默认的两大底层矩阵库之一,是支撑开源语音社区的基石,目前张先轶创立了公司PerfXlab关注终端来做嵌入式的高性能计算部署。

WechatIMG1754.jpeg

PerfXlab澎峰科技创始人兼CEO张先轶

澎峰科技的技术逻辑是同时从应用算法层、框架层、性能层和硬件层切入做计算性能的综合优化和提升。在框架层,澎峰科技开源了一种轻量级的深度学习推理框架inferXlite,相比较目前的传统通用框架具备小、轻、快的优势,代码<100k,接口支持任何网络模型,可移植任何硬件平台,几乎没有依赖库,框架设计与性能加速分离,从框架层面对于算法加速给予了充分的考量。在性能层,澎峰科技还推出了深度学习优化矩阵计算库PerfBLAS、深度神经网络计算库PerfDNN以及高性能计算机视觉库PerfCV。

此外,该公司还提供嵌入式深度学习开发平台PerfBox和Perf-V工程板。据了解,PerfBOX采用六核64位ARM处理器,集成了ARM Mali-T860四核GPU,并拥有2GB/4GB DDR3和16G/32GB的eMMC,可供行业用来做为学习、开发、部署深度学习应用的平台。

在卷积操作部分,张先轶谈到,性能优化的一个基本理念就是充分利用局部性,包括空间局部性(访存周围的数据、减少随机访问)和时间局部性(重复使用),目前团队的深度学习优化矩阵计算库PerfBLAS针对深度学习进行了专门优化,包括对GEMM kernel\pack函数的优化,并行化、定点化的处理等等,可以大幅提升性能结果。

此外,语音技术在终端做嵌入也逐渐走上芯片化之路,地平线语音技术负责人牛建伟讲述了地平线在AI芯片方面的探索和尝试。

2017年12月20日,地平线发布了“征程”与“旭日”两款芯片,牛建伟介绍地平线语音技术主要是集成在“旭日”芯片里面,面对智能家居和新零售场景应用。地平线的语音团队组建于2015年底,拥有40余人的算法研发团队和完整的语音技术链路,具备麦克风阵列算法,语音识别、语音理解和语音合成等技术能力。

由于现有主流的CPU在处理神经网络的时候效率低,不能满足需求,尤其是在嵌入端的需求,而GPU功耗又比较高,处理器成为深度学习的一个障碍,因此需要设计更好的处理器来支持CNN、RNN等神经网络结构。而当前的现状是数据量增加了,计算性能有待改进,算法层面只能做一些优化,最终计算平台作为一个基础设施成为发力点。

WX20180625-192748@2x.jpg

地平线语音技术负责人牛建伟

牛建伟介绍了地平线AI芯片研发的大概流程。首先是讨论技术方案,搞清楚算法的边界在哪儿,确定下来芯片基本硬件的参数,比如乘加器数目、数据传输宽带等;其次算法团队将算法实现成便于硬件实现的形式,比如定点化、在算法层面就简化辅助操作,降低芯片的设计成本流片成本,规整明晰的数据结构等。之后芯片团队会比照算法代码编写RTL代码,通过硬件描述语言实现。流片之前,还要经过各种严苛的底层的综合和测试验证,确保流片前是真正能够满足要求的,因为一旦出现偏差,整个研发流程就需要打翻重来,时间、人力、资金成本难以挽回。

对于语音AI芯片研发,他总结的经验是:完全的定点化,浮点运算会增加硬件实现的复杂度;尽量低的片上内存;内存带宽的限制;算法导致芯片验证复杂度显著提升;芯片迭代周期远远慢于算法迭代,对于算法人员是个挑战,需要具备超前意识;另外就是芯片对于功耗和性能的权衡。

语音识别技术是人机交互技术的重要组成部分,而语音识别中的声学模型是语音识别技术中的核心所在,堪称重中之重。来自阿里巴巴智能语音交互团队的高级算法工程师张仕良,做了基于FSMN的语音声学建模以及在kaldi中实现的分享。

2015年iflyTek(科大讯飞)提出前馈型序列记忆网络框架(FSMN),只需要180ms延迟,就达到了和双向RNN相当的效果,后来张仕良对FSMN的结构进行了一系列的改良,带领阿里巴巴智能语音交互团队研发出最新的LFR-DFSMN模型。

WechatIMG1755.jpeg

阿里巴巴智能语音交互团队的高级算法工程师张仕良

阿里巴巴语音交互智能团队在poster论文里提出了深层前馈序列记忆神经网络(DFSMN),进一步将深层前馈序列记忆神经网络和低帧率(LFR)技术相结合,构建LFR-DFSMN语音识别声学模型。

该模型在大词汇量的英文识别和中文识别任务上都可以取得相比于目前最流行的基于长短时记忆单元的双向循环神经网络(BLSTM)的识别系统显著的性能提升,相对于之前的LFR-LCBLSTM模型可以达到训练加速3倍、识别加速2倍、识别错误率降低20%和最终模型大小压缩50%的效果,实现了语音识别的迭代速度、识别成本、服务质量的全面提升。

通过在FSMN相邻的记忆模块之间添加跳转连接(skip connections),保证网络高层梯度可以很好的传递给低层,从而使得训练很深的网络不会面临梯度消失的问题,进一步来说,考虑到将DFSMN应用于实际的语音识别建模任务不仅需要考虑模型的性能,而且需要考虑到模型的计算量以及实时性。针对这个问题,张仕良团队提出将DFSMN和低帧率(lower frame rate,LFR)相结合用于加速模型的训练和测试,同时通过调整DFSMN的记忆模块的阶数实现时延的控制,使得基于LFR-DFSMN的声学模型可以被应用到实时的语音识别系统中。

张仕良团队在多个大词汇量连续语音识别任务包括英文和中文上验证了DFSMN的性能。在目前流行的2千小时英文FSH任务上,DFSMN相比于目前主流的BLSTM可以获得绝对1.5%而且模型参数量更少,在2万小时的中文数据库上,LFR-DFSMN相比于LFR-LCBLSTM可以获得超过20%的相对性能提升,而且LFR-DFSMN可以灵活的控制时延,将时延控制到5帧语音依旧可以获得相比于40帧时延的LFR-LCBLSTM更好的性能。

WX20180625-194915@2x.jpg

中科院声学所技术人员程高峰

开源的新一代语音识别模型DFSMN,将全球语音识别准确率纪录提高至96.04%(这一数据测试基于世界最大的免费语音识别数据库LibriSpeech),采用全新DFSMN模型的智能音响或智能家居设备,相比前代技术深度学习训练速度能提到3倍,语音识别速度能提高2倍。

业内从业者表示:“阿里开源的DFSMN模型,在语音识别准确率上的提升是突破性的,是近年来深度学习在语音识别领域最具代表性的成果之一,对全球学术界和AI技术应用都有巨大影响。”

来自中科院声学所的技术人员程高峰还基于Kaldi的Nnet3框架实现了FSMN,通过各种对比测试,Nnet3下的DFSMN和Nnet1下的DFSMN性能相当,跨平台地验证了DFSMN算法的有效性,DFSMN对于平台的迁移性还是不错的。

人工智能民主化推动者

关于Kaldi第三届线下技术交流会的主办方,都是语音行业不同领域的技术企业和单位组织。希尔贝壳成立于2017年4月,是一家专注人工智能大数据和技术服务的创业公司,目前公司针对家居、车载、机器人等产品做精准数据制作,根据场景化的应用需求做数据的创新和差异化的语音技术服务方案。

AISHELL-2开放出来1000小时的语音数据库对于一家数据创业公司而言关乎利益生死。在接受猎云网采访时希尔贝壳创始人兼CEO卜辉对此表示:“我门其实是想做语音行业的革命者,从数据做革命,从技术做革命,革命必有牺牲。我相信这次数据开源之后市面上也有很多公司跟着我们做数据的开源,对于推动整个行业的技术进步和产业生态来说这是件好事,有利于实现人工智能民主化。”

WX20180625-200130@2x.jpg

中国计算机学会(CCF)语音对话与听觉专业组正式成立于2018年5月19日,目前由天津大学计算机学院党建武教授担任专业组主任,中科院自动化所研究员陶建华、上海交通大学研究员俞凯、清华大学郑方副教授、哈尔滨工业大学李海峰教授等为专业组副主任,清华大学贾珈副教授为专业组秘书长,该专业组还包括了6位来自百度、腾讯、三星等企业代表以及7位来自香港中文大学,北京大学等高校及研究院的学界代表担任常务委员。

猎户星空成立于2016年9月,由猎豹移动CEO傅盛创立,是猎豹移动旗下聚焦AI的公司。猎户星空的主要业务覆盖语音、视觉和硬件。猎户星空自研了“猎户语音OS”,拥有从前端信号处理、唤醒、语音识别、自然语言处理到语音合成一整套语音交互技术,基于此公司也自主研发了一系列终端服务机器人、家庭机器人和智能音箱等AI硬件产品。猎户星空推出的机器人平台Orion OS,集合了自研的多芯片系统、摄像机+视觉算法、麦克风阵列等,具备完整的机器人技术链条。

Kaldi第三届线下技术交流会的举办将给语音行业注入了新的活力,本次会议的赞助商也都是AI应用技术落地的创新企业,包括roobo、探镜科技、快商通等。

ROOBO成立于2014年,定位做人工智能解决方案提供商,面向家电、汽车、机器人等多个领域,其构建的ROS.AI平台为开发者提供芯片硬件模组、软件系统和各种人工智能服务支持。

探镜科技成立于2017年初,由硅谷著名半导体公司Marvell中国芯片研发部门前高管鲁勇创立,公司旨在提供终端人工智能芯片及整体解决方案,2018年5月宣布完成了数千万美元的A轮融资。

快商通成立于2009年6月,是一家专注人工智能的企业级软件服务公司,团队围绕声纹识别核心技术延伸出了一系列行业应用产品及增值服务。

最后的最后,附上开源数据的关键信息,现在就可以免费申请:

1000小时的数据详情:http://www.aishelltech.com/aishell_2

recipe地址:https://github.com/kaldi-asr/kaldi/tree/master/egs/aishell2

数据获取方式:

学术用请发邮件至:aishell.foundation@gmail.com;

商用请发邮件至:bd@aishelldata.com

【本文转自猎云网(微信:ilieyun)北京】6月26日报道(文/都保杰)

本网站由阿里云提供云计算及安全服务