百分点感知智能实验室:语音识别技术发展阶段探究.docx
《百分点感知智能实验室:语音识别技术发展阶段探究.docx》由会员分享,可在线阅读,更多相关《百分点感知智能实验室:语音识别技术发展阶段探究.docx(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、百分点感知智能实验室:语音识别技术发展阶段探究编者按在人工智能飞速开展的今天语音识别技术成为很多设备的标配过去五年度间语音识别的需求逐渐爆发。然而目前语音识别相关的应用及使用场景仍具有局限性因此国内外诸多企业纷纷开场探究语音识别的新算法新策略。本文中百分点感悟智能实验室从技术开展的角度出发深化分析了语音识别技术不同开展阶段的模型构建以及优化和将来开展趋势。语音识别技术简单的讲就是将计算机接收到的音频信号转换为相应的文字。语音识别技术从上个世纪50年度代出现开展到如今已有半个多世纪的历史。经太多轮技术迭代语音识别已经从最早的孤立数字识别开展到今天复杂环境下的连续语音识别并且已经应用到各种电子产品
2、中为人们的日常生活带来许多便利。从技术开展的历史来讲语音识别技术主要经历了三个时代即基于模版匹配的技术框架、基于统计机器学习的技术框架以及最新的端到端技术框架。近年度来得益于深度学习技术打破性的进展和挪动互联网的普及带来的海量数据的积累语音识别已经到达了非常高的准确率在某些数据集上甚至超过了人类的识别才能。随着识别准确率的提升研究者们的关注点也从语音识别的准确率渐渐转移到了一些更加复杂的问题上比方多语种混合语音识别。该问题涉及到多语种混合建模、迁移学习以及小样本学习等技术。对某些小语种来讲由于无法获得足够多的训练样本因此怎样从小样本数据中构建可靠的语音识别系统成为一个待解决的难题。针对该问题百
3、分点科技提出了一系列的算法针对小语种语音识别系统构建中出现的训练样本获得困难、文本书写规那么复杂、发音单元不统一等问题作了相应的优化。基于这些技术百分点科技已经成功研发出数十种小语种语音识别系统在支持语种的数量和识别准确率上都处于国内领先地位。接下来的章节中将重点介绍语音识别技术不同开展阶段经历的重要技术框架包括传统的HMM-GMM以及HMM-DNN和最新的端到端方法等。一、GMM-HMM/DNN-HMMGMM-HMM先从GMM-HMM开场讲GMM-HMM根本使用HTK或Kaldi进展开发。在2020年度之前整个语音识别领域都是在GMM-HMM里做一些文章如图一所示。图一GMM-HMM框架我们
4、的语音通过特征提取后利用混合高斯模(GMM)来对特征进展建模。这里的建模单元是cd-statescd-states的详细生成方法如图二所示。图二cd-states的生成方法建模单元在GMM-HMM时代或DNN-HMM时代根本没有过多创新大多使用tiedtriphone即senone下列图描绘了GMM-HMM的整体经过。图三GMM-HMM的整体经过图三展示了根本的训练前准备此外就是纯训练的经过。纯训练解决的是怎样将图三右边的特征向量分配到左边状态序列里的问题。DNN-HMM在2020年度前后由于深度学习的开展整个语音识别的框架开场转变成DNN-HMM。其实就是把原来用GMM对特征进展建模转换成用
5、神经网络去建模。由于神经网络从2020年度至今不断开展各种不同的构造不断出现也带来了不同的效果。DNN-HMM的根本构造如图四所示。图四DNN-HMM的根本构造DNN模型可以是纯DNN模型、CNN模型或者LSTM模型等。整个模型层只是在GMM根底上做交换。在这个时代模型构造整体上都是各种调优最经典的模型结果就是谷歌的CLDNN模型以及LSTM构造。?Context-DependentPre-TrainedDeepNeuralNetworksforLarge-VocabularySpeechRecognition?是公认的第一篇研究DNN-HMM的论文文中比照了GMM-HMM跟DNN-HMM的性
6、能如下表所示。而后谷歌、微软等公司在这一算法上不断推进在模型构造上各种挑战下面的表格是AlexGraves在?HybridspeechrecognitionwithdeepbidirectionalLSTM?里GMMDNN以及DBLSTM的性能比照该数据集用的是WSJ。从上述的实验结果中可以看到相对传统的GMM-HMM框架DNN-HMM在语音识别任务上可以获得全面的提升。DNN-HMM之所以获得宏大的成功通常被认为有三个原因第一DNN-HMM舍弃了声学特征的分布假设模型更加复杂精准第二DNN的输入可以采用连续的拼接帧因此可以更好地利用上下文的信息第三可以更好的利用鉴别性模型的特点。二、端到端语
7、音识别端到端语音识别是近年度来业界研究的热点主流的端到端方法包括CTCRNN-T以及LAS如图五所示。图五端到端语音识别方法CTC传统的模型训练还是比拟繁琐而且十分依赖HMM这套架构体系。真正脱离HMM的是CTC。CTC在一开场是由Hinton的博士生Grave发现的。CTC框架固然在学习传统的HMM但是抛弃了HMM中一些复杂的东西。CTC从原理上就解释的比HMM好因为强迫对齐的问题是会存在不确定因素或状态边界有时是分不清楚的但HMM必需要求分一个出来。而CTC的好处就在于它引入了一个blank概念在边界不确定的时候就用blank代替用尖峰来表示确定性。所以边界不准的地方我们就可以用blank
8、来替代而我们觉得确信的东西来用一个尖峰来表示这样尖峰经过迭代就越来越强如图六所示。图六CTC的工作原理CTC在业界的使用有2个方法有人把它当作声学模型使用有人把它当作语音识别的全部。但目前工业界系统都只把CTC当作声学模型来使用其效果更好。纯端到端的使用CTC做语音识别效果还是不够好。这里讲下chain模型Chain模型的起源来自kaldi。kaldi当时也想做CTC但发现kaldi体系下CTC效果不好但CTC的一些思想十分好后来DanPovey发现可以在此根底上做一些优化调整于是就把chain模型调好了。但在kaldi体系里chain模型的效果确实比原来模型的效果要更好这个在DanPovey
9、的论文中有解释。CTC时代的改良让语音识别技术朝着非常好的方向开展CTC还有一个奉献就是前面提到的建模单元CTC把建模单元从原来的cd-states调整为cdphone或者到后面的音节syllable或者到后面的字级别(char)。因此端到端的语音识别系统里就很少用前面细粒度的建模。目前很多公司的线上系统都是基于LSTM的CTC系统。CTC在业界用得最成功的论文是?FastandAccurateRecurrentNeuralNetworkAcousticModelsforSpeechRecognition?论文里探究出来在CTC领域比拟稳定的模型构造是5层LSTM的构造。这篇文章从LSTM是单
10、向还是双向建模单元是cdstate是ciphone还是最终的cdphone等问题进展探究。集中建模单元的比拟结果如下面的表格所示。从表格上可以看到性能最优的是cdphone的双向LSTM的CTC系统。但是由于双向在线上流式处理睬不好处理所以单向LSTM的性能也是可以承受的。谷歌还探究了区分度训练sMBR在CTC这套系统下带来了多少的性能提升结果如下面的表格所示。此外谷歌在这一阶段还探究了一套教CLDNN的模型构造构造如图七所示。图七CLDNN的模型构造该模型的整体性能比照如下整体CTC阶段以AlexGraves的论文为主线论文中从timit小数据集到最终谷歌上万小时数据集一步一步验证了CTC算
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 百分点 感知 智能 实验室 语音 识别 技术发展 阶段 探究
限制150内