微软提出极低资源下语音合成与识别新方法小语种不怕没数据!.docx
《微软提出极低资源下语音合成与识别新方法小语种不怕没数据!.docx》由会员分享,可在线阅读,更多相关《微软提出极低资源下语音合成与识别新方法小语种不怕没数据!.docx(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、微软提出极低资源下语音合成与识别新方法,小语种不怕没数据!|谭旭转载自微软研究院AI头条ID:MSRAsia编者按目前人类使用的语言种类有近7000种然而由于缺乏足够的语音-文本监视数据绝大多数语言并没有对应的语音合成与识别功能。为此微软亚洲研究院机器学习组结合微软亚洲互联网工程院语音团队在ICML2019上提出了极低资源下的语音合成与识别新方法帮助所有人都可以享受到最新语音技术带来的便捷。基于文本的语音合成Text-to-Speech,TTS以及自动语音识别AutomaticSpeechRecognition,ASR是语音处理中的两个典型任务。得益于深度学习的开展以及大量配对的语音-文本监视
2、数据TTS以及ASR在特定的语言上都到达了非常优秀的性能甚至超越了人类的表现。然而由于世界上大局部语言都缺乏大量配对的语音-文本数据并且采集这样的监视数据需要消耗大量的资源这使得在这些语言上开发TTS以及ASR系统变得非常困难。为解析决这个问题微软亚洲研究院机器学习组结合微软亚洲互联网工程院语音团队提出了一种极低资源下的语音合成以及识别的新模型方法仅利用20分钟语音-文本监视数据和额外的无监视数据就能生成高可懂度的语音。模型框架TTS将文本转成语音而ASR将语音转成文字这两个任务具有对偶性质。受到这个启发我们借鉴无监视机器翻译的相关思路利用少量的配对语音-文本数据和额外的不配对数据提出了一种接
3、近无监视的TTS以及ASR方法。首先我们利用自己监视学习的概念让模型分别建立对语言和语音的理解建模才能。详细来讲我们基于不成对的语音以及文本数据利用去噪自动编码器DenoisingAuto-Encoder,DAE在编码器-解码器框架中重建人为加有噪声的语音以及文本。其次我们使用对偶转换DualTransformation,DT来分别训练模型将文本转为语音以及将语音转为文本的才能aTTS模型将文本X转换为语音Y然后ASR模型利用转换得到语音-文本数据YX进展训练;bASR模型将语音Y转换为文本X然后TTS模型利用文本-语音数据XY进展训练。对偶转换在TTS以及ASR之间不断迭代逐步进步两个任务的
4、准确性。考虑到语音序列通常比其它序列学习任务如机器翻译的序列更长它们将更多地受到错误传播的影响在自回归模型生成序列时序列中上一个错误生成的元素将会对下一个元素的生成产生影响。因此生成序列的右侧局部通常比左侧局部差然后通过训练迭代导致模型生成的序列始终表现为右侧差。在低资源的场景下这种现象更为严重。因此我们进一步利用文本以及语音的双向序列建模BidirectionalSequenceModeling,BSM来缓解错误传播问题。这样一个文本或者语音序列可以从左到右生成可以以从右到左生成能防止模型始终生成某一侧较差的序列。最后我们设计了一个基于Transformer的统一模型架构可以将语音或者文本作
5、为输入或者输出以便将上述DAE、DT、BSM模块整合在一起以实现TTS以及ASR的功能。如上图所示图a描绘了DAE以及DT的转换流程图b展示了我们采用的Transformer模型构造图c显示了语音以及文本的输入输出处理模块。实验结果为了验证这一方法的有效性我们在英语上模拟低资源的场景选用LJSpeech数据集进展实验LJSpeech包含13100个英语音频片段以及相应的文本音频的总长度约为24小时。我们将数据集分成3组300个样本作为验证集300个样本作为测试集剩下的12500个样本用来训练。在这12500个样本中我们随机选择200个配对的语音以及文本数据剩下的数据当作不配对的语音文本数据。我
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 微软 提出 资源 语音 合成 识别 新方法 语种 不怕 数据
限制150内