基于blstm和ctc的藏语语音识别.pdf
《基于blstm和ctc的藏语语音识别.pdf》由会员分享,可在线阅读,更多相关《基于blstm和ctc的藏语语音识别.pdf(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、欢迎您阅读并下载本文档,本文档来源于互联网,如有侵权请联系删除!我们将竭诚为您提供优质的文档!年第期青海师范大学学报(自然科学版)J o u r n a l o fQ i n g h a iN o r m a lU n i v e r s i t y(N a t u r a lS c i e n c e)N o 基金项目:国家自然科学基金项目(S,),国家社科基金项目(B Y Y ,B Y Y ,B Y Y B,B Y Y )收稿日期:作者简介:南措吉(),青海同仁人,硕士研究生研究方向:藏信息处理,藏语语音处理基于B L S TM和C T C的藏语语音识别南措吉,才让卓玛,都格草,(泽库县人
2、民医院,青海 泽库 ;青海师范大学,西宁 ;青海省藏文信息处理与机器翻译重点实验室,青海 西宁 )摘要:随着深度学习理论的兴起,B L S TMC T C模型成为目前主流的语音识别声学模型之一本文借鉴国内外语音识别框架,结合藏语言文字特点,提出基于B L S TMC T C模型的藏语语音识别方法该方法以识别非特定人藏语连续语音为目标,通过提取语音的MF C C特征参数,建立了以音素为建模单元的藏语语音声学模型在不同建模单元下L S TMC T C模型和B L S TMC T C模型的对比实验表明,该方法能够充分利用上下文信息,具有较强的建模能力和语音识别效果关键词:藏语语音;建模单元;B L
3、S TM;C T C中图分类号:T P 文献标识码:A文章编号:()引言藏语是藏族与其他兄弟民族文化交流的桥梁,目前国内使用藏语人口约达 万,但大部分偏远藏区的基础教育薄弱,左右的藏族人只会(听、说)藏语而不识文字因此,研究藏语语音识别技术并将其应用到藏区的金融、电信、运输、旅游等行业,对推动藏区经济、科技和社会文化的发展具有重要意义近些年来,在大词汇量的非特定人连续语音识别中,利用循环神经网络(R e c u r r e n tN e u r a lN e t w o r k,R NN)及其变体长短时记忆网络(L o n gS h o r t T e r m M e m o r y,L S
4、TM)对语音进行声学建模已经成为一种主流的方法此方法解决了传统的深层神经网络(D e e pN e u r a lN e t w o r k,D NN)无法对时间序列上的变化进行建模的问题,双向L S TM大幅提升了语音识别系统的识别性能直到后来,G r a v e s等提出了链接时序分类(C o n n e c t i o n i s tT e m p o r a lC l a s s i f i c a t i o n,C T C)目标函数,并将其引入到R NN训练中,解决了隐马尔科夫模型(H i d d e nM a r k o vM o d e l,HMM)无法全局优化整个语音序列的问
5、题,并进一步提高了音素识别精度C T C直接将语音序列映射到标注序列所在的空间,消减了发音词典和语言模型等,简化了语音识别的步骤 基于注意力机制(a t t e n t i o n)的s e q s e q框架中,语音识别任务被定义为不定长的语音序列到不定长的文本序列的序列到序列(s e q s e q)的转换,同时结合注意力机制,可以通过单个模型,直接学习语音序列到文本序列的转换过程,其实现了声学信息和语言信息联合学习的功能然而,经典的s e q s e q模型需要以完整的一句语音作为输入,其输出时延相比C T C模型会大很多因此,a t t e n t i o n在大词汇量连续语音识别任务
6、上,比目前最好的语音识别系统的性能还有一定的差距语音识别方法有基于模板匹配(D TW)的方法、基于统计模型(HMM)的方法和基于神经网络的方法目前,比较主流的是基于神经网络的方法,但这种方法在藏语语音识别当中还不够成熟,存在不少问题比如:文献中采用大数据训练好的D NN模型,优化了数据稀疏问题以及自动生成决策树问题,但是它的藏字识别率较低文献中采用长短时记忆网络模型提取藏语声学特征,用隐马尔可夫模型进行识别,虽然识别率得到了提升,但使用的是传统的识别方法文献中结合C T C技术和藏语语言学知识,使用绑定的三音子模型作为建模单元,解决了数据稀疏问题,但训练语料的稀疏性严重降低了声学模型的区分度和
7、鲁棒性文献中引入时域卷积操作的R NNT i m e C o n vC T C模型,有效地简化了时域展开步骤长,提高了模型的训练和解码效率但它只验证了基于深层R NN的藏语语音识别声学模型,没有构建完整的藏语语音识别系统文献中结合藏语和汉语的共同发音特点,优化建模单元;釆用前馈序列记忆网络F S MN取代双向欢迎您阅读并下载本文档,本文档来源于互联网,如有侵权请联系删除!我们将竭诚为您提供优质的文档!第期南措吉,等:基于B L S TM和C T C的藏语语音识别L S TM作为端到端声学模型网络,增强了声学模型的鲁棒性,并加快了训练速度,但在藏语语音识别任务上,识别效果较差针对以上的不足点,本
8、文以基于非特定人的藏语连续语音识别为目标,建立深层的双向L S TM和C T C结合的端到端藏语语音识别,取得了比较理想的识别效果本文的藏语语音识别系统主要包括前端部分和后端部分前端部分对输入的原始语音进行预处理操作提取藏语语音的MF C C特征参数;后端部分以音素为建模单元,采用深层的双向L S TM为藏语语音序列建模,并通过C T C算法计算出损失值,用A d a m优化输入和输出序列之间对应关系 C T C输出的是整个序列的概率,这样减少了标签预定义的冗余工作相关技术 双向L S TMR NN的优点在于在输入和输出序列之间的映射过程中能利用上下文的相关信息,解决了基于序列的数据建模问题,
9、但是遇到序列过长或网络模型层数较多的情况时,R NN会存在训练不稳定,梯度消失或爆炸等问题为了克服R NN的记忆缺陷,G r a v e s 提出L S TM网络,它利用大量的记忆单元(c e l l)和复杂的信息处理方法来记忆上下文信息,从而对长时语音的相关性进行建模 L S TM网络中的每个神经元有一个输入门、遗忘门和输出门,可以选择性的记忆历史信息输入门确定输入何时进入记忆单元,遗忘门确定何时应记住前一时刻的记忆单元,并且输出门确定何时让记忆传到下一时刻其结构如下图所示图L S TM单元L S TM 单元可以由以下关于时间t,T的递推描述:it(Wx ixtWh iht Wc ict b
10、i)()ft(Wx fxtWh fht Wc fct bf)()ctftct itt a nh(Wx cxtWh cht bc)()Ot(Wx oxtWh ohtWc octbo)()htOtt a nh(ct)()其中,i是输入门,f是遗忘门,c是细胞激活,o是输出门,h是隐藏值的向量,是激活函数,b为各部分的偏移量,W c i是对角矩阵但是,单向L S TM只能利用历史信息对当前时刻的信息建模,不能引入未来的信息进行建模因此,为了充分利用未来的上下文信息,G r a v e s 等将双向长短期记忆网络(B i d i r e c t i o n a lL S TM,B L S TM)应用于
11、语音识别 B L S TM是由两个单向L S TM上下叠在一起组成,可以提供给输出层完整的过去和未来的上下文信息因此,B L S TM成为了后续的基于C T C训练准则、编码和解码以及注意力机制等模型的藏语语音识别系统的标配欢迎您阅读并下载本文档,本文档来源于互联网,如有侵权请联系删除!我们将竭诚为您提供优质的文档!青海师范大学学报(自然科学版)年 C T C技术C T C是一个目标函数,在该目标函数下,C T C不仅可以加快解码速度,还可以在训练过程中无需任何预先的对齐而自动优化输入和输出序列之间的对应关系它的输出层包含一个单独的单元,用于每一个转录标记(字符、音素等),加上一个额外的单元,
12、称为空(b l a n k)节点,对静音、字间停顿、字间混淆进行建模假设给定输入序列X(x,x,xT),t,T,对应的输出序列为Y(y,y,yT),其中yi(yi,yi,yki),i,K为第i帧的条件概率分布,则s o f t m a x分类层的输出为:Pr(k,t|x)e x p(ykt)k yk t()其中,K为所有标签个数(C网络输出层节点个数)C T C网络学习得到的长度为T的标注序列a是由 个音素和b l a n k构成的,那么,它的整个序列的概率为:Pr(a|x)TtP r(a,t|x)()对于给定的目标序列y,由于其他标注的重复性存在以及b l a n k插入的位置不同,a与y存
13、在多对一的关系因此可将对应关系重写如下:Pr(y|x)Pr(a|x)()其中,是ay的映射,表示的逆过程映射函数先合并相邻的重复出现的类后取掉空类,即给定标签序列y,C T C目标函数定义如下:C T C(X)l npr(y|x)()使用C T C时,网络输出本身表示转换概率由于在连续的时间步骤中去除了重复的标签映射情况变得更加复杂,这使得有必要将以空白结尾的对齐与以标签结尾的对齐区分开来 C T C解码的最佳路径就是在给定输入序列的情况下,找到概率最大的输出序列:aa r gm a xap(a|x)()其中,a为T帧输入序列的后验概率输出的最大值对应的标注序列基于B L S TMC T C模
14、型的藏语语音识别 声学特征提取声音是模拟信号,时域分析很难分析出语音信号的特性,因此,必须将声音波形转换为声学特征向量目前有许多声音特征提取方法,如线性预测倒谱系数(L i n e a rP r e d i c t i o nC e p s t r a lC o e f f i c i e n t s,L P C)、梅尔频率倒谱系数(M e l F r e q u e n c yC e p s t r a lC o e f f i c i e n t s,MF C C)和感知线性预测系数(P r e c e p t u a lL i n e a rP r e d i c t i o n,P L
15、 P)等其中MF C C是基于倒谱的,最符合人耳听觉感知机理,也是最普遍、最有效的声音特征提取算法,因此,本文采用MF C C提取声学特征参数但在提取MF C C前,先要对语音信号进行预处理(模数转换、预加重和加窗),并对时域信号进行快速傅里叶变换(F a s tF o u r i e rT r a n s f o r m a t i o n,F F T)得到线性频谱;再通过M e l带通滤波器组对获得M e l频谱,然后对其进行对数分析,得到对数频谱;最后对对数频谱进行离散余弦变换得到MF C C参数本文语音信号的采样率为 k H z,预加重系数为 ,窗口长度为 m s 倒频谱返回的数量为,
16、滤波器组的滤波器数量为,F F T的大小为 藏语建模单元的选择语音识别建模单元的选择是藏语语音识别系统中的关键问题,为后续的语音识别过程提供了重要保障同时,它决定了语音识别声学模型的训练质量和识别准确性一般可用于语音识别建模单元的有句子或短语、词、音节、音素建模单元的选择直接影响训练声学模型的规模,并且对训练数据的大小也有不同的要求选择较大的建模单元时,则需要大量的训练数据但由于藏语语音语料的缺乏,选择太大的建模单元会出现数据稀疏问题因此,本文根据语音识别系统的不同而选择合理的建模单元各种语言的结构不同,选取的建模单元是有所不同的,比如,汉语是单音节的语言,因此,通常选择音节作为建模单元;英语
17、是多音节的语言,大多数会选用音素作为建模单元目前,对藏语语音识别建模单元的选欢迎您阅读并下载本文档,本文档来源于互联网,如有侵权请联系删除!我们将竭诚为您提供优质的文档!第期南措吉,等:基于B L S TM和C T C的藏语语音识别取尚无权威性的研究结论藏语光常用的词汇数以万计,词汇量很大,并且存在各种变体常用的藏语单音节作为建模单元时,对语料的要求过高而会带来数据稀疏的问题,在训练数据中也很难包含所有的建模单元,从而导致每个建模单元很难有充足的训练样本,最终不能保证声学模型的可靠性因此,语料规模不大的情况下,单音节不太适合做藏语大词汇量连续语音识别的建模单元 音素是音节的最小部分,藏语是拼音
18、文字,在理论上选取音素作为藏语语音识别的建模单元比较合理依据藏语语音与语言学知识和藏文U n i c o d e编码字符段(即标准万国码,支持藏文字母,其编码范围是U F 到U F F F包括文字、数字和多个标点符号以及宗教所用的特殊符号,共有 个字符)的研究内容,选音素为藏语语音识别的建模单元,并语料库中共设置了 个音素,具体划分如下表所示表藏语声韵母音素及数字的划分表如上表所示,这 个音素包括声母、韵母和的藏语数字,其中声母部分包括三十个辅音音素(包括前加字、后加字以及基字)、上加字、下加字以及其他特殊字,总共有 个声母(单辅音);韵母包括个元音;数字到,总共有 个对于藏语的词汇来说,它的
19、发音是由很多音素构成的,不同的音素组合在一起构成不同的词汇,而且音素作为建模单元进行识别不会受到语言或者词汇的影响与限制 藏语语音声学模型目前,神经网络在语音识别领域已成为研究热点在语音声学模型中,基于神经网络的模型相对于传统的HMM模型在识别精度上有了非常明显的提升 B L S TM网络能挖掘输入特征中的有效时序信息,增强特征的区分性能和表达能力 C T C函数计算层则赋予模型直接计算输出序列后验概率的能力因此,本文利用B L S TM和C T C构建为藏语语音识别系统的声学模型本文所使用的语音是安多藏语,首先,对采集到原始语音数据进行预处理其次,提取语音特征参数,并采用B L S TM和C
20、 T C函数计算层的结合对长序列进行建模,充分挖掘上下文信息比如:藏语语音“(您好)”的时序为(x,x,xT),当这个序列输入到网络当中时,经过多个隐藏层数的网络处理后,通过最后一层s o f t m a x 层(它是一个投影层,用于分类)转化为输出序列(y,y,yT)这个输出序列作为C T C层的输入计算出实际音素序列的后验概率p(p,p,po|x,x,xT)训练过程中给定网络输入序列和实际音素序列的条件下,优化模型使得训练样本集的后验概率最大,在解码阶段通过集束搜索方法找到后验概率最大的的音素序列这种序列有多种可能性的情况时,用C T C计算最后真实序列值在藏语语音识别模型结构中,隐藏层使
21、用当前帧、当前帧的历史信息和当前帧的未来信息连接在一起作为下一个网络层的输入因此,网络的最高层可以学习到与上下文相关的帧历史信息、帧当前信息及帧未来信息每一次迭代过程中B L S TM层的输出被传递到s o f t m a x层,s o f t m a x层的每个单元对应着包括空格在内的 个标签,因此该模型对于给定的每一帧序列生成一个在标签上的概率分布由于C T C可以被视为直接优化输入序列与输出目标序列可能性的目标函数,在模型训练的期间,s o f t m a x层的输出会被输入到C T C层目标函数中图是利用多个隐藏层数的B L S TM网络和C T C函数结合建立的藏语语音识别声学模型框
22、架欢迎您阅读并下载本文档,本文档来源于互联网,如有侵权请联系删除!我们将竭诚为您提供优质的文档!青海师范大学学报(自然科学版)年图藏语语音识别的声学模型从图中可以看到,原始的藏语语音信号中提取MF C C特征参数,声学参数序列作为长短时记忆神经网络的输入;中间部分是一个深度长短时记忆神经网络,分别由输入层、输出层和多个的循环隐层构成,能够根据上下文信息输出当前语音帧对应的C T C标签概率;输出部分是一个C T C网络,最终可以通过网络输出概率在C T C网络中搜索得到输入语音序列对应的字符串识别结果实验结果及分析 实验数据本文的实验在L i n u x环境下将T e n s o r F l
23、o w 作为实验平台运行实验所用到的藏语语音是由 个说话人录制完成,其中采样率设为 k H z,声道为单声道录制人的性别包括 的男性和 的女性说话人都是能说流利安多藏语的青海、甘肃等地方的人录音文件的语料内容包括谚语、谜语、格言、小说和新闻语音库包含 个小时的录音数据,总计 句语音从该数据库中随机选取大约 h(句)录音数据作为训练集,挑选 句作为测试集使用MF C C提取藏语语音的特征参数并对其进行归一化处理,使用 个目标类标签训练的网络作为初始网络,该网络包含个隐藏层,每个隐层有 个记忆单元,输入层为语音的MF C C特征参数,输出层节点为 个,包括 个音素序列和个空节点 实验评测标准网络训
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 blstm ctc 藏语 语音 识别
限制150内