《连续型隐马尔可夫模型.pdf》由会员分享,可在线阅读,更多相关《连续型隐马尔可夫模型.pdf(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、收稿日期:1997204203.第一作者:男,34岁,讲师.3 国家自然科学基金、国家教育委员会博士点基金、广东省自然科学基金资助课题.连 续 型 隐 马 尔 可 夫 模 型(HMM)参 数 与 语 音 识 别3李四信韦岗(华南理工大学电子与通信工程系,广州510641)摘要提出了一种新的连续型隐马尔可夫模型(HMM)的概率密度函数,并导出了一系列的参数寻优迭代公式,与常用的概率密度函数相比,它的运算量较小,且不易产生计算时的上溢与下溢问题,把它用于HMM语音识别,效果较好.关键词连续型隐马尔可夫模型(HMM);特征矢量;观察矢量序列中图分类号TN 912.3影响隐马尔可夫模型(HMM)语音识
2、别率的原因是多方面的,其中,用有关资料中的特征观察矢量的连续概率密度函数,如高斯型混合密度函数,容易产生计算值的上溢或下溢问题,影响了识别率1,3,5.本文针对此问题进行了讨论,提出了新的连续型隐马尔可夫模型(HMM)的概率密度函数.根据线性预测编码(L PC)分析,对每帧语音采样数据,按照“最小均方误差”准测,求得一组最佳预测系数,由此组数据构成的矢量能较好地反映该帧语音信号的特征,同一个词,特定人不同时刻的发音,其L PC最佳预测系数图形具有一定的相似性,可以认为,同一个词,特定人不同时刻的发音,其同一特性的变化服从正态分布.图1语音识别结构设HMM的N个状态为S0,S1,SN-1,初始状
3、态概率分布为:=0,1,N-1,状态转移概率分布为A=(aij),其中 i为起始时刻取第i状态的概率,aij为由第i状态转移到第j状态的概率,在Si状态下输出特征矢量o的概率服从正态分布,对M个待识别的语音,每第32卷第1期华中师范大学学报(自然科学版)Vol.32 No.11998年3月JOURNAL OF CEN TRAL CH I NA NORMAL UN I V ERSITY(N at.Sci.)M ar.1998 1994-2007 China Academic Journal Electronic Publishing House.All rights reserved.http:
4、/一个都建立一个HMM模型参数(i)(i=0,1,2,M-1),有关详细内容见文献2.本文使用的模型识别原理如图1.1 HMM概率密度函数的选择与迭代计算公式的推导取信号采样率为8 kHz,8 Bit量化,取得语音信号数据序列,加汉明窗:w(n)=0.54-0.46cos(2n?191),n=0,1,2,191,0,n为其它数时,图2汉明窗取24 m s为一帧,共192个样本点,对它进行三分划分,取中间64个样本点,帧移为8 m s,帧重叠为64个样本点,对中间64个样本点求16维的自相关矢量,并进行整体归一化处理,再求12维的L PC倒谱系数矢量,构成特征矢量序列ot.设在第i状态下输出矢量
5、o的概率密度函数服从方差为单位阵的正态分布:pi(o)=1(2)D?2exp-12(o-i)(o-i),其中 i为矢量o的加权中值矢量,D为观察矢量o的维数,“”为矢量o-i的转置.于是连续HMM的参数为:=(,A,i).如果表征语音信号的特征矢量序列为o=(o0,o1,oT-1),记q=q0q1qT-1为N个状态S0,S1,SN-1的可重复排列,那么,在 下产生特征矢量序列O的概率为:p(O)=qq0aq0q1aqT-2qT-1pq0(o0)pq1(o1)pqT-1(oT-1)=1(2)-D T?2qq0aq0q1aqT-2qT-1exp-12T-1i=0(oi-qi)(oi-qi).上式中
6、,T一般取值在35至85之间,D一般取值在8至16之间,而和式中每一项的乘积因子都小于1,上式的第一个因子是一个接近于0.0的数,由此可见,此因子很容易引起概率值的下限溢出.为了防止下溢,记p3(O)=(2)D T?2p(O),于是,求P(O)的极大值就转化为求p3(O)的极大值.为了简化起见,仍把p3(O)记为p(O),并且,把上面的概率密度函数改写成:pi(o)=exp-12(o-i)(o-i),可以证明,这样处理,除了概率值放大(2)D T?2倍以外,HMM参数 保持不变,限于篇幅略去其证明,于是有:p(O)=qq0aq0q1aqT-2qT-1exp-12T-1i=0(oi-qi)(oi
7、-qi).记44华中师范大学学报(自然科学版)第32卷 1994-2007 China Academic Journal Electronic Publishing House.All rights reserved.http:/p(O,q)=q0aq0q1aqT-2qT-1exp-12T-1i=0(oi-qi)(oi-qi),考虑辅助函数:Q()=qp(O,q)lnp(O,q),其中:=(,A,i)为待求参数,=(,A,i)为已知初始参数.则Q()=qp(O,q)lnq0+T-1t=0lnaqt-1qt-12T-1t=0(ot-qt)(ot-qt),约束条件为:N-1i=0i=1,N-1j=
8、0aij=1.对,!,容易求得Q()的条件极值点为:i=p(O,q0=i)p(O),(1)aij=T-1t=1p(O,qt-1=i,qt=j)T-1t=1p(O,qt-1=i),(2)对加权中值矢量 i,用梯度法求极值点,记:ot=(ot0,ot1,otD-1),i=(i0,i1,iD-1),则T-1t=0(ot-qt)(ot-qt)=T-1t=0p-1d=0otd-q1d2,令5Q5 ik=0,qqt=ip(O,q)-12T-1t=0(-2)(otk-ik)=0,得到ikT-1t=0p(O,qt=i)otkT-1t=0p(O,qt=i),即i=T-1t=0p(O,qt=i)otT-1t=0p
9、(O,qt=i),(3)容易验证,(1),(2),(3)式的稳定点就是Q()的极大值点,以下,为了迭代方便,记初始参数为,求到的极大值点参数为,则易证p(O)p(O),可参看文献4.现定义:t(i)=p(o0o1ot,qt=i),t(i)=p(ot+1ot+2oT-1qt=i,),则前向递推算法为:初始:54第1期李四信等:连续型隐马尔可夫模型(HMM)参数与语音识别 1994-2007 China Academic Journal Electronic Publishing House.All rights reserved.http:/0(i)=ipi(o0)=iexp-12(o0-i)(
10、o0-i),(4)归纳:t+1(i)=N-1j=0p(o0o1ot,ot=i)jip(ot+1qt+1=i),=N-1j=0t(j)ajiexp-12(ot+1-1)(ot+1-i),(5)概率值:p(O)=N-1i=0T-1(i).(6)后向递推算法为:初始:T-1(i)=1,归纳:t-1(i)=N-1j=0p(ot,qt-1=i)aijp(ot+1ot+2oT-1,qt=j)=N-1j=0p(ot)ijt(j)=N-1j=0ijt(j)exp-12(ot-i)(ot-i),(7)其中i=0,1,N-1,t=0,1,T-1.且(1),(2),(3)的迭代公式变为:i=0(i)0(i)p(O)
11、,(8)aij=T-2t=0iijt+1(j)exp-12(ot-i)(ot-i)T-2t=0t(i)t(i),(9)i=T-1t=0t(i)t(i)otT-1t=0t(i)t(i),(10)其中i,j=0,1,N-1.这样,就得到了连续型HMM的全部参数训练公式(4)(10).2应用关于前端处理,用计算机的录音程序软件录下各语音数据,并把每个语音数据都编号储存起来.参看语音识别图1,打开语音数据文件,输入语音数据,把数据分帧,并加汉明窗,用12维的线性预测倒谱系数矢量进行数据压缩,得到表征语音特征的帧数据组矢量oi,于是,每个语音有一个观察矢量序列O=(o0,o1,oT-1).上述公式用于连
12、续密度HMM的语音识别系统,进行参数寻优训练,得到HMM语音特征矢量序列的优化参数,这里使用10个数字:0,1,2,3,4,5,6,7,8,9,特定人语音进行计算机模拟实验,信号采样率为8 kHz、单声道、8比特量化及一般的话筒输入方式,取得语音数据,每64华中师范大学学报(自然科学版)第32卷 1994-2007 China Academic Journal Electronic Publishing House.All rights reserved.http:/个数字有10个读音,其中用5个音进行训练,共50个训练语音,采用12维的线性预测(L PC)倒谱系数矢量,选取8个状态数,及一词
13、多HMM(i)模型的方法,得到一语音识别系统.识别时,输入新的语音数据,按本文的概率公式,求出各码本参数下的概率值,找到概率值最大的码本参数(i)的角标i,此角标所对应词的语音即为识别结果.使用本文的HMM模型参数及其迭代算法与一般的语音HMM模型识别系统相比,结果显示上述公式有以下优点:1)语音识别率比离散HMM模型的高约2.5%;2)运算量大为减小;3)运算数值不发生上限或下限溢出.参考文献1陈永彬,王仁华.语音信号处理.上海:上海交通大学出版社,1990.1422韦岗,邱伟.现代信号处理论与技术.广州:华南理工大学出版社,1994.2473Rabiner L,Juang B H.Fund
14、menials of Speecb Recognition.New York:Prentice2Hall Inc,1993.3454杨行峻,迟惠生.语音信号数字处理.北京:电子工业出版社,1995.3385王仁华,江辉.关于状态码本的准连续隐马尔可夫模型.信号处理,1996,12(2):24ON THE PARAM ETERSOF HI DDENMARKOVMODELS(HMM)AND SPEECH RECOGNITI ONL i SixinW ei Gang(Department of Electronic and Communication Engineering,South China
15、U niversity of Technology,Guangzhou 510641)AbstractIn speech(or pattern)recognition,the parameters of hidden M arkovmodels play an i mportante role,and inflence the rate of recognition derectly.In thispaper,the new probability density function is defined,and a series iterative formulasare derived.The experi ments of speech recognition prove that formulas are morevaluable.Key wordshidden M arkov models(HMM);feature vector;observation vector se2quence74第1期李四信等:连续型隐马尔可夫模型(HMM)参数与语音识别 1994-2007 China Academic Journal Electronic Publishing House.All rights reserved.http:/
限制150内