HMM_语音信号处理第5章课件.ppt
《HMM_语音信号处理第5章课件.ppt》由会员分享,可在线阅读,更多相关《HMM_语音信号处理第5章课件.ppt(49页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、5.15.1概述概述5.25.2隐马尔科夫模型的引入隐马尔科夫模型的引入5.35.3隐马尔科夫模型的定义隐马尔科夫模型的定义5.45.4隐马尔科夫模型的基本算法隐马尔科夫模型的基本算法5.55.5隐马尔科夫模型的各种结构类型隐马尔科夫模型的各种结构类型5.65.6隐马尔科夫模型的一些实际问题隐马尔科夫模型的一些实际问题5.1 5.1 概述概述v隐马尔可夫模型隐马尔可夫模型(HMM)(HMM),作为语音信号的一种统计,作为语音信号的一种统计模型,今天正在语音处理各个领域中获得广泛的应模型,今天正在语音处理各个领域中获得广泛的应用。由于用。由于BellBell实验室实验室RabinerRabine
2、r等人在等人在8080年代中期对年代中期对HMMHMM的深入浅出的介绍,使的深入浅出的介绍,使HMMHMM为世界各国从事语音为世界各国从事语音信号处理的研究人员所了解和熟悉,进而成为公认信号处理的研究人员所了解和熟悉,进而成为公认的一个研究热点。近几十年来,隐马尔可夫模型技的一个研究热点。近几十年来,隐马尔可夫模型技术无论在理论上或是在实践上都有了许多进展。其术无论在理论上或是在实践上都有了许多进展。其基本理论和各种实用算法是现代语音识别等的重要基本理论和各种实用算法是现代语音识别等的重要基础之一。基础之一。 5.25.2隐马尔科夫模型的引入隐马尔科夫模型的引入vHMMHMM是一个输出符号序列
3、的统计模型,具有是一个输出符号序列的统计模型,具有N N个状个状态态 ,它按一定的周期从一个状态转移到另,它按一定的周期从一个状态转移到另一个状态,每次转移时,输出一个符号。转移到哪一个状态,每次转移时,输出一个符号。转移到哪一个状态,转移时输出什么符号,分别由状态转移一个状态,转移时输出什么符号,分别由状态转移概率和转移时的输出概率来决定。因为只能观测到概率和转移时的输出概率来决定。因为只能观测到输出符号序列,而不能观测到状态转移序列(即模输出符号序列,而不能观测到状态转移序列(即模型输出符号序列时,是通过了哪些状态路径,不能型输出符号序列时,是通过了哪些状态路径,不能知道),所以称为隐藏的
4、马尔可夫模型。知道),所以称为隐藏的马尔可夫模型。 12,NS SSv一个简单的三状态一个简单的三状态HMMHMM的例子的例子 v物理过程分析:建立模型来描述这个序列的特征是非常重要物理过程分析:建立模型来描述这个序列的特征是非常重要的。的。v如果在分析的区间内,信号是非时变的或平稳的,那么使用如果在分析的区间内,信号是非时变的或平稳的,那么使用众所周知的线性模型来描述该信号就可以了。例如,语音信众所周知的线性模型来描述该信号就可以了。例如,语音信号在短时间(约号在短时间(约101030ms30ms)内认为是平稳的,所以,在一段)内认为是平稳的,所以,在一段短时间内,就可以用一个全零点模型或极
5、零点模型来描述它,短时间内,就可以用一个全零点模型或极零点模型来描述它,这就是这就是线性预测(线性预测(LPCLPC)模型)模型。v但整体来讲,语音信号是时变的,所以用模型表示时,其参但整体来讲,语音信号是时变的,所以用模型表示时,其参数也是时变的。但是语音信号是慢时变信号,所以,简单的数也是时变的。但是语音信号是慢时变信号,所以,简单的考虑方法是:在较短的时间内用线性模型参数来表示,然后,考虑方法是:在较短的时间内用线性模型参数来表示,然后,再将许多线性模型在时间上串接起来,这就是再将许多线性模型在时间上串接起来,这就是马尔可夫链马尔可夫链(MarkovMarkov链)链)。vMarkovM
6、arkov链虽然可以描述时变信号,但不是最佳的和最有效的。链虽然可以描述时变信号,但不是最佳的和最有效的。 vHMMHMM既解决了用短时模型描述平稳段的信号,又解决了每个既解决了用短时模型描述平稳段的信号,又解决了每个短时平稳段是如何转变到下一个短时平稳段的。短时平稳段是如何转变到下一个短时平稳段的。vHMMHMM是由两个随机过程组成,一个随机过程描述状态和观察是由两个随机过程组成,一个随机过程描述状态和观察值之间的统计对应关系的,它解决了用短时模型描述平稳段值之间的统计对应关系的,它解决了用短时模型描述平稳段的信号的问题;由于实际问题比的信号的问题;由于实际问题比MarkovMarkov链模
7、型所描述的更为链模型所描述的更为复杂,观察到的事件并不是如复杂,观察到的事件并不是如MarkovMarkov链模型中与状态一一对链模型中与状态一一对应,所以应,所以HMM HMM 通过另一组概率分布相联系的状态的转移统计通过另一组概率分布相联系的状态的转移统计对应关系来描述每个短时平稳段是如何转变到下一个短时平对应关系来描述每个短时平稳段是如何转变到下一个短时平稳段的。稳段的。v语音识别的最大困难之一就是如何对语音的语音识别的最大困难之一就是如何对语音的发音速率及声学发音速率及声学变化变化建立模型。随着建立模型。随着HMMHMM被引入到语音识别领域中,这一棘被引入到语音识别领域中,这一棘手问题
8、得到了较圆满地解决。手问题得到了较圆满地解决。HMMHMM很好的描述了语音信号的很好的描述了语音信号的整体非平稳性和局部平稳性,是一种较为理想的语音信号模整体非平稳性和局部平稳性,是一种较为理想的语音信号模型。型。 5.35.3隐马尔科夫模型的定义隐马尔科夫模型的定义 离散离散MarkovMarkov过程过程 MarkovMarkov链是链是Markov Markov 随机过程的特殊情况,即随机过程的特殊情况,即MarkovMarkov链是状链是状态和时间参数都离散的态和时间参数都离散的MarkovMarkov过程。过程。v设在时刻设在时刻t t的随机变量用的随机变量用 、其观察值用、其观察值
9、用 表示,则如果当表示,则如果当 的前提下,的前提下, 的概率是如下式所示,则称的概率是如下式所示,则称其为其为n n阶阶MarkovMarkov过程过程tStsttsSsSsS,221111ttsS)|()|(11111111tnttntttttttsSsSPsSsSPv特别地,当如下式成立时,则称其为特别地,当如下式成立时,则称其为1 1阶阶MarkovMarkov过程,又叫过程,又叫单纯单纯MarkovMarkov过程。过程。 v系统在任一时刻所处的状态只与此时刻的前一时刻所处的状系统在任一时刻所处的状态只与此时刻的前一时刻所处的状态有关。而且,为了处理问题方便,我们只考虑上式右边的态有
10、关。而且,为了处理问题方便,我们只考虑上式右边的概率与时间无关的情况,即:概率与时间无关的情况,即:v同时满足:同时满足: v这里这里 是当时刻是当时刻t t从状态从状态i i在时刻在时刻t+1t+1到状态到状态j j的转移概率,的转移概率,当这个转移概率是与时间无关的常数时,又叫当这个转移概率是与时间无关的常数时,又叫 是具有是具有常数转移概率的常数转移概率的MarkovMarkov过程。过程。v 表示从状态表示从状态i i到状态到状态j j的转移是可能的。对于任意的的转移是可能的。对于任意的i,ji,j都有都有 则这个则这个MarkovMarkov过程是正则的。过程是正则的。)|()|(1
11、11111ttttttttsSsSPsSsSP|) 1,(1itjtijsSsSPttP0) 1,(ijttP1) 1,(1NjijttPijttP) 1,(,21SS0)(ijtP0)(ijtP 隐隐MarkovMarkov模型模型vHMMHMM是一个双内嵌式随机过程:由两个随机过程组成,一个是一个双内嵌式随机过程:由两个随机过程组成,一个是状态转移序列,它对应着一个单纯是状态转移序列,它对应着一个单纯MarkovMarkov过程。另一个是过程。另一个是每次转移时输出的符号组成的符号序列。每次转移时输出的符号组成的符号序列。v在语音识别的在语音识别的HMMHMM中,相邻符号之间是不相关的(这
12、当然不中,相邻符号之间是不相关的(这当然不符合语音信号的实际情况,这也是符合语音信号的实际情况,这也是HMMHMM的一个缺点,对此,的一个缺点,对此,已经有许多改进的已经有许多改进的HMMHMM被提出)。这二个随机过程,其中一被提出)。这二个随机过程,其中一个随机过程是不可观测的,只能通过另一个随机过程的输出个随机过程是不可观测的,只能通过另一个随机过程的输出观察序列观测。设状态转移序列为观察序列观测。设状态转移序列为 ,输出的符号序,输出的符号序列为列为 ,则在单纯,则在单纯MarkovMarkov过程和相邻符号之间是不相过程和相邻符号之间是不相关的假设下(即关的假设下(即 和和 之间转移时
13、的输出观察值之间转移时的输出观察值 和其他和其他转移之间无关),有下式成立转移之间无关),有下式成立:TsssS21ToooO211isisioiov因为是隐因为是隐MarkovMarkov模型,把所有可能的状态转移序列都考虑进模型,把所有可能的状态转移序列都考虑进去,则有:去,则有: 这就是上面我们计算输出符号序列这就是上面我们计算输出符号序列aabaab的输出概率时所用的的输出概率时所用的方法。方法。)|()|()(111iiiiiissPssPSP),|()|()|(11iiiiiiissoPsoPSOP),|()|()()|()(11iiiSSiiissoPssPSPSOPOP HMM
14、 HMM的基本元素的基本元素 根据以上的分析,对于语音识别用根据以上的分析,对于语音识别用HMMHMM可以用下面六个可以用下面六个模型参数来定义,即:模型参数来定义,即:v v : :模型中状态的有限集合,即模型由几个状态组成。设模型中状态的有限集合,即模型由几个状态组成。设有有N N 个状态,个状态, 。记。记t t时刻模型所处状态为时刻模型所处状态为 ,显,显然然 。在球与缸的实验中的缸就相当于状态。在球与缸的实验中的缸就相当于状态。v : :输出的观测值符号的集合,即每个状态对应的可能的输出的观测值符号的集合,即每个状态对应的可能的观察值数目。记观察值数目。记 个观察值为个观察值为 ,记
15、,记t t时刻观察到的观时刻观察到的观察值为察值为 ,其中,其中 。在球与缸实验中所选彩球的颜。在球与缸实验中所选彩球的颜色就是观察值。色就是观察值。 FBAOSM,SNiSSi, 2 , 1|ts),(1NtSSsOMMOO,1to),(1MtOOov : :状态转移概率的集合。所有转移概率可以构成一个转移状态转移概率的集合。所有转移概率可以构成一个转移概率矩阵,即:概率矩阵,即: 其中其中 是从状态是从状态 到状态到状态 转移时的转移概率,转移时的转移概率, 且且有有 , , 。在球与缸实验中,它指描述每次在当前。在球与缸实验中,它指描述每次在当前选取得缸的条件下选取下一个缸的概率。选取得
16、缸的条件下选取下一个缸的概率。 ANNNNaaaaA1111ijaiSjSNji ,110ijaNjija11v :输出观测值概率的集合。:输出观测值概率的集合。 ,其中,其中 是从状态是从状态 到状态到状态 转移时观测值符号的输出概率。即缸中球的颜色转移时观测值符号的输出概率。即缸中球的颜色 出现的概率。根据出现的概率。根据B B可将可将HMMHMM分为连续型和离散型分为连续型和离散型HMMHMM等。等。v :系统初始状态概率的集合,:系统初始状态概率的集合, : 表示初始状态是表示初始状态是 的概率,即,的概率,即, 在球与缸实验中,它指开始时选取某个缸的概率。在球与缸实验中,它指开始时选
17、取某个缸的概率。v :系统终了状态的集合。:系统终了状态的集合。 这里需要说明的是,严格地说这里需要说明的是,严格地说MarkovMarkov模型是没有终了状态模型是没有终了状态的概念的,只是在语音识别里用的的概念的,只是在语音识别里用的MarkovMarkov模型要设定终了状模型要设定终了状态。态。 B)(kbBij)(kbijiSjSk iiis1,(1)iiP SsiN1jFHMM的三个基本问题v概率估计问题:给定模型 和观察序列, 如何计算概率前向算法v最优状态序列问题:Viterbiv模型参数训练问题: 如何调整模型参数最大化Baum-Welch,BAM ToooO21)|(MOPT
18、sssS21)/(MOP5.4 5.4 隐马尔可夫模型的基本算法隐马尔可夫模型的基本算法 前向后向算法前向后向算法 v前向前向- -后向算法(后向算法(Forward-BackwardForward-Backward,简称为,简称为F-BF-B算算法)是用来计算给定一个观察值序列法)是用来计算给定一个观察值序列 以及以及一个模型一个模型 时,由模型时,由模型M M产生出产生出O O的概率的概率 v前向算法前向算法 v前向变量前向变量 可有下面的递推公式计算得到:可有下面的递推公式计算得到: ToooO21,BAM)|(MOP MiqoooPittt|,21(1 1)初始化)初始化 (2 2)递
19、推公式)递推公式 (3 3)最后结果)最后结果 1) 1 (00)(0j) 1(jitijijttobaij)()()(1Nji, 2 , 1,Tt, 2 , 1)()/(NMOPTv后向算法后向算法v后向变量后向变量 可由下面的递推公式计算得到:可由下面的递推公式计算得到:(1 1)初始化)初始化 (2 2)递推公式)递推公式(3 3)最后结果)最后结果 1)(NT0)(jT)(Nj jtijijttobaji)()()(111 , 1,TTtNji, 2 , 1,) 1 ()()/(011iNiiMOP MiqoooPitTttt,21The Viterbi AlgorithmvTo fi
20、nd the single best state sequence, q=(q1q2qT), for the given observation sequence O=(o1o2oT), we need to define the quantity1 2112112( )max(.,.| )tttttq qqiP q qqqi o oo18Viterbi AlgorithmvThat is , is the best score along a single path, at time t, which accounts for the first t observations and end
21、s in state i, by induction we have( )ti11( )max( )()ttijjtiji ab o19Viterbi AlgorithmvThe complete procedure for finding the best state sequence can now be stated as follows:1.Initialization111( )( )1( )0iiib oiNi 20Viterbi Algorithm2.Recursion3.Termination1111( )max( ) ( )1,2( )argmax( )1,2ttijjti
22、Nttiji Nji a b ojNtTji ajNtT 11max( )arg max( )TiNTTiNPiqi 21Viterbi Algorithm4. Path (state sequence) backtrackingvIt should be noted that the Viterbi algorithm is similar in implementation to the forward calculation.11(),1,2,.,1tttqqtTT 22B.Alternative Viterbi ImplementationvBy taking logarithms o
23、f the model parameters, the Viterbi algorithm of the preceding section can be implemented without the need for any multiplications, thus:23Viterbi Algorithm0. Preprocessinglog()1( )log ( )1,1log()1,iiititijijiNb ob oiNtTaai jN 24Viterbi Algorithm1.Initialization2.Recursion 1111( )log( )( )1( )01iiii
24、b oiNiiN 1111( ) log( ( ) max()( )( ) argmax()2,1tttijjti Nttiji Njjiab ojiat TjN 25Viterbi Algorithm3. Termination4. Backtracking 11m a x ( )a rg m a x ( )TiNTTiNPiqi11(),1,2,.,1tttqqtTT 26 Baum-Welch Baum-Welch 算法算法 v这个算法实际上是解决这个算法实际上是解决HMMHMM训练的,即训练的,即HMMHMM参数估计参数估计问题的。或者说,给定一个观察值序列问题的。或者说,给定一个观察
25、值序列 ,该算法能确定一个该算法能确定一个 ,使,使 最大。最大。Baum-Baum-WelchWelch算法利用递归的思想,使算法利用递归的思想,使 局部放大,局部放大,最后得到优化的模型参数最后得到优化的模型参数ToooO,21,BAM )/(MOP)/(MOP,BAM vBaum-WelchBaum-Welch算法算法vHMM_Training.pptHMM_Training.ppt5.5 5.5 隐马尔可夫模型的各种结构类型隐马尔可夫模型的各种结构类型 按照按照HMMHMM的状态转移概率矩阵(参数)分类的状态转移概率矩阵(参数)分类 v各态历经型或遍历型各态历经型或遍历型HMMHMM(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- HMM_ 语音 信号 处理 课件
限制150内