LPC 语音信号处理第3.6章.ppt
3.63.6语音信号的线性预测分析语音信号的线性预测分析3.73.7基间周期估计基间周期估计 (单独单独)3.83.8共振峰估计共振峰估计3.6 3.6 语音信号的线性预测分析语音信号的线性预测分析v线性预测分析线性预测分析的基本思想是:由于语音样点之间存的基本思想是:由于语音样点之间存在相关性,所以可以用过去的样点值来预测现在或在相关性,所以可以用过去的样点值来预测现在或未来的样点值,即一个语音的抽样能够用过去若干未来的样点值,即一个语音的抽样能够用过去若干个语音抽样或它们的线性组合来逼近。个语音抽样或它们的线性组合来逼近。v通过使实际语音抽样和线性预测抽样之间的误差在通过使实际语音抽样和线性预测抽样之间的误差在某个准则下达到最小值来决定唯一的一组预测系数。某个准则下达到最小值来决定唯一的一组预测系数。而这组预测系数就反映了语音信号的特性,可以作而这组预测系数就反映了语音信号的特性,可以作为语音信号特征参数用于语音识别、语音合成等。为语音信号特征参数用于语音识别、语音合成等。线性预分析的基本原理线性预分析的基本原理v线性预测分析的基本思想是:用过去线性预测分析的基本思想是:用过去p p个样点值来预测现在个样点值来预测现在或未来的样点值:或未来的样点值:v预测误差预测误差(n(n)为:为:v这样就可以通过在某个准则下使预测误差这样就可以通过在某个准则下使预测误差(n(n)达到最小值达到最小值的方法来决定惟一的一组线性预测系数的方法来决定惟一的一组线性预测系数a ai i(i i=1=1,2 2,p p)。)。线性预分析的基本原理线性预分析的基本原理v图图3-53-5的模型系统函数的模型系统函数H(zH(z)可以写成有理分式的形式:可以写成有理分式的形式:v采用全极点模型,传输函数为:采用全极点模型,传输函数为:v线性预测器线性预测器:v式中式中a ai i称为线性预测系数。从而,称为线性预测系数。从而,p p阶线性预测器的系统函数阶线性预测器的系统函数具有如下形式:具有如下形式:v预测误差为:预测误差为:v线性预测分析要解决的问题是:给定语音序列线性预测分析要解决的问题是:给定语音序列(显然,鉴于显然,鉴于语音信号的时变特性,语音信号的时变特性,LPCLPC分析必须按帧进行分析必须按帧进行),使预测误差,使预测误差在某个准则下最小,求预测系数的最佳估值在某个准则下最小,求预测系数的最佳估值a ai i,这个准则通这个准则通常采用常采用最小均方误差准则最小均方误差准则。v下面推导线性预测方程。把某一帧内的下面推导线性预测方程。把某一帧内的短时平均预测误差短时平均预测误差定定义为:义为:v为使为使EE2 2(n)(n)最小,对最小,对a aj j求偏导,并令其为零,有:求偏导,并令其为零,有:v采用最佳预测系数时,预测误差采用最佳预测系数时,预测误差(n(n)与过去的语音样点正与过去的语音样点正交。由于语音信号的短时平稳性,要分帧处理交。由于语音信号的短时平稳性,要分帧处理(10-30ms),(10-30ms),对对于一帧从于一帧从n n时刻开窗选取的时刻开窗选取的N N个样点的语音段个样点的语音段S Sn n,记记n n(j,i(j,i)为为v则有:则有:线性预测方程组的求解线性预测方程组的求解v对于语音段对于语音段S Sn n,它的自相关函数为:它的自相关函数为:v因此,可以定义因此,可以定义n n(j,i(j,i)为为v因此有:因此有:线性预测方程组的求解线性预测方程组的求解v把上式展开写成矩阵形式:把上式展开写成矩阵形式:v这种方程叫这种方程叫Yule-Yule-WslkerWslker方程方程,方程左边的矩阵称为,方程左边的矩阵称为托普利托普利兹兹(ToeplitzToeplitz)矩阵矩阵,它是以主对角线对称的、而且其沿着主,它是以主对角线对称的、而且其沿着主对角线平行方向的各轴向的元素值都相等。这种对角线平行方向的各轴向的元素值都相等。这种Yule-Yule-WslkerWslker方程可用方程可用莱文逊莱文逊-杜宾杜宾(Levinson(LevinsonDurbin)Durbin)递推算法递推算法来高效地求解。下面介绍来高效地求解。下面介绍DurbinDurbin快速递推算法。快速递推算法。线性预测方程组的求解线性预测方程组的求解v完整的递推过程为:完整的递推过程为:if ip go to(1)if ip go to(1)LPC特征案例v在本次实验中分别对h u t ao 这四个提取LPC特征v采样率为16000Hz,单声道.v帧长为32ms,帧移为16msv使用自相关法求解LPC特征5.LPC特征提取-hLPC系数为:-0.8202-0.4106 0.0765 -0.4185 0.3262 0.2405 0.2874 0.1080 -0.4481 0.3147 -0.1685-0.0854h的波形5.LPC特征提取-uLPC系数为:-2.0420 1.4623 -0.4832 -0.3253 0.5238 -0.0108 -0.0508 0.0054 -0.1332 0.1888 -0.1692 0.0549u的波形5.LPC特征提取-tLPC系数为:-1.0772 0.5986 -0.2074 -0.1201 -0.2620 0.1746 0.1952 -0.3134 0.1175 0.1708 -0.2086 -0.0512t的波形5.LPC特征提取-aoLPC系数为:-2.0912 1.9318 -1.3574 0.7663 -0.2111 -0.1302 0.4606 -0.3900 0.2447 -0.2715 0.1442 -0.0027ao的波形 LPCLPC谱估计和谱估计和LPCLPC复倒谱复倒谱1.LPC1.LPC谱估计谱估计v当求出一组预测器系数后,就可以得到语音产生模型的频率当求出一组预测器系数后,就可以得到语音产生模型的频率响应,即:响应,即:v因此在共振峰频率上其频率响应特性会出现峰值。所以线性因此在共振峰频率上其频率响应特性会出现峰值。所以线性预测分析法又可以看做是一种短时谱估计法。其频率响应预测分析法又可以看做是一种短时谱估计法。其频率响应H H(e(ejj)即称为即称为LPCLPC谱谱。LPCLPC谱估计和谱估计和LPCLPC复倒谱复倒谱1.LPC1.LPC谱估计谱估计vLPCLPC谱估计具有一个特点:在信号能量较大的区域即接近谱谱估计具有一个特点:在信号能量较大的区域即接近谱的峰值处,的峰值处,LPCLPC谱和信号谱很接近;而在信号能量较低的区谱和信号谱很接近;而在信号能量较低的区域即接近谱的谷底处,则相差比较大。这个特点对于呈现谐域即接近谱的谷底处,则相差比较大。这个特点对于呈现谐波结构的浊音语音谱来说,就是在谐波成分处波结构的浊音语音谱来说,就是在谐波成分处LPCLPC谱匹配信谱匹配信号谱的效果要远比谐波之间好得多。号谱的效果要远比谐波之间好得多。LPCLPC谱估计的这一特点谱估计的这一特点实际上来自均方误差最小准则。实际上来自均方误差最小准则。v从以上讨论我们知道如果从以上讨论我们知道如果p p选得很大,可以使选得很大,可以使|H(eH(ejj)|)|精确精确地匹配于地匹配于|S(eS(ejj)|)|,而且极零模型也可以用全极点模型来代,而且极零模型也可以用全极点模型来代替,但却增加了计算量和存储量,且替,但却增加了计算量和存储量,且p p增加到一定程度以后,增加到一定程度以后,预测平方误差的改善就很不明显了,因此在语音信号处理中,预测平方误差的改善就很不明显了,因此在语音信号处理中,p p一般选在一般选在8 81414之间。之间。LPCLPC谱估计和谱估计和LPCLPC复倒谱复倒谱2 2LPCLPC复倒谱复倒谱vLPCLPC系数是线性预测分析的基本参数,可以把这些系数变换系数是线性预测分析的基本参数,可以把这些系数变换为其他参数,以得到语音的其他替代表示方单。为其他参数,以得到语音的其他替代表示方单。LPCLPC系数可系数可以表示整个以表示整个LPCLPC系统冲激响应的复倒谱。系统冲激响应的复倒谱。v按上式求得的复倒谱按上式求得的复倒谱h h(n(n)称之为称之为LPCLPC复倒谱。复倒谱。vLPCLPC复倒谱由于利用了线性预测中声道系统函数复倒谱由于利用了线性预测中声道系统函数H(zH(z)的最小的最小相位特性,避免了相位卷绕问题;且相位特性,避免了相位卷绕问题;且LPCLPC复倒谱的运算量小,复倒谱的运算量小,它仅是用它仅是用FFTFFT求复倒谱时运算量的一半;又因为当求复倒谱时运算量的一半;又因为当p p时,时,语音信号的短时复频谱语音信号的短时复频谱S(eS(ejj)满足满足|S(eS(ejj)|=|)|=|H(eH(ejj)|)|,因,因而可以认为而可以认为h h(n(n)包含了语音信号频谱包络信息,即可近似包含了语音信号频谱包络信息,即可近似把把h h(n(n)当作当作s(ns(n)的短时复倒谱的短时复倒谱s s(n(n),来分别估计出语音短,来分别估计出语音短时谱包络和声门激励参数。在实时语音识别中也经常采用时谱包络和声门激励参数。在实时语音识别中也经常采用LPCLPC复倒谱作为特征矢量。复倒谱作为特征矢量。v对以上所介绍的进行总结可知,为了估计语音信号的短时谱对以上所介绍的进行总结可知,为了估计语音信号的短时谱包络,有三种方法:包络,有三种方法:由由LPCLPC系数直接估计语音信号的谱包系数直接估计语音信号的谱包络;络;由由LPCLPC倒谱估计谱包络;倒谱估计谱包络;求得复倒谱求得复倒谱s s(n(n),再用低,再用低时窗取出短时谱包络信息,这种方法称之为时窗取出短时谱包络信息,这种方法称之为FFTFFT倒谱。倒谱。LPCLPC谱估计和谱估计和LPCLPC复倒谱复倒谱3 3LPCLPC美尔倒谱系数美尔倒谱系数(LPCCMCC)(LPCCMCC)v由式由式(3-143)(3-143)求得复倒谱求得复倒谱h h(n(n)后,由后,由c(nc(n)=1/2h)=1/2h(n)+h(n)+h(-(-n)n)即可求出倒谱即可求出倒谱c(nc(n)。但是,这个倒谱。但是,这个倒谱c(nc(n)是实际频率尺是实际频率尺度的倒谱系数度的倒谱系数(称为称为LPCLPC倒谱系数:倒谱系数:LPCC)LPCC)。根据人的听觉特。根据人的听觉特性可以把上述的倒谱系数进一步按符合人的听觉特性的美尔性可以把上述的倒谱系数进一步按符合人的听觉特性的美尔(MEL)(MEL)尺度进行非线性变换,从而求出如下所示的尺度进行非线性变换,从而求出如下所示的LPCLPC美尔倒美尔倒谱系数谱系数(LPCMCC)(LPCMCC)。线谱对线谱对(LSP)(LSP)分析分析v线谱对分析线谱对分析也是一种线性预测分析方法,只是它求解的模型也是一种线性预测分析方法,只是它求解的模型参数是参数是“线谱对线谱对”(Line Spectrum Pair(Line Spectrum Pair,简称为,简称为LSP)LSP),它,它是频域参数,因而和语音信号谱包络的峰有着更紧密的联系;是频域参数,因而和语音信号谱包络的峰有着更紧密的联系;同时它构成合成滤波器同时它构成合成滤波器H(zH(z)时容易保证其稳定性,合成语音时容易保证其稳定性,合成语音的数码率也比用格型法求解时要低。的数码率也比用格型法求解时要低。v两边同时乘以两边同时乘以1 z1 z-1-1 z z-2-2 z z-p-p,得得:v分别将分别将k kp+1p+1=-1=-1和和k kp+1p+1=1=1时的时的A Ap+1p+1(z)(z)用用P(zP(z)和和Q(zQ(z)表示,可得:表示,可得:v这两个式子均为这两个式子均为p+1p+1阶多项式,则由上面二式可直接得出:阶多项式,则由上面二式可直接得出:v并有:并有:v所以如果知道了所以如果知道了P(zP(z)=0)=0和和Q(zQ(z)=0)=0的根,我们就可以求得的根,我们就可以求得A(zA(z)。v并且并且i i、i i按下列关系排列:按下列关系排列:v由于因式分解中的系数由于因式分解中的系数i i、i i成对出现,反映了谱的特性,成对出现,反映了谱的特性,故称为故称为“线谱对线谱对”。而且可以证明,。而且可以证明,P(zP(z)和和Q(zQ(z)的零点互相的零点互相分离,是保证合成滤波器分离,是保证合成滤波器H(zH(z)=1/A(z)=1/A(z)稳定的充分必要条件。稳定的充分必要条件。v从上面的分析可以看到,线谱对分析的基本出发点是将从上面的分析可以看到,线谱对分析的基本出发点是将A(zA(z)的的p p个零点通过个零点通过P(zP(z)和和Q(zQ(z)映射到单位圆上,这样使得这些映射到单位圆上,这样使得这些零点可以直接用频率零点可以直接用频率来反映,且来反映,且P(zP(z)和和Q(zQ(z)各提供各提供p/2p/2个个零点频率;而从物理意义上来说,零点频率;而从物理意义上来说,P(zP(z)和和Q(zQ(z)就对应着声门就对应着声门全开或全闭时的全反射情况全开或全闭时的全反射情况(因为反射系数是因为反射系数是k kp+1p+1=1)1)。v在用线谱对对语音信号进行分析时,主要的任务是要求解参在用线谱对对语音信号进行分析时,主要的任务是要求解参数数i i、i i。当。当A(zA(z)的系数的系数(线性预测系数线性预测系数 a ai i 求出后,我们求出后,我们可以采用下面的方法求可以采用下面的方法求P(zP(z)和和Q(zQ(z)的零点。的零点。1.1.用代数方程式求根用代数方程式求根v由于由于 v所以所以P(z)/(1+zP(z)/(1+z-1-1)=0)=0是关于是关于x x的一个的一个p/2p/2次代数方程。同理次代数方程。同理Q(z)/(1-zQ(z)/(1-z-1-1)=0)=0也是关于也是关于x x的一个的一个p/2p/2次代数方程。次代数方程。2.DFT2.DFT法法v对对P(zP(z)和和Q(zQ(z)的系数求离散傅里叶变换,得到的系数求离散傅里叶变换,得到zkzk=e e-j/N-j/N (k=0(k=0,1 1,N N1)(1)(实际中实际中N N值常取值常取6464128)128)各点的值,根各点的值,根据两点间嵌入零点的内插,能够推定零点。据两点间嵌入零点的内插,能够推定零点。3.8 3.8 共振峰估计共振峰估计v声道可以看成是一根具有非均匀截面的声管,在发音时起共声道可以看成是一根具有非均匀截面的声管,在发音时起共鸣器的作用。当准周期脉冲激励进入声道时会引起共振特性,鸣器的作用。当准周期脉冲激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率或简称共振峰。共振峰产生一组共振频率,称为共振峰频率或简称共振峰。共振峰参数包括共振峰频率和频带宽度,它是区别不同韵母的重要参数包括共振峰频率和频带宽度,它是区别不同韵母的重要参数。共振峰信息包含在语音频谱包络中,因此共振峰参数参数。共振峰信息包含在语音频谱包络中,因此共振峰参数提取的关键是估计自然语音频谱包络,并认为谱包络中的最提取的关键是估计自然语音频谱包络,并认为谱包络中的最大值就是共振峰。大值就是共振峰。v提取共振峰特性最简便的手段是使用语谱仪。分析共振峰参提取共振峰特性最简便的手段是使用语谱仪。分析共振峰参数也可采用数字信号处理的方法,它可获得与语谱图相同的数也可采用数字信号处理的方法,它可获得与语谱图相同的信息。下面讨论常用的几种。信息。下面讨论常用的几种。带通滤波器组法带通滤波器组法v这种方法类似于语谱仪,但由于使用了计算机,使滤波器特这种方法类似于语谱仪,但由于使用了计算机,使滤波器特性的选取更具灵活性,实现框图如图性的选取更具灵活性,实现框图如图3-303-30所示。这是共振峰所示。这是共振峰提取的最早形式,与线性预测法相比,滤波器组法有些逊色。提取的最早形式,与线性预测法相比,滤波器组法有些逊色。但通过滤波器组的设计可以使估计的共振峰频率同人耳的灵但通过滤波器组的设计可以使估计的共振峰频率同人耳的灵敏度相匹配,其匹配的程度比线性预测法要好。敏度相匹配,其匹配的程度比线性预测法要好。v滤波器的中心频率有两种分布方法:一种是等间距地分布在滤波器的中心频率有两种分布方法:一种是等间距地分布在分析频段上,则所有带通滤波器的带宽可设计成相同,从而分析频段上,则所有带通滤波器的带宽可设计成相同,从而保证了各通道的群延时相同。另一种是非均匀地分布,例如保证了各通道的群延时相同。另一种是非均匀地分布,例如为了获得类似于人耳的频率分辨特性,在低频端间距小,高为了获得类似于人耳的频率分辨特性,在低频端间距小,高频端间距大,带宽也随之增加,这时滤波器的阶数必须设计频端间距大,带宽也随之增加,这时滤波器的阶数必须设计成与带宽成正比,使得它们输出的群延时相同,不会产生波成与带宽成正比,使得它们输出的群延时相同,不会产生波形失真。形失真。带通滤波器组法带通滤波器组法 倒谱法倒谱法v虽然可以直接对语音信号求离散傅里叶变换(虽然可以直接对语音信号求离散傅里叶变换(DFTDFT)。)。然后然后用用DFTDFT谱来提取信号的共振峰参数,介是,直接谱来提取信号的共振峰参数,介是,直接DFTDFT的谱要爱的谱要爱基频谐波的影响,最大值只能出现在谐波频率上,因而共振基频谐波的影响,最大值只能出现在谐波频率上,因而共振峰测定误差较大。为了消除基频谐波的影响,可以采用同态峰测定误差较大。为了消除基频谐波的影响,可以采用同态解卷技术,经过同态滤波后得到平滑的谱,这样简单地检测解卷技术,经过同态滤波后得到平滑的谱,这样简单地检测峰值就可以直接提取共振峰参数,因而这种方法更为有效和峰值就可以直接提取共振峰参数,因而这种方法更为有效和精确。因为倒谱运用对数运算和二次变换将基音谐波和声道精确。因为倒谱运用对数运算和二次变换将基音谐波和声道的频谱包络分离开来。因此用低时窗的频谱包络分离开来。因此用低时窗l(nl(n)从语音信号倒谱从语音信号倒谱c(nc(n)中所截取出来的中所截取出来的h(nh(n),能更精确地反映声道响应。这样,能更精确地反映声道响应。这样,由由h(nh(n)经经DFTDFT得到的得到的H H(k(k),就是声道的离散谱曲线。用就是声道的离散谱曲线。用H H(k(k)代替直接代替直接DFTDFT的频谱,因为去除了激励引起的谐波波动,所的频谱,因为去除了激励引起的谐波波动,所以可以更精确地得到共振峰参数。以可以更精确地得到共振峰参数。倒谱法倒谱法v图图3-313-31所示为倒谱法求取语音频谱包络的原理。实验表明,所示为倒谱法求取语音频谱包络的原理。实验表明,倒谱法因为其频谱曲线的波动比较小,所以估计共振峰参数倒谱法因为其频谱曲线的波动比较小,所以估计共振峰参数的效果是较好的,但其运算量太大。的效果是较好的,但其运算量太大。倒谱法倒谱法v从线性预测导出的声道滤波器是频谱包络估计器的最新形式,从线性预测导出的声道滤波器是频谱包络估计器的最新形式,线性预测提供了一个优良的声道模型线性预测提供了一个优良的声道模型(条件是语音不含噪声条件是语音不含噪声)。尽管线性预测法的频率灵敏度和人耳不相匹配,但它仍是最尽管线性预测法的频率灵敏度和人耳不相匹配,但它仍是最廉价、最优良的行之有效的方法。廉价、最优良的行之有效的方法。v用线性预测可对语音信号进行解卷:即把激励分量归入预测用线性预测可对语音信号进行解卷:即把激励分量归入预测残差中,得到声道响应的全极模型残差中,得到声道响应的全极模型H(zH(z)的分量,从而就得到的分量,从而就得到这个分量的这个分量的a ai i参数。另外,也可以采用抛物线内插技术,解参数。另外,也可以采用抛物线内插技术,解决频率分辨率较低的情况下的共振峰频率值的求取,它的原决频率分辨率较低的情况下的共振峰频率值的求取,它的原理如图理如图3-223-22所示。所示。倒谱法倒谱法