语音信号处理第6讲.优秀PPT.ppt
5.1 概述5.2端点检测5.3基音周期估计5.4共振峰估计语音信号是一种短时平稳信号时变,困难且携带包含语义、个人特征等有用信息特征参数应当能够比较精确地表达语音信号的特征,具有精确性和唯一性,是语音识别的基础20世纪40年头,提出的语谱图,对语音信号有很强的描述实力,形成最早的语音特征后来,人们发觉利用语音信号的时域特征可以从语音波形中提取反映语音特性的参数,如短时幅度,短时帧平均能量,短时帧过零率,短时自相关系数、平均幅度差函数等不仅能减小模板数目,运算量和存储量,还能消退冗余信息语音信号分帧提取,每帧构成一个矢量,即语音信号特征是一个矢量序列端点检测:一段语音信号中精确地找出语音信号的起始点和结束点目的:把有效的语音信号好无用的噪声信号分别在语音识别,语音增加,语音编码,回声抵消等系统中应用广泛语音端点检测方法分类(1)基于阈值的方法:依据语音信号和噪声信号的不同特征,提取每一段语音信号的特征并与设定的阈值进行比较(2)基于模式识别的方法,须要估计语音信号和噪声信号的模型参数来进行比较,鉴于模式识别方法自身困难度高,运算量大,很难应用到实时语音信号中端点检测本质上是依据语音和噪声的相同参数所表现出的不同特征来进行区分。传统的短时能量和过零率相结合的语音端点检测算法,短时过零率来检测清音,用短时能量来检测浊音,两者相协作实现了信号信噪比较大状况下的端点检测(以短时能量检测为主,短时过零率检测为辅)短时能量法(已讲)可以较好地区分出浊音和静音短时过零率(已讲)对于清音,其能量较小,会因为低于能量门限而被误判为静音,短时过零率可以区分静音和清音双门限法:基于短时能量(高门限)和过零率(低门限)的双门限端点检测算法(当低门限被超过时,有可能是噪声引起的,未必是语音的起先,当高门限被超过并在接下来的时间段内始终超过低门限时,意味着语音信号的起先)双门限法步骤:(1)计算短时能量(高门限)和过零率(低门限)(2)选取一个较高的门限 ,语音信号的能量包络大部分都在此门限之上,进行一次初判,语音起止点位于该门限与短时能量包络交点所对应的时间间隔之外(3)依据噪声能量,确定一个较低的门限 并从初判起点往左,从初判终点往右搜寻,分别找到能零比曲线 第一次与门限 ,相交的两个点,两点之间段就是用双门限方法所判定的语音段(4)以短时平均过零率为准,从低门限点往左右搜寻,找到短时平均过零率低于某阈值的两点,为语音的起止点注:门限值要通过多次试验来确定自相关法:(1)短时自相关(已讲)(2)由于两种信号的自相关函数存在极大的差异,可以利用这种差别来提取语音端点。依据噪声的状况,设置两个阈值 和 ,当相关函数最大值大于 时,便判定是语音;当相关函数最大值大于或小于 时,则判定为语音信号的端点。谱熵法熵表示信息的有序程度,语音的熵和噪声的熵存在较大的差异,可以体现语音和噪声在整个信号段中的分布概率谱熵语音端点检测方法是通过检测谱的平坦程度,达到语音端点检测的目的。谱熵定义:设语音信号时域波形为 ,加窗分帧处理后得到的第n帧语音信号为 ,其FFT表示为 ,k表示为第k条谱线。该语音帧在频域中的短时能量为:某一谱线k的能量谱为则每个频率重量的归一化谱概率密度函数为该语音帧的短时谱熵为:基于谱熵的端点检测:基于谱熵语音端点检测方法是通过检测谱的平坦程度,来进行语音端点检测的,为了更好地进行语音端点检测,接受语音信号的短时功率谱构造语音信息谱熵,从而对语音段和噪声段进行区分。检测思路:对语音信号进行分帧加窗,取FFT的点数计算每一帧的谱能量计算出每一帧中每个样本点的概率密度函数计算出每一帧的谱熵值设置判决门限依据各帧的谱熵值进行端点检测比例法(1)能零比的端点检测在噪声状况下,信号的短时能量和短时过零率会发生确定变更,严峻时会影响端点检测。如右图所示,语音信号的说话区间能量是向上凸起的,而过零率相反,是下凹的,这说明说话区间能量值大,过零率小,噪声区间能量值小,过零率大,从而可以检测语音端点比例法(1)能零比的端点检测为此,提出改进式能量 ,a为常数,适当的取值有助于区分噪声和清音进行限幅之后的过零率故能零比表示为 ,b为较小的常数,用于防止分母为零(2)能熵比的端点检测谱熵值类似于过零率,能熵比的表示为对数频谱距离法(自学)基音:一般的声音都是由发音体发出的一系列频率、振幅各不相同的振动复合而成的。这些振动中有一个频率最低的振动,由它发出的音就是基音,其余为泛音。基音周期是指声带振动频率的倒数。基音周期是语音信号最重要的参数之一,它描述了语音激励源的一个重要特征。基音周期信息在多个领域有着广泛的应用,如:语音识别、说话人识别、语音分析与综合以及低码率语音编码、发音系统疾病诊断、听觉残障者的语言指导等。由于汉语是一种有调语言,基音的变更模式称为声调,它携带着特别重要的具有辨意作用的信息,有区分意义的功能,所以,基音的提取和估计对汉语更是一个特别重要的问题。基音检测的主要困难在于:声门激励信号并不是一个完整周期的序列,在语音的头、尾部并不具有声带振动那样的周期性,有些清音和浊音的过度帧是很难精确地推断是周期还是非周期性的;在很多状况下,清音语音和低电平浊音语音段之间的过渡段是特别微小的,确定它是极其困难的;从语音信号中去除声道影响,干脆取出仅和声带振动有关的激励信号的信息并不简洁,例如声道的共振峰有时会严峻影响激励信号的谐波结构。这种影响在发音器官快速动作而共振峰也快速变更时,对对基音检测是最具危害性的。尽管基音检测有很多困难,但因为它的重要性,基音的检测提取始终是一个探讨的课题。为此提出了各种各样的基音检测算法,如自相关函数(ACF)法、峰值提取算法(PPA)、平均幅度差函数(AMDF)法、并行处理技术、倒谱法、简化逆滤波法(SIFT)谱图法、小波法这一节将介绍几种常用的基音提取方法。语音信号是非平稳的信号,所以对信号的处理都运用短时自相关函数。短时自相关函数是在信号的第N个样本点旁边用短时窗截取一段信号,做自相关计算所得的结果m表示窗函数是从第m点起先加入 自相关法自相关法语音信号语音信号s(m)s(m)经窗长为经窗长为N N的窗口截取为一段加窗语音信的窗口截取为一段加窗语音信号号Sn(m)Sn(m)后,定义后,定义Sn(m)Sn(m)的自相关函数的自相关函数(ACF),Rn(k)(ACF),Rn(k)(亦亦即语音信号即语音信号s(m)s(m)的短时自相关函数的短时自相关函数)为:为:Rn(k)Rn(k)不为零的范围为是不为零的范围为是k=(-N+1)k=(-N+1)(N1)(N1),且为偶函,且为偶函数。由数。由4 4章的分析可知,浊音信号的自相关函数在基章的分析可知,浊音信号的自相关函数在基音周期的整数倍位置上出现峰值;而清音的自相关函音周期的整数倍位置上出现峰值;而清音的自相关函数没有明显的峰值出现。因此检测是否有峰值就可推数没有明显的峰值出现。因此检测是否有峰值就可推断是清音或浊音,检测峰值的位置就可提取基音周期断是清音或浊音,检测峰值的位置就可提取基音周期值。值。clcclear all x=wavread(C:UsersDesktopbearings.wav);figure(1);stem(x,.);n=160;%取20ms的声音片段,即160个样点 for m=1:length(x)/n;%对每一帧求短时自相关函数 for k=1:n;Rm(k)=0;for i=(k+1):n;Rm(k)=Rm(k)+x(i+(m-1)*n)*x(i-k+(m-1)*n);end end p=Rm(10:n);%防止误判,去掉前边10个数值较大的点 Rmax,N(m)=max(p);%读取第一个自相关函数的最大值 end%补回前边去掉的10个点 N=N+10;T=N/8;%计算出对应的周期 figure(2);stem(T,.);axis(0 length(T)0 10);xlabel(帧数(n);ylabel(周期(ms);title(各帧基音周期);平均幅度差函数法(平均幅度差函数法(AMDFAMDF)语音信号的短时平均幅度差函数语音信号的短时平均幅度差函数(AMDF)Fn(k)(AMDF)Fn(k)定义为:定义为:与短时自相关函数一样,对周期性的浊音语音,与短时自相关函数一样,对周期性的浊音语音,Fn(k)Fn(k)也呈现与浊音语音周期相一样的周期特性,不过不同也呈现与浊音语音周期相一样的周期特性,不过不同的是的是Fn(k)Fn(k)在周期的各个整数倍点上具有谷值特性而在周期的各个整数倍点上具有谷值特性而不是峰值特性不是峰值特性因而通过因而通过Fn(k)Fn(k)的计算同样可以来确定基音周期。而对的计算同样可以来确定基音周期。而对于清音语音信号,于清音语音信号,Fn(k)Fn(k)却没有这种周期特性。利用却没有这种周期特性。利用Fn(k)Fn(k)的这种特性,可以判定一段语音是浊音还是清的这种特性,可以判定一段语音是浊音还是清音,并估计出浊音语音的基音周期。音,并估计出浊音语音的基音周期。但是,短时平均幅度差函数来估计基音周期时,要求窗但是,短时平均幅度差函数来估计基音周期时,要求窗长取得足够长。可以接受长取得足够长。可以接受LPCLPC逆滤波和中心削波处理逆滤波和中心削波处理等方法来削减输入语音中声道特性或共振峰的影响,等方法来削减输入语音中声道特性或共振峰的影响,供应基音周期估计效果供应基音周期估计效果 无论是利用自相关函数还是平均幅度差函数,语音帧应无论是利用自相关函数还是平均幅度差函数,语音帧应运用矩形窗运用矩形窗窗长的选择要合适,一般认为窗长至少应当大于两个基窗长的选择要合适,一般认为窗长至少应当大于两个基音周期,而为了改善估计结果,窗长应选的更长一些,音周期,而为了改善估计结果,窗长应选的更长一些,是帧信号包含足够多个语音周期是帧信号包含足够多个语音周期平均幅度差的计算无需乘法运算,其计算困难度较小,平均幅度差的计算无需乘法运算,其计算困难度较小,且基音周期点处的平均幅度差的谷点锐度比自相关函且基音周期点处的平均幅度差的谷点锐度比自相关函数的峰点锐度更尖锐,估值精度更高(缘由:平均幅数的峰点锐度更尖锐,估值精度更高(缘由:平均幅度差与语音信号幅度的快速变更比较敏感,影响估计度差与语音信号幅度的快速变更比较敏感,影响估计的精度)的精度)倒谱(倒谱(CEPCEP)法)法倒谱法是传统的基音周期检测算法之一,它利用语音信倒谱法是传统的基音周期检测算法之一,它利用语音信号的倒频谱特征,检测出表征声门激励周期的基音信号的倒频谱特征,检测出表征声门激励周期的基音信息。息。缘由:浊音语音的复倒谱中存在峰值,其出现时间等于缘由:浊音语音的复倒谱中存在峰值,其出现时间等于基因周期;而清音语音段的复倒谱则不出现这种峰值。基因周期;而清音语音段的复倒谱则不出现这种峰值。利用这一性质可以进行清利用这一性质可以进行清/浊音推断并估计浊音的基浊音推断并估计浊音的基音周期。音周期。步骤:步骤:计算复倒谱计算复倒谱解卷解卷提取出声门激励信息,在预期的基音周期旁边找寻峰值提取出声门激励信息,在预期的基音周期旁边找寻峰值假如峰值超过了预先设定的门限,则语音断定为浊音,假如峰值超过了预先设定的门限,则语音断定为浊音,而峰的位置就是基音周期的估值而峰的位置就是基音周期的估值假如不存在超出门限的峰值,则语音断定为清音假如不存在超出门限的峰值,则语音断定为清音假如计算的是依靠于时间的复倒谱,则可估计出激励源假如计算的是依靠于时间的复倒谱,则可估计出激励源模型及基音周期随时间的变更模型及基音周期随时间的变更 倒谱(倒谱(CEPCEP)法)法如前面所述,语音如前面所述,语音s(n)s(n)是由声门脉冲激励是由声门脉冲激励e(n)e(n)经声道响经声道响应应v(n)v(n)滤波而得。即:滤波而得。即:s(n)=e(n)*v(n)s(n)=e(n)*v(n)设三者的倒谱分别为设三者的倒谱分别为 及及 ,则有:,则有:可见,倒谱域中基音信息与声道信息可以认为是相对分可见,倒谱域中基音信息与声道信息可以认为是相对分别的。实行简洁的倒滤波方法可以分别并复原出别的。实行简洁的倒滤波方法可以分别并复原出e(n)e(n)和和v(n)v(n),依据激励,依据激励e(n)e(n)及其倒谱的特征可以求出基音及其倒谱的特征可以求出基音周期。周期。估计基音周期时,没有必要对语音波形完全解卷,所以估计基音周期时,没有必要对语音波形完全解卷,所以用倒谱用倒谱c(n)c(n)就完全可以,这样可以从困难的相位计算就完全可以,这样可以从困难的相位计算中解脱出来;中解脱出来;对于人耳而言,对语音信号的相位不很敏感,可以假定对于人耳而言,对语音信号的相位不很敏感,可以假定输入语音信号是最小相位序列,这样可由最小相位信输入语音信号是最小相位序列,这样可由最小相位信号法计算号法计算c(n)c(n)倒谱(倒谱(CEPCEP)法)法反应信息的倒谱峰,在过渡音和含噪语音中将会变得不反应信息的倒谱峰,在过渡音和含噪语音中将会变得不清晰甚至完全消逝。其缘由当然主要是因为过渡音中清晰甚至完全消逝。其缘由当然主要是因为过渡音中周期激励信号能量降低和类噪激励信号干扰或含噪语周期激励信号能量降低和类噪激励信号干扰或含噪语音中的噪声干扰所致。音中的噪声干扰所致。对于一帧典型的浊音语音的倒谱,其倒谱域中基音信息对于一帧典型的浊音语音的倒谱,其倒谱域中基音信息与声道信息并不是完全分别的,在周期激励信号能量与声道信息并不是完全分别的,在周期激励信号能量较低的状况下,声道响应较低的状况下,声道响应(特殊是其共振峰特殊是其共振峰)对基音倒对基音倒谱峰的影响就不行忽视。谱峰的影响就不行忽视。假如设法除去语音信号中的声道响应信息,对类噪激励假如设法除去语音信号中的声道响应信息,对类噪激励和噪声加以适当抑制,倒谱基音检测算法的检测结果和噪声加以适当抑制,倒谱基音检测算法的检测结果将有所改善,特殊对过渡语音的检测结果将有明显改将有所改善,特殊对过渡语音的检测结果将有明显改善。善。倒谱(倒谱(CEPCEP)法)法除去语音信号中的声道响应信息可以接受除去语音信号中的声道响应信息可以接受LPCLPC方法,此方法,此时语音信号可以表示为:时语音信号可以表示为:在预料分析之后,可构成逆滤波器在预料分析之后,可构成逆滤波器A(z)A(z)原始语音原始语音 逆滤波器逆滤波器A(z)A(z)进行逆滤波进行逆滤波 获得预料余获得预料余量信号量信号 基音信息基音信息 倒谱分倒谱分析析志向状况下不包含声道响应信息低通滤波抑制噪声干扰注:倒谱法一般采用汉明窗 简化逆滤波法(简化逆滤波法(SIFTSIFT)简化的逆滤波跟踪简化的逆滤波跟踪(SIFT)(SIFT)算法是相关处理法进行基音提算法是相关处理法进行基音提取的一种现代化的版本。取的一种现代化的版本。该方法的基本思想是:该方法的基本思想是:先对语音信号进行先对语音信号进行LPCLPC分析和逆滤波,获得语音信号的分析和逆滤波,获得语音信号的预料残差,然后将残差信号通过自相关滤波器滤波,预料残差,然后将残差信号通过自相关滤波器滤波,再作峰值检测,进而获得基音周期。语音信号通过线再作峰值检测,进而获得基音周期。语音信号通过线性预料逆滤波器后达到频谱的平坦化,因为逆滤波器性预料逆滤波器后达到频谱的平坦化,因为逆滤波器是一个使频谱子坦化的滤波器,所以它供应了一个简是一个使频谱子坦化的滤波器,所以它供应了一个简化的(亦即廉价的)频谱平滑器。预料误差是自相关化的(亦即廉价的)频谱平滑器。预料误差是自相关器的输入,通过与门限的比较可以确定浊音,通过协器的输入,通过与门限的比较可以确定浊音,通过协助信息可以削减误差。助信息可以削减误差。作用:将频谱包络渐渐平坦下去。得到的线性预料误差作用:将频谱包络渐渐平坦下去。得到的线性预料误差信号只包含有激励的信息,去除了声道影响。所以信号只包含有激励的信息,去除了声道影响。所以SIFTSIFT供应了一个简化的(廉价的)频谱平滑器。供应了一个简化的(廉价的)频谱平滑器。简化逆滤波法(简化逆滤波法(SIFTSIFT)简化逆滤波器的原理框图如图所示。其工作过程为:简化逆滤波器的原理框图如图所示。其工作过程为:语音信号经过语音信号经过8kHz8kHz取样后,通过取样后,通过0-900Hz0-900Hz的数字低通滤器,的数字低通滤器,其目的是滤除声道谱中声道响应部分的影响,使峰值检测其目的是滤除声道谱中声道响应部分的影响,使峰值检测更加简洁。更加简洁。然后降低取样率为原来的然后降低取样率为原来的1/41/4(因为激励序列的宽度小于(因为激励序列的宽度小于1 1 kHzkHz,所以用,所以用2kHz2kHz取样就足够了取样就足够了)提取降低取样率后的信号模型参数(提取降低取样率后的信号模型参数(LPCLPC参数)参数)内插提高采样率,复原到内插提高采样率,复原到8kHz8kHz检测出峰值及其位置就得到基音周期值。检测出峰值及其位置就得到基音周期值。一帧语音信号低通/带通滤波4:1降采样LPC分析逆滤波求预测误差计算预测误差自相关函数1:4曾采样峰值检测基音周期值 基音检测的后处理基音检测的后处理无论接受哪一种基音检测算法都可能产生基音检测错误,无论接受哪一种基音检测算法都可能产生基音检测错误,使求得的基音周期轨迹中有一个或几个基音周期估值使求得的基音周期轨迹中有一个或几个基音周期估值偏离了正常轨迹(通常是偏离到正常值的偏离了正常轨迹(通常是偏离到正常值的2 2倍或倍或1/21/2),),此状况如图所示。并称这种偏离点为基音轨迹的此状况如图所示。并称这种偏离点为基音轨迹的“野野点点”。基音周期轨迹以及轨迹中的“野点”为了去除这些野点,可以接受各种平滑算法,其中最常用的是中值平滑算法和线性平滑算法。1中值平滑处理中值平滑处理的基本原理是:设x(n)为输入信号,y(n)为中值滤波器的输出,接受一滑动窗,则n0处的输出值y(n0)就是将窗的中心移到n0处时窗内输入样点的中值。即在n0点的左右各取L个样点。连同被平滑点共同构成一组信号采样值(共(2L+1)个样值),然后将这(2L+1)个样值按大小次序排成一队,取此队列中的中间者作为平滑器的输出。L值一般取为1或2,即中值平滑的“窗口”一般套住3或5个样值,称为3点或5点中值平滑。中值平滑的优点是既可以有效地去除少量的野点,又不会破坏基音周期轨迹中两个平滑段之间的阶跃性变更。2.2.线性平滑处理线性平滑处理线性平滑是用滑动窗进行线性滤波处理,即:线性平滑是用滑动窗进行线性滤波处理,即:其中其中(m)(m),m=-Lm=-L,-L+1-L+1,0 0,1 1,2 2,LL为为2L+12L+1点点平滑窗,满足:平滑窗,满足:例如三点窗的权值可取为例如三点窗的权值可取为0.250.25,0.50.5,0.250.25。线性平滑在订。线性平滑在订正输入信号中不平滑处样点值的同时,也使旁边各样点的值正输入信号中不平滑处样点值的同时,也使旁边各样点的值做了修改。所以窗的长度加大虽然可以增加平滑的效果,但做了修改。所以窗的长度加大虽然可以增加平滑的效果,但是也可能导致两个平滑段之间阶跃的模糊程度加重。是也可能导致两个平滑段之间阶跃的模糊程度加重。为了改善平滑的效果,可以将中值平滑处理和线性平滑处理两为了改善平滑的效果,可以将中值平滑处理和线性平滑处理两种平滑技术结合起来运用。种平滑技术结合起来运用。3 3组合平滑处理组合平滑处理为了改善平滑的效果可以将两个中值平滑串接,图为了改善平滑的效果可以将两个中值平滑串接,图a a所示是将所示是将一个一个5 5点中值平滑和一个点中值平滑和一个3 3点中值平滑串接点中值平滑串接.另一种方法是将另一种方法是将中值平滑和线性平滑组合中值平滑和线性平滑组合,如图如图b b所示。为了使平滑的基音轨所示。为了使平滑的基音轨迹更贴近,还可以接受二次平滑的算法,全部算法的框图如迹更贴近,还可以接受二次平滑的算法,全部算法的框图如图所示。由于中值平滑和线性平滑都会引入延时,所以在实图所示。由于中值平滑和线性平滑都会引入延时,所以在实现上述方案时应考虑到它的影响。现上述方案时应考虑到它的影响。d d是一个接受裣延时的可是一个接受裣延时的可实现二次平滑方案。其中的延时大小可由中值平滑的点数和实现二次平滑方案。其中的延时大小可由中值平滑的点数和线性平滑的点数来确定。线性平滑的点数来确定。声道可以看成是一根具有非匀整截面的声管,在发音时起共鸣器的作用。当准周期脉冲激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率或简称共振峰。共振峰参数包括共振峰频率和频带宽度,它是区分不同韵母的重要参数。共振峰信息包含在语音频谱包络中,因此共振峰参数提取的关键是估计自然语音频谱包络,并认为谱包络中的最大值就是共振峰。提取共振峰特性最简便的手段是运用语谱仪。分析共振峰参数也可接受数字信号处理的方法,它可获得与语谱图相同的信息。但精确的共振峰估值是很困难的(缘由:虚假峰值、共振峰合并、高音调语音)为此,下面探讨常用的几种解决方法。带通滤波器组法带通滤波器组法这种方法类似于语谱仪,但由于运用了计算机,使滤波这种方法类似于语谱仪,但由于运用了计算机,使滤波器特性的选取更具敏捷性,实现框图如图所示。器特性的选取更具敏捷性,实现框图如图所示。这是共振峰提取的最早形式,与线性预料法相比,滤波这是共振峰提取的最早形式,与线性预料法相比,滤波器组法有些逊色。器组法有些逊色。但通过滤波器组的设计可以使估计的共振峰频率同人耳但通过滤波器组的设计可以使估计的共振峰频率同人耳的灵敏度相匹配,其匹配的程度比线性预料法要好。的灵敏度相匹配,其匹配的程度比线性预料法要好。带通滤波器组法提取共振峰 带通滤波器组法带通滤波器组法滤波器的中心频率有两种分布方法:滤波器的中心频率有两种分布方法:等间距地分布在分析频段上,则全部带通滤波器的带宽等间距地分布在分析频段上,则全部带通滤波器的带宽可设计成相同,从而保证了各通道的群延时相同。可设计成相同,从而保证了各通道的群延时相同。是非匀整地分布,例如为了获得类似于人耳的频率辨别是非匀整地分布,例如为了获得类似于人耳的频率辨别特性,在低频端间距小,高频端间距大,带宽也随之特性,在低频端间距小,高频端间距大,带宽也随之增加,这时滤波器的阶数必需设计成与带宽成正比,增加,这时滤波器的阶数必需设计成与带宽成正比,使得它们输出的群延时相同,不会产生波形失真。使得它们输出的群延时相同,不会产生波形失真。缺点:缺点:由于滤波器组中的滤波器数目有限,估计的共振峰频率由于滤波器组中的滤波器数目有限,估计的共振峰频率不行避开地存在误差;不行避开地存在误差;而且对共振峰带宽不易确定;而且对共振峰带宽不易确定;由于无法去除声门激励的影响,可能会造成虚假峰值。由于无法去除声门激励的影响,可能会造成虚假峰值。倒谱法倒谱法共振峰估计虽然可以干脆对语音信号求离散傅里叶变换共振峰估计虽然可以干脆对语音信号求离散傅里叶变换(DFTDFT),通过),通过DFTDFT谱来提取信号的共振峰参数,但是,谱来提取信号的共振峰参数,但是,干脆干脆DFTDFT的谱要爱基频谐波的影响,最大值只能出现的谱要爱基频谐波的影响,最大值只能出现在谐波频率上,因而共振峰测定误差较大。在谐波频率上,因而共振峰测定误差较大。为了消退基频谐波的影响,可以接受同态解卷技术,经为了消退基频谐波的影响,可以接受同态解卷技术,经过同态滤波后得到平滑的谱,这样简洁地检测峰值就过同态滤波后得到平滑的谱,这样简洁地检测峰值就可以干脆提取共振峰参数,这种方法更为有效和精确。可以干脆提取共振峰参数,这种方法更为有效和精确。倒谱运用对数运算和二次变换将基音谐波和声道的频谱倒谱运用对数运算和二次变换将基音谐波和声道的频谱包络分别开来。因此用低时窗包络分别开来。因此用低时窗l(n)l(n)从语音信号倒谱从语音信号倒谱c(n)c(n)中所截取出来的冲激响应中所截取出来的冲激响应h(n)h(n),能更精确地反映,能更精确地反映声道响应。声道响应。由由h(n)h(n)经经DFTDFT得到的得到的 ,就是声道的离散谱曲线。用,就是声道的离散谱曲线。用 代替干脆代替干脆DFTDFT的频谱,去除了激励引起的谐波波动,的频谱,去除了激励引起的谐波波动,可以更精确地得到共振峰参数。可以更精确地得到共振峰参数。倒谱法倒谱法如图所示,倒谱法求取语音频谱包络。倒谱法因为其频谱曲线的波动比较小,所以估计共振峰参数的效果是较好的,但其运算量太大。声门激励序列的倒谱,是以基音周期为周期的冲激序列声道冲激响应序列的倒谱,集中在n=0旁边的低倒谱 倒谱法倒谱法 声门激励序列的倒谱,是以基音周期为周期的冲激序列声道冲激响应序列的倒谱,集中在n=0旁边的低倒谱可在倒谱域用一个滤波器(倒滤波器)消退声门激励的影响利用逆傅立叶变换求c(n)时,为避开发生混叠,须要将N取得足够大 倒谱法倒谱法对于浊音和清音,倒谱法的检测效果不同:对于浊音和清音,倒谱法的检测效果不同:浊音时,若频谱包络的变换和基音峰值的变换在倒谱中浊音时,若频谱包络的变换和基音峰值的变换在倒谱中的间隔足够大,则频谱包络的变换很简洁识别。而声的间隔足够大,则频谱包络的变换很简洁识别。而声道冲激响应道冲激响应h(n)h(n)的倒谱的特性取决于声道传递函数的倒谱的特性取决于声道传递函数H(z)H(z)的极零点分布。当的极零点分布。当H(z)H(z)的极零点的模不是很接近的极零点的模不是很接近于于1 1时,将随时,将随n n的增加而快速减小。的增加而快速减小。清音时,声门激励序列具有噪声特性,其倒谱没有明显清音时,声门激励序列具有噪声特性,其倒谱没有明显峰值,且分布于从低倒谱域到高倒谱域的很宽的范围峰值,且分布于从低倒谱域到高倒谱域的很宽的范围内,因而在低倒谱域对声道响应的信息产生了影响。内,因而在低倒谱域对声道响应的信息产生了影响。留意:求得的声道模型对数谱与实际的声道对数谱之间留意:求得的声道模型对数谱与实际的声道对数谱之间将存在确定差别将存在确定差别 倒谱法倒谱法倒谱法存在的缺陷:倒谱法存在的缺陷:并不是全部的谱峰都为共振峰;并不是全部的谱峰都为共振峰;带宽的计算。带宽的计算。缘由:缘由:当两个共振峰很靠近时,发生谱重叠,很难从频谱曲线当两个共振峰很靠近时,发生谱重叠,很难从频谱曲线计算共振峰的带宽。计算共振峰的带宽。而且峰值检测器认为此处只存在一个共振峰。而且峰值检测器认为此处只存在一个共振峰。线性预料编码(线性预料编码(LPCLPC)法)法LPCLPC法的重要性在于供应了一组简洁的语音信号模型参法的重要性在于供应了一组简洁的语音信号模型参数,比较精确地表征了语音信号的幅度谱。数,比较精确地表征了语音信号的幅度谱。语音信号共振峰的语音信号共振峰的LPCLPC法的一个主要特点在于能够由预法的一个主要特点在于能够由预料系数构成的多项式中精确地估计共振峰频率和带宽。料系数构成的多项式中精确地估计共振峰频率和带宽。LPCLPC法可对语音信号进行参数解卷,它所供应的谱包络法可对语音信号进行参数解卷,它所供应的谱包络复原方法快速、精确并且在理论上完全得到了证明;复原方法快速、精确并且在理论上完全得到了证明;LPCLPC法的不足是其频率灵敏度和人耳不相匹配,但它仍法的不足是其频率灵敏度和人耳不相匹配,但它仍旧是一种最廉价、最优良且行之有效的方法旧是一种最廉价、最优良且行之有效的方法因为因为线性预料方法供应了一个优良的声道模型(条件是语线性预料方法供应了一个优良的声道模型(条件是语音基本上不含噪声)。音基本上不含噪声)。线性预料编码(线性预料编码(LPCLPC)法)法用用LPCLPC进行共振峰估计的两种方案:进行共振峰估计的两种方案:对全极模型的分母多项式对全极模型的分母多项式A(z)A(z)进行因式分解,即用任何进行因式分解,即用任何一种标准的求取复根的程序确定一种标准的求取复根的程序确定A(z)A(z)的根,依据求得的根,依据求得的根来确定共振峰的根来确定共振峰求根法求根法进行进行LPCLPC谱估计。谱估计。LPCLPC谱的特点是在信号的峰值处和信号谱的特点是在信号的峰值处和信号谱匹配的很好,因此能够精确地求得共振峰参数;即谱匹配的很好,因此能够精确地求得共振峰参数;即求出语音谱包络后,搜寻包络上的局部极大值,用峰求出语音谱包络后,搜寻包络上的局部极大值,用峰值检测器确定共振峰值检测器确定共振峰LPCLPC法常常可以得到比较尖锐的共振峰估计,比实际的法常常可以得到比较尖锐的共振峰估计,比实际的共振峰可能还要窄。共振峰可能还要窄。线性预料编码(线性预料编码(LPCLPC)法)法求根法求根法在语音信号的在语音信号的LPCLPC模型中,语音信号样本模型中,语音信号样本s(n)s(n)可由如下差可由如下差分方分方程表示程表示 为激励函数为激励函数 LPC LPC系数系数相应的数字滤波器传递函数相应的数字滤波器传递函数H(z)H(z)为为还可以表示为还可以表示为p p个极点的级联形式:个极点的级联形式:H(z)H(z)在在z-z-平面平面上的第上的第k k个极点个极点线性预料编码(线性预料编码(LPCLPC)法)法求根法求根法相应的数字滤波器传递函数相应的数字滤波器传递函数H(z)H(z)的级联形式:的级联形式:若若H(z)H(z)是稳定的,则全部极点都在是稳定的,则全部极点都在z-z-平面的单位圆内平面的单位圆内第第k k个共振峰的频率个共振峰的频率带宽带宽其中,其中,T T为语音信号采样周期为语音信号采样周期语音信号的共振峰能由数字激光器传递函数H(z)进行估计,最干脆的方式是对H(z)进行多项式求根,由所求的根来推断共振峰或谱形态极点