《语音信号处理第14章.ppt》由会员分享,可在线阅读,更多相关《语音信号处理第14章.ppt(47页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、14.114.1概述概述14.214.2语音特性、人耳感知特性及噪声特性语音特性、人耳感知特性及噪声特性14.314.3滤波法语音增强技术滤波法语音增强技术14.414.4利用相关特性的语音增强技术利用相关特性的语音增强技术14.514.5非线性处理法语音增强技术非线性处理法语音增强技术14.614.6减谱法语音增强技术减谱法语音增强技术14.714.7利用利用WeinerWeiner滤波法的语音增强技术滤波法的语音增强技术14.1 14.1 概述概述v语音信号作为信息的最普遍最直接的表达方式,在许多领域语音信号作为信息的最普遍最直接的表达方式,在许多领域具有广泛的应用前景。现实生活中的语音不
2、可避免的要受到具有广泛的应用前景。现实生活中的语音不可避免的要受到环境的影响。环境的影响。v噪声分类:噪声分类:按类别:可分为环境噪声等的加性噪声和残响及电器线路干按类别:可分为环境噪声等的加性噪声和残响及电器线路干扰等的乘法性噪声扰等的乘法性噪声 按性质:平稳噪声和非平稳噪声按性质:平稳噪声和非平稳噪声vLomBardLomBard现象:在噪声环境下,说话者情绪会发生变化,从现象:在噪声环境下,说话者情绪会发生变化,从而引起声带的变化(对语音处理系统的影响相对较小)而引起声带的变化(对语音处理系统的影响相对较小)国内外语音信号处理研究成果国内外语音信号处理研究成果 目前国内外的研究成果从增强
3、思想上主要分为以下三类:1)采用语音增强算法,提高语音识别系统前端预处理的抗噪声能力,提高输入信号的信噪比。(与后端应用无关)2)第二类方法是寻找稳健的耐噪声的语音特征参数。如采用短时修正的相干系数(Short-Time Modified Coherence Coefficient,简称为SMC)作为语音特征参数。3)第三类方法是基于模型参数适应化的噪声补偿算法,如针对加法性噪声的HMM合成法,和针对乘法性噪声的Stochastic Matching法等。通常只考虑到噪声环境是平稳的,在低信噪比语音以及非平稳噪声环境中的效果并不理想。14.214.2语音特性、人耳感知特性及噪语音特性、人耳感知
4、特性及噪声特性声特性语音特性语音特性v语音信号是一种非平稳的随机信号语音信号是一种非平稳的随机信号v任何语言的语音都有任何语言的语音都有元音元音和和辅音辅音两种音素,根据发两种音素,根据发音机理的不同,辅音又可以分为清辅音和浊辅音。音机理的不同,辅音又可以分为清辅音和浊辅音。v语音信号,作为非平稳、非遍历随机过程的样本函语音信号,作为非平稳、非遍历随机过程的样本函数,其短时谱的统计特性在语音增强中又着举足轻数,其短时谱的统计特性在语音增强中又着举足轻重的作用。(重的作用。(据中心极限定理,语音的短时谱的统计特性服从高斯分布。)14.2.2 人耳感知特性人耳感知特性v对于声波频率高低的感觉与实际
5、频率的高低不呈线对于声波频率高低的感觉与实际频率的高低不呈线性关系,而近似为对数关系;对频率的分辨能力受性关系,而近似为对数关系;对频率的分辨能力受声强的影响;对语音信号的幅度谱较为敏感,对相声强的影响;对语音信号的幅度谱较为敏感,对相位不敏感。位不敏感。v人耳掩蔽效应:人耳掩蔽效应:产生一个声音由于另外一个声音的产生一个声音由于另外一个声音的出现而导致该声音能被感知的阀值提高的现象。出现而导致该声音能被感知的阀值提高的现象。语音增强的最终效果度量是人耳的主观感觉,所以在语音增语音增强的最终效果度量是人耳的主观感觉,所以在语音增强中可以利用人耳感知特性来减少运算代价。强中可以利用人耳感知特性来
6、减少运算代价。v14.2.3 噪声特性噪声特性噪声可分为:噪声可分为:1.平稳和非平稳噪声平稳和非平稳噪声2.加法性噪声:冲激噪声、周期噪声、宽带噪声、语加法性噪声:冲激噪声、周期噪声、宽带噪声、语音音干扰干扰3.乘法性噪声:乘法性噪声:残响及传输网络的电路噪声残响及传输网络的电路噪声(非加性噪非加性噪声往往可以通过某种变换,如同态滤波,转为加性噪声声往往可以通过某种变换,如同态滤波,转为加性噪声)v(1)冲激噪声:例如放电,打火,爆炸都会引起冲激噪声,它的时域波形是类似于冲激函数的窄脉冲。消除冲激噪声影响的方法通常有两种:对带噪语音信号的幅度求均值,将该均值做为判断阈,凡是超过该阈值的均判为
7、冲激噪声,在时域中将其滤除;当冲激脉冲不太密集时,也可以通过某些点内插的方法避开或者平滑掉冲激点,从而能在重建语音信号去掉冲激噪声。v(2)周期噪声:最常见的有电动机,风扇之类周期运转的机械所发出的周期噪声,50Hz交流电源哼哼声也是周期噪声。在频谱图上它们表现为离散的窄谱,通常可以采用陷波器方法予以滤除。v3)宽带噪声:说话时同时伴随着呼吸引起的噪声,随机噪声源产生的噪声,以及量化噪声等都可以视为宽带噪声,应用中常近似为Gauss噪声或白噪声。其显著特点是噪声频谱遍布于语音信号频谱之中,导致消除噪声较为困难。一般需要采取非线性处理方法。v(4)语音干扰:干扰语音信号和待传语音信号同时在一个信
8、道中传输所造成语音干扰称为语音干扰。区别有用语音和干扰语音的基本方法是利用它们的基音差别。考虑到一般情况下两种语音的基音不同,也不成整数倍,这样可以用梳状滤波器提取基音和各次谐波,再恢复出有用语音信号。v(5)传输噪声:这是传输系统的电路噪声。与背景噪声不同,它在时间域里是语音和噪声的卷积。处理这种噪声可以采用同态处理的方法,把非加性噪声变换为加性噪声来处理。v通过语音增强技术来改善语音质量的过程如图14-1所示14.314.3滤波法语音增强技术滤波法语音增强技术14.3.1 陷波器法陷波器法 对于周期噪声采用陷波器是较为简便和有效的对于周期噪声采用陷波器是较为简便和有效的方法,其基本思路和要
9、求是设计的陷波器的幅频曲方法,其基本思路和要求是设计的陷波器的幅频曲线的凹处对应于周期噪声的基频和各次谐波如图线的凹处对应于周期噪声的基频和各次谐波如图14.2所示,并通过合理设计使这些基频处的陷波宽所示,并通过合理设计使这些基频处的陷波宽度足够窄。度足够窄。v简单的数字陷波器的传递函数如下简单的数字陷波器的传递函数如下:由由 可以看出可以看出 的频率将被的频率将被滤除掉。根据数字信号处理的基本知识可以知道,数字滤波滤除掉。根据数字信号处理的基本知识可以知道,数字滤波器的极零点接近时,信号频谱变化较为缓慢,而在陷波频率器的极零点接近时,信号频谱变化较为缓慢,而在陷波频率处急剧衰减,故引入反馈:
10、处急剧衰减,故引入反馈:当当 越接近越接近1时,分母在零点附近处由抵消作用,梳齿带宽时,分母在零点附近处由抵消作用,梳齿带宽变得越窄,通带较为平坦,陷波效果越好。其模拟框图如图变得越窄,通带较为平坦,陷波效果越好。其模拟框图如图14-3所示所示v14.3.2 自适应滤波器自适应滤波器1.基本型基本型 自适应滤波器最重要的特性是能有效地在未知环境中跟踪时自适应滤波器最重要的特性是能有效地在未知环境中跟踪时变的输入信号,使输出信号达到最优,因此可以用来构成自变的输入信号,使输出信号达到最优,因此可以用来构成自适应的噪声消除器,其基本原理框图如图适应的噪声消除器,其基本原理框图如图14-4所示。所示
11、。v图中s(t)为语音信号,n(t)为未知噪声信号,y(t)带噪语音信号,r(t)为参考噪声输入,r(t)与s(t)无关,而与n(t)相关。v图14-4中将 看作是r(t)估计y(t)而得到的误差,据最小均方准则,当 为最小时的误差 也就是降噪后的 。这里采用LMS递推算法简要说明横向滤波器系数的求法。设横向滤波器的加权向量记为 ,误差信号 ,则有:为噪声 的输入向量。设代价函数为:对上式求导,可以得到最小均方意义下的最佳系数向量为:下面不加证明的给出Widrow-Hoff的LMS算法加权系数递推公式:v2对称自适应去相关的改进型 实际应用中,参考输入 r(t)除包含与噪声相关的参考噪声外,还
12、可能含有低电平的信号分量。图14-5给出了原始语音信号 s(t)通过一个传输函数为 J(t)的信道泄露到参考输入中的情景。为了解决信号分量的泄露导致系统性能恶化的问题,D.Van Compernolle 提出了对称自适应去相关(SAD)算法,其基本原理如图14-6所示。v3 用延迟的改进型 从图14-4和图14-6中可以看出自适应滤波器需要有与n(t)相关的参考噪声r(t)输入,这在实际应用中往往比较困难,如果噪声相关性较弱时(例如白噪声),有如图14-7所示的改进型。14.414.4利用相关特性的语音增强技术利用相关特性的语音增强技术v14.4.1 自相关处理抗噪法语音增强技术自相关处理抗噪
13、法语音增强技术 此方法利用语音信号本身相关,而语音与噪声、噪此方法利用语音信号本身相关,而语音与噪声、噪声与噪声可认为互不相关的性质,对带噪语音信号声与噪声可认为互不相关的性质,对带噪语音信号作自相关处理,可以得到与不带噪语音信号同样的作自相关处理,可以得到与不带噪语音信号同样的自相关帧序列。下面说明:自相关帧序列。下面说明:设带噪语音为:设带噪语音为:其中,为纯净语音信号,为近似白噪声的噪声信号。考虑到他们的短时平稳的特性,计算 的自相关函数 式中 为短时平稳所加的时间窗函数。上式第一项为纯净语音信号的自相关,第二项到第四项分别为语音与噪声、噪声与噪声的相关函数。由于语音信号与噪声、噪声与噪
14、声可认为互相不相关。所以上式第二项到第四项的积分结果可认为是近似为零或甚小。这样就有:即 与噪声无关,只约等于纯净语音的自相关函数 。所以,如果将自相关系数作为识别系统的特征,就可以达到抗噪的目的。由于自相关处理时会产生二次谐波,因此不宜直接用带噪语音信号y(t)的自相关系数作为识别特征,而应采用帧信号平方的自相关系数作为识别特征。即如图14-8所示。v14.4.2 利用复数帧段主分量特征的降噪方法利用复数帧段主分量特征的降噪方法 复数帧段特征量就是采用相继的复数帧组成的特征参数矢量作为语音识别输入特征量的方法,它是在语音识别中利用语音帧间相关信息最直接最简便的方法。为了在复数帧特征中进一步加
15、强降噪措施,可利用主分量分析方法,求取复数帧段参数特征的主分量特征。方法如下:设有N个D维样本 ,则根据这些抽样样本,由(14-11)和(14-14)两式求取相关矩阵R。这里,是相关系数,是样本的方差或协方差,是样本各维变量的均值。然后求出满足式(14-13)的矩阵R的本征值 和本征向量 这里,D维的本征向量 又被称为主分量基向量。14.514.5非线性处理法语音增强技术非线性处理法语音增强技术v14.5.1 中心削波法中心削波法 对于噪声频谱遍布于语音信号频谱之中的宽带噪声,如果噪声振幅比大部分的语音信号低,则削去低振幅成分也就削去了宽带噪声。我们在频域中采用中心限幅的方法,即让带噪语音信号
16、通过一限幅滤波器,高幅度频谱可以通过而低幅不允许通过,实现抗噪。v14.5.2 通态滤波法通态滤波法 加性噪声适用线性滤波,非加性则适用同态滤波法,其降噪过程的原理框图如图14-9所示。同台滤波器可以用于识别系统的预处理,常适用倒谱这一特征,所以求出带非加性噪声的语音信号的倒谱以后,可以利用倒谱均值规整(CMN)降噪声技术,清楚带非加性噪声的语音信号的倒谱的噪声成分,从而获得语音增强的倒谱。利用CMN方法抑制由输入和传输电路系统引起的乘法性噪声的原理是:设对于第t帧语音,带噪语音的倒谱是 、纯净语音的倒谱是 、噪声的倒谱是 、除噪后增强语音的倒谱是 ,则有关系:设 为整个带噪语音输入语句(共N
17、帧)的倒谱平均值,由于每一帧的噪声的倒谱相同,则有:利用CMN法处理得到的语音增强的倒谱为:以上的方法是传统的CMN方法,由于它用整个带噪语音输入语句(共N帧)来求倒谱平均值 ,所以又称为长时CMN方法。这种方法存在两个问题,一是由于输入语句中音素的出现频率会改变 的大小,直接影响规整的效果。二是必须到终点为止计算完成以后,才能算出 ,影响了实时性。为此,可以仿照HMM参数的最大后验概率(MAP)学习算法,利用(MAP)算法来提高计算 的精度,即:MAP算法是渐进自适应方式,样本是逐个输入的,k随着逐个输入而增加。式中 是自适应训练系数,可由实验确定。是表示先验部分的初始估计值,可由学习数据确
18、定。14.614.6减谱法语音增强技术减谱法语音增强技术v14.6.1 基本原理基本原理 减谱法是处理宽带噪声较为传统和有效的方法,其基本思想是在假定加性噪声与短时平稳的语音信号相互独立的条件下,从带噪语音的功率谱中减去噪声功率谱,从而得到较为纯净的语音功率谱。如果设 为纯净语音信号,为噪声信号,为带噪语音信号,则有:用 分别表示 的傅里叶变换,可得下式:由于假定语音信号与加性噪声是相互独立的,因此有:因此,如果用 分别表示 的功率谱,则有:而由于平稳噪声的功率谱在发声前和发声期间可以认为基本没有变化,这样可以通过发声前的所谓的“寂静段”(认为在这一段里没有语音只有噪声)来估计噪声的功率谱 ,
19、从而有:这样减出来的功率谱可以认为是较为纯净的语音功率谱,然后,从这个功率谱可以恢复降噪后的语音时域信号。在具体计算时,为防止出现负功率谱的情况,减谱时当 时,令 ,即完整的减谱公式如下:减谱法语音增强技术的基本原理图如图14-10所示。图中处理频域过程只考虑了功率谱的变换,而最后IFFT变换中需要借助相位谱来恢复降噪后的语音时域信号。依据人耳对相位不敏感之一特点,这时可用原带噪语音 的相位谱来代替估计之后的语音信号的相位谱来恢复降噪后的语音时域信号。v14.6.2 基本减谱法的改进基本减谱法的改进 1.被减项加权值处理被减项加权值处理 如式(14-23)的基本减谱法对于整个语音段采用减去相同
20、噪声功率谱 的办法,实际处理效果不是很理想,原因:语音能量集中于某些频段,其幅度相对较高,尤其是共振峰处的幅度一般远大于噪声,不应用同一标准处理。有时减谱后仍然会有较大的残余噪声。改进的方法是在幅度较高的时帧处减去 ,这样可以更好的突出语音谱,抑制纯音噪声,改善降噪性能;其次,在语音谱中保留少量的宽带噪声,在听觉上可以起到掩蔽纯音的作用。考虑到这两个方面,改进后的减谱公式如下:2.功率谱修正处理功率谱修正处理 将图14-10中的功率谱计算 和 改进为 和 可以得到新的更据一般性的减谱法形式。这种方法称为功率谱修正处理,它可以增加灵活性,修正后的功率谱为:令 代入公式(14-23)或式(14-2
21、4)即得减谱法的改进形式。适当调节式(14-24)中的a b k取值可以得到更佳的增强效果,其灵活性也不言而喻。3.具有输入幅值谱自适应的减谱法具有输入幅值谱自适应的减谱法 传统的减谱法考虑噪声为平稳噪声,a一般取相同的值,而在非平稳噪声的实际环境下,采用相同的权值a有可能发生减除过多或过少的问题,使得有的区段要么噪声消除不够,要么减除过多产生 失真。为此,应该对传统的减谱法坐如下修改。首先,对于噪声功率估计,采用如下式,在整个区域用语音以外的当前输入帧 对噪声功率进行逐帧逐次更新:其次,让权值a和输入语音功率相适应,即按如下式随输入语音功率谱值改变。式中 和 为门限阀值,和 为常数,可有实验
22、确定。对噪声功率进行逐帧逐次更新时,噪声功率估计采用语音段开始的前几帧来估计,可以采用带噪语音前后能量比来确定语音段和寂静段:(帧长是N)是第i帧处理后的值,为处理前的值。以上介绍了减谱法语音增强以及它的几种改进形式。在减谱法语音增强的实际应用中还需要注意:减谱法假定语音信号是短时平稳的,因此需要输入语音信号加窗后再予以处理。这样前式就应写成 其下标t表示加窗分帧后的第t帧。14.714.7利用利用WeinerWeiner滤波法语音增强滤波法语音增强技术技术 本节主要讨论在最小均方准则下用Weiner滤波器实现对语音信号的估计,即对于带噪语音信号 (其中 为纯净语音信号,为噪声信号),确定滤波
23、器的冲击响应 ,使得带噪语音信号经过该滤波器的输出 能够满足 最小(为滤波器输出)。v基本原理基本原理 假定 和 都是短时平稳随机过程,则由Winer-Hopf 积分方程为:两边取傅里叶变换有:从而得到:再由于:并且考虑到由于 和 相互独立,所以有:将式(14-32)和式(14-33)代入式(14-31),则有下式成立:以上推到过程是在短时平稳的前提下进行的,所以语音信号必须是加窗后的短时帧信号。可以由类似于减谱法中讨论的方法得到;可以用带噪语音功率谱减去噪声功率谱得到。v14.7.2 Weiner滤波的改进形式滤波的改进形式 类似与减谱法的改进形式,我们也可以讨论Weiner滤波的改进,令:、取值不同,也将呈现不同的特性。式(14-34)只是 的情况。当 、时,上式相当于功率谱滤波,即可以使降噪后带噪语音信号功率谱与语音信号功率谱接近。还有其他的一些Weiner滤波器的形式,如有理分式结构的Weiner滤波器、隐含Weiner滤波器等等。采用Weiner滤波器的最大好处是增强后的残留噪声类似于高斯白噪声,而不是有节奏起伏的音乐噪声。完
限制150内