《语音信号处理课件第十一章.ppt》由会员分享,可在线阅读,更多相关《语音信号处理课件第十一章.ppt(39页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数字语音处理及MATLAB仿真 张雪英编著1第十一章第十一章 语音增强语音增强 11.1 概述概述111.2 语音感知特性和噪声特性语音感知特性和噪声特性11.3 语音增强算法语音增强算法32数字语音处理及MATLAB仿真 张雪英编著211.1 概述概述 在在通通信信过过程程中中语语音音受受到到来来自自周周围围环环境境、传传输输媒媒介介引引入入的的噪噪声声,使使接接收收到到的的语语音音信信号号并并非非纯纯净净的的原原始始语语音音信信号号,而而是是受受噪噪声声污污染染的的带带噪噪语语音音信信号号。这这里里的的“噪噪音音”定定义义为为所所需需语语音音信信号号以以外外的的所所有有干干扰扰信号。信号。
2、干干扰扰信信号号可可以以是是窄窄带带的的或或宽宽带带的的、白白噪噪声声的的或或有有色色噪噪声声的的、声声学学的的或或电电学学的的、加加性性的的或或乘乘性性的的,甚甚至至可可以以是是其其它它无无关关的的语语音音。由由噪噪声声导导致致的的语语音音质质量的下降会使许多语音处理系统的性能急剧恶化。量的下降会使许多语音处理系统的性能急剧恶化。数字语音处理及MATLAB仿真 张雪英编著3 采采用用语语音音增增强强技技术术进进行行预预处处理理,可可有有效效地地改改善系统性能。善系统性能。语音增强的目标语音增强的目标:对对收收听听人人而而言言主主要要是是改改善善语语音音质质量量,提提高高语语音音可可懂懂度度,
3、减减少少疲疲劳劳感感;对对语语音音处处理理系系统统(识识别别器器、声声码码器器、手手机机)而而言言是是提提高高系系统统的的识识别别率率和和抗抗干干扰扰能力。能力。数字语音处理及MATLAB仿真 张雪英编著4 目目前前国国内内外外有有关关抗抗噪噪声声技技术术的的的的研研究究成成果果大大体体分为三类解决方法:分为三类解决方法:1.采采用用语语音音增增强强算算法法,提提高高语语音音识识别别系系统统前前端端预预处理的抗噪声能力,提高输入信号的信噪比;处理的抗噪声能力,提高输入信号的信噪比;2.寻寻找找稳稳健健的的语语音音特特征征作作为为特特征征参参数数,实实验验证证明明,这类参数对宽带语音具有较好的抗
4、噪性;这类参数对宽带语音具有较好的抗噪性;3.基于模型参数自适应的噪声补偿算法。基于模型参数自适应的噪声补偿算法。数字语音处理及MATLAB仿真 张雪英编著5 解解决决噪噪声声问问题题的的根根本本方方法法是是实实现现噪噪声声和和语语音音的的自自动动分分离离,但但由由于于技技术术的的难难度度,这这方方面面的的研研究究进进展展不不大大。近近年年来来,随随着着声声场场景景分分析析技技术术和和盲盲分分离离技技术术的的研研究究发发展展,利利用用在在这这些些领领域域的的研研究究成成果果进进行行语语音和噪声分离的研究取得了一些进展。音和噪声分离的研究取得了一些进展。数字语音处理及MATLAB仿真 张雪英编著
5、6 语语音音增增强强与与语语音音信信号号处处理理理理论论有有关关,而而且且涉涉及及到到人人的的听听觉觉感感知知和和语语音音学学。噪噪声声来来源源众众多多,随随应应用用场场合合不不同同而而特特性性各各异异,因因此此难难以以找找到到一一种种通通用用的的语语音音增增强强算算法法可可以以适适用用于于各各种种噪噪声声环环境境,必必须须针针对对不不同同环环境境下下的的噪噪声声采采取取不不同同的的语语音音增增强强策策略略。因因此此,要要进进行行语语音音增增强强首首先先要要了了解解语语音音特特性性、人人耳耳感感知知特特性和噪声特性。性和噪声特性。数字语音处理及MATLAB仿真 张雪英编著711.2 语音感知特
6、性和噪声特性语音感知特性和噪声特性 11.2.1 语音特性语音特性 1.语音信号具有短时平稳性语音信号具有短时平稳性 声声道道形形状状有有相相对对稳稳定定性性,在在一一段段时时间间内内(10ms30ms),人人的的声声带带和和声声道道形形状状是是相相对对稳稳定定的的,可可认认为为其其特特征征是是不不变变的的,因因而而语语音音的的短短时时谱谱具具有有相相对对稳稳定定性性,在在语语音音分分析析中中可可以以把把语语音音信信号号分分为为若若干干分分析析帧帧,每每一一帧帧的的语语音音可可以以认认为为是是准准稳稳定定的的。语音增强可以利用这种短时平稳性。语音增强可以利用这种短时平稳性。数字语音处理及MAT
7、LAB仿真 张雪英编著8 2.语音信号可以分为浊音和清音语音信号可以分为浊音和清音 语语音音可可以以分分为为周周期期性性的的浊浊音音和和非非周周期期性性的的清清音音。在在语语音音增增强强中中,可可以以利利用用浊浊音音的的周周期期性性特特征征,采采用用梳梳状状滤滤波波器器提提取取语语音音分分量量或或者者抑抑制制非非语语音音信信号号,而清音则难以与宽带噪声区分。而清音则难以与宽带噪声区分。数字语音处理及MATLAB仿真 张雪英编著9 3.语音信号可以利用统计分析特征描述语音信号可以利用统计分析特征描述 作作为为一一个个随随机机过过程程,语语音音信信号号可可以以利利用用许许多多统计分析特征进行分析。
8、统计分析特征进行分析。语语音音的的短短时时谱谱幅幅度度统统计计特特征征是是时时变变的的,只只有有当当分分析析帧帧长长趋趋于于无无穷穷大大时时,才才能能近近似似具具有有高高斯斯分分布布。在在高高斯斯模模型型的的假假设设中中,可可以以认认为为傅傅里里叶叶展展开开系系数数是是独独立立的的高高斯斯随随机机变变量量,均均值值为为零零,而而方方差差是是时时变变的的。在在有有限限帧帧长长时时这这种种高高斯斯模模型型只只是是一一种种近近似似的的描描述述,可可以以作作为为分分析析的的前前提提在在宽宽带带噪噪声声污污染染的的带带噪噪语语音音增增强中应用。强中应用。数字语音处理及MATLAB仿真 张雪英编著1011
9、.2.2 人耳感知特性人耳感知特性 人人耳耳对对语语音音的的感感知知主主要要是是通通过过语语音音信信号号频频谱谱分分量量幅幅度度获获取取的的,对对各各分分量量相相位位则则不不敏敏感感,对对频频率率高高低的感受近似与该频率的对数值成正比。低的感受近似与该频率的对数值成正比。人人耳耳具具有有掩掩蔽蔽效效应应,人人耳耳除除了了可可以以感感受受声声音音的的强强度度、音音调调、音音色色和和空空间间方方位位外外,还还可可以以在在两两人人以以上上的的讲讲话话环环境境中中分分辨辨出出所所需需要要的的声声音音,这这种种分分辨辨能能力力是是人人体体内内部部语语音音理理解解机机制制具具有有的的一一种种感感知知能能力
10、力。人人类类的的这这种种分分离离语语音音的的能能力力与与人人的的双双耳耳输输入入效效应应有有关,称为关,称为“鸡尾酒会效应鸡尾酒会效应”。数字语音处理及MATLAB仿真 张雪英编著11 语语音音增增强强的的最最终终效效果果度度量量是是人人耳耳的的主主观观感感觉觉,所所以以在在语语音音增增强强中中可可以以利利用用人人耳耳感感知知特特性性来来减减少少运运算算代代价。价。数字语音处理及MATLAB仿真 张雪英编著1211.2.3 噪声特性噪声特性 根根据据与与输输入入语语音音信信号号的的关关系系,噪噪声声可可分分为为加加性性噪噪声声和和非非加加性性噪噪声声两两类类。对对某某些些非非加加性性噪噪声声而
11、而言,可以通过一定的变换转换成加性噪声。言,可以通过一定的变换转换成加性噪声。语语音音处处理理中中的的加加性性噪噪声声大大体体上上可可以以分分为为周周期期性性噪噪声声、脉脉冲冲噪噪声声、宽宽带带噪噪声声和和同同声声道道其其他他语语音音的的干扰等。干扰等。数字语音处理及MATLAB仿真 张雪英编著13 1周期性噪声周期性噪声 周周期期性性噪噪声声主主要要来来源源于于发发动动机机等等周周期期性性运运转转的的机械,电气干扰也会引起周期性噪声。机械,电气干扰也会引起周期性噪声。特点是频谱上有许多离散的线谱。特点是频谱上有许多离散的线谱。实实际际信信号号受受多多种种因因素素的的影影响响,线线谱谱分分量量
12、通通常常转转变变为为窄窄带带谱谱结结构构,而而且且通通常常这这些些窄窄带带谱谱都都是是时时变变的的,位位置置也也不不固固定定。必必须须采采用用自自适适应应滤滤波波的的方方法法才才能能有有效地区分这些噪声分量。效地区分这些噪声分量。数字语音处理及MATLAB仿真 张雪英编著14 2脉冲噪声脉冲噪声 脉脉冲冲噪噪声声来来源源于于爆爆炸炸、撞撞击击、放放电电及及突突发发性性干干扰等。扰等。特征是时间上的宽度很窄。特征是时间上的宽度很窄。在在时时域域消消除除脉脉冲冲噪噪声声过过程程如如下下:根根据据带带噪噪语语音音信信号号幅幅度度的的平平均均值值确确定定阈阈值值。当当信信号号超超出出这这一一阈阈值值时
13、时判判别别为为脉脉冲冲噪噪声声。然然后后对对信信号号进进行行适适当当的的衰衰减减,就就可可完完全全消消除除噪噪声声分分量量,也也可可以以使使用用内内插插方方法法将将脉脉冲噪声在时域上进行平滑。冲噪声在时域上进行平滑。数字语音处理及MATLAB仿真 张雪英编著15 3宽带噪声宽带噪声 宽带噪声来源很多,热噪声、气流噪声及各种宽带噪声来源很多,热噪声、气流噪声及各种随机噪声源、量化噪声都可以视为宽带噪声。宽带随机噪声源、量化噪声都可以视为宽带噪声。宽带噪声与语音信号在时域和频域上基本上重叠,只有噪声与语音信号在时域和频域上基本上重叠,只有在无话期间,噪声分量才单独存在。因此消除这种在无话期间,噪声
14、分量才单独存在。因此消除这种噪声比较困难。噪声比较困难。对于平稳的宽带噪声,通常可以认为是白色高对于平稳的宽带噪声,通常可以认为是白色高斯噪声。斯噪声。数字语音处理及MATLAB仿真 张雪英编著16 4同声道语音干扰同声道语音干扰 干扰语音信号和待传语音信号同时在一个信道干扰语音信号和待传语音信号同时在一个信道中传输所造成的语音干扰称为同声道语音干扰。区中传输所造成的语音干扰称为同声道语音干扰。区别有用语音和干扰语音的基本方法是利用它们的基别有用语音和干扰语音的基本方法是利用它们的基音差别。考虑到一般情况下两种语音的基音不同,音差别。考虑到一般情况下两种语音的基音不同,也不成整数倍,这样可以用
15、梳状滤波器提取基音和也不成整数倍,这样可以用梳状滤波器提取基音和各次谐波,再恢复出有用语音信号。各次谐波,再恢复出有用语音信号。数字语音处理及MATLAB仿真 张雪英编著17 5传输噪声传输噪声 这是传输系统的电路噪声。这是传输系统的电路噪声。处理这种噪声可以采用同态处理的方法,把非处理这种噪声可以采用同态处理的方法,把非加性噪声变换为加性噪声来处理。加性噪声变换为加性噪声来处理。数字语音处理及MATLAB仿真 张雪英编著18通过语音增强技术改善语音质量的过程如下图所示:通过语音增强技术改善语音质量的过程如下图所示:数字语音处理及MATLAB仿真 张雪英编著1911.3 语音增强算法语音增强算
16、法 目前语音增强算法大致可以分为四种:目前语音增强算法大致可以分为四种:参数方法参数方法 非参数方法非参数方法 统计方法统计方法 其它方法其它方法数字语音处理及MATLAB仿真 张雪英编著20 11.3.1 参数方法参数方法 此此类类方方法法主主要要依依赖赖于于使使用用的的语语音音生生成成模模型型(例例如如AR模模型型),需需要要提提取取模模型型参参数数(如如基基音音周周期期、LPC系系数数),常常常常使使用用迭迭代代方方法法。如如果果实实际际噪噪音音或或语语音音条条件件与与模模型型有有较较大大的的差差距距,或或提提取取模模型型参参数数有有困困难难,则则此此类类方方法法容容易易失失效效。采采用
17、用滤滤波波器器模模型型时时,典典型型的的有有梳梳状状滤滤波波器器、维维纳纳滤滤波波器器、卡卡尔尔曼曼滤滤波波器器等。等。数字语音处理及MATLAB仿真 张雪英编著21语音的全极点生成模型如图所示:语音的全极点生成模型如图所示:图图11.2 语音的全极点生成模型语音的全极点生成模型数字语音处理及MATLAB仿真 张雪英编著22 语音的全极点生成模型中语音的全极点生成模型中 激励源为:激励源为:u(n);增益因子为:;增益因子为:g;语音信号为:;语音信号为:s(n)全极点滤波器为:全极点滤波器为:,根据全极点模型有根据全极点模型有 s(n)为清音时,为清音时,u(n)为宽带噪声为宽带噪声 s(n
18、)为浊音时,为浊音时,u(n)为间隔是基音周期为间隔是基音周期T的脉冲串的脉冲串数字语音处理及MATLAB仿真 张雪英编著2311.3.2 非参数方法非参数方法 非非参参数数方方法法不不需需要要从从带带噪噪信信号号中中估估计计模模型型参参数数,因因此此这这种种方方法法的的应应用用范范围围较较广广。但但由由于于没没有有利利用用可可能能的的语语言言统统计计信信息息,故故结结果果一一般般不不是是最最优优化化的的。这这类方法包括自适应噪声抵消法、谱减法等。类方法包括自适应噪声抵消法、谱减法等。数字语音处理及MATLAB仿真 张雪英编著241.自适应噪声抵消法自适应噪声抵消法图图11.3 自适应噪声抵消
19、原理图自适应噪声抵消原理图数字语音处理及MATLAB仿真 张雪英编著25 设设带带噪噪语语音音输输入入为为y(n)=s(n)+d(n),s(n)为为语语音音信信号号,d(n)为为未未知知噪噪声声信信号号,r(n)参参考考噪噪声声输输入入,也也即即自自适适应应滤滤波波器器的的输输入入,v(n)是是该该滤滤波波器器的的输输出出。r(n)与与s(n)无关,而与无关,而与d(n)相关。相关。自自适适应应滤滤波波器器原原理理:在在输输入入过过程程的的统统计计特特性性未未知知或或是是输输入入过过程程的的统统计计特特性性变变化化时时,能能够够调调整整自自己己的的参参数数,以以满满足足某某种种最最佳佳准准则则
20、的的要要求求。自自适适应应滤滤波波的的目目的的就就是是通通过过对对 r(n)的的滤滤波波,使使输输出出的的噪噪声声估估值值v(n)尽尽可可能能接接近近带带噪噪语语音音中中的的d(n),然然后后从从带带噪噪语音中直接减去语音中直接减去 v(n),达到语音增强的目的。,达到语音增强的目的。数字语音处理及MATLAB仿真 张雪英编著26 自自适适应应滤滤波波器器通通常常采采用用FIR滤滤波波器器,系系数数采采用用最最小小均均方方误误差差(MMSE)准准则则来来迭迭代代估估计计。判判断断标标准准是是使使误误差差信号信号e(n)能量最小:能量最小:其其中中,wk是是滤滤波波器器系系数数,N是是滤滤波波器
21、器抽抽头头数数。MMSE准准则则要要求求噪噪声声和和语语音音相相互互独独立立,这这时时,误误差差信号信号e(n)能量最小,可保证能量最小,可保证v(n)与与d(n)最接近。最接近。数字语音处理及MATLAB仿真 张雪英编著27 2谱减法谱减法 是利用噪声的统计平稳性以及加性噪声与语音是利用噪声的统计平稳性以及加性噪声与语音不相关的特点而提出的一种语音增强方法。没有使不相关的特点而提出的一种语音增强方法。没有使用参考噪声源,但它假设噪声是统计平稳的,即有用参考噪声源,但它假设噪声是统计平稳的,即有语音期间噪声幅度谱的期望值与无语音间隙噪声的语音期间噪声幅度谱的期望值与无语音间隙噪声的幅度谱的期望
22、值相等。用无语音间隙测量计算得到幅度谱的期望值相等。用无语音间隙测量计算得到的噪声频谱的估计值取代有语音期间噪声的频谱,的噪声频谱的估计值取代有语音期间噪声的频谱,与含噪语音频谱相减,得到语音频谱的估计值。此与含噪语音频谱相减,得到语音频谱的估计值。此类语音增强方法将估计的对象放在短时谱幅度上。类语音增强方法将估计的对象放在短时谱幅度上。数字语音处理及MATLAB仿真 张雪英编著28图图11.5 谱减法原理图谱减法原理图图中,图中,y(n)经经FFT变换后,有变换后,有Yk=Sk+Nk,由此可得:,由此可得:数字语音处理及MATLAB仿真 张雪英编著29 由于由于 和和 相互独立,所以相互独立
23、,所以 和和 独立,而独立,而 为零均值的高斯分布,所以有:为零均值的高斯分布,所以有:对于一个分析帧内的短时平稳过程,有:对于一个分析帧内的短时平稳过程,有:为无语音时为无语音时 的统计平均值,则原始语音的的统计平均值,则原始语音的估计值如下,其中估计值如下,其中 是增强后的语音信号的幅度是增强后的语音信号的幅度 数字语音处理及MATLAB仿真 张雪英编著30定义定义 ,及后验信噪比,及后验信噪比 ,上式,上式可改写为:可改写为:(11-9)(11-10)式式(11-10)中,当中,当 小于小于1时,将失去意义。因此,将时,将失去意义。因此,将式式(11-10)改写为改写为其中,其中,是个大
24、于零的常数。是个大于零的常数。数字语音处理及MATLAB仿真 张雪英编著31 谱谱相相减减的的物物理理意意义义:相相当当于于对对带带噪噪语语音音的的每每一一个个频频谱谱分分量量乘乘以以一一个个系系数数。信信噪噪比比高高时时,含含有有语语音音的的可可能能性性大大,衰衰减减系系数数小小。反反之之,则则认认为为含含有有语语音音的可能性小,衰减系数大。的可能性小,衰减系数大。谱谱减减法法在在频频域域将将带带噪噪语语音音的的功功率率谱谱减减去去噪噪声声的的功功率率谱谱得得到到纯纯净净语语音音功功率率谱谱估估计计,开开方方后后就就得得到到语语音音幅幅度度谱谱估估计计,用用带带噪噪语语音音的的相相位位来来近
25、近似似纯纯净净语语音音的相位,再采用反傅里叶变换恢复时域信号。的相位,再采用反傅里叶变换恢复时域信号。数字语音处理及MATLAB仿真 张雪英编著32 谱谱减减法法优优点点:比比较较简简单单,只只需需要要进进行行正正反反傅傅立叶变换,而且实时实现较容易。立叶变换,而且实时实现较容易。谱谱减减法法缺缺点点:适适用用的的信信噪噪比比范范围围较较窄窄,在在信信噪噪比比较较低低时时对对语语音音的的可可懂懂度度损损伤伤较较大大。所所以以实实际际应应用用时时除除了了要要降降低低噪噪声声外外,还还要要兼兼顾顾语语音音的的可可懂懂度度和和自自然然度。度。由由于于频频谱谱直直接接相相减减会会使使增增强强后后的的语
26、语音音产产生生“音音乐乐噪噪声声”,它它具具有有一一定定的的节节奏奏性性,听听上上去去类类似似音音乐乐声,由此而得名。声,由此而得名。数字语音处理及MATLAB仿真 张雪英编著3311.3.3 统计方法统计方法 统统计计方方法法较较充充分分地地利利用用了了语语音音和和噪噪音音的的统统计计特特性性,一一般般要要建建立立模模型型库库,需需要要训训练练过过程程获获得得初初始始统统计计参参数数,它它与与语语音音识识别别系系统统的的联联系系很很密密切切。如如最最小小均方误差估计均方误差估计(MMSE)、利用听觉掩蔽效应等。、利用听觉掩蔽效应等。对对于于语语音音增增强强来来说说,听听觉觉意意义义上上的的失
27、失真真准准则则与与给给定定噪噪声声情情况况下下语语音音频频谱谱的的后后验验分分布布是是无无法法知知道道的的,因因此此,对对于于特特定定的的失失真真准准则则和和后后验验概概率率不不敏敏感感的的估估计方法是很有用处的。计方法是很有用处的。数字语音处理及MATLAB仿真 张雪英编著34 大大部部分分语语音音的的变变化化是是比比较较缓缓慢慢的的,帧帧与与帧帧之之间间的的频频谱谱有有着着一一定定的的相相似似性性,其其相相应应频频谱谱分分量量之之间间存存在在某某种种相相关关性性,这这种种相相关关性性可可以以反反映映在在前前一一帧帧的的频频谱谱值值对对后后一一帧帧频频谱谱的的分分布布产产生生一一种种约约束束
28、影影响响。由由此此,产生了基于帧间频谱分布约束的产生了基于帧间频谱分布约束的MMSE估计方法。估计方法。人人耳耳对对声声音音强强度度的的感感受受是是与与谱谱幅幅度度的的对对数数成成正正比比的的,同同时时,语语音音处处理理的的实实践践也也表表明明,采采用用对对数数失失真真准准则则更更为为适适合合一一些些。为为此此,可可得得到到频频域域分分布布约约束束的短时对数谱的的短时对数谱的MMSE估计。估计。数字语音处理及MATLAB仿真 张雪英编著35 MMSE算算法法优优点点:达达到到了了语语音音可可懂懂度度和和清清晰晰度度的的折折衷,适用信噪比的范围较广;衷,适用信噪比的范围较广;MMSE算算法法缺缺
29、点点:由由于于需需要要统统计计各各种种参参数数,算算法法运运算量大,实时性不好。算量大,实时性不好。数字语音处理及MATLAB仿真 张雪英编著36 应用听觉掩蔽效应进行语音增强,语音信号能应用听觉掩蔽效应进行语音增强,语音信号能够掩蔽与其同时进入听觉系统的一部分能量较小的够掩蔽与其同时进入听觉系统的一部分能量较小的噪声信号,而使得这部分噪声不为人感知,利用一噪声信号,而使得这部分噪声不为人感知,利用一个功率谱域的基于听觉掩蔽门限的不等式准则,动个功率谱域的基于听觉掩蔽门限的不等式准则,动态选择一个参数自适应变化的非线性函数估计语音态选择一个参数自适应变化的非线性函数估计语音短时谱幅度从而实现语音增强。短时谱幅度从而实现语音增强。数字语音处理及MATLAB仿真 张雪英编著3711.3.4 其他方法其他方法 其其他他方方法法包包括括小小波波变变换换、卡卡亨亨南南-洛洛维维变变换换(KLT)、离离散散余余弦弦变变换换(DCT)、人人工工神神经经网网络络等等。这这些些方方法法不不像像前前三三类类方方法法那那样样成成熟熟,可可以以概概括地称为非主流方法。括地称为非主流方法。数字语音处理及MATLAB仿真 张雪英编著3811.3.5 谱减法语音增强的仿真实现谱减法语音增强的仿真实现数字语音处理及MATLAB仿真 张雪英编著39
限制150内