3时频分析.ppt
II 语音信号的产生模型语音信号的产生模型语音产生模型语音产生模型 主要内容主要内容 2.1 语音信号的产生模型语音信号的产生模型 2.2 语音的感知语音的感知 2.3 语音学基础知识语音学基础知识语音产生模型语音产生模型(1)2.1 语音的产生语音的产生声带每开启和闭合一次声带每开启和闭合一次的时间是基音周期的时间是基音周期(Pitch Period),其倒,其倒数为基音频率。数为基音频率。声道是对发音起重要作声道是对发音起重要作用的器官。用的器官。发音器官包括:肺、气发音器官包括:肺、气管、喉、咽、鼻腔、口管、喉、咽、鼻腔、口腔、唇。腔、唇。声门脉冲声门脉冲 声道声道 语音信号语音信号 激励信号激励信号 声道滤波器声道滤波器 语音信号语音信号 频谱频谱 传递函数传递函数 频谱频谱 语音产生模型语音产生模型(2)语音产生模型语音产生模型(3)语音产生的机理图语音产生的机理图 语音产生模型语音产生模型(4)语音信号产生系统模型语音信号产生系统模型 冲激序列发生器 声门波 模型 随机噪声发生器 基音 周期 振幅 VA 振幅 NA 声道 模型 声道参数 辐射 模型 语音信号 激励模型激励模型发浊音时,声带振发浊音时,声带振动形成准周期的脉动形成准周期的脉冲串冲串发清音时,声带发清音时,声带松弛。相当于一松弛。相当于一个随机白噪声。个随机白噪声。语音产生模型语音产生模型(5)在声学上对均匀无损耗的管道的声学特性有非常简单在声学上对均匀无损耗的管道的声学特性有非常简单的数学描述。的数学描述。均匀:截面积不变;均匀:截面积不变;无损耗:不考虑声波在管内的热损耗、粘滞摩擦损无损耗:不考虑声波在管内的热损耗、粘滞摩擦损耗和管壁的热传导作用。耗和管壁的热传导作用。在此基础上,可以将声道简化成一些截面积不等的均在此基础上,可以将声道简化成一些截面积不等的均匀无损声管的级联。用该模型来逼近真实的声道,称匀无损声管的级联。用该模型来逼近真实的声道,称之为声道的时间离散模型。之为声道的时间离散模型。语音产生模型语音产生模型(6)一般可用如下的全极点模型来刻画共振峰特性:一般可用如下的全极点模型来刻画共振峰特性:P为全极点滤波器的阶,在为全极点滤波器的阶,在8-12内取值。一对极点对应一个内取值。一对极点对应一个共振峰。共振峰。另一种是将声道视为一个谐振腔,共振峰是这个腔体的谐另一种是将声道视为一个谐振腔,共振峰是这个腔体的谐振频率振频率共振峰模型。共振峰模型。通常用前通常用前3个共振峰来代表一个元音,对复杂的辅音或鼻音,个共振峰来代表一个元音,对复杂的辅音或鼻音,大约用大约用5个以上共振峰才行。个以上共振峰才行。声道参数一般在声道参数一般在10ms-30ms内保内保持不变持不变短时短时分析。分析。语音产生模型语音产生模型(7)辐射模型辐射模型研究表明:辐射效应在高频段较为明显,在低频段影响较小。研究表明:辐射效应在高频段较为明显,在低频段影响较小。可用一个高通滤波器来表示辐射模型。可用一个高通滤波器来表示辐射模型。其中其中r接近接近1。在实际信号分析时,常采用这样的预加重技术。即在采样在实际信号分析时,常采用这样的预加重技术。即在采样之后,插入一个一阶高通滤波器。在语音合成时再进行之后,插入一个一阶高通滤波器。在语音合成时再进行“去加重去加重”处理,就可以恢复原来的语音。处理,就可以恢复原来的语音。语音产生模型语音产生模型(8)对传统的语音产生模型,在发音过程中声道处于运动对传统的语音产生模型,在发音过程中声道处于运动状态,且与语音信号相比变化缓慢,一般可用时变的状态,且与语音信号相比变化缓慢,一般可用时变的线性系统来模拟。线性系统来模拟。20世纪世纪80年代,年代,Teager等人在实验基础上,给出了一等人在实验基础上,给出了一个语音产生模型。个语音产生模型。语音信号是由平面语音信号是由平面波部分的线性部分波部分的线性部分和涡流区域的非线和涡流区域的非线性部分共同组成。性部分共同组成。语音产生模型语音产生模型(9)基于上述的这种非线性现象,许多学者开始试图提出基于上述的这种非线性现象,许多学者开始试图提出新的语音产生模型来解释语音产生的过程新的语音产生模型来解释语音产生的过程。1993年年Maragos从语音是由声道共振产生的角度,提从语音是由声道共振产生的角度,提出调频出调频调幅模型调幅模型(AMFM modulation model)。语音信号中单个共振峰的输出,相当于以该共振峰频语音信号中单个共振峰的输出,相当于以该共振峰频率为载波频率进行频率调制和幅值调制的结果。率为载波频率进行频率调制和幅值调制的结果。假定语音信号是由若干个共振峰经过这样调制结果的假定语音信号是由若干个共振峰经过这样调制结果的叠加而成。这样,就可以用能量分离算法将与每个共叠加而成。这样,就可以用能量分离算法将与每个共振峰相对应的瞬时频率从语音信号中分离出来。振峰相对应的瞬时频率从语音信号中分离出来。语音产生模型语音产生模型(10)1、调频调频调幅模型的基本原理调幅模型的基本原理 对于一个载波频率为对于一个载波频率为,频率调制信号为,频率调制信号为 来控制幅值的调制信号,可以表示为:来控制幅值的调制信号,可以表示为:这里的载波频率与每个共振峰频率对应这里的载波频率与每个共振峰频率对应。为在为在t时刻的瞬时相位。时刻的瞬时相位。语音产生模型语音产生模型(11)它反映了在载波频率附近的频率是按着频率调制信它反映了在载波频率附近的频率是按着频率调制信号来变化。号来变化。可以将语音信号看作是由若干个这样共振峰调制信号可以将语音信号看作是由若干个这样共振峰调制信号的叠加而成,则语音信号可以表示为:的叠加而成,则语音信号可以表示为:可看作是语音信号的单个共振峰的输出。可看作是语音信号的单个共振峰的输出。将瞬时频率定义为瞬时相位的变化率。将瞬时频率定义为瞬时相位的变化率。语音产生模型语音产生模型(12)对于单个共振峰的调制信号对于单个共振峰的调制信号 这个能量分离算法是根据这个能量分离算法是根据Teager能量算子发展而来的。能量算子发展而来的。可以用一个能量分离算法将幅度调制后的幅值包络可以用一个能量分离算法将幅度调制后的幅值包络 和频率调制后的瞬时频率和频率调制后的瞬时频率 从语音信号中分离出来。从语音信号中分离出来。语音产生模型语音产生模型(13)2、Teager能量算子能量算子 在连续域和在离散域中有两种表达形式。在连续域和在离散域中有两种表达形式。语音信号的数字处理都在离散域上。语音信号的数字处理都在离散域上。它在一定程度上对语音信号的能量提供一种它在一定程度上对语音信号的能量提供一种测度。测度。可以表示出对单个共振峰能量的调制状态。可以表示出对单个共振峰能量的调制状态。语音产生模型语音产生模型(14)在离散上,对一帧语音信号在离散上,对一帧语音信号s(n),能量算子定能量算子定义为义为:利用这个能量算子,可以把语音信号中的幅值利用这个能量算子,可以把语音信号中的幅值调制部分与频率调制部分有效地分离开。调制部分与频率调制部分有效地分离开。可以看出:能量算子输出信号的局部特性,只可以看出:能量算子输出信号的局部特性,只依赖于原始语音信号本身和它的时域差分。依赖于原始语音信号本身和它的时域差分。语音产生模型语音产生模型(15)3 3、能量分离算法、能量分离算法 能将只包含单个共振峰的语音信号分离成频率分量和能将只包含单个共振峰的语音信号分离成频率分量和幅值分量。幅值分量。进行能量算子操作,有:进行能量算子操作,有:对单个共振峰的调制信号,用离散形式可以重新表达对单个共振峰的调制信号,用离散形式可以重新表达如下:如下:频率调制频率调制后的瞬时后的瞬时频率。频率。幅值调制幅值调制后的幅值后的幅值包络。包络。语音产生模型语音产生模型(16)信号的能量算子输出是幅值包络和瞬时频率的一个函信号的能量算子输出是幅值包络和瞬时频率的一个函数,它可以反映出幅值和频率的变化。数,它可以反映出幅值和频率的变化。上式的结果表示了该算子的能量跟踪能力,所以将这上式的结果表示了该算子的能量跟踪能力,所以将这个算子称为能量算子。个算子称为能量算子。例:如果例:如果 r(n)信号为一个简单的调频脉冲信号,其信号为一个简单的调频脉冲信号,其幅值不变,则经过幅值不变,则经过TEO操作操作后的输出如下图。后的输出如下图。语音产生模型语音产生模型(17)可以看出,当信号的幅值不发生变化时,可以看出,当信号的幅值不发生变化时,TEO操作后操作后的信号可以反映出频率的高低。的信号可以反映出频率的高低。语音产生模型语音产生模型(18)考虑到差分的对称性,可以用考虑到差分的对称性,可以用 对于对于 的导数,它的能量算子的输出仍然是只与的导数,它的能量算子的输出仍然是只与,有关的一个函数。有关的一个函数。代替代替 的导数,则:的导数,则:语音产生模型语音产生模型(19)信号的幅值包络和瞬时频率如下:信号的幅值包络和瞬时频率如下:以以和和为未知函数,联立求解,可得到为未知函数,联立求解,可得到这样就可以分别求出瞬时频率和幅值包络。这样就可以分别求出瞬时频率和幅值包络。语音的感知语音的感知(1)2.2 语音的感知语音的感知耳翼的作用是保护耳翼的作用是保护耳孔,其卷曲状具耳孔,其卷曲状具有定向作用。有定向作用。外耳道同其它管外耳道同其它管道一样也有共振道一样也有共振频率,大约是频率,大约是3400Hz。鼓膜位于外耳道鼓膜位于外耳道内端的韧性锥形内端的韧性锥形结构,声音的振结构,声音的振动通过鼓膜传到动通过鼓膜传到内耳。内耳。外耳在声音感知中有两个作用:一是外耳在声音感知中有两个作用:一是对声源的定位,二是对声音的放大。对声源的定位,二是对声音的放大。中耳的作用有两个:一是放大声压,中耳的作用有两个:一是放大声压,二是保护内耳。二是保护内耳。中耳由三中耳由三块听小骨块听小骨组成。组成。内耳的耳蜗是听觉的受纳器,从声震内耳的耳蜗是听觉的受纳器,从声震动到神经冲动的转换在此完成。动到神经冲动的转换在此完成。语音的感知语音的感知(2)正常人耳能感知的频率范围为正常人耳能感知的频率范围为20Hz20KHz;强度范围强度范围为为0dB120dB。音调是人耳对不同频率声音的一种主观感觉。单位为音调是人耳对不同频率声音的一种主观感觉。单位为Mel,与频率近似的满足方程:与频率近似的满足方程:响度用来描述人耳对不同频率纯音的辨别灵敏度。单位响度用来描述人耳对不同频率纯音的辨别灵敏度。单位为为Phon(方)。(方)。1Phon等于等于1kHz纯音的声强级。纯音的声强级。而零而零方对应人耳的听阈。方对应人耳的听阈。语音的感知语音的感知(3)人耳感知的声音响度是频率和声压级的函数。通人耳感知的声音响度是频率和声压级的函数。通过比较不同频率和幅度的语音可以得到主观等响度过比较不同频率和幅度的语音可以得到主观等响度曲线如下图。曲线如下图。语音的感知语音的感知(4)掩蔽效应掩蔽效应 指在一个较强的声音附近,相对较弱的声音将不指在一个较强的声音附近,相对较弱的声音将不被人耳觉察。强音称为掩蔽者,弱音称为被掩蔽被人耳觉察。强音称为掩蔽者,弱音称为被掩蔽者。分为同时掩蔽和异时掩蔽者。分为同时掩蔽和异时掩蔽。频率为频率为1kHz 声压级为声压级为60dB的音调信号的掩蔽阈值曲线的音调信号的掩蔽阈值曲线 语音的感知语音的感知(5)异时掩蔽又分为前掩蔽和后掩蔽两种异时掩蔽又分为前掩蔽和后掩蔽两种 一般后掩蔽可一般后掩蔽可持续持续100 ms,而前掩蔽仅持续而前掩蔽仅持续20 ms。三种掩蔽现象的强度以及持续时间三种掩蔽现象的强度以及持续时间 语音的感知语音的感知(6)各种不同的掩蔽效果各种不同的掩蔽效果 (1 1)纯纯音音调调信号信号间间的掩蔽的掩蔽 频率为频率为1 kHz 声压级声压级不同的纯音调对纯音调的掩蔽阈值曲线不同的纯音调对纯音调的掩蔽阈值曲线 语音的感知语音的感知(7)(2 2)宽带宽带噪声噪声对纯对纯音音调调的掩蔽的掩蔽 宽带噪声对纯音调的掩蔽阈值曲线宽带噪声对纯音调的掩蔽阈值曲线 语音的感知语音的感知(8)(3 3)窄)窄带带噪声噪声对纯对纯音音调调的掩蔽的掩蔽 中心频率中心频率为为 1 kHz、声压级不同的窄带噪声对纯音调的掩蔽曲线声压级不同的窄带噪声对纯音调的掩蔽曲线 语音的感知语音的感知(9)中心频率不同的窄带噪声产生的掩蔽阈值曲线的形中心频率不同的窄带噪声产生的掩蔽阈值曲线的形状是不同的。状是不同的。声压级相同中心频率不同的窄带噪声对纯音调的掩蔽阈值曲线声压级相同中心频率不同的窄带噪声对纯音调的掩蔽阈值曲线 语音的感知语音的感知(10)为了描写窄带噪声为了描写窄带噪声对纯音调信号的掩蔽效应,引入临界带宽对纯音调信号的掩蔽效应,引入临界带宽的概念。的概念。一个纯音可以被以它为中心频率,且具有一定带宽的连续噪一个纯音可以被以它为中心频率,且具有一定带宽的连续噪声所掩蔽,如在这一频带内噪声功率等于该纯音的功率,这声所掩蔽,如在这一频带内噪声功率等于该纯音的功率,这时该纯音处于刚好能被听到的临界状态,称这一带宽为临界时该纯音处于刚好能被听到的临界状态,称这一带宽为临界带宽。带宽。连续的临界频带序号记为临界频带率,或称为连续的临界频带序号记为临界频带率,或称为Bark域。为了域。为了纪念纪念Barkhauseu。通常将通常将20Hz到到16kHz之间的频率用之间的频率用24个频率群来划分,或者个频率群来划分,或者说共有说共有24Bark。语音的感知(语音的感知(1111)频率群序号(Bark)中心频率(Hz)临界带宽(Hz)相对带宽(dB)下限频率(Hz)上限频率(Hz)150801920100215010020100200325010020200300435010020300400545011020400510657012021510630770014021630770884015022770920910001602292010801011701902310801270111370210231270148012160024024148017201318502802517202000142150320252000232015250038026232027001629004502727003150173400550273150370018400070028370044001948009002944005300205800110030530064002170001300326400770022850018003277009500231050025003495001200024135003500351200015500临临界界带带宽宽表表 声压级相同,但临界频带率不同的掩蔽阈值曲声压级相同,但临界频带率不同的掩蔽阈值曲线如下图。线如下图。语音的感知(语音的感知(1212)声压级相同、临界频带率不同的窄带噪声对纯音调的掩蔽阈值曲线声压级相同、临界频带率不同的窄带噪声对纯音调的掩蔽阈值曲线 语音学基础知识语音学基础知识(1)2.3 语音学基础知识语音学基础知识音素是语音的基本单位。可以分为元音和辅音。音素是语音的基本单位。可以分为元音和辅音。元音是指发音的过程中,对声腔气流无明显阻塞元音是指发音的过程中,对声腔气流无明显阻塞而发出的音段,如而发出的音段,如a、i等。等。辅音是声腔气流明显受阻时所发出的音段,如辅音是声腔气流明显受阻时所发出的音段,如mn等。等。此外还用半元音、双元音、半辅音等等。此外还用半元音、双元音、半辅音等等。语音学基础知识语音学基础知识(2)对一组语言来讲,可以用一组音素来描述。对一组语言来讲,可以用一组音素来描述。美国英语包括美国英语包括42个音素,分为:元音个音素,分为:元音12个;双元个;双元音音6个;半元音个;半元音4个;辅音个;辅音20个。个。汉语普通话是以北京语音为标准音,以北方话为汉语普通话是以北京语音为标准音,以北方话为基准,国际上常用的词为(基准,国际上常用的词为(mandarin)。)。汉语采用声韵结构,每个字音分成两部分,前面汉语采用声韵结构,每个字音分成两部分,前面的部分称为声母的部分称为声母(initial),后一部分称为韵母。后一部分称为韵母。声母为辅音,但不是所有的辅音都可以做声母。声母为辅音,但不是所有的辅音都可以做声母。声母共声母共22个。个。语音学基础知识语音学基础知识(3)声母表声母表 b p m f d t n l g k h j q x zh ch sh r z c s韵母可以包括一个元音,也可以包括多个元音,韵母可以包括一个元音,也可以包括多个元音,也可以包括辅音。韵母共也可以包括辅音。韵母共38个。个。韵母表韵母表I u A ia ua o uo e ie e ai uai ei uei ao iaoou iou an ian uan an en in uen n ang iangianguang eng ing ueng ong iong语音学基础知识语音学基础知识(4)汉语音素为汉语音素为64个,分为辅音、单元音、复元音个,分为辅音、单元音、复元音和复鼻尾音。和复鼻尾音。汉语的每个字就是一个音节。音节由声母和韵汉语的每个字就是一个音节。音节由声母和韵母拼接而成,音节中也可以不包含声母。母拼接而成,音节中也可以不包含声母。无调音节无调音节415个。个。无调音节列表无调音节列表每个音节可以有四种声调,因此有调音节一千每个音节可以有四种声调,因此有调音节一千二百多个。二百多个。语音学基础知识语音学基础知识(5)汉语音节的声调主要体现在信号的基音频率随汉语音节的声调主要体现在信号的基音频率随时间而变的规律上。时间而变的规律上。阴平阴平阳平阳平上声上声去声去声归一化时长归一化时长归归一一化化基基频频 时域、频域处理方法本部分的本部分的内容内容 时域、频域处理方法(1)主要内容主要内容 3.1 时域处理方法时域处理方法 3.2 端点检测端点检测 3.3 频域处理方法频域处理方法 3.4 时频分析技术时频分析技术 3.5 同态解卷积同态解卷积 3.6 Mel倒谱系数倒谱系数 时域、频域处理方法(2)3.1 时域处理方法时域处理方法3.1.1 语音信号的采样和量化语音信号的采样和量化采样采样(sampling)电话语音的采样率为电话语音的采样率为8kHz;纯语音在进行计算纯语音在进行计算机录入时,一般采样率在机录入时,一般采样率在10kHz20kHz左右;左右;音乐的采样率可以高达音乐的采样率可以高达44kHz。采样前,应进行抗混叠滤波。采样前,应进行抗混叠滤波。时域、频域处理方法(3)量化量化(Quantization)就是将整个信号的幅度值分成若干个有限的区间,就是将整个信号的幅度值分成若干个有限的区间,并且把落入同一个区间的样本点都用同一个幅度并且把落入同一个区间的样本点都用同一个幅度值表示。值表示。量化级数越多,量化误差越小。每个采样点占用量化级数越多,量化误差越小。每个采样点占用的的Bit就会越多,在语音信号处理中常用的有就会越多,在语音信号处理中常用的有16bit、8bit等量化。等量化。时域、频域处理方法(4)3.1.2 短时分析短时分析语音信号是非平稳信号,但是可以认为语音信号是非平稳信号,但是可以认为1030ms的时间范围内,语音信号是平稳信号。的时间范围内,语音信号是平稳信号。短时分析将语音信号分为一段一段分析,每段称短时分析将语音信号分为一段一段分析,每段称为一帧(为一帧(frame)。)。分帧可以连续,也可以交叠,交叠部分称为帧移。分帧可以连续,也可以交叠,交叠部分称为帧移。时域、频域处理方法(5)数字化语音的采集与存储数字化语音的采集与存储通常采用中断的方式按采样周期定时采集语音数据,通常采用中断的方式按采样周期定时采集语音数据,两次采样间的时间段内可进行相关的语音特征计算两次采样间的时间段内可进行相关的语音特征计算等。等。用循环队列的方式来存储语音数据,以便用一个有用循环队列的方式来存储语音数据,以便用一个有限容量数据区来应付数据量极大的语音数据。限容量数据区来应付数据量极大的语音数据。处理时按帧从数据区中取出数据,当前帧处理完后处理时按帧从数据区中取出数据,当前帧处理完后再取下一帧数据。再取下一帧数据。时域、频域处理方法(6)数据循环区数据循环区指针指针指针指针特征循环区特征循环区指针指针找到语音后找到语音后 数字化语音的存储数字化语音的存储 时域、频域处理方法(7)短时分析的最基本手段是对语音信号加窗。将语短时分析的最基本手段是对语音信号加窗。将语音分帧;音分帧;常见窗函数(常见窗函数(N为窗长)为窗长):方窗方窗 时域、频域处理方法(8)汉明(汉明(Hamming)窗窗汉宁汉宁(Hanning)窗窗 时域、频域处理方法(9)若把窗函数理解为某个滤波器的单位冲激响应。若把窗函数理解为某个滤波器的单位冲激响应。则可以比较它们的频率响应特性则可以比较它们的频率响应特性。汉明窗汉明窗方窗方窗汉明窗的带宽汉明窗的带宽大约是矩形窗大约是矩形窗的两倍的两倍汉明窗能更好地保留原语音信号的频率特性,使用最广泛。汉明窗能更好地保留原语音信号的频率特性,使用最广泛。时域、频域处理方法(10)3.1.3 短时能量、短时平均幅度和短时过零率短时能量、短时平均幅度和短时过零率短时能量短时能量 其中其中l是从第是从第n个采样点开始的一帧的帧号。个采样点开始的一帧的帧号。若记若记则则实际中,为控制动态范围常采用对数能量。实际中,为控制动态范围常采用对数能量。时域、频域处理方法(11)短时平均幅度短时平均幅度短时过零率:单位时间内通过零值的次数。短时过零率:单位时间内通过零值的次数。式中式中 时域、频域处理方法(12)短时平均过零率容易受到低频的干扰短时平均过零率容易受到低频的干扰,因而提,因而提出了门限过零率的思想。出了门限过零率的思想。时域、频域处理方法(13)3.1.4 短时自相关函数短时自相关函数自相关函数自相关函数 对于确定性离散信号对于确定性离散信号 ,其自相关函数为,其自相关函数为,对于随机或周期性的信号对于随机或周期性的信号R(k)表示表示一个信号和延迟一个信号和延迟k点后的该信号本身的相似性。点后的该信号本身的相似性。时域、频域处理方法(14)自相关函数的性质:自相关函数的性质:1、偶函数:、偶函数:2、k=0时函数取最大值,对于确定性信号其值时函数取最大值,对于确定性信号其值为能量。对于随机信号,其值为该信号的平均为能量。对于随机信号,其值为该信号的平均功率。功率。3、如果原序列是周期为如果原序列是周期为T的周期信号,那么自的周期信号,那么自相关函数也是周期为相关函数也是周期为T的周期函数。的周期函数。时域、频域处理方法(15)短时自相关函数定义为短时自相关函数定义为 短时自相关函数可用于基音周期的检测。短时自相关函数可用于基音周期的检测。下面给出三个自相关函数的图示例子。下面给出三个自相关函数的图示例子。时域、频域处理方法(16)浊音:峰值约出浊音:峰值约出现在现在72的倍数上的倍数上浊音:峰值约出浊音:峰值约出现在现在58的倍数上的倍数上清音:没有明清音:没有明显的峰值。显的峰值。时域、频域处理方法(17)短时平均幅度差函数定义为:短时平均幅度差函数定义为:也可用于基音周期的检测。也可用于基音周期的检测。短时平均幅度差函数短时平均幅度差函数 为的是简化计算自相关函数为的是简化计算自相关函数,对一个周期信号,对一个周期信号做差值:做差值:则当则当k与信号的周期吻合时,与信号的周期吻合时,d(n)值最小。值最小。时域、频域处理方法(18)3.2 端点检测端点检测-时域特征的一个应用时域特征的一个应用对语音进行对语音进行“浊音浊音/清音清音/无声无声”的判定。的判定。浊音的能量(或幅度)高于清音,清音的过零浊音的能量(或幅度)高于清音,清音的过零率高于无声段。率高于无声段。在汉语中,浊音处于音节的后部,容易通过短在汉语中,浊音处于音节的后部,容易通过短时能量(或幅度)来区别,但在音节的前端,时能量(或幅度)来区别,但在音节的前端,清音与环境噪声则很难区分。清音与环境噪声则很难区分。时域、频域处理方法(19)双门限法双门限法(1)用较高的短时用较高的短时幅度门限幅度门限MH确保确保A1-A2肯定是浊音。肯定是浊音。(2)从)从A1 A2开始开始向两端搜索,短时幅向两端搜索,短时幅度度较低门限较低门限ML的的B1-B2还是语音段。还是语音段。(3)从)从B1 B2开始开始向前后搜索,短时过向前后搜索,短时过零率零率0在时间在时间 附近对附近对 傅里叶变换的局部化。傅里叶变换的局部化。仍然是高斯函数,保证了在频域也有局部仍然是高斯函数,保证了在频域也有局部化的能力。化的能力。时频窗上的解释:时频窗上的解释:时域窗时域窗频频域域窗窗时时-频窗,直观描述了时频局部化的情况。频窗,直观描述了时频局部化的情况。时域、频域处理方法(34)可以证明,可以证明,Gabor变换是具有最小时频窗的短时傅变换是具有最小时频窗的短时傅里叶变换,反映了其某种最佳性。里叶变换,反映了其某种最佳性。短时傅里叶变换和短时傅里叶变换和Gabor变换,时频窗口的形状是变换,时频窗口的形状是固定的,不能随所分析信号的高低频等信息而变化,固定的,不能随所分析信号的高低频等信息而变化,对非平稳信号分析能力是有限的。对非平稳信号分析能力是有限的。希望能用时频分析算法自动适应这一要求。小波变希望能用时频分析算法自动适应这一要求。小波变换则具备这一能力。换则具备这一能力。时域、频域处理方法(35)3.4.6 小波变换小波变换 小波(小波(Wavelet)就是指小的波形,)就是指小的波形,“小小”是是它具有衰减性,它具有衰减性,“波波”是指波动性;是指波动性;使用一个窗函数(小波函数),其时频窗面积使用一个窗函数(小波函数),其时频窗面积不变,但形状可改变。不变,但形状可改变。小波函数根据需要调整时间与频率分辨率,具小波函数根据需要调整时间与频率分辨率,具 有多分辨分析的特点。有多分辨分析的特点。Waves and Wavelets 时域、频域处理方法(36)小波母函数小波母函数 满足满足依赖参数(依赖参数(a,b)的小波)的小波尺度因子尺度因子a 的作用是把基本小波做伸缩;的作用是把基本小波做伸缩;a 1,对小波有伸展作用,表示用伸展的波形去对小波有伸展作用,表示用伸展的波形去观察整个信号;观察整个信号;0a1,有压缩作用,表示用压缩的波形去观察有压缩作用,表示用压缩的波形去观察信号的局部。信号的局部。b 的作用是确定对信号分析的时间位置的作用是确定对信号分析的时间位置。时域、频域处理方法(37)小波变换:小波变换:实质是原来函数在实质是原来函数在 附近按照附近按照 进行加权进行加权平均,体现的是以平均,体现的是以 为标准快慢信号的变化情况。为标准快慢信号的变化情况。时域、频域处理方法(38)小波分析特点:小波分析特点:恒恒Q性质:性质:Q为母小波的品质因数,定义如下为母小波的品质因数,定义如下Q=带宽带宽/中心频率中心频率 图图 随随a变化的说明;变化的说明;(a)a=1,(b)a=2,(c)a=1/2 不论不论a为何值,为何值,始终保持了与始终保持了与 具有相同的品具有相同的品质因数。质因数。)(aty 时域、频域处理方法(39)不同尺度下小波变换所分析的时宽、带宽、时间不同尺度下小波变换所分析的时宽、带宽、时间中心和频率中心的关系如下图。中心和频率中心的关系如下图。不同尺度下时频窗的面积不变,但提供了一个可调的窗口。不同尺度下时频窗的面积不变,但提供了一个可调的窗口。小波变换的特点小波变换的特点当用较小的当用较小的a对信号做高频分析时,实际上是用高频小对信号做高频分析时,实际上是用高频小波对信号做细致观察;波对信号做细致观察;而用较大的而用较大的a对信号做低频分析时,实际上是用低频小对信号做低频分析时,实际上是用低频小波对信号做概貌观察。波对信号做概貌观察。时域、频域处理方法(40)小波变换的多分辨分析小波变换的多分辨分析从理想滤波器组的角度看,多分辨分析实质上是将信从理想滤波器组的角度看,多分辨分析实质上是将信号按频带进行分解。号按频带进行分解。时域、频域处理方法(41)低通低通滤波滤波器器 高通滤高通滤波器波器 0/2的低的低频部分,反频部分,反映信号概貌映信号概貌/2 的低的低频部分,反频部分,反映信号细节映信号细节 一个二抽一个二抽取环节取环节 时域、频域处理方法(42)3.5 同态信号处理同态信号处理 目的:乘积性组合信号或卷积性组合信号转化目的:乘积性组合信号或卷积性组合信号转化为加性信号。将非线性问题转化为线性问题来为加性信号。将非线性问题转化为线性问题来处理。处理。卷积同态信号处理卷积同态信号处理 卷积同态系统示意图卷积同态系统示意图 时域、频域处理方法(43)特征系统特征系统 D*第一步是对信号进行第一步是对信号进行Z变换,将卷积信号转变为乘积信号变换,将卷积信号转变为乘积信号 第二步是进行对数运算,将乘积信号变为加性信号第二步是进行对数运算,将乘积信号变为加性信号 第三步进行反第三步进行反Z变换运算变换运算,变回时域信号变回时域信号 卷积同态系统分解示意图卷积同态系统分解示意图 时域、频域处理方法(44)反反特征系统特征系统 D*-1:它是特征系统的反运算。它是特征系统的反运算。复倒谱复倒谱(Complex Cepstrum):将特征系统的输:将特征系统的输出称为复倒谱或对数复倒谱。出称为复倒谱或对数复倒谱。其所在域称之为倒谱域。其所在域称之为倒谱域。时域、频域处理方法(45)倒谱:仅对倒谱:仅对的实部作逆的实部作逆Z变换变换倒谱不能通过逆特征系统还原成自身。倒谱不能通过逆特征系统还原成自身。在绝大多数应用场合,特征系统和逆特征系在绝大多数应用场合,特征系统和逆特征系统中的正反统中的正反Z变换都可以用正反傅里叶变换变换都可以用正反傅里叶变换(DFT和和IDFT)来代替。来代替。时域、频域处理方法(46)3.6 Mel频率倒谱系数频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)人的耳蜗实质上的作用相当于一个滤波器组,它是在对人的耳蜗实质上的作用相当于一个滤波器组,它是在对数频率尺度上进行的,在数频率尺度上进行的,在1000Hz以下为线性尺度,而以下为线性尺度,而1000Hz以上为对数尺度,这就使得人耳对低频信号比对以上为对数尺度,这就使得人耳对低频信号比对高频信号更敏感。高频信号更敏感。根据这一原则,研究者根据心理学实验得到了类似于耳根据这一原则,研究者根据心理学实验得到了类似于耳蜗作用的一组滤波器组,这就是蜗作用的一组滤波器组,这就是Mel频率滤波器组。频率滤波器组。MFCC计算过程:计算过程:(1)将信号进行分帧,预加重和加汉明窗处理,然后)将信号进行分帧,预加重和加汉明窗处理,然后进行短时傅立叶变换得到其频谱;进行短时傅立叶变换得到其频谱;时域、频域处理方法(47)(2)求频谱平方,即能量谱,将每个滤波频带内的)求频谱平方,即能量谱,将每个滤波频带内的能量进行叠加,第能量进行叠加,第k个滤波器输出功率谱个滤波器输出功率谱(3)将每个滤波器的输出取对数,得到相应频带的对)将每个滤波器的输出取对数,得到相应频带的对数功率谱;并进行反离散余弦变换,得到数功率谱;并进行反离散余弦变换,得到L个个MFCC系系数,数,时域、频域处理方法(48)(4)这种直接得到的这种直接得到的MFCC特征作为静态特征,将这种特征作为静态特征,将这种静态特征做一阶和二阶差分,得到相应的动态特征。静态特征做一阶和二阶差分,得到相应的动态特征。MFCC将人耳的听觉感知特性和语音的产生机制将人耳的听觉感知特性和语音的产生机制相结合,因此目前大多数语音识别系统中广泛使用这相结合,因此目前大多数语音识别系统中广泛使用这种特征。种特征。时域、频域处理方法(49)到此为止,语音信号处理能采用的特征及形式:到此为止,语音信号处理能采用的特征及形式: