3时频分析.ppt
《3时频分析.ppt》由会员分享,可在线阅读,更多相关《3时频分析.ppt(88页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、II 语音信号的产生模型语音信号的产生模型语音产生模型语音产生模型 主要内容主要内容 2.1 语音信号的产生模型语音信号的产生模型 2.2 语音的感知语音的感知 2.3 语音学基础知识语音学基础知识语音产生模型语音产生模型(1)2.1 语音的产生语音的产生声带每开启和闭合一次声带每开启和闭合一次的时间是基音周期的时间是基音周期(Pitch Period),其倒,其倒数为基音频率。数为基音频率。声道是对发音起重要作声道是对发音起重要作用的器官。用的器官。发音器官包括:肺、气发音器官包括:肺、气管、喉、咽、鼻腔、口管、喉、咽、鼻腔、口腔、唇。腔、唇。声门脉冲声门脉冲 声道声道 语音信号语音信号 激
2、励信号激励信号 声道滤波器声道滤波器 语音信号语音信号 频谱频谱 传递函数传递函数 频谱频谱 语音产生模型语音产生模型(2)语音产生模型语音产生模型(3)语音产生的机理图语音产生的机理图 语音产生模型语音产生模型(4)语音信号产生系统模型语音信号产生系统模型 冲激序列发生器 声门波 模型 随机噪声发生器 基音 周期 振幅 VA 振幅 NA 声道 模型 声道参数 辐射 模型 语音信号 激励模型激励模型发浊音时,声带振发浊音时,声带振动形成准周期的脉动形成准周期的脉冲串冲串发清音时,声带发清音时,声带松弛。相当于一松弛。相当于一个随机白噪声。个随机白噪声。语音产生模型语音产生模型(5)在声学上对均
3、匀无损耗的管道的声学特性有非常简单在声学上对均匀无损耗的管道的声学特性有非常简单的数学描述。的数学描述。均匀:截面积不变;均匀:截面积不变;无损耗:不考虑声波在管内的热损耗、粘滞摩擦损无损耗:不考虑声波在管内的热损耗、粘滞摩擦损耗和管壁的热传导作用。耗和管壁的热传导作用。在此基础上,可以将声道简化成一些截面积不等的均在此基础上,可以将声道简化成一些截面积不等的均匀无损声管的级联。用该模型来逼近真实的声道,称匀无损声管的级联。用该模型来逼近真实的声道,称之为声道的时间离散模型。之为声道的时间离散模型。语音产生模型语音产生模型(6)一般可用如下的全极点模型来刻画共振峰特性:一般可用如下的全极点模型
4、来刻画共振峰特性:P为全极点滤波器的阶,在为全极点滤波器的阶,在8-12内取值。一对极点对应一个内取值。一对极点对应一个共振峰。共振峰。另一种是将声道视为一个谐振腔,共振峰是这个腔体的谐另一种是将声道视为一个谐振腔,共振峰是这个腔体的谐振频率振频率共振峰模型。共振峰模型。通常用前通常用前3个共振峰来代表一个元音,对复杂的辅音或鼻音,个共振峰来代表一个元音,对复杂的辅音或鼻音,大约用大约用5个以上共振峰才行。个以上共振峰才行。声道参数一般在声道参数一般在10ms-30ms内保内保持不变持不变短时短时分析。分析。语音产生模型语音产生模型(7)辐射模型辐射模型研究表明:辐射效应在高频段较为明显,在低
5、频段影响较小。研究表明:辐射效应在高频段较为明显,在低频段影响较小。可用一个高通滤波器来表示辐射模型。可用一个高通滤波器来表示辐射模型。其中其中r接近接近1。在实际信号分析时,常采用这样的预加重技术。即在采样在实际信号分析时,常采用这样的预加重技术。即在采样之后,插入一个一阶高通滤波器。在语音合成时再进行之后,插入一个一阶高通滤波器。在语音合成时再进行“去加重去加重”处理,就可以恢复原来的语音。处理,就可以恢复原来的语音。语音产生模型语音产生模型(8)对传统的语音产生模型,在发音过程中声道处于运动对传统的语音产生模型,在发音过程中声道处于运动状态,且与语音信号相比变化缓慢,一般可用时变的状态,
6、且与语音信号相比变化缓慢,一般可用时变的线性系统来模拟。线性系统来模拟。20世纪世纪80年代,年代,Teager等人在实验基础上,给出了一等人在实验基础上,给出了一个语音产生模型。个语音产生模型。语音信号是由平面语音信号是由平面波部分的线性部分波部分的线性部分和涡流区域的非线和涡流区域的非线性部分共同组成。性部分共同组成。语音产生模型语音产生模型(9)基于上述的这种非线性现象,许多学者开始试图提出基于上述的这种非线性现象,许多学者开始试图提出新的语音产生模型来解释语音产生的过程新的语音产生模型来解释语音产生的过程。1993年年Maragos从语音是由声道共振产生的角度,提从语音是由声道共振产生
7、的角度,提出调频出调频调幅模型调幅模型(AMFM modulation model)。语音信号中单个共振峰的输出,相当于以该共振峰频语音信号中单个共振峰的输出,相当于以该共振峰频率为载波频率进行频率调制和幅值调制的结果。率为载波频率进行频率调制和幅值调制的结果。假定语音信号是由若干个共振峰经过这样调制结果的假定语音信号是由若干个共振峰经过这样调制结果的叠加而成。这样,就可以用能量分离算法将与每个共叠加而成。这样,就可以用能量分离算法将与每个共振峰相对应的瞬时频率从语音信号中分离出来。振峰相对应的瞬时频率从语音信号中分离出来。语音产生模型语音产生模型(10)1、调频调频调幅模型的基本原理调幅模型
8、的基本原理 对于一个载波频率为对于一个载波频率为,频率调制信号为,频率调制信号为 来控制幅值的调制信号,可以表示为:来控制幅值的调制信号,可以表示为:这里的载波频率与每个共振峰频率对应这里的载波频率与每个共振峰频率对应。为在为在t时刻的瞬时相位。时刻的瞬时相位。语音产生模型语音产生模型(11)它反映了在载波频率附近的频率是按着频率调制信它反映了在载波频率附近的频率是按着频率调制信号来变化。号来变化。可以将语音信号看作是由若干个这样共振峰调制信号可以将语音信号看作是由若干个这样共振峰调制信号的叠加而成,则语音信号可以表示为:的叠加而成,则语音信号可以表示为:可看作是语音信号的单个共振峰的输出。可
9、看作是语音信号的单个共振峰的输出。将瞬时频率定义为瞬时相位的变化率。将瞬时频率定义为瞬时相位的变化率。语音产生模型语音产生模型(12)对于单个共振峰的调制信号对于单个共振峰的调制信号 这个能量分离算法是根据这个能量分离算法是根据Teager能量算子发展而来的。能量算子发展而来的。可以用一个能量分离算法将幅度调制后的幅值包络可以用一个能量分离算法将幅度调制后的幅值包络 和频率调制后的瞬时频率和频率调制后的瞬时频率 从语音信号中分离出来。从语音信号中分离出来。语音产生模型语音产生模型(13)2、Teager能量算子能量算子 在连续域和在离散域中有两种表达形式。在连续域和在离散域中有两种表达形式。语
10、音信号的数字处理都在离散域上。语音信号的数字处理都在离散域上。它在一定程度上对语音信号的能量提供一种它在一定程度上对语音信号的能量提供一种测度。测度。可以表示出对单个共振峰能量的调制状态。可以表示出对单个共振峰能量的调制状态。语音产生模型语音产生模型(14)在离散上,对一帧语音信号在离散上,对一帧语音信号s(n),能量算子定能量算子定义为义为:利用这个能量算子,可以把语音信号中的幅值利用这个能量算子,可以把语音信号中的幅值调制部分与频率调制部分有效地分离开。调制部分与频率调制部分有效地分离开。可以看出:能量算子输出信号的局部特性,只可以看出:能量算子输出信号的局部特性,只依赖于原始语音信号本身
11、和它的时域差分。依赖于原始语音信号本身和它的时域差分。语音产生模型语音产生模型(15)3 3、能量分离算法、能量分离算法 能将只包含单个共振峰的语音信号分离成频率分量和能将只包含单个共振峰的语音信号分离成频率分量和幅值分量。幅值分量。进行能量算子操作,有:进行能量算子操作,有:对单个共振峰的调制信号,用离散形式可以重新表达对单个共振峰的调制信号,用离散形式可以重新表达如下:如下:频率调制频率调制后的瞬时后的瞬时频率。频率。幅值调制幅值调制后的幅值后的幅值包络。包络。语音产生模型语音产生模型(16)信号的能量算子输出是幅值包络和瞬时频率的一个函信号的能量算子输出是幅值包络和瞬时频率的一个函数,它
12、可以反映出幅值和频率的变化。数,它可以反映出幅值和频率的变化。上式的结果表示了该算子的能量跟踪能力,所以将这上式的结果表示了该算子的能量跟踪能力,所以将这个算子称为能量算子。个算子称为能量算子。例:如果例:如果 r(n)信号为一个简单的调频脉冲信号,其信号为一个简单的调频脉冲信号,其幅值不变,则经过幅值不变,则经过TEO操作操作后的输出如下图。后的输出如下图。语音产生模型语音产生模型(17)可以看出,当信号的幅值不发生变化时,可以看出,当信号的幅值不发生变化时,TEO操作后操作后的信号可以反映出频率的高低。的信号可以反映出频率的高低。语音产生模型语音产生模型(18)考虑到差分的对称性,可以用考
13、虑到差分的对称性,可以用 对于对于 的导数,它的能量算子的输出仍然是只与的导数,它的能量算子的输出仍然是只与,有关的一个函数。有关的一个函数。代替代替 的导数,则:的导数,则:语音产生模型语音产生模型(19)信号的幅值包络和瞬时频率如下:信号的幅值包络和瞬时频率如下:以以和和为未知函数,联立求解,可得到为未知函数,联立求解,可得到这样就可以分别求出瞬时频率和幅值包络。这样就可以分别求出瞬时频率和幅值包络。语音的感知语音的感知(1)2.2 语音的感知语音的感知耳翼的作用是保护耳翼的作用是保护耳孔,其卷曲状具耳孔,其卷曲状具有定向作用。有定向作用。外耳道同其它管外耳道同其它管道一样也有共振道一样也
14、有共振频率,大约是频率,大约是3400Hz。鼓膜位于外耳道鼓膜位于外耳道内端的韧性锥形内端的韧性锥形结构,声音的振结构,声音的振动通过鼓膜传到动通过鼓膜传到内耳。内耳。外耳在声音感知中有两个作用:一是外耳在声音感知中有两个作用:一是对声源的定位,二是对声音的放大。对声源的定位,二是对声音的放大。中耳的作用有两个:一是放大声压,中耳的作用有两个:一是放大声压,二是保护内耳。二是保护内耳。中耳由三中耳由三块听小骨块听小骨组成。组成。内耳的耳蜗是听觉的受纳器,从声震内耳的耳蜗是听觉的受纳器,从声震动到神经冲动的转换在此完成。动到神经冲动的转换在此完成。语音的感知语音的感知(2)正常人耳能感知的频率范
15、围为正常人耳能感知的频率范围为20Hz20KHz;强度范围强度范围为为0dB120dB。音调是人耳对不同频率声音的一种主观感觉。单位为音调是人耳对不同频率声音的一种主观感觉。单位为Mel,与频率近似的满足方程:与频率近似的满足方程:响度用来描述人耳对不同频率纯音的辨别灵敏度。单位响度用来描述人耳对不同频率纯音的辨别灵敏度。单位为为Phon(方)。(方)。1Phon等于等于1kHz纯音的声强级。纯音的声强级。而零而零方对应人耳的听阈。方对应人耳的听阈。语音的感知语音的感知(3)人耳感知的声音响度是频率和声压级的函数。通人耳感知的声音响度是频率和声压级的函数。通过比较不同频率和幅度的语音可以得到主
16、观等响度过比较不同频率和幅度的语音可以得到主观等响度曲线如下图。曲线如下图。语音的感知语音的感知(4)掩蔽效应掩蔽效应 指在一个较强的声音附近,相对较弱的声音将不指在一个较强的声音附近,相对较弱的声音将不被人耳觉察。强音称为掩蔽者,弱音称为被掩蔽被人耳觉察。强音称为掩蔽者,弱音称为被掩蔽者。分为同时掩蔽和异时掩蔽者。分为同时掩蔽和异时掩蔽。频率为频率为1kHz 声压级为声压级为60dB的音调信号的掩蔽阈值曲线的音调信号的掩蔽阈值曲线 语音的感知语音的感知(5)异时掩蔽又分为前掩蔽和后掩蔽两种异时掩蔽又分为前掩蔽和后掩蔽两种 一般后掩蔽可一般后掩蔽可持续持续100 ms,而前掩蔽仅持续而前掩蔽仅
17、持续20 ms。三种掩蔽现象的强度以及持续时间三种掩蔽现象的强度以及持续时间 语音的感知语音的感知(6)各种不同的掩蔽效果各种不同的掩蔽效果 (1 1)纯纯音音调调信号信号间间的掩蔽的掩蔽 频率为频率为1 kHz 声压级声压级不同的纯音调对纯音调的掩蔽阈值曲线不同的纯音调对纯音调的掩蔽阈值曲线 语音的感知语音的感知(7)(2 2)宽带宽带噪声噪声对纯对纯音音调调的掩蔽的掩蔽 宽带噪声对纯音调的掩蔽阈值曲线宽带噪声对纯音调的掩蔽阈值曲线 语音的感知语音的感知(8)(3 3)窄)窄带带噪声噪声对纯对纯音音调调的掩蔽的掩蔽 中心频率中心频率为为 1 kHz、声压级不同的窄带噪声对纯音调的掩蔽曲线声压
18、级不同的窄带噪声对纯音调的掩蔽曲线 语音的感知语音的感知(9)中心频率不同的窄带噪声产生的掩蔽阈值曲线的形中心频率不同的窄带噪声产生的掩蔽阈值曲线的形状是不同的。状是不同的。声压级相同中心频率不同的窄带噪声对纯音调的掩蔽阈值曲线声压级相同中心频率不同的窄带噪声对纯音调的掩蔽阈值曲线 语音的感知语音的感知(10)为了描写窄带噪声为了描写窄带噪声对纯音调信号的掩蔽效应,引入临界带宽对纯音调信号的掩蔽效应,引入临界带宽的概念。的概念。一个纯音可以被以它为中心频率,且具有一定带宽的连续噪一个纯音可以被以它为中心频率,且具有一定带宽的连续噪声所掩蔽,如在这一频带内噪声功率等于该纯音的功率,这声所掩蔽,如
19、在这一频带内噪声功率等于该纯音的功率,这时该纯音处于刚好能被听到的临界状态,称这一带宽为临界时该纯音处于刚好能被听到的临界状态,称这一带宽为临界带宽。带宽。连续的临界频带序号记为临界频带率,或称为连续的临界频带序号记为临界频带率,或称为Bark域。为了域。为了纪念纪念Barkhauseu。通常将通常将20Hz到到16kHz之间的频率用之间的频率用24个频率群来划分,或者个频率群来划分,或者说共有说共有24Bark。语音的感知(语音的感知(1111)频率群序号(Bark)中心频率(Hz)临界带宽(Hz)相对带宽(dB)下限频率(Hz)上限频率(Hz)15080192010021501002010
20、020032501002020030043501002030040054501102040051065701202151063077001402163077088401502277092091000160229201080101170190231080127011137021023127014801216002402414801720131850280251720200014215032025200023201525003802623202700162900450272700315017340055027315037001840007002837004400194800900294400530
21、0205800110030530064002170001300326400770022850018003277009500231050025003495001200024135003500351200015500临临界界带带宽宽表表 声压级相同,但临界频带率不同的掩蔽阈值曲声压级相同,但临界频带率不同的掩蔽阈值曲线如下图。线如下图。语音的感知(语音的感知(1212)声压级相同、临界频带率不同的窄带噪声对纯音调的掩蔽阈值曲线声压级相同、临界频带率不同的窄带噪声对纯音调的掩蔽阈值曲线 语音学基础知识语音学基础知识(1)2.3 语音学基础知识语音学基础知识音素是语音的基本单位。可以分为元音和辅音。音
22、素是语音的基本单位。可以分为元音和辅音。元音是指发音的过程中,对声腔气流无明显阻塞元音是指发音的过程中,对声腔气流无明显阻塞而发出的音段,如而发出的音段,如a、i等。等。辅音是声腔气流明显受阻时所发出的音段,如辅音是声腔气流明显受阻时所发出的音段,如mn等。等。此外还用半元音、双元音、半辅音等等。此外还用半元音、双元音、半辅音等等。语音学基础知识语音学基础知识(2)对一组语言来讲,可以用一组音素来描述。对一组语言来讲,可以用一组音素来描述。美国英语包括美国英语包括42个音素,分为:元音个音素,分为:元音12个;双元个;双元音音6个;半元音个;半元音4个;辅音个;辅音20个。个。汉语普通话是以北
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分析
限制150内