第二章语音信号的数学模型课件.ppt

上传人：飞****2

文档编号：72006928

上传时间：2023-02-08

格式：PPT

页数：69

大小：2.60MB

( 4.5 )

《第二章语音信号的数学模型课件.ppt》由会员分享，可在线阅读，更多相关《第二章语音信号的数学模型课件.ppt（69页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、第二章基础知识2.1 概述概述12.2 语音的发音机理语音的发音机理2.3 语音的语音的听觉机理听觉机理32.4 语音的感知语音的感知42.5 语音信号模型语音信号模型5 2.6 语音信号数字模型语音信号数字模型622019-12.1概述本章重点介绍语音信号产生的数字模型，对语音信号的特性和听觉特性做一般介绍。2019-22.2语音的发音机理2.2.1人的发音器官1.组成肺和气管组成声源；喉和声带称为声门；由咽腔、口腔、鼻腔组成声道；图图2.1 发音器官机理模型发音器官机理模型2019-32.功能肺：产生压缩气体，通过气管传送到声音生成系统。喉：控制声带运动的复杂系统。主要包括：环状软骨

2、、甲状软骨、杓状软骨、声带。2019-4 声带是伸展在喉前、后端之间的褶肉，前端由甲状软骨支撑，声带是伸展在喉前、后端之间的褶肉，前端由甲状软骨支撑，后端由杓状软骨支撑，杓状软骨又与环状软骨较高部分相连，这些后端由杓状软骨支撑，杓状软骨又与环状软骨较高部分相连，这些软骨在环状软骨上的肌肉的控制下，能将两片声带合拢或分离。软骨在环状软骨上的肌肉的控制下，能将两片声带合拢或分离。2019-5 声门：声带之间的间隙称为声门。主要功能：产生激励。声道：声道指声门至嘴唇的所有发音器官。可以看成一根从声门一直延伸到嘴唇的具有非均匀截面的声管。声道的形状变化（截面积）由舌、软腭、唇、牙的形状和位置决定。主要

3、功能：传输调制声波。包括：咽喉、口腔和鼻腔。2019-6 口腔包括：上下唇、上下齿、上下齿龈、上下腭、舌和小舌等部分。上腭又分为：硬腭和软腭两部分；舌又分为：舌尖、舌面和舌根三部分。鼻腔在口腔上面，靠软腭和小舌将其与口腔隔开。当小舌下垂时，鼻腔和口腔便耦合起来，当小舌上抬时，口腔与鼻腔是不相通的。口腔和鼻腔都是发音时的共鸣器。2019-7图图2.3 声道纵剖面图声道纵剖面图2019-82.2.2语音生成图2.1为语音生成其机理模型。空气由肺部排入喉部，经过声带进入声道，最后由嘴辐射出声波，这就形成了语音。在声门（声带）以左，称为“声门子系统”，它负责产生激励振动；右边是“声道系统”和“辐射系

4、统”。当发不同性质的语音时，激励和声道的情况是不同的，它们对应的模型也是不同的。2019-9 图图 2.1 发音器官机理模型发音器官机理模型 2019-10 语音生成动作可分为两种功能：（1）激励（2）调制2019-112.2.2语音生成-浊音空气流经过声带时，如果声带是崩紧的，则声带将产生张弛振动，即声带将周期性地启开和闭合。声带启开时，空气流从声门喷射出来，形成一个脉冲，声带闭合时相应于脉冲序列的间隙期。因此，这种情况下在声门处产生出一个准周期脉冲状的空气流。该空气流经过声道后最终从嘴唇辐射出声波，这便是浊音语音。这个准周期脉冲的周期即为基音周期。2019-12基音频率是由声带张开闭合

5、的周期所决定的：男性的基音频率一般为50250Hz；女性基音频率为100500Hz。2019-132019-142.2.2语音生成-清音空气流经过声带时，如果声带是完全舒展开来的，则肺部发出的空气流将不受影响地通过声门。空气流通过声门后，会遇到两种不同情况。一种情况是，如果声道的某个部位发生收缩形成了一个狭窄的通道，当空气流到达此处时被迫以高速冲过收缩区，并在附近产生出空气湍流，这种湍流空气通过声道后便形成所谓摩擦音或清音。2019-152.2.2语音生成-爆破音另一种情况是，如果声道的某个部位完全闭合在一起，当空气流到达时便在此处建立起空气压力，闭合点突然开启便会让气压快速释放，经过声道

6、后便形成所谓爆破音。2019-162019-17 共振峰频率或共振峰声音产生后，便沿着声道进行传播。声道可以看成是一根具有非均匀截面的声管，在发音时起着共鸣器的作用。声音进入声道后，其频谱必定会受到声道的共振特性的影响，声道具有一组共振频率，称为共振峰频率或共振峰。声道的频谱特性便主要地反映出这些共振峰的不同位置以及各个峰的频带宽度。共振峰及其带宽取决于声道的形状和尺寸，因而不同的语音对应于一组不同的共振峰参数。2019-182019-192019-202019-212.3语音的听觉机理2.3.1听觉器官人的听觉器官包括：外耳、中耳和内耳图图2.3 2.3 人耳结构示意图人耳结构示意图20

7、19-22 1.外耳外耳由耳廓(耳翼)、外耳道和耳鼓（鼓膜）组成。2.中耳组成：包括三块听小骨:锤骨，砧骨和镫骨。作用：阻抗匹配和限幅外耳和中耳的综合作用相当于一个介于500Hz到6kHz之间的平滑的带通滤波器，可以用有限冲激响应(FIR-FiniteImpulseResponse)滤波器来模拟。2019-233.内耳内耳是一个充满液体的骨质结构，由前庭、圆形窗、卵形窗及耳蜗组成。2019-242.3.2耳蜗的信号处理机制2019-25当声音经外耳传入中耳时，镫骨的运动引起耳蜗内流体压强的变化，从而引起行波沿基底膜的传播。图2.6是流体波的简单表示。在耳蜗的底部基底膜的硬度很高，流体波传

8、播的很快。随着波的传播，膜的硬度变得越来越小，波的传播也逐渐变缓。不同频率的声音产生不同的行波，而峰值出现在基底膜的不同位置上。2019-26图图2.7 基底膜上六个不同点的频率响应基底膜上六个不同点的频率响应1 1 基底膜基底膜2 2 内毛细胞内毛细胞3 3 外毛细胞外毛细胞4 听传导通路听传导通路 2019-272.3.3语音信号听觉模型听听觉觉系系统统的的研研究究主主要要集集中中在在三三个个方方面面：听听觉觉系系统统的的实实验验研研究究、听听觉觉系系统统的的建建模模和和听听觉觉模模型型的的应应用用。听听觉觉系系统统的的实实验验研研究究主主要要是是指指听听觉觉系系统统在在医医学学、生生理

9、理学学及及心心理理学学方方面面的的研研究究。由由于于耳耳蜗蜗深深植植于于颅颅骨骨中中，尺尺寸寸极极小小（如如蜗蜗管管的的直直径径只只有有1mm），所所以以耳耳蜗蜗的的实验研究是一项非常艰巨和复杂的工作。实验研究是一项非常艰巨和复杂的工作。耳耳蜗蜗建建模模主主要要集集中中在在基基底底膜膜的的振振动动上上，然然而而，建建立立基基底底膜膜的的振振动动模模型型是是耳耳蜗蜗建建模模的的首首要要任任务务，它它又被称为耳蜗的宏观力学模型。又被称为耳蜗的宏观力学模型。2019-28图2.10 语音信号听觉模型一般原理框图语语音音信信号号首首先先通通过过一一串串带带通通滤滤波波器器(BPF)阵阵列列，其其中中

10、心心频频率率跟跟随随着着图图2.7所所示示的的基基底底膜膜频频率率响响应应按按照照对对数数尺尺度度分分布布。每每一一个个带带通通滤滤波波器器都都被被独独立立的的设设定定为为有有限限冲冲激激响响应应滤滤波波器器(FIR)或或无无限限冲冲激激响响应应滤滤波波器器(IIR)，但但是是频频率率响响应应的的波波形形并并不不是是严严格格精精确的。确的。2019-29 被滤波的信号在通过内毛细胞/突触模型之后，到达听传导通路模型。虽然各种听觉模型的带通滤波器的性能特征是基本相同的，但是在接下来几级的信号处理过程却有很大差异。事实上，不同的听觉模型都各自拥有不同的IHC模型，突触模型和听传导通路模型。一些模型

11、为每一个滤波后的信号都设有独立的频道，而另一些模型则认为在基底膜上相邻位置处滤波得到的信号之间存在耦合性。2019-30 根据人耳的听觉特性得出的模型作为语音识别的特征提取部分，可获得具有鲁棒性的特征参数，它们对真实世界中的噪音环境下的语音识别都表现出很好的性能。2019-312.4语音的感知2.4.1几个概念1.人耳听觉界限的频率范围大约为20Hz-20kHz。2.语音感知的强度范围是0130dB声压级。3.语音的特性包括：音质，音调，音强，音长3.响度这是频率和强度级的函数。通常用响度(单位为宋)和响度级(单位为方)来表示。此时响度级定为零方。测量表明听阈值是随频率变化的。通常，人们把1k

12、Hz纯音听阈值定为零方。2019-324.人耳刚刚可以听到的声音强度，称为“听阈”。加大声音的强度，使听起来令耳朵感到疼痛，这个阈值称为“痛阈”。5.音高(音调)音高也叫基音。物理单位为Hz，主观感觉的音高单位是美(Mel)。当声强级为40dB频率为1kHz时，设定的音高为1000美。2019-332.4.2掩蔽效应掩蔽效应：两个响度不等的声音作用于人耳时，则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受，使其变得不易察觉，即：一个声音的听觉感受性受同时存在的另外一个声音的影响，这个现象称为人耳的“掩蔽效应”。此时前者称为被掩蔽音，后者称为掩蔽音。在掩蔽情况下，被隐蔽音的听阈会提

13、高，即加大被掩蔽音的强度才能听到。此时听阈称为掩蔽听阈。2019-34 低频的纯音可以有效地掩蔽高频的纯音。利用人耳的掩蔽效应，在进行语音压缩时，让量化噪音的频谱跟随语言信号频谱包络变化。则共振峰的频率成分就会掩蔽掉量化噪声。这个技术称为噪声整形或听觉加权处理。低音容易掩蔽高音，而高音掩蔽低音较难。基于此，可以将真实的声音频率映射到“感知”频率尺度，即Bark尺度对应的临界带宽。2019-35 2.4.3临界带宽与频率群用用一一中中心心频频率率为为f，带带宽宽为为f的的白白噪噪声声来来掩掩蔽蔽一一频频率率为为f的的纯纯音音，先先将将这这个个白白噪噪声声的的强强度度调调节节到到使使被被掩掩蔽蔽纯

14、纯音音恰恰好好听听不不见见为为止止。然然后后将将f由由大大到到小小逐逐渐渐变变化化，而而保保持持单单位位频频率率的的噪噪声声强强度度（即即噪噪声声谱谱密密度度）不不变变，起起初初这这个个纯纯音音一一直直是是听听不不见见的的，但但当当f小小到到某某个个临临界界值值时时，这这个个纯纯音音就就突突然然可可以以听听见见了了。如如果果再再进进一一步步减减小小f，被被掩掩蔽蔽音音f就就会会越越来来越越清清晰晰。这这里里刚刚刚刚开开始始能能听听到到被被掩掩蔽蔽声声时时的的f宽宽的的频频带带，叫叫做频率做频率f处的临界带。处的临界带。2019-36 当当掩掩蔽蔽噪噪声声的的带带宽宽窄窄于于临临界界带带的的带带

15、宽宽时时，能能掩掩蔽蔽住住纯纯音音f的的强强度度是是随随噪噪声声的的带带宽宽的的增增加加而而增增加加的的，但但当当掩掩蔽蔽噪噪声声的的带带宽宽达达到到临临界界带带后后，继继续续增增加加噪噪声声带带宽宽就就不不再再引引起起掩掩蔽蔽量量的的提提高高了了。临临界界带带宽宽是是随随中中心心频频率率而而变变的的，被被掩掩蔽蔽纯纯音音的的频频率率（即即临界带的中心频率）越高，临界带宽也越宽。临界带的中心频率）越高，临界带宽也越宽。临临界界频频带带也也可可定定义义为为：一一个个给给定定的的正正弦弦纯纯音音在在基基底底膜膜上上能能够够产产生生谐谐振振反反应应的的那那一一部部分分。一一个个频频率率群群的的划划分

16、分相相应应于于基基底底膜膜分分成成许许多多很很小小的的部部分分，每一部分对应一个频率群。每一部分对应一个频率群。一个临界带的单位用巴克（一个临界带的单位用巴克（Bark）表示。）表示。2019-372.5语音信号模型有三部分作用施加在语音的声波上：声门产生的激励模型G(z)；声道产生的调制函数V(z)；嘴唇产生的辐射函数R(z)。语音信号的传递函数由这三个函数级联而成，即：H(z)=G(z)V(z)R(z)2019-382.5.1激励模型发浊音时，产生的脉冲类似于斜三角形的脉冲。激励波是一个以基音周期为周期的斜三角脉冲串。图图2.9 三角波及其频谱图三角波及其频谱图2019-39单个三角波的数

17、学表达式为单个三角波的数学表达式为其中：其中：N1为斜三角波的上升时间为斜三角波的上升时间 N2为其下降时间为其下降时间 2019-40单个斜三角波的频谱G(ej)表现出一个低通滤波器的特性。其z变换的全极点形式为：作作为为激激励励的的斜斜三三角角波波串串可可以以用用一一串串加加了了权权的的单单位位脉脉冲冲序序列列去去激激励励单单位位斜斜三三角角波波模模型型实实现现。这这个个单单位脉冲串和幅值因子可以表示成下面的位脉冲串和幅值因子可以表示成下面的z变换形式变换形式2019-41 浊音激励模型可表示为清音可以模拟成随机白噪声。2019-422.5.2声道模型-（1）共振峰模型典型的声道模型有

18、两种：无损声管模型和共振峰模型。（1）共振峰模型当声波通过声道时，受到声腔共振的影响，在某些频率附近形成谐振。反映在信号频谱图上，在谐振频率处其谱线包络产生峰值，一般把它叫作共振峰。2019-432019-44 实践表明，用前三个共振峰代表一个浊音足够了。多个Vi叠加可以得到声道的共振峰模型：一个二阶谐振器的传输函数可以写成一个二阶谐振器的传输函数可以写成2019-45第02章基础知识46共振峰模型将声道视为一个谐振腔，共振峰就是这个腔体的谐振频率，按共振峰理论导出。基于各种音素发音的不同谐振特点可建立起三种实用的共振峰模型：(a)级联型(b)并联型(c)混合型2019-第02章基础知识47

19、(a)级联型：适用于一般单元音,认为声道是一组串联的二阶谐振器：这是一个全极点模型，极点就是这个多项式的根：若P为偶数，解其根会得到共扼复数(conjugate complex)的根，表示成：3 3、语音信号产生的数字模型、语音信号产生的数字模型(2)声道模型2019-第02章基础知识48F=1/T -取样频率 i/-共振峰的频宽。Fi是-共振峰(formant)的中心频率这样分解则每一个二阶因式均对应一个共振峰，其幅频特性是典型的二阶谐振特性，谐振中心频率值等于共振峰。若把语音的各个共振峰所对应的二阶系统级联起来就形成了一个完整的级联型声道模型，且具有明显的谐振特性。3 3、语音信号产生的数

20、字模型、语音信号产生的数字模型(2)声道模型2019-第02章基础知识49(b)并联型适用于鼻音、复合元音及大部分辅音，发这些音时发音腔体具有反谐振特性，必须在模型中加入零点以减弱谐振强度，故要考虑用零、极点模型：通常PR，假设分子与分母无公因子且分母无重根，则此式可分解为以下部分分式之和的形式：这就是并联型共振峰模型，每一个二阶因式对应一个共振峰。每个二阶谐振器的幅度可单独控制。3 3、语音信号产生的数字模型、语音信号产生的数字模型(2)声道模型2019-第02章基础知识50前面两种共振峰模型各自都只能适用于部分语音，级联或并联的级数取决于声道的长度，一般成人取3到5级。级联型结构较为简单，

21、并联型各谐振器幅度可独立控制,综合考虑两者的优缺点可将两种共振峰模型有机地结合起来就得到一种较为完备的共振峰模型。3 3、语音信号产生的数字模型、语音信号产生的数字模型(2)声道模型2019-第02章基础知识51(c)混合型我们可以根据发音的需要自动切换串联或并联通路，此外并联部分还有一条直通路径，其幅度控制因子为AV，这是专为一些频谱特性较为平坦的音素如f、p、b而考虑的，以增强反谐振特性。3 3、语音信号产生的数字模型、语音信号产生的数字模型(2)声道模型2019-无损声管模型：是假定声道由多个等长的不同截面积的管子串联而成的系统，并假定管子中的流体及管壁没有热传导和粘滞的损耗。在短时间内

22、，声道可表为形状稳定的管道，并可以认为声波是沿管轴传播的平面波。2.5.2 声道模型声道模型-（2）无损声管模型无损声管模型2019-52 对于对于N个无损声管级联的情况，可得到无损声个无损声管级联的情况，可得到无损声管的传递函数为：管的传递函数为：2019-53从声道模型输出的是速度波ul(n)，而语音信号是声压波Pl(n)。二者倒比称为辐射阻抗Zl，它表征口唇的辐射效应。如果认为口唇张开的面积远远小于头部的表面积，利用单板开槽辐射的处理方法，可以得到辐射阻抗，r近似为12.5.2 声道模型声道模型-（3）辐射）辐射模型模型2019-54 由辐射引起的能量损耗正比于辐射阻抗的实部R(z)，其

23、频响曲线表现出一阶高通滤波器的特性。在实际信号分析时，常用所谓预加重技术。这样，模型只剩下声道部分，对参数分析就方便了。在语音合成时再进行解加重处理。2019-552.6语音信号数字模型2.6.1数字模型（1）组成：包括三部分：激励模型、声道模型和辐射模型。激励源分浊音和清音两个分支，按照浊音/清音开关所处的位置来决定产生的语音是浊音还是清音。2019-562019-572019-58（2）在浊音的情况下，激励信号由一个周期脉冲发生器产生。所产生的序列是一个周期为T的冲激序列,T的倒数即为基音频率。为了使浊音的激励信号具有声门气流脉冲的实际波形，还需要使上述的冲激序列通过一个声门脉冲模型滤波器

24、。2019-59（3）在清音的情况下，激励信号由一个随机噪声发生器产生。设其均值为0，方差为常数，幅度具有高斯概率分布。乘系数的作用是调节清音信号的幅度。（4）图2.16中画出了一段浊音语音产生过程中的有关波形。2019-602019-61（5）声道模型V(Z)给出了离散时域的声道传输函数，把实际声道作为一个变截面声管加以研究，采用流体力学的方法可以导出，在大多数情况下它是一个全极点函数。V(Z)可以表示为：2019-62把截面积连续变化的声管近似为P段短声管的串联，每段短声管的截面积是不变的。P称为这个全极点滤波器的阶。P值越大，模型的传输函数与声道实际传输函数的吻合程度越高。辐射模型R(Z

25、)与嘴型有关，通常R(Z)可以表示为2019-63 在这个模型中，除了G(Z)和R(Z)保持不变以外，T、Av、Au、清/浊音开关的位置以及声道模型中参数a1ap都是随时间而变化的，由于发音器官的惯性使这些参数的变化速度受到限制。对于声道参数，在1030ms的时间间隔内可以认为它们保持不变，因此，语音的短时分析是分帧进行的。对于激励源参数，多数情况下这一结果也是正确的。2019-64 声道的传输函数具有全极点的性质，这对于元音和大多数辅音来说是比较符合实际的，但对于鼻音和阻塞音来说，由于出现了零点，这种模型就不够准确了。一种解决问题的方案是在V(z)中引入若干零点；另一种方法是适当提高阶数P，

26、使得全极点模型能更好地逼近具有此种零点的传输函数。2.6 语音信号数字模型语音信号数字模型-模型局限性模型局限性(1)2019-65 数字模型的基本思想是认为任何语音都是由一个适当的激励源作用于声道而产生的，这意味着激励源与声道系统是互相独立的。上述假定对于大多数语音是合适的，但在有些情况下，例如某些瞬变音，实际上声门和声道是互相耦合的，这便形成了这些语音的非线性特性。2.6 语音信号数字模型语音信号数字模型-模型局限性模型局限性(2)2019-66后面内容直接删除就行资料可以编辑修改使用资料可以编辑修改使用资料仅供参考，实际情况实际分析The user can demonstrate on a projector or computer,or print the presentation and make it into a film to be used in a wider field 并非任何语音都能够明显地按清音和浊音来划分，有的音甚至也不是清音和浊音的简单叠加。这种将语音信号截然分为周期脉冲激励和噪声激励两种情况的“二元激励”法在高质语音的合成中是不适用的。2.6 语音信号数字模型语音信号数字模型-模型局限性模型局限性(3)2019-69

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

20 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 第二语音信号数学模型课件

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：第二章语音信号的数学模型课件.ppt
链接地址：https://www.taowenge.com/p-72006928.html