第二章语音信号的数学模型课件.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《第二章语音信号的数学模型课件.ppt》由会员分享,可在线阅读,更多相关《第二章语音信号的数学模型课件.ppt(69页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二章 基础知识2.1 概述概述12.2 语音的发音机理语音的发音机理2.3 语音的语音的听觉机理听觉机理32.4 语音的感知语音的感知42.5 语音信号模型语音信号模型5 2.6 语音信号数字模型语音信号数字模型622019-12.1概述本章重点介绍语音信号产生的数字模型,对语音信号的特性和听觉特性做一般介绍。2019-22.2语音的发音机理2.2.1人的发音器官1.组成 肺和气管组成声源;喉和声带称为声门;由咽腔、口腔、鼻腔 组成声道;图图2.1 发音器官机理模型发音器官机理模型2019-32.功能肺:产生压缩气体,通过气管传送到声音生成系统。喉:控制声带运动的复杂系统。主要包括:环状软骨
2、、甲状软骨、杓状软骨、声带。2019-4 声带是伸展在喉前、后端之间的褶肉,前端由甲状软骨支撑,声带是伸展在喉前、后端之间的褶肉,前端由甲状软骨支撑,后端由杓状软骨支撑,杓状软骨又与环状软骨较高部分相连,这些后端由杓状软骨支撑,杓状软骨又与环状软骨较高部分相连,这些软骨在环状软骨上的肌肉的控制下,能将两片声带合拢或分离。软骨在环状软骨上的肌肉的控制下,能将两片声带合拢或分离。2019-5 声门:声带之间的间隙称为声门。主要功能:产生激励。声道:声道指声门至嘴唇的所有发音器官。可以看成一根从声门一直延伸到嘴唇的具有非均匀截面的声管。声道的形状变化(截面积)由舌、软腭、唇、牙的形状和位置决定。主要
3、功能:传输调制声波。包括:咽喉、口腔和鼻腔。2019-6 口腔包括:上下唇、上下齿、上下齿龈、上下腭、舌和小舌等部分。上腭又分为:硬腭和软腭两部分;舌又分为:舌尖、舌面和舌根三部分。鼻腔在口腔上面,靠软腭和小舌将其与口腔隔开。当小舌下垂时,鼻腔和口腔便耦合起来,当小舌上抬时,口腔与鼻腔是不相通的。口腔和鼻腔都是发音时的共鸣器。2019-7图图2.3 声道纵剖面图声道纵剖面图2019-82.2.2语音生成 图2.1为语音生成其机理模型。空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,这就形成了语音。在声门(声带)以左,称为“声门子系统”,它负责产生激励振动;右边是“声道系统”和“辐射系
4、统”。当发不同性质的语音时,激励和声道的情况是不同的,它们对应的模型也是不同的。2019-9 图图 2.1 发音器官机理模型发音器官机理模型 2019-10 语音生成动作可分为两种功能:(1)激励 (2)调制2019-112.2.2语音生成-浊音 空气流经过声带时,如果声带是崩紧的,则声带将产生张弛振动,即声带将周期性地启开和闭合。声带启开时,空气流从声门喷射出来,形成一个脉冲,声带闭合时相应于脉冲序列的间隙期。因此,这种情况下在声门处产生出一个准周期脉冲状的空气流。该空气流经过声道后最终从嘴唇辐射出声波,这便是浊音语音。这个准周期脉冲的周期即为基音周期。2019-12基音频率是由声带张开闭合
5、的周期所决定的:男性的基音频率一般为50250Hz;女性基音频率为100500Hz。2019-132019-142.2.2语音生成-清音 空气流经过声带时,如果声带是完全舒展开来的,则肺部发出的空气流将不受影响地通过声门。空气流通过声门后,会遇到两种不同情况。一种情况是,如果声道的某个部位发生收缩形成了一个狭窄的通道,当空气流到达此处时被迫以高速冲过收缩区,并在附近产生出空气湍流,这种湍流空气通过声道后便形成所谓摩擦音或清音。2019-152.2.2语音生成-爆破音 另一种情况是,如果声道的某个部位完全闭合在一起,当空气流到达时便在此处建立起空气压力,闭合点突然开启便会让气压快速释放,经过声道
6、后便形成所谓爆破音。2019-162019-17 共振峰频率或共振峰 声音产生后,便沿着声道进行传播。声道可以看成是一根具有非均匀截面的声管,在发音时起着共鸣器的作用。声音进入声道后,其频谱必定会受到声道的共振特性的影响,声道具有一组共振频率,称为共振峰频率或共振峰。声道的频谱特性便主要地反映出这些共振峰的不同位置以及各个峰的频带宽度。共振峰及其带宽取决于声道的形状和尺寸,因而不同的语音对应于一组不同的共振峰参数。2019-182019-192019-202019-212.3语音的听觉机理2.3.1听觉器官 人的听觉器官包括:外耳、中耳和内耳图图2.3 2.3 人耳结构示意图人耳结构示意图20
7、19-22 1.外耳 外耳由耳廓(耳翼)、外耳道和耳鼓(鼓膜)组成。2.中耳 组成:包括三块听小骨:锤骨,砧骨和镫骨。作用:阻抗匹配和限幅外耳和中耳的综合作用相当于一个介于500Hz到6kHz之间的平滑的带通滤波器,可以用有限冲激响应(FIR-FiniteImpulseResponse)滤波器来模拟。2019-233.内耳 内耳是一个充满液体的骨质结构,由前庭、圆形窗、卵形窗及耳蜗组成。2019-242.3.2耳蜗的信号处理机制2019-25当声音经外耳传入中耳时,镫骨的运动引起耳蜗内流体压强的变化,从而引起行波沿基底膜的传播。图2.6是流体波的简单表示。在耳蜗的底部基底膜的硬度很高,流体波传
8、播的很快。随着波的传播,膜的硬度变得越来越小,波的传播也逐渐变缓。不同频率的声音产生不同的行波,而峰值出现在基底膜的不同位置上。2019-26图图2.7 基底膜上六个不同点的频率响应基底膜上六个不同点的频率响应1 1 基底膜基底膜2 2 内毛细胞内毛细胞3 3 外毛细胞外毛细胞4 听传导通路听传导通路 2019-272.3.3语音信号听觉模型 听听觉觉系系统统的的研研究究主主要要集集中中在在三三个个方方面面:听听觉觉系系统统的的实实验验研研究究、听听觉觉系系统统的的建建模模和和听听觉觉模模型型的的应应用用。听听觉觉系系统统的的实实验验研研究究主主要要是是指指听听觉觉系系统统在在医医学学、生生理
9、理学学及及心心理理学学方方面面的的研研究究。由由于于耳耳蜗蜗深深植植于于颅颅骨骨中中,尺尺寸寸极极小小(如如蜗蜗管管的的直直径径只只有有1mm),所所以以耳耳蜗蜗的的实验研究是一项非常艰巨和复杂的工作。实验研究是一项非常艰巨和复杂的工作。耳耳蜗蜗建建模模主主要要集集中中在在基基底底膜膜的的振振动动上上,然然而而,建建立立基基底底膜膜的的振振动动模模型型是是耳耳蜗蜗建建模模的的首首要要任任务务,它它又被称为耳蜗的宏观力学模型。又被称为耳蜗的宏观力学模型。2019-28图2.10 语音信号听觉模型一般原理框图 语语音音信信号号首首先先通通过过一一串串带带通通滤滤波波器器(BPF)阵阵列列,其其中中
10、心心频频率率跟跟随随着着图图2.7所所示示的的基基底底膜膜频频率率响响应应按按照照对对数数尺尺度度分分布布。每每一一个个带带通通滤滤波波器器都都被被独独立立的的设设定定为为有有限限冲冲激激响响应应滤滤波波器器(FIR)或或无无限限冲冲激激响响应应滤滤波波器器(IIR),但但是是频频率率响响应应的的波波形形并并不不是是严严格格精精确的。确的。2019-29 被滤波的信号在通过内毛细胞/突触模型之后,到达听传导通路模型。虽然各种听觉模型的带通滤波器的性能特征是基本相同的,但是在接下来几级的信号处理过程却有很大差异。事实上,不同的听觉模型都各自拥有不同的IHC模型,突触模型和听传导通路模型。一些模型
11、为每一个滤波后的信号都设有独立的频道,而另一些模型则认为在基底膜上相邻位置处滤波得到的信号之间存在耦合性。2019-30 根据人耳的听觉特性得出的模型作为语音识别的特征提取部分,可获得具有鲁棒性的特征参数,它们对真实世界中的噪音环境下的语音识别都表现出很好的性能。2019-312.4语音的感知2.4.1几个概念1.人耳听觉界限的频率范围大约为20Hz-20kHz。2.语音感知的强度范围是0130dB声压级。3.语音的特性包括:音质,音调,音强,音长3.响度这是频率和强度级的函数。通常用响度(单位为宋)和响度级(单位为方)来表示。此时响度级定为零方。测量表明听阈值是随频率变化的。通常,人们把1k
12、Hz纯音听阈值定为零方。2019-324.人耳刚刚可以听到的声音强度,称为“听阈”。加大声音的强度,使听起来令耳朵感到疼痛,这个阈值称为“痛阈”。5.音高(音调)音高也叫基音。物理单位为Hz,主观感觉的音高单位是美(Mel)。当声强级为40dB频率为1kHz时,设定的音高为1000美。2019-332.4.2掩蔽效应 掩蔽效应:两个响度不等的声音作用于人耳时,则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,即:一个声音的听觉感受性受同时存在的另外一个声音的影响,这个现象称为人耳的“掩蔽效应”。此时前者称为被掩蔽音,后者称为掩蔽音。在掩蔽情况下,被隐蔽音的听阈会提
13、高,即加大被掩蔽音的强度才能听到。此时听阈称为掩蔽听阈。2019-34 低频的纯音可以有效地掩蔽高频的纯音。利用人耳的掩蔽效应,在进行语音压缩时,让量化噪音的频谱跟随语言信号频谱包络变化。则共振峰的频率成分就会掩蔽掉量化噪声。这个技术称为噪声整形或听觉加权处理。低音容易掩蔽高音,而高音掩蔽低音较难。基于此,可以将真实的声音频率映射到“感知”频率尺度,即Bark尺度对应的临界带宽。2019-35 2.4.3临界带宽与频率群用用一一中中心心频频率率为为f,带带宽宽为为f的的白白噪噪声声来来掩掩蔽蔽一一频频率率为为f的的纯纯音音,先先将将这这个个白白噪噪声声的的强强度度调调节节到到使使被被掩掩蔽蔽纯
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 语音 信号 数学模型 课件
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内