语音信号处理课件-第02章基础知识优秀PPT.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《语音信号处理课件-第02章基础知识优秀PPT.ppt》由会员分享,可在线阅读,更多相关《语音信号处理课件-第02章基础知识优秀PPT.ppt(88页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Speech Signal Processing第2章 语音信号基础学问1.人类的语言器官2.语音产生过程3.语音信号产生的数字模型4.语音信号的特性5.人类的听觉功能1Speech Signal Processing1.人类的语言器官 人类能以语言沟通,进而累积学问,形成文化,其中一个主要的缘由,就是人类具有较其它生物优越的发音器官。人类的发音器官能够产生多样性的声音,构成丰富的词汇,无疑是最关键的因素。声音是一种波,能被人耳听到,它的振动频率在2020 000 Hz之间。1 1、人类的语言器官、人类的语言器官2Speech Signal Processing1.人类的语言器官o人体发音器官
2、肺、气管、喉(包括声带)和声道,肺是语音产生的能源所在;声带为产生语音供应主要的激励源;声道是指声门至嘴唇的全部器官:咽、鼻腔、口腔等,它们具有非匀整截面,且随时间变更,起共鸣器(或谐振器)的作用。1 1、人类的语言器官、人类的语言器官3Speech Signal Processing1.人类的语言器官鼻腔(nasal cavity)口腔(oral cavity)齿(teeth)舌(tongue)咽(pharynx)喉(larynx)齿龈(alveolar ridge)硬颚(hard palate)软颚(velum)小舌头(uvula)声门(glottis)唇(lips)图2-1 人类的发音器
3、官注:喉部以上的部分统称为声道;气管和肺在声门以下1 1、人类的语言器官、人类的语言器官4Speech Signal Processing1.人类的语言器官图2-2 最重要的发音器官之一:声带 (a)闭合状态 (b)张开状态 甲状软骨 杓状软骨 环状软骨 声门 声带1 1、人类的语言器官、人类的语言器官5Speech Signal Processing2.语音产生过程肺声带声道直流气流声音嘴唇声压波速度波能源激励源谐振源辐射源沟通气流2 2、语音信号产生过程、语音信号产生过程6Speech Signal Processing声门气流和嘴部声压2 2、语音信号产生过程、语音信号产生过程7Spee
4、ch Signal Processing物理模型2 2、语音信号产生过程、语音信号产生过程8Speech Signal Processing2.语音产生过程o语音的形成过程空气由肺部排入喉部,经过声带进入声道,最终由嘴辐射出声波,形成语音。o浊音(Voiced sounds):声带绷紧,气流通过时会使得开口变成一开一闭的周期性动作,这时候就造成周期性的激发气流,如a,o;o清音(Unvoiced or Fricative sounds):声带完全伸展,声道某部位收缩形成一个狭窄的通道,产生空气湍流,如t,d;o爆破音:声带完全伸展,声道的某部位完全闭合,一旦闭合点突然开启,空气压力快速释放 ,
5、如b,p。o能被人耳听到,它的振动频率在2020 000 Hz之间 2 2、语音信号产生过程、语音信号产生过程9Speech Signal Processing2.语音产生过程语音的两个重要声学特性:浊音的基音频率(F0):由声带的尺寸、特性和声带所受张力确定,其值等于声带张开和闭合一次的时间的倒数。人类基音频率的范围在80500 Hz左右。共振峰(Fn,n=1,2,.):声道是一个谐振腔,它放大声音气流的某些频率重量而衰减其他频率重量,被放大的频率我们称之为共振峰或共振峰频率。声道具有的一组共振峰,声道的频谱特性主要反映出这些共振峰的不同位置以及各个峰的频带宽度。共振峰及其带宽取决于声道某一
6、瞬间的形态和尺寸,因而不同的语音对应于一组不同的共振峰参数。实际应用中,头三个共振峰最重要,越多越精确。2 2、语音信号产生过程、语音信号产生过程10Speech Signal Processing口腔对声源频谱的调制共振峰2 2、语音信号产生过程、语音信号产生过程11Speech Signal Processingo共振峰是声道的重要声学特性。声道对于一个激励信号的响应,可以用一个含有多对极点的线性系统来近似描述。每对极点都对应一个共振峰频率。这个线性系统的频率响应特性称为共振峰特性,它确定信号频谱的总轮廓,或称谱包络。o语音的频率特性主要是由共振峰确定的。而声道的共振峰特性确定所发声音的频
7、谱特性,即音色。o元音的音色和区分特征主要取决于声道的共振峰特性。共振峰特性可以从语音信号频谱分析得到的幅频特性视察到。o在声学语音学中通常考虑F1和F2,但在语音识别技术中至少要考虑三个共振峰,而在语音合成技术中考虑五个共振峰是最为现实的。o声波的共振也称为共鸣。声道截面积随纵向位置而变更的函数,称为声道截面积函数,它确定共振峰的特性。12Speech Signal Processing频率范围/Hz成年男子成年女子带宽F12008002501 0004070F26002 8007003 3005090F31 3003 4001 5004 00060180前三个共振峰的频率范围 2 2、语音
8、信号产生过程、语音信号产生过程13Speech Signal Processing2.语音产生过程志向状态下共振峰的计算:假设声道截面是匀整的(此时可把声道看作一个粗细匀整的圆筒),从喉到唇的距离L=17 cm,音速c=340 m/s,则共振峰将发生在:谐振频率发生在500Hz的奇数倍 2 2、语音信号产生过程、语音信号产生过程14Speech Signal Processing3.语音信号产生的数字模型在探讨了发声器官和语音的产生过程以后,便可以建立一个离散时域的语音信号产生的数字模型,它将是我们将数字信号处理技术应用于语音信号的基础。下图是一个完整的语音信号产生的数字模型:3 3、语音信号
9、产生的数字模型、语音信号产生的数字模型15Speech Signal Processing语音产生模型(Speech Production/Generation Model)4 4、语音信号的特性、语音信号的特性16Speech Signal Processing语音信号(Speech Signal)4 4、语音信号的特性、语音信号的特性17Speech Signal Processing数字语音信号表示(Representations of Speech Signals)4 4、语音信号的特性、语音信号的特性18Speech Signal Processing(1)激励模型 由此模型框图,我
10、们可将语音信号看成准周期序列或随机噪声序列作为激励的线性非移变系统的输出,此模型可分为三个部分:激励模型、声道模型、辐射模型激励模型 依据发浊音和发清音的机理又分为:(a)浊音激励 (b)清音激励3 3、语音信号产生的数字模型、语音信号产生的数字模型19Speech Signal Processing(a)浊音激励 由前面所讲发音过程可知,发浊音时声带不断地张开和闭合将产生间歇的准周期性脉冲波,其周期为基音周期,单个脉冲的波形类似于斜三角波,故数字模型中可用周期为T0单位取样序列串作为声门脉冲模型g(n)的输入,其输出就是浊音激励。由于人类语音的频率范围主要集中在300Hz3400Hz,数字模
11、型中的信号取样率一般为8KHz。3 3、语音信号产生的数字模型、语音信号产生的数字模型(1)激励模型 20Speech Signal Processing 由图可见,它是一个低通滤波器。频率分析表明,其幅度谱按12 dB/倍频程的速率衰减。假如将其表示为Z变换的全极模型的形式,有G(z)1/(1-g1z-1)(1-g2z-1)假如g1和g2的值都接近于1,则由此形成的激励信号频谱很接近于声门脉冲的频谱。明显,上式表明斜三角波可描述为一个二阶极点的模型。须要指出,不同人、不同语音,其声门脉冲的形态不确定相同,但在语音合成中对其形态要求不很苛刻,只要其傅里叶变换有近似的特性就可以了。21Speec
12、h Signal Processing 周期性的斜三角波脉冲可看做加权的单位脉冲串激励上述单个斜三角脉冲的结果。而周期冲激序列及幅值因子可表示成下面的Z变换形式 E(z)AV/(1-z-1)(2-5)所以整个激励模型可表示为U(z)G(z)E(z)AV/(1-z-1)1/(1-g1z-1)(1-g2z-1)(2-6)3 3、语音信号产生的数字模型、语音信号产生的数字模型(1)激励模型 22Speech Signal Processing(b)清音激励发清音时声道被阻碍形成湍流,所以可把清音激励模拟成随机白噪声。此处用均值为0方差为1并在幅值上为平稳分布的序列,具体实现时可接受随机噪声发生器来产
13、生此序列。3 3、语音信号产生的数字模型、语音信号产生的数字模型(1)激励模型 23Speech Signal Processing(2)声道模型两种建模方法:(a)声管模型(b)共振峰模型 共振峰模型将声道视为一个谐振腔,按此原则导出。基于各种音素发音的不同谐振特点可建立起三种好用的共振峰模型:(a)级联型 (b)并联型 (c)混合型3 3、语音信号产生的数字模型、语音信号产生的数字模型(2)声道模型 24Speech Signal Processing(a)级联型:适用于一般单元音,认为声道是一组串联的二阶谐振器:这是一个全极点模型,极点就是这个多项式的根:若P为偶数,解其根会得到共扼复数
14、(conjugate complex)的根,表示成:3 3、语音信号产生的数字模型、语音信号产生的数字模型(2)声道模型 25Speech Signal ProcessingF=1/T -取样频率 i/-共振峰的频宽。Fi是-共振峰(formant)的中心频率这样分解则每一个二阶因式均对应一个共振峰,其幅频特性是典型的二阶谐振特性,谐振中心频率值等于共振峰。若把语音的各个共振峰所对应的二阶系统级联起来就形成了一个完整的级联型声道模型,且具有明显的谐振特性。3 3、语音信号产生的数字模型、语音信号产生的数字模型(2)声道模型 26Speech Signal Processing(b)并联型适用于
15、鼻音、复合元音及大部分辅音,发这些音时发音腔体具有反谐振特性,必需在模型中加入零点以减弱谐振强度,故要考虑用零、极点模型:通常PR,假设分子与分母无公因子且分母无重根,则此式可分解为以下部分分式之和的形式:这就是并联型共振峰模型,每一个二阶因式对应一个共振峰。每个二阶谐振器的幅度可单独限制。3 3、语音信号产生的数字模型、语音信号产生的数字模型(2)声道模型 27Speech Signal Processing前面两种共振峰模型各自都只能适用于部分语音,级联或并联的级数取决于声道的长度,一般成人取3到5级。级联型结构较为简洁,并联型各谐振器幅度可独立限制,综合考虑两者的优缺点可将两种共振峰模型
16、有机地结合起来就得到一种较为完备的共振峰模型。3 3、语音信号产生的数字模型、语音信号产生的数字模型(2)声道模型 28Speech Signal Processing(c)混合型我们可以依据发音的须要自动切换串联或并联通路,此外并联部分还有一条直通路径,其幅度限制因子为AB,这是专为一些频谱特性较为平坦的音素如f、p、b而考虑的,以增加反谐振特性。3 3、语音信号产生的数字模型、语音信号产生的数字模型(2)声道模型 29Speech Signal Processing在发音腔道内形成的气流经由嘴唇端辐射出来,到达听者耳朵的这段过程,声音信号会衰减,而且有高通滤波的特性,我们常用一个一阶的数字
17、高通滤波器拟这个现象,这个滤波器又叫做辐射模型(radiation model),其数学式如下完整的数字模型的系统函数由激励模型、声道模型和辐射模型的级联来表示:3 3、语音信号产生的数字模型、语音信号产生的数字模型(3)辐射模型 30Speech Signal Processing31Speech Signal Processing总结:1.到此为止组成语音产生的数字模型的三个组成部分己介绍完毕。此模型并非最完备的模型,因为它对一些音是不适用的如浊音中的摩擦音,这种音要有发浊音和清音的两种激励,而不是简洁的叠加关系,对这些音我们可用更精确的模型来模拟。2.语音产生的数字模型中增益限制(对Av
18、或AN)代表了输出语音的音响强度;时变线性系统主要用来模拟声道的特性;3.数字语音处理中两个基本问题,即语音分析和语音合成,都是基于这个模型来实现的;4.此数字模型的特点:系统参数固定不变短时分析;全极点性质零点可由多个极点靠近;激励源和声道相互独立适用于大多数数字语音处理。3 3、语音信号产生的数字模型、语音信号产生的数字模型32Speech Signal Processing4.语音信号的特性语音学和语言学概要语音的声学特性语音的时间波形和频谱特性语音信号的统计特性4 4、语音信号的特性、语音信号的特性33Speech Signal Processing4.1语言学和语音学概要对语音学和语
19、言学的详尽探讨对我们来讲离题太远,但是对语音信号加以处理以改善或提取信息时,假如我们对语音信号的结构(信号中信息编码的方法)有尽可能多的学问则是很有帮助的。1.语言学:是以人类的语言为探讨对象的一门科学,主要对限制语音中各个音的排列规则及其含义进行探讨。语言(Language)是从千百万个人的言语(Speech)中概括总结出来的规律性的符号系统。所以,探讨语言首先要了解一下人的言语(说话)过程。4 4、语音信号的特性、语音信号的特性34Speech Signal Processing4.1语言学和语音学概要图3-1 人的说话过程分为五个阶段(1)想说阶段:人的说话首先是客观现实在大脑中的反映,
20、经大脑的决策产生了说话的动机;接着讲话神经中枢选择恰当的单词、短语以及按语法规则的组合,以表达他想说的内容和情感。这个阶段与大脑中枢的活动有关。(2)说出阶段:由上阶段中枢的决策,以脉冲形式向发音器官发出指令,使它们各自相关的肌肉协调地动作发出声音来。另外还开动另一个“反馈系统”即讲话者的听觉系统,来帮助修正语音。(3)传送阶段:说出来的话语是一连串的声波,凭借空气为媒介传到听话者耳中。(4)接收阶段:听话者从外耳收集到的声波信息,经过中耳的放大作用,到达内耳,经内耳基底内膜振动转化为耳蜗内的毛细胞的电位变更,由听觉神经传给大脑。(5)理解阶段:讲话者大脑听觉神经中枢收到脉冲信息后,分辨出说话
21、的人及其所说的信息,从而听懂讲话者的话。4 4、语音信号的特性、语音信号的特性35Speech Signal Processing4.1语言学和语音学概要 从五个阶段来看,言语的过程包含着相当困难的因素,其中有心理的、生理的、物理的以及个人的和社会的因素。这里,个人的因素还指讲活者的腔调和用词造句的特色以及听话者的听音和理解实力;社会的因素则是指讲话者和听话音对用于进行交际的手段有共同的理解的社会基础。语言是从言语中概括出来的一个符号系统。包括形式和内容两个方面,即语音的形式和语义的内容。将这两个基本要素相结合起来,可以构成语言的语素、词、短语和句子等的不同层次的单位;这个构成规则就是语法。目
22、前我们可以利用语法和语义信息减小语音识别中搜寻匹配范围,提高语音识别率。4 4、语音信号的特性、语音信号的特性36Speech Signal Processing4.1语言学和语音学概要2.语音学:探讨语音中各个音的物理特征和分类的学科。从某种意义上讲,语音学与语音信号处理这门学科联系更紧密。大多数语言包括汉语在内可以用一组不同的音即音素来加以描述。对于汉语来说约有六十个音素,包括元音、复合元音和辅音。探讨语音学的途径有很多种,例如语言学家探讨音素的不同特性或特征。而对我们来讲,只要探讨不同的声学特征就够了,这包括发音的部位、姿态、波形和这些声音的频谱即语谱特征。本章后面几个话题均以语音学为基
23、础。4 4、语音信号的特性、语音信号的特性37Speech Signal Processing4.2 语音的声学特性1.物理属性音色、音调、音强和音长;音色:也叫音质,是一种声音区分于另一种声音的基本特征,是由声道的位置和形态确定。音调:声音的凹凸,确定于声波的频率的凹凸,而声波频率的凹凸又由语音的基音频率F0所确定。F0高则音调高,低则音调低。一般说来,老年男性音调偏低,小孩和青年女性音调偏高。音强:声音的强弱,由声波的振幅所确定。音长:声音的长短,取决于发音时间的长短。4 4、语音信号的特性、语音信号的特性38Speech Signal Processing4.2 语音的声学特性2.语音的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 信号 处理 课件 02 基础知识 优秀 PPT
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内