《语音信号处理基础知识.ppt》由会员分享,可在线阅读,更多相关《语音信号处理基础知识.ppt(58页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于语音信号处理基础知识现在学习的是第1页,共58页2.1 2.1 概述概述 语音信号处理语音信号处理目的目的:v 一是要通过处理得到一些一是要通过处理得到一些反映语音信号重要特征反映语音信号重要特征的语音参的语音参数以便高效的传输或储存语音信号信息;数以便高效的传输或储存语音信号信息;v二是要通过处理的某种运算以达到某种用途的要求,例如二是要通过处理的某种运算以达到某种用途的要求,例如人工合成出语音、辨识出讲话者、识别出讲话的内容等等。人工合成出语音、辨识出讲话者、识别出讲话的内容等等。研究用数字信号处理技术研究用数字信号处理技术对语音信号进行处理的一对语音信号进行处理的一门学科门学科现在学
2、习的是第2页,共58页语音中包含的信息v语言(文字)v说话人、性别v方言:认老乡的主要依据v情感(情绪)v语种:国外找“亲人”的主要信息来源v说话方式(快、慢、耳语)v语音品质(口语、朗诵、流畅性、动听度)v健康状况:特别是发音器官病变现在学习的是第3页,共58页重要概念v语音v音节v元音、辅音v清音、浊音v声母、韵母v共振峰、音色v语谱图、声纹现在学习的是第4页,共58页2.12.1概述概述2.22.2语音和语言语音和语言2.32.3汉语语音学汉语语音学2.42.4语音生成系统和语音感知系统语音生成系统和语音感知系统2.52.5语音信号生成的数学模型语音信号生成的数学模型2.62.6语音信号
3、的特性分析语音信号的特性分析现在学习的是第5页,共58页 2.2 2.2 语音和语言语音和语言 语音语音是人的发声器官发出的是人的发声器官发出的一种声波,它具有一定的一种声波,它具有一定的音色音色,音调音调,音强音强和和音长音长。一种声音区别于一种声音区别于另一种声音的基另一种声音的基本特征本特征声音的高低,它取决于声音的高低,它取决于声波的频率声波的频率声音的强弱声音的强弱,声波声波的振动幅度决定的振动幅度决定声音的长短叫音长,声音的长短叫音长,它取决于发音时间的它取决于发音时间的长短长短现在学习的是第6页,共58页语音v语音(语音(Speech)=声音(声音(Acoustic)+语语言(言
4、(Language),是二者的组合体),是二者的组合体v语音是由一连串的音组成语言的声音语音是由一连串的音组成语言的声音现在学习的是第7页,共58页语言语言是从人们的话语中概括总结出来的规律性是从人们的话语中概括总结出来的规律性的符号系统。的符号系统。2.2 语音和语言语音和语言2.2 语音和语言语音和语言2.2 语音和语言语音和语言不不同同层层次次的的单单位位:语语素素、词词、短短语语和和句句子子语语法法和和语语义义内内容容:词词法法、句句法法、文文脉脉现在学习的是第8页,共58页2.2 2.2 语音和语言语音和语言v人的说话的过程人的说话的过程:现在学习的是第9页,共58页v 语音学语音学
5、(Phonetics)(Phonetics)是研究言语过程的一门是研究言语过程的一门科学。科学。它考虑的是它考虑的是语音产生语音产生、语音感知语音感知等的过程等的过程以及语音中各个音的特征和分类等问题。以及语音中各个音的特征和分类等问题。现代语音学发展成为三个主要分现代语音学发展成为三个主要分 支:支:发音语音学发音语音学 声学语音学声学语音学 听觉语音学听觉语音学现在学习的是第10页,共58页2.2 语音和语言语音和语言现在学习的是第11页,共58页重要概念v语音v元音、辅音v清音、浊音v声母、韵母v音节v共振峰、音色v语谱图、声纹现在学习的是第12页,共58页2.2 2.2 语音和语言语音
6、和语言v 当声带振动发出的声音气流从喉腔、咽腔进当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过,这种音称为气流顺利通过,这种音称为元音元音。现在学习的是第13页,共58页 2.2 2.2 语音和语言语音和语言v 呼出的声流,由于通路的某一部分封闭起呼出的声流,由于通路的某一部分封闭起来或受到阻碍,气流被阻不能畅通,而克服来或受到阻碍,气流被阻不能畅通,而克服发音器官的这种阻碍而产生的音素称为发音器官的这种阻碍而产生的音素称为辅音辅音。v发辅音时由声带是否振动引起浊音和清音的发辅音时由声带是否振动引起浊音和清音的区别
7、,声带振动的是区别,声带振动的是浊音浊音,声带不振动的是,声带不振动的是清音清音。(b/p)现在学习的是第14页,共58页 2.2 2.2 语音和语言语音和语言v决定决定元音音色元音音色的主要因素是舌头的形状及其在口腔中的位置的主要因素是舌头的形状及其在口腔中的位置(简称简称舌舌位位)、嘴唇的形状、嘴唇的形状(简称简称口形口形)等。等。v元音的另一个重要声学特性是元音的另一个重要声学特性是共振峰(共振峰(FormantFormant)。共振峰参数是。共振峰参数是区别不同元音的重要参数,它一般包括区别不同元音的重要参数,它一般包括共振峰频率(共振峰频率(Formant Formant Frequ
8、encyFrequency)的位置和的位置和频带宽度(频带宽度(Formant BandwidthFormant Bandwidth)。)。v一般地说,女声和童声的基频高于男声,但是实验表明:区分语一般地说,女声和童声的基频高于男声,但是实验表明:区分语音是男声还是女声、是成人声音还是儿童声音,更重要的因素是音是男声还是女声、是成人声音还是儿童声音,更重要的因素是共振峰频率的高低。共振峰频率的高低。现在学习的是第15页,共58页 2.2 2.2 语音和语言语音和语言v发音器官产生元音的三条件发音器官产生元音的三条件声道受到声带振动的激励引起共振;声道受到声带振动的激励引起共振;在语音流的持续过
9、程中,声道不发生极端的狭窄,并维持在语音流的持续过程中,声道不发生极端的狭窄,并维持较稳定的形状;较稳定的形状;和鼻腔不发生偶合,声音只从口腔辐射出去。和鼻腔不发生偶合,声音只从口腔辐射出去。这三个条件中,只要缺少其中之一,则该语音就是这三个条件中,只要缺少其中之一,则该语音就是辅音辅音。辅音没有明确的共振峰结构。辅音发音时的阻碍的位置辅音没有明确的共振峰结构。辅音发音时的阻碍的位置叫叫调音点(调音点(Place of ArticulationPlace of Articulation)、阻碍的方法叫、阻碍的方法叫调调音方式(音方式(Manner of Articulation Manner
10、of Articulation)现在学习的是第16页,共58页 2.2 2.2 语音和语言语音和语言v调音方式等的不同可以把辅音分成如下几类:调音方式等的不同可以把辅音分成如下几类:塞音、摩擦音、塞擦音、鼻音、边音、颤音、塞音、摩擦音、塞擦音、鼻音、边音、颤音、通音。通音。v根据发辅音时声带有无振动,可以把辅音分根据发辅音时声带有无振动,可以把辅音分类成类成浊辅音浊辅音和和清辅音清辅音。v根据辅音除阻后是否紧跟着送出一股气来,根据辅音除阻后是否紧跟着送出一股气来,可以把辅音分类成可以把辅音分类成送气辅音送气辅音和和不送气辅音不送气辅音。现在学习的是第17页,共58页2.12.1概述概述2.22
11、.2语音和语言语音和语言2.32.3汉语语音学汉语语音学2.42.4语音生成系统和语音感知系统语音生成系统和语音感知系统2.52.5语音信号生成的数学模型语音信号生成的数学模型2.62.6语音信号的特性分析语音信号的特性分析现在学习的是第18页,共58页重要概念v语音v音节v元音、辅音v清音、浊音v声母、韵母v共振峰、音色v语谱图、声纹现在学习的是第19页,共58页 2.3 2.3 汉语语音学汉语语音学汉语语音的特点汉语语音的特点:v音系简单。这是指音素少、音节少。音节的结构也比较简单。音系简单。这是指音素少、音节少。音节的结构也比较简单。v由于清辅音多,而且多是弱清音,而且开口呼的音节占全部
12、音节的一半由于清辅音多,而且多是弱清音,而且开口呼的音节占全部音节的一半以上,所以汉语语音听感上有清亮、高扬和舒服、柔和的感觉。以上,所以汉语语音听感上有清亮、高扬和舒服、柔和的感觉。v有鲜明的轻重音和儿化韵,所以字词分隔清楚,语言表达准确而有鲜明的轻重音和儿化韵,所以字词分隔清楚,语言表达准确而丰富。丰富。现在学习的是第20页,共58页 汉语的拼音方法汉语的拼音方法v汉语由音素构成声母或韵母。有时,将含有声调(汉语通汉语由音素构成声母或韵母。有时,将含有声调(汉语通常认为有五个声调)的韵母称为常认为有五个声调)的韵母称为调母调母。由单个调母或由。由单个调母或由声母与调母拼音成为声母与调母拼音
13、成为音节音节。v汉语的一个音节就是汉语一个字的音,即音节字。由音节汉语的一个音节就是汉语一个字的音,即音节字。由音节字构成词(其中主要是两音节字构成的两字词,约占字构成词(其中主要是两音节字构成的两字词,约占74%74%),最后再由词构成句子。),最后再由词构成句子。v国际上,都是用音标来描述拼音过国际上,都是用音标来描述拼音过程的。汉语也不例程的。汉语也不例外。汉语拼音的音标包括:声母表、韵母表和声调符外。汉语拼音的音标包括:声母表、韵母表和声调符号等。号等。现在学习的是第21页,共58页汉语音节的一般结构汉语音节的一般结构 v汉语音节一般由汉语音节一般由声母声母、韵母韵母和和声调声调三部分
14、组成。三部分组成。汉语普通话中有汉语普通话中有60006000多个常用字多个常用字v每个汉字是一个音节,如将同音字合一处理,则汉语中共有每个汉字是一个音节,如将同音字合一处理,则汉语中共有13321332个有调音节,其中可以单念的有个有调音节,其中可以单念的有12681268个。个。v汉语中一般有五个声调,即阴平、阳平、上声、去声以及轻声。如果汉语中一般有五个声调,即阴平、阳平、上声、去声以及轻声。如果不考虑声调,则汉语中无调音节共有不考虑声调,则汉语中无调音节共有407407个。个。v汉语音节的一般结构,由汉语音节的一般结构,由9 9个部分组成。其中个部分组成。其中1 14 4段属于声母(辅
15、音),段属于声母(辅音),6 69 9段属于韵母(元音),第段属于韵母(元音),第5 5段是二者的过渡段。一个音节可能只段是二者的过渡段。一个音节可能只包含里面的某几段,但是第包含里面的某几段,但是第7 7段(主要元音段)是每个音节是具有的。段(主要元音段)是每个音节是具有的。现在学习的是第22页,共58页汉语音节的一般结构汉语音节的一般结构现在学习的是第23页,共58页汉语声母的结构汉语声母的结构 v普通话中的普通话中的22个声母可分为六大类:个声母可分为六大类:擦音擦音塞音塞音塞擦音塞擦音边音边音鼻音鼻音零声母零声母除零声母之外,其他所有的声母全部都是单辅音除零声母之外,其他所有的声母全部
16、都是单辅音。现在学习的是第24页,共58页汉语韵母的结构汉语韵母的结构 v普通话的普通话的3838个韵母大致可以分为三类个韵母大致可以分为三类8 8个单韵母,如个单韵母,如aa、ii、uu等等1414个复韵母,如个复韵母,如aiai、aoao等等1616个鼻韵母如个鼻韵母如anan、uanguang等等在这在这3838个韵母中有三个(个韵母中有三个(-i-i、erer、)是特殊韵母)是特殊韵母。v应该注意,应该注意,元音并不等于韵母。元音、辅音是按音素的发音元音并不等于韵母。元音、辅音是按音素的发音特征分类的;而声母、韵母则是按音节结构分类的。这是两特征分类的;而声母、韵母则是按音节结构分类的
17、。这是两种不同的概念,尽管它们之间有一定的联系。种不同的概念,尽管它们之间有一定的联系。现在学习的是第25页,共58页声母和韵母的相互作用声母和韵母的相互作用音征互载音征互载 v在在普通话里,声母和韵母的音征并不总是在各自的音段之内,而且普通话里,声母和韵母的音征并不总是在各自的音段之内,而且又可能跨越两者的边界,即声母里可能会带有韵母的信息,韵母里又可能跨越两者的边界,即声母里可能会带有韵母的信息,韵母里也可能带有声母的信息,如辅音音渡。如果把韵母从元音起始就开也可能带有声母的信息,如辅音音渡。如果把韵母从元音起始就开始算起的话,那么音渡就是韵母中载带的辅音音征,对于某些辅音始算起的话,那么
18、音渡就是韵母中载带的辅音音征,对于某些辅音来说,如不送气塞音来说,如不送气塞音bb、dd,元音里的音渡正是它们之间相互,元音里的音渡正是它们之间相互区别的主要音征。区别的主要音征。v而韵母中的某些音征有声带载带的现象,最典型的就是介音的实现方式。而韵母中的某些音征有声带载带的现象,最典型的就是介音的实现方式。现在学习的是第26页,共58页汉语的声调汉语的声调v汉语是一种汉语是一种声调语言声调语言,相同声母和韵母构成,相同声母和韵母构成的音节随声调的不同而具有完全不同的意义,的音节随声调的不同而具有完全不同的意义,对应着不同的汉字。汉语普通话的声调只有对应着不同的汉字。汉语普通话的声调只有阴平、
19、阳平、上声、去声以及阴平、阳平、上声、去声以及“轻声轻声”等等五五种种声调。声调。v声调的变化就是声调的变化就是浊音基音周期浊音基音周期(或(或基音频率基音频率)的变化,各个韵母段中基音周期随时间的变的变化,各个韵母段中基音周期随时间的变化产生了声调,变化的轨迹称为化产生了声调,变化的轨迹称为声调曲线声调曲线。现在学习的是第27页,共58页汉语的声调汉语的声调汉语普通话四种声调的典型曲线:汉语普通话四种声调的典型曲线:现在学习的是第28页,共58页2.12.1概述概述2.22.2语音和语言语音和语言2.32.3汉语语音学汉语语音学2.42.4语音生成系统和语音感知系统语音生成系统和语音感知系统
20、2.52.5语音信号生成的数学模型语音信号生成的数学模型2.62.6语音信号的特性分析语音信号的特性分析现在学习的是第29页,共58页2 2.4.4 语音生成系统和语音感知系统语音生成系统和语音感知系统语音发音系统语音发音系统 v人的发音器官包括:肺、气管、喉(包括声带)、咽、鼻和人的发音器官包括:肺、气管、喉(包括声带)、咽、鼻和口。这些器官共同形成一条形状复杂的管道。喉的部分称为口。这些器官共同形成一条形状复杂的管道。喉的部分称为声门声门。v从声门到嘴唇的呼气通道叫做从声门到嘴唇的呼气通道叫做声道(声道(Vocal TractVocal Tract)。声。声道的形状主要由嘴唇、颚和舌头的位
21、置来决定。由声道形状道的形状主要由嘴唇、颚和舌头的位置来决定。由声道形状的不断改变,而发出不同的语音。的不断改变,而发出不同的语音。现在学习的是第30页,共58页语音听觉系统语音听觉系统v人耳由人耳由内耳内耳、中耳中耳和和外耳外耳三部分组成。三部分组成。v 外耳由耳翼、外耳道和鼓膜构成。外耳在对声音的感外耳由耳翼、外耳道和鼓膜构成。外耳在对声音的感知中起着声源定位和声音放大的作用。知中起着声源定位和声音放大的作用。v 中耳包括由锤骨、砧骨和镫骨这三块听小骨构成的中耳包括由锤骨、砧骨和镫骨这三块听小骨构成的听骨链以及咽鼓管等组成。中耳的作用是进行声阻抗听骨链以及咽鼓管等组成。中耳的作用是进行声阻
22、抗的变换,即将中耳两端的声阻抗匹配起来,同时对内的变换,即将中耳两端的声阻抗匹配起来,同时对内耳起着保护的作用耳起着保护的作用 。v内耳的主要构成器官是内耳的主要构成器官是耳蜗耳蜗(Cochlea)(Cochlea)。它是听觉的受纳。它是听觉的受纳器,把声音通过机械变换产生神经发放信号。器,把声音通过机械变换产生神经发放信号。现在学习的是第31页,共58页语音听觉系统语音听觉系统人的听觉系统人的听觉系统 现在学习的是第32页,共58页语音听觉系统语音听觉系统v人的听觉系统有两个重要特性,一个是耳蜗对于声信号的人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时频时频分析特性分析特性;另一个是人
23、耳;另一个是人耳听觉掩蔽效应听觉掩蔽效应。v如果信号是一个多频率信号,则产生的行波将沿着基底膜在不同如果信号是一个多频率信号,则产生的行波将沿着基底膜在不同的位置产生最大幅度。从这个意义上讲,耳蜗就象一个频谱分析的位置产生最大幅度。从这个意义上讲,耳蜗就象一个频谱分析仪,将复杂的信号分解成各种频率分量。仪,将复杂的信号分解成各种频率分量。v并非所有的声音都能被人耳听到,这取决于声音的强度和其频率范围。并非所有的声音都能被人耳听到,这取决于声音的强度和其频率范围。心理声学中的听觉掩蔽效应是指,在一个强信号附近,弱信号将变得不心理声学中的听觉掩蔽效应是指,在一个强信号附近,弱信号将变得不可闻,被掩
24、蔽掉了。可闻,被掩蔽掉了。时间掩蔽:同时掩蔽和短时掩蔽时间掩蔽:同时掩蔽和短时掩蔽频率掩蔽现在学习的是第33页,共58页2.12.1概述概述2.22.2语音和语言语音和语言2.32.3汉语语音学汉语语音学2.42.4语音生成系统和语音感知系统语音生成系统和语音感知系统2.52.5语音信号生成的数学模型语音信号生成的数学模型2.62.6语音信号的特性分析语音信号的特性分析现在学习的是第34页,共58页 2.5 2.5 语音信号生成的数学模型语音信号生成的数学模型v所谓建立数学模型就是要寻求一种可以表达所谓建立数学模型就是要寻求一种可以表达一定物理状态下量与量之间关系的数学表示。一定物理状态下量与
25、量之间关系的数学表示。建立了语音信号的数字模型,才能够用计算建立了语音信号的数字模型,才能够用计算机来定量地对语音信号进行模拟和处理。所机来定量地对语音信号进行模拟和处理。所以语音信号生成的数学模型是语音信号处理以语音信号生成的数学模型是语音信号处理的基础。的基础。现在学习的是第35页,共58页 2.5 2.5 语音信号生成的数学模型语音信号生成的数学模型v理想的模型是线性的和时不变的。理想的模型是线性的和时不变的。语音信号是非平稳随语音信号是非平稳随机过程,其特性是随着时间变化的,所以模型中的参机过程,其特性是随着时间变化的,所以模型中的参数应该是随时间而变化的。但语音信号特性随着时间数应该
26、是随时间而变化的。但语音信号特性随着时间变化是很缓慢的。所以可以作出一些合理的假设,将变化是很缓慢的。所以可以作出一些合理的假设,将语音信号分为一些相继的短段进行处理,在这些短段语音信号分为一些相继的短段进行处理,在这些短段中可以认为语音信号特性是不随着时间变化的平稳随中可以认为语音信号特性是不随着时间变化的平稳随机过程。机过程。这样在这些短段时间内表示语音信号时,可以这样在这些短段时间内表示语音信号时,可以采用线性时不变模型采用线性时不变模型。现在学习的是第36页,共58页激励模型激励模型v激励模型一般分成浊音激励和清音激励来讨论。发浊音时,由激励模型一般分成浊音激励和清音激励来讨论。发浊音
27、时,由于声带不断张开和关闭,将产生间歇的脉冲波。这个脉冲波的于声带不断张开和关闭,将产生间歇的脉冲波。这个脉冲波的波形类似于斜三角形的脉冲,波形类似于斜三角形的脉冲,它的数学表达式如下:它的数学表达式如下:式中,式中,N1为斜三角波上升部分的时间,为斜三角波上升部分的时间,N2为其下降部分的时间。为其下降部分的时间。单单个斜三角波波形的频谱的图形如图个斜三角波波形的频谱的图形如图2-182-18所示。所示。由图可见,它是一由图可见,它是一个低通滤波器。它的变换的全极模型的形式是:个低通滤波器。它的变换的全极模型的形式是:现在学习的是第37页,共58页激励模型激励模型v这里,这里,c c是一个常
28、数。显然,上式表示斜三角波形可描述为一个二是一个常数。显然,上式表示斜三角波形可描述为一个二极点的模型。因此,斜三角波形串可视为加权了单位脉冲串激励极点的模型。因此,斜三角波形串可视为加权了单位脉冲串激励上述单个斜三角波模型的结果。而该单位脉冲串及幅值因子则可上述单个斜三角波模型的结果。而该单位脉冲串及幅值因子则可表示成下面的表示成下面的z z变换形式:变换形式:所以,整个浊音激励模型可表示为:所以,整个浊音激励模型可表示为:也就是说浊音激励波是一个以基音周期为周期的斜三角脉冲串。也就是说浊音激励波是一个以基音周期为周期的斜三角脉冲串。现在学习的是第38页,共58页 声道模型声道模型v关于声道
29、部分的数学模型,有多种观点,目前最常用的有两种建模方法。关于声道部分的数学模型,有多种观点,目前最常用的有两种建模方法。一是把声道视为由多个等长的不同截面积的管子串联而成的系统。按此一是把声道视为由多个等长的不同截面积的管子串联而成的系统。按此观点推导出的叫观点推导出的叫“声管模型声管模型”。另一个是把声道视为一个谐振腔,按此推导出的另一个是把声道视为一个谐振腔,按此推导出的叫叫“共振峰模型共振峰模型”。v共振峰模型,把声道视为一个谐振腔。共振峰就是这个腔体的共振峰模型,把声道视为一个谐振腔。共振峰就是这个腔体的谐振频率。由于人耳听觉的柯替氏器官的纤毛细胞就是按频率谐振频率。由于人耳听觉的柯替
30、氏器官的纤毛细胞就是按频率感受而排列其位置的,所以这种共振峰的声道模型方法是非常感受而排列其位置的,所以这种共振峰的声道模型方法是非常有效的。一般来说,一个元音用前三个共振峰来表示就足够了;有效的。一般来说,一个元音用前三个共振峰来表示就足够了;而对于较复杂的辅音或鼻音,大概要用到前五个以上的共振峰而对于较复杂的辅音或鼻音,大概要用到前五个以上的共振峰才行。才行。基于物理声学的共振峰理论,可以建立起三种实用的共振峰模基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:型:级联型级联型、并联型并联型和和混合型混合型。现在学习的是第39页,共58页声道模型声道模型 级联型级联型v这时认为声道
31、是一组串联的这时认为声道是一组串联的二阶谐振器二阶谐振器。从共振峰理论来看,整个。从共振峰理论来看,整个声道具有多个谐振频率和多个反谐振频率,所以它可被模拟为一个零极声道具有多个谐振频率和多个反谐振频率,所以它可被模拟为一个零极点的数学模型;但对于一般元音,则用全极点模型就可以了。点的数学模型;但对于一般元音,则用全极点模型就可以了。它的传输它的传输函数可分解表示为多个二阶极点的网络的串联:函数可分解表示为多个二阶极点的网络的串联:现在学习的是第40页,共58页声道模型声道模型 级联型级联型现在学习的是第41页,共58页声道模型声道模型 并联型并联型v对于非一般元音以及大部分辅音,必须考虑采用
32、对于非一般元音以及大部分辅音,必须考虑采用零极点模型零极点模型。此时,。此时,模型的传输函数如下:模型的传输函数如下:v通常,通常,NRNR,且设分子与分母无公因子及分母无重根,则上式可分,且设分子与分母无公因子及分母无重根,则上式可分解为如下部分分式之和的形式:解为如下部分分式之和的形式:v这就是并联型的共振峰模型。如图这就是并联型的共振峰模型。如图2-212-21所示(所示(M=5M=5)。)。现在学习的是第42页,共58页声道模型声道模型 并联型并联型现在学习的是第43页,共58页声道模型声道模型 混合型混合型v上述两种模型中,级联型比较简单,可以用于描述一般元音。当鼻化上述两种模型中,
33、级联型比较简单,可以用于描述一般元音。当鼻化元音或鼻腔参与共振,以及阻塞音或摩擦音等情况时,级联模型就元音或鼻腔参与共振,以及阻塞音或摩擦音等情况时,级联模型就不能胜任了。这时腔体具有反谐振特性,必须考虑加入零点,使之不能胜任了。这时腔体具有反谐振特性,必须考虑加入零点,使之成为零极点模型。采用并联结构的目的就在于此,它比级联型复杂成为零极点模型。采用并联结构的目的就在于此,它比级联型复杂些,每个谐振器的幅度都要独立地给以控制。但对于鼻音、塞音、些,每个谐振器的幅度都要独立地给以控制。但对于鼻音、塞音、擦音以及塞擦音等都可以适用。正因为如此,将级联模型和并联模擦音以及塞擦音等都可以适用。正因为
34、如此,将级联模型和并联模型结合起来的混合模型也许是比较完备的一种共振峰模型。型结合起来的混合模型也许是比较完备的一种共振峰模型。现在学习的是第44页,共58页声道模型声道模型 混合型共振峰模型混合型共振峰模型 现在学习的是第45页,共58页辐射模型辐射模型v从声道模型输出的是速度波从声道模型输出的是速度波 ,而语音信号是声压波,而语音信号是声压波 ,二者之倒比称为辐射阻抗,二者之倒比称为辐射阻抗 。它表征口唇的辐射效应,也包括圆形的头部的绕射效应等。当然,从理论。它表征口唇的辐射效应,也包括圆形的头部的绕射效应等。当然,从理论上推导这个阻抗是有困难的。但是如果认为口唇张开的面积远小于头部的表上
35、推导这个阻抗是有困难的。但是如果认为口唇张开的面积远小于头部的表面积,则可近似地看成平板开槽辐射的情况。此时,可推导出辐射阻抗的公面积,则可近似地看成平板开槽辐射的情况。此时,可推导出辐射阻抗的公式如下:式如下:式中,式中,这里,这里,是口唇张开时的开口半径,是口唇张开时的开口半径,是声波传播速是声波传播速度。图度。图2-24 2-24 显示了辐射阻抗的实部和虚部的频率响应曲线。显示了辐射阻抗的实部和虚部的频率响应曲线。v由辐射引起的能量损耗正比于辐射阻抗的实部,所以辐射模型是一阶类高通滤波器。由辐射引起的能量损耗正比于辐射阻抗的实部,所以辐射模型是一阶类高通滤波器。现在学习的是第46页,共5
36、8页语音信号的数学模型语音信号的数学模型 v综上所述,完整的语音信号的数字模型可以用三个子模型:综上所述,完整的语音信号的数字模型可以用三个子模型:激励模型、激励模型、声道模型和辐射模型的串联声道模型和辐射模型的串联来表示。如图所示:来表示。如图所示:它的传输函数可以表示为:它的传输函数可以表示为:现在学习的是第47页,共58页语音信号的数学模型语音信号的数学模型v这里,这里,U(z)U(z)是激励信号,浊音时是激励信号,浊音时U(z)U(z)是声门脉冲即斜三角形脉冲是声门脉冲即斜三角形脉冲序列的序列的z z变换;在清音的情况下,变换;在清音的情况下,U(z)U(z)是一个随机噪声的是一个随机
37、噪声的z z变换。变换。V(z)V(z)是声道传输函数,既可用声管模型,也可以共振峰模型等来是声道传输函数,既可用声管模型,也可以共振峰模型等来描述。实际上就是全极点模型:描述。实际上就是全极点模型:v上式所示模型的内部结构并不和语音产生的物理过程相一致,上式所示模型的内部结构并不和语音产生的物理过程相一致,但这种模型和真实模型在输出处是等效的。但这种模型和真实模型在输出处是等效的。现在学习的是第48页,共58页2.12.1概述概述2.22.2语音和语言语音和语言2.32.3汉语语音学汉语语音学2.42.4语音生成系统和语音感知系统语音生成系统和语音感知系统2.52.5语音信号生成的数学模型语
38、音信号生成的数学模型2.62.6语音信号的特性分析语音信号的特性分析现在学习的是第49页,共58页2.6 2.6 语音信号的特性分析语音信号的特性分析v语音信号的特性主要是指它的语音信号的特性主要是指它的声学特性声学特性、语语音信号的时域波形音信号的时域波形和和频谱特性频谱特性以及以及语音信号语音信号的统计特性的统计特性等。等。在时间域里,语音信号可以在时间域里,语音信号可以直接用它的时间波形表示出直接用它的时间波形表示出来,通过观察时间波形可以来,通过观察时间波形可以看出语音信号的一些重要特看出语音信号的一些重要特性。性。现在学习的是第50页,共58页语音信号的时域波形语音信号的时域波形 v
39、下图是汉语拼音下图是汉语拼音“sou ke”sou ke”的时间波形。表示这段语音波形时采用的的时间波形。表示这段语音波形时采用的采样频率是采样频率是8kHz8kHz,量化精度是,量化精度是16bit16bit。从从B点开始点开始的音节的音节OU从从D点开始点开始的音节的音节e元音具有明显的周期性,元音具有明显的周期性,且振幅较大且振幅较大清辅音的波形类似于白噪声,清辅音的波形类似于白噪声,振幅很小,没有明显的周期性振幅很小,没有明显的周期性从从A点开始的点开始的音节音节s从从C点开始的点开始的音节音节k现在学习的是第51页,共58页语音信号的频谱特性语音信号的频谱特性v语音信号属于短时平稳信
40、号,一般认为在语音信号属于短时平稳信号,一般认为在101030ms30ms内语音信号特性内语音信号特性基本上是不变的,或者变化很缓慢。于是,可以从中截取一小基本上是不变的,或者变化很缓慢。于是,可以从中截取一小段进行频谱分析段进行频谱分析。下图给出下图给出“sou”sou”中音素中音素“ou”ou”的傅里叶变换的傅里叶变换:频率/kHz幅度/dB现在学习的是第52页,共58页语音信号的语谱图(语音信号的语谱图(Spectrogram)v 语音的时域分析和频域分析语音的时域分析和频域分析,两种重要方法两种重要方法;均有局限性:均有局限性:1)1)时域分析对语音信号的频率特性没有直观的了解;时域分
41、析对语音信号的频率特性没有直观的了解;2)2)频域分析出的特征中又没有语音信号随时间的变化关系。频域分析出的特征中又没有语音信号随时间的变化关系。v语音信号随时间变化缓慢,因而在一段短时间内(如语音信号随时间变化缓慢,因而在一段短时间内(如10ms10ms30ms30ms之之间,即所谓的一帧之内)可以认为其频谱是固定不变的,这种频间,即所谓的一帧之内)可以认为其频谱是固定不变的,这种频谱又称为短时谱。短时谱只能反映语音信号的静态频率特性,不谱又称为短时谱。短时谱只能反映语音信号的静态频率特性,不能反映语音信号的动态频率特性。能反映语音信号的动态频率特性。v人们致力于研究语音的时频分析特性,把和
42、时序相关的傅立叶分人们致力于研究语音的时频分析特性,把和时序相关的傅立叶分析的显示图形称为析的显示图形称为语谱图语谱图(SonogramSonogram,或者,或者SpectrogramSpectrogram)。)。现在学习的是第53页,共58页语音信号的语谱图语音信号的语谱图 v语谱图是一种二维频谱,它是表示语音频谱语谱图是一种二维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为随时间变化的图形,其纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱时间,任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。用相应点的灰度或色调的浓淡来表示。现在学习的是第54页,
43、共58页语谱图的解读v横杠(Bar):与时间轴平行深黑色带纹 对应 共振峰、带宽v竖直条:与时间垂直的窄黑条对应基频条纹的起点对应声门脉冲的起点条纹之间的距离表示基音周期v乱纹:清擦音现在学习的是第55页,共58页语音信号的统计特性语音信号的统计特性v波形振幅概率密度函数波形振幅概率密度函数v统计量:如均值和自相关函数统计量:如均值和自相关函数v表示语音信号的统计特性的概率密度的估算表示语音信号的统计特性的概率密度的估算方法是根据长时间范围内一段语音信号的大方法是根据长时间范围内一段语音信号的大量取样数据的幅度绝对值计算出其量取样数据的幅度绝对值计算出其幅度直方幅度直方图图,然后,根据统计的振幅直方图,寻找近,然后,根据统计的振幅直方图,寻找近似的概率密度表达式似的概率密度表达式现在学习的是第56页,共58页语音信号的统计特性语音信号的统计特性v语音信号振幅分布的概率密度有两种逼近方法语音信号振幅分布的概率密度有两种逼近方法一种是修正伽玛(一种是修正伽玛(GammaGamma)分布概率密度函数)分布概率密度函数另一种是拉普拉斯(另一种是拉普拉斯(LaplaceLaplace)分布概率密度函数)分布概率密度函数 现在学习的是第57页,共58页感谢大家观看现在学习的是第58页,共58页
限制150内