语音信号处理第2章.ppt

资源ID：91522331 资源大小：433.50KB 全文页数：43页
资源格式： PPT 下载积分：11.9金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要11.9金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

语音信号处理第2章.ppt

2.12.1概述概述2.22.2语音和语言语音和语言2.32.3汉语语音学汉语语音学2.42.4语音生成系统和语音感知系统语音生成系统和语音感知系统2.52.5语音信号生成的数学模型语音信号生成的数学模型2.62.6语音信号的特性分析语音信号的特性分析2.1 2.1 概述概述v语音信号处理语音信号处理是研究用数字信号处理技术对语音信号进行处是研究用数字信号处理技术对语音信号进行处理的一门学科。它的目的一是要通过处理得到一些反映语音理的一门学科。它的目的一是要通过处理得到一些反映语音信号重要特征的语音参数以便高效的传输或储存语音信号信信号重要特征的语音参数以便高效的传输或储存语音信号信息；二是要通过处理的某种运算以达到某种用途的要求，例息；二是要通过处理的某种运算以达到某种用途的要求，例如人工合成出语音、辨识出讲话者、识别出讲话的内容等等。如人工合成出语音、辨识出讲话者、识别出讲话的内容等等。因此，在研究各种语音信号数字处理技术应用之前，首先需因此，在研究各种语音信号数字处理技术应用之前，首先需要了解语音信号的一些重要特性的知识，在此基础上才可以要了解语音信号的一些重要特性的知识，在此基础上才可以建立既实用又便于分析的语音信号产生模型和语音信号感知建立既实用又便于分析的语音信号产生模型和语音信号感知模型等，它们是贯穿整个语音信号数字处理的基础。模型等，它们是贯穿整个语音信号数字处理的基础。2.22.2语音和语言语音和语言v人们讲话时发出的话语叫人们讲话时发出的话语叫语音语音，它是一种声音，具，它是一种声音，具有称为声学特征的物理特性。有称为声学特征的物理特性。语音（语音（SpeechSpeech）是是声声音（音（AcousticAcoustic）和和语言（语言（LanguageLanguage）的组合体。可的组合体。可以这样定义语音：语音是由一连串的音组成语言的以这样定义语音：语音是由一连串的音组成语言的声音。声音。v人的说话过程人的说话过程可以分为五个阶段：（可以分为五个阶段：（1 1）想说阶段）想说阶段（2 2）说出阶段（）说出阶段（3 3）传送阶段（）传送阶段（4 4）理解阶段（）理解阶段（5 5）接收阶段接收阶段 2.2 2.2 语音和语言语音和语言v人的说话的过程人的说话的过程：2.2 2.2 语音和语言语音和语言v语言语言是从人们的话语中概括总结出来的规律性的符是从人们的话语中概括总结出来的规律性的符号系统。包括构成语言的语素、词、短语和句子等号系统。包括构成语言的语素、词、短语和句子等的不同层次的单位，以及词法、句法、文脉等语法的不同层次的单位，以及词法、句法、文脉等语法和语义内容等。和语义内容等。语言学是语音信号处理的基础。语言学是语音信号处理的基础。v语音学语音学(Phonetics)(Phonetics)是研究言语过程的一门科学。它是研究言语过程的一门科学。它考虑的是语音产生、语音感知等的过程以及语音中考虑的是语音产生、语音感知等的过程以及语音中各个音的特征和分类等问题。各个音的特征和分类等问题。现代语音学发展成为现代语音学发展成为三个主要分支：发音语音学、声学语音学、听觉语三个主要分支：发音语音学、声学语音学、听觉语音学。音学。2.2 2.2 语音和语言语音和语言v语音语音是人的发声器官发出的一种声波，它具有一定的音色，是人的发声器官发出的一种声波，它具有一定的音色，音调，音强和音长。其中，音色也叫音质，是一种声音区别音调，音强和音长。其中，音色也叫音质，是一种声音区别于另一种声音的基本特征。音调是指声音的高低，它取决于于另一种声音的基本特征。音调是指声音的高低，它取决于声波的频率。声音的强弱叫音强，它由声波的振动幅度决定。声波的频率。声音的强弱叫音强，它由声波的振动幅度决定。声音的长短叫音长，它取决于发音时间的长短。声音的长短叫音长，它取决于发音时间的长短。v说话时一次发出的，具有一个响亮的中心，并被明显感觉到说话时一次发出的，具有一个响亮的中心，并被明显感觉到的语音片段叫的语音片段叫音节（音节（SyllableSyllable）。一个音节可以由一个。一个音节可以由一个音素音素（PhonemePhoneme）构成，也可以由几个音素构成。音素是语音发构成，也可以由几个音素构成。音素是语音发音的最小单位。任何语言都有语音的音的最小单位。任何语言都有语音的元音（元音（VowelVowel）和和辅音辅音（ConsonantConsonant）两种音素。两种音素。2.2 2.2 语音和语言语音和语言v说话时一次发出的，具有一个响亮的中心，并被明显感觉到说话时一次发出的，具有一个响亮的中心，并被明显感觉到的语音片段叫的语音片段叫音节（音节（SyllableSyllable）。一个音节可以由一个。一个音节可以由一个音素音素（PhonemePhoneme）构成，也可以由几个音素构成。音素是语音发构成，也可以由几个音素构成。音素是语音发音的最小单位。任何语言都有语音的音的最小单位。任何语言都有语音的元音（元音（VowelVowel）和和辅音辅音（ConsonantConsonant）两种音素。两种音素。v当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时，这些声腔完全开放，气流顺利通过，这种音称为去时，这些声腔完全开放，气流顺利通过，这种音称为元音元音。v呼出的声流，由于通路的某一部分封闭起来或受到阻碍，气呼出的声流，由于通路的某一部分封闭起来或受到阻碍，气流被阻不能畅通，而克服发音器官的这种阻碍而产生的音素流被阻不能畅通，而克服发音器官的这种阻碍而产生的音素称为称为辅音辅音。发辅音时由声带是否振动引起浊音和清音的区别，。发辅音时由声带是否振动引起浊音和清音的区别，声带振动的是声带振动的是浊音浊音，声带不振动的是，声带不振动的是清音清音。2.2 2.2 语音和语言语音和语言v决定元音音色的主要因素是舌头的形状及其在口腔中的位置决定元音音色的主要因素是舌头的形状及其在口腔中的位置(简称简称舌位舌位)、嘴唇的形状、嘴唇的形状(简称简称口形口形)等。元音的另一个重要等。元音的另一个重要声学特性是声学特性是共振峰（共振峰（FormantFormant）。共振峰参数是区别不同元。共振峰参数是区别不同元音的重要参数，它一般包括音的重要参数，它一般包括共振峰频率（共振峰频率（Formant Formant FrequencyFrequency）的位置和的位置和频带宽度（频带宽度（Formant BandwidthFormant Bandwidth）。）。v一般地说，虽然就语音的基音频率而言是女声和童声高于男一般地说，虽然就语音的基音频率而言是女声和童声高于男声，但是实验表明：区分语音是男声还是女声、是成人声音声，但是实验表明：区分语音是男声还是女声、是成人声音还是儿童声音，更重要的因素是共振峰频率的高低。还是儿童声音，更重要的因素是共振峰频率的高低。2.2 2.2 语音和语言语音和语言v从上面的介绍可以总结出发音器官产生元音的条件，即从上面的介绍可以总结出发音器官产生元音的条件，即声道受到声带声道受到声带振动的激励引起共振；振动的激励引起共振；在语音流的持续过程中，声道不发生极端的狭在语音流的持续过程中，声道不发生极端的狭窄，并维持较稳定的形状；窄，并维持较稳定的形状；和鼻腔不发生偶合，声音只从口腔辐射出和鼻腔不发生偶合，声音只从口腔辐射出去。这三个条件中，只要缺少其中之一，则该语音就是去。这三个条件中，只要缺少其中之一，则该语音就是辅音辅音。辅音没有。辅音没有明确的共振峰结构。辅音发音时的阻碍的位置叫明确的共振峰结构。辅音发音时的阻碍的位置叫调音点（调音点（Place of Place of ArticulationArticulation）、阻碍的方法叫、阻碍的方法叫调音方式（调音方式（Manner of Articulation Manner of Articulation）。）。v调音方式等的不同可以把辅音分成如下几类：塞音、摩擦音、塞擦音、调音方式等的不同可以把辅音分成如下几类：塞音、摩擦音、塞擦音、鼻音、边音、颤音、通音。鼻音、边音、颤音、通音。根据发辅音时声带有无振动，可以把辅音分根据发辅音时声带有无振动，可以把辅音分类成浊辅音和清辅音。根据辅音除阻后是否紧跟着送出一股气来，可以类成浊辅音和清辅音。根据辅音除阻后是否紧跟着送出一股气来，可以把辅音分类成送气辅音和不送气辅音。把辅音分类成送气辅音和不送气辅音。2.3 2.3 汉语语音学汉语语音学汉语语音的特点汉语语音的特点：v音系简单。这是指音素少、音节少。音节的结构也比较简单。音系简单。这是指音素少、音节少。音节的结构也比较简单。v由于清辅音多，而且多是弱清音，而且开口呼的音节占全部由于清辅音多，而且多是弱清音，而且开口呼的音节占全部音节的一半以上，所以汉语语音听感上有清亮、高扬和舒服、音节的一半以上，所以汉语语音听感上有清亮、高扬和舒服、柔和的感觉。柔和的感觉。v有鲜明的轻重音和儿化韵，所以字词分隔清楚，语言表达准有鲜明的轻重音和儿化韵，所以字词分隔清楚，语言表达准确而丰富。确而丰富。汉语的拼音方法汉语的拼音方法v汉语由音素构成声母或韵母。有时，将含有声调汉语由音素构成声母或韵母。有时，将含有声调（汉语通常认为有五个声调）的韵母称为（汉语通常认为有五个声调）的韵母称为调母调母。由。由单个调母或由声母与调母拼音成为单个调母或由声母与调母拼音成为音节音节。汉语的一。汉语的一个音节就是汉语一个字的音，即音节字。由音节字个音节就是汉语一个字的音，即音节字。由音节字构成词（其中主要是两音节字构成的两字词，约占构成词（其中主要是两音节字构成的两字词，约占74%74%），最后再由词构成句子。国际上，都是用音标），最后再由词构成句子。国际上，都是用音标来描述拼音过来描述拼音过程的。汉语也不例外。汉语拼音的音程的。汉语也不例外。汉语拼音的音标包括：声母表、韵母表和声调符号等。标包括：声母表、韵母表和声调符号等。汉语音节的一般结构汉语音节的一般结构 v汉语音节一般由汉语音节一般由声母声母、韵母韵母和和声调声调三部分组成。三部分组成。汉语普通话汉语普通话中有中有60006000多个常用字，每个汉字是一个音节，如将同音字合多个常用字，每个汉字是一个音节，如将同音字合一处理，则汉语中共有一处理，则汉语中共有13321332个有调音节，其中可以单念的有个有调音节，其中可以单念的有12681268个。汉语中一般有五个声调，即阴平、阳平、上声、去个。汉语中一般有五个声调，即阴平、阳平、上声、去声以及轻声。如果不考虑声调，则汉语中无调音节共有声以及轻声。如果不考虑声调，则汉语中无调音节共有407407个。个。v汉语音节的一般结构，由汉语音节的一般结构，由9 9个部分组成。其中个部分组成。其中1 14 4段属于声段属于声母（辅音），母（辅音），6 69 9段属于韵母（元音），第段属于韵母（元音），第5 5段是二者的过段是二者的过渡段。一个音节可能只包含里面的某几段，但是第渡段。一个音节可能只包含里面的某几段，但是第7 7段（主段（主要元音段）是每个音节是具有的。要元音段）是每个音节是具有的。汉语音节的一般结构汉语音节的一般结构汉语声母的结构汉语声母的结构 v普通话中的二十二声母可分为六大类：擦音、普通话中的二十二声母可分为六大类：擦音、塞音、塞擦音、边音、鼻音、零声母。除零塞音、塞擦音、边音、鼻音、零声母。除零声母之外，其他所有的声母全部都是单辅音声母之外，其他所有的声母全部都是单辅音。汉语韵母的结构汉语韵母的结构 v普通话的三十八个韵母大致可以分为三类：普通话的三十八个韵母大致可以分为三类：8 8个单韵母，如个单韵母，如aa、ii、uu等；等；1414个复韵母，如个复韵母，如aiai、aoao等；等；1616个鼻个鼻韵母如韵母如anan、uanguang等。在这三十八个韵母中有三个（等。在这三十八个韵母中有三个（-i-i、erer、）是特殊韵母）是特殊韵母。v应该注意，元音并不等于韵母。元音、辅音是按音素的发音应该注意，元音并不等于韵母。元音、辅音是按音素的发音特征分类的；而声母、韵母则是按音节结构分类的。这是两特征分类的；而声母、韵母则是按音节结构分类的。这是两种不同的概念，尽管它们之间有一定的联系。种不同的概念，尽管它们之间有一定的联系。声母和韵母的相互作用声母和韵母的相互作用音征互载音征互载 v在在普通话里，声母和韵母的音征并不总是在各自的音段之内，普通话里，声母和韵母的音征并不总是在各自的音段之内，而且又可能跨越两者的边界，即声母里可能会带有韵母的信而且又可能跨越两者的边界，即声母里可能会带有韵母的信息，韵母里也可能带有声母的信息，如辅音音渡。如果把韵息，韵母里也可能带有声母的信息，如辅音音渡。如果把韵母从元音起始就开始算起的话，那么音渡就是韵母中载带的母从元音起始就开始算起的话，那么音渡就是韵母中载带的辅音音征，对于某些辅音来说，如不送气塞音辅音音征，对于某些辅音来说，如不送气塞音bb、dd，元，元音里的音渡正是它们之间相互区别的主要音征。音里的音渡正是它们之间相互区别的主要音征。v而韵母中的某些音征有声带载带的现象，最典型的就是介音而韵母中的某些音征有声带载带的现象，最典型的就是介音的实现方式。的实现方式。汉语的声调汉语的声调v汉语是一种汉语是一种声调语言声调语言，相同声母和韵母构成的音节随声调的，相同声母和韵母构成的音节随声调的不同而具有完全不同的意义，对应着不同的汉字。所以在汉不同而具有完全不同的意义，对应着不同的汉字。所以在汉语的相互交谈中，不但要凭借不同的元音、辅音来辨别这些语的相互交谈中，不但要凭借不同的元音、辅音来辨别这些字或词的意义，还需要从不同的声调来区别它，也就是说声字或词的意义，还需要从不同的声调来区别它，也就是说声调有辨意作用；另外，汉语中存在着多音字现象，同一个字调有辨意作用；另外，汉语中存在着多音字现象，同一个字在不同的语气或不同的词义下具有不同的声调，因而声调对在不同的语气或不同的词义下具有不同的声调，因而声调对于汉语语音的理解极为重要，承担着重要的构字辨意作用。于汉语语音的理解极为重要，承担着重要的构字辨意作用。汉语普通话的声调只有阴平、阳平、上声、去声以及汉语普通话的声调只有阴平、阳平、上声、去声以及“轻声轻声”等五种声调。等五种声调。v声调的变化就是声调的变化就是浊音基音周期浊音基音周期（或（或基音频率基音频率）的变化，各个）的变化，各个韵母段中基音周期随时间的变化产生了声调，变化的轨迹称韵母段中基音周期随时间的变化产生了声调，变化的轨迹称为为声调曲线声调曲线。汉语的声调汉语的声调汉语普通话四种声调的典型曲线：汉语普通话四种声调的典型曲线：2 2.4.4 语音生成系统和语音感知系统语音生成系统和语音感知系统语音发音系统语音发音系统 v人的发音器官包括：肺、气管、喉（包括声带）、咽、鼻和人的发音器官包括：肺、气管、喉（包括声带）、咽、鼻和口。这些器官共同形成一条形状复杂的管道。喉的部分称为口。这些器官共同形成一条形状复杂的管道。喉的部分称为声门声门。从声门到嘴唇的呼气通道叫做。从声门到嘴唇的呼气通道叫做声道（声道（Vocal TractVocal Tract）。声道的形状主要由嘴唇、颚和舌头的位置来决定。由声道形声道的形状主要由嘴唇、颚和舌头的位置来决定。由声道形状的不断改变，而发出不同的语音。状的不断改变，而发出不同的语音。语音听觉系统语音听觉系统v人耳由人耳由内耳内耳、中耳中耳和和外耳外耳三部分组成。外耳由耳翼、三部分组成。外耳由耳翼、外耳道和鼓膜构成。外耳在对声音的感知中起着声外耳道和鼓膜构成。外耳在对声音的感知中起着声源定位和声音放大的作用。中耳包括由锤骨、砧骨源定位和声音放大的作用。中耳包括由锤骨、砧骨和镫骨这三块听小骨构成的听骨链以及咽鼓管等组和镫骨这三块听小骨构成的听骨链以及咽鼓管等组成。中耳的作用是进行声阻抗的变换，即将中耳两成。中耳的作用是进行声阻抗的变换，即将中耳两端的声阻抗匹配起来，同时对内耳起着保护的作用端的声阻抗匹配起来，同时对内耳起着保护的作用。内耳的主要构成器官是。内耳的主要构成器官是耳蜗耳蜗(Cochlea)(Cochlea)。它是听觉。它是听觉的受纳器，把声音通过机械变换产生神经发放信号。的受纳器，把声音通过机械变换产生神经发放信号。语音听觉系统语音听觉系统人的听觉系统人的听觉系统语音听觉系统语音听觉系统v人的听觉系统有两个重要特性，一个是耳蜗对于声信号的人的听觉系统有两个重要特性，一个是耳蜗对于声信号的时时频分析特性频分析特性；另一个是人耳；另一个是人耳听觉掩蔽效应听觉掩蔽效应。v如果信号是一个多频率信号，则产生的行波将沿着基底膜在如果信号是一个多频率信号，则产生的行波将沿着基底膜在不同的位置产生最大幅度。从这个意义上讲，耳蜗就象一个不同的位置产生最大幅度。从这个意义上讲，耳蜗就象一个频谱分析仪，将复杂的信号分解成各种频率分量。频谱分析仪，将复杂的信号分解成各种频率分量。v并非所有的声音都能被人耳听到，这取决于声音的强度和其并非所有的声音都能被人耳听到，这取决于声音的强度和其频率范围。心理声学中的听觉掩蔽效应是指，在一个强信号频率范围。心理声学中的听觉掩蔽效应是指，在一个强信号附近，弱信号将变得不可闻，被掩蔽掉了。掩蔽效应分为同附近，弱信号将变得不可闻，被掩蔽掉了。掩蔽效应分为同时掩蔽和短时掩蔽。时掩蔽和短时掩蔽。2.5 2.5 语音信号生成的数学模型语音信号生成的数学模型v所谓建立数学模型就是要寻求一种可以表达一定物理状态下所谓建立数学模型就是要寻求一种可以表达一定物理状态下量与量之间关系的数学表示。建立了语音信号的数字模型，量与量之间关系的数学表示。建立了语音信号的数字模型，才能够用计算机来定量地对语音信号进行模拟和处理。所以才能够用计算机来定量地对语音信号进行模拟和处理。所以语音信号生成的数学模型是语音信号处理的基础。语音信号生成的数学模型是语音信号处理的基础。v理想的模型是线性的和时不变的。理想的模型是线性的和时不变的。语音信号是非平稳随机过语音信号是非平稳随机过程，其特性是随着时间变化的，所以模型中的参数应该是随程，其特性是随着时间变化的，所以模型中的参数应该是随时间而变化的。但语音信号特性随着时间变化是很缓慢的。时间而变化的。但语音信号特性随着时间变化是很缓慢的。所以可以作出一些合理的假设，将语音信号分为一些相继的所以可以作出一些合理的假设，将语音信号分为一些相继的短段进行处理，在这些短段中可以认为语音信号特性是不随短段进行处理，在这些短段中可以认为语音信号特性是不随着时间变化的平稳随机过程。这样在这些短段时间内表示语着时间变化的平稳随机过程。这样在这些短段时间内表示语音信号时，可以采用音信号时，可以采用线性时不变模型线性时不变模型。激励模型激励模型v激励模型一般分成浊音激励和清音激励来讨论。发浊音时，激励模型一般分成浊音激励和清音激励来讨论。发浊音时，由于声带不断张开和关闭，将产生间歇的脉冲波。这个脉冲由于声带不断张开和关闭，将产生间歇的脉冲波。这个脉冲波的波形类似于斜三角形的脉冲，波的波形类似于斜三角形的脉冲，它的数学表达式如下：它的数学表达式如下：式中，式中，N1为斜三角波上升部分的时间，为斜三角波上升部分的时间，N2为其下降部分的时为其下降部分的时间。间。单个斜三角波波形的频谱的图形如图单个斜三角波波形的频谱的图形如图2-182-18所示。所示。由图可由图可见，它是一个低通滤波器。它的变换的全极模型的形式是：见，它是一个低通滤波器。它的变换的全极模型的形式是：激励模型激励模型v这里，这里，c c是一个常数。显然，上式表示斜三角波形可描述为是一个常数。显然，上式表示斜三角波形可描述为一个二极点的模型。因此，斜三角波形串可视为加权了单位一个二极点的模型。因此，斜三角波形串可视为加权了单位脉冲串激励上述单个斜三角波模型的结果。而该单位脉冲串脉冲串激励上述单个斜三角波模型的结果。而该单位脉冲串及幅值因子则可表示成下面的及幅值因子则可表示成下面的z z变换形式：变换形式：所以，整个浊音激励模型可表示为：所以，整个浊音激励模型可表示为：也就是说浊音激励波是一个以基音周期为周期的斜三角脉冲也就是说浊音激励波是一个以基音周期为周期的斜三角脉冲串。串。声道模型声道模型v关于声道部分的数学模型，有多种观点，目前最常用的有两关于声道部分的数学模型，有多种观点，目前最常用的有两种建模方法。一是把声道视为由多个等长的不同截面积的管种建模方法。一是把声道视为由多个等长的不同截面积的管子串联而成的系统。按此观点推导出的叫子串联而成的系统。按此观点推导出的叫“声管模型声管模型”。另另一个是把声道视为一个谐振腔，按此推导出的叫一个是把声道视为一个谐振腔，按此推导出的叫“共振峰模型共振峰模型”。v共振峰模型，把声道视为一个谐振腔。共振峰就是这个腔体共振峰模型，把声道视为一个谐振腔。共振峰就是这个腔体的谐振频率。由于人耳听觉的柯替氏器官的纤毛细胞就是按的谐振频率。由于人耳听觉的柯替氏器官的纤毛细胞就是按频率感受而排列其位置的，所以这种共振峰的声道模型方法频率感受而排列其位置的，所以这种共振峰的声道模型方法是非常有效的。一般来说，一个元音用前三个共振峰来表示是非常有效的。一般来说，一个元音用前三个共振峰来表示就足够了；而对于较复杂的辅音或鼻音，大概要用到前五个就足够了；而对于较复杂的辅音或鼻音，大概要用到前五个以上的共振峰才行。以上的共振峰才行。基于物理声学的共振峰理论，可以建立基于物理声学的共振峰理论，可以建立起三种实用的共振峰模型：起三种实用的共振峰模型：级联型级联型、并联型并联型和和混合型混合型。声道模型声道模型级联型级联型v这时认为声道是一组串联的二阶谐振器。从共振峰理论来看，这时认为声道是一组串联的二阶谐振器。从共振峰理论来看，整个声道具有多个谐振频率和多个反谐振频率，所以它可被整个声道具有多个谐振频率和多个反谐振频率，所以它可被模拟为一个零极点的数学模型；但对于一般元音，则用全极模拟为一个零极点的数学模型；但对于一般元音，则用全极点模型就可以了。点模型就可以了。它的传输函数可分解表示为多个二阶极点它的传输函数可分解表示为多个二阶极点的网络的串联：的网络的串联：声道模型声道模型级联型级联型声道模型声道模型并联型并联型v对于非一般元音以及大部分辅音，必须考虑采用零极点模型。对于非一般元音以及大部分辅音，必须考虑采用零极点模型。此时，模型的传输函数如下：此时，模型的传输函数如下：v通常，通常，NRNR，且设分子与分母无公因子及分母无重根，则上，且设分子与分母无公因子及分母无重根，则上式可分解为如下部分分式之和的形式：式可分解为如下部分分式之和的形式：v这就是并联型的共振峰模型。如图这就是并联型的共振峰模型。如图2-212-21所示（所示（M=5M=5）。）。声道模型声道模型并联型并联型声道模型声道模型混合型混合型v上述两种模型中，级联型比较简单，可以用于描述一般元音。上述两种模型中，级联型比较简单，可以用于描述一般元音。当鼻化元音或鼻腔参与共振，以及阻塞音或摩擦音等情况时，当鼻化元音或鼻腔参与共振，以及阻塞音或摩擦音等情况时，级联模型就不能胜任了。这时腔体具有反谐振特性，必须考级联模型就不能胜任了。这时腔体具有反谐振特性，必须考虑加入零点，使之成为零极点模型。采用并联结构的目的就虑加入零点，使之成为零极点模型。采用并联结构的目的就在于此，它比级联型复杂些，每个谐振器的幅度都要独立地在于此，它比级联型复杂些，每个谐振器的幅度都要独立地给以控制。但对于鼻音、塞音、擦音以及塞擦音等都可以适给以控制。但对于鼻音、塞音、擦音以及塞擦音等都可以适用。正因为如此，将级联模型和并联模型结合起来的混合模用。正因为如此，将级联模型和并联模型结合起来的混合模型也许是比较完备的一种共振峰模型。型也许是比较完备的一种共振峰模型。声道模型声道模型混合型共振峰模型混合型共振峰模型辐射模型辐射模型v从声道模型输出的是速度波从声道模型输出的是速度波，而语音信号是声压波，而语音信号是声压波，二者之倒，二者之倒比称为辐射阻抗比称为辐射阻抗。它表征口唇的辐射效应，也包括圆形的头部的绕射。它表征口唇的辐射效应，也包括圆形的头部的绕射效应等。当然，从理论上推导这个阻抗是有困难的。但是如果认为口唇效应等。当然，从理论上推导这个阻抗是有困难的。但是如果认为口唇张开的面积远小于头部的表面积，则可近似地看成平板开槽辐射的情况。张开的面积远小于头部的表面积，则可近似地看成平板开槽辐射的情况。此时，可推导出辐射阻抗的公式如下：此时，可推导出辐射阻抗的公式如下：式中，式中，这里，这里，是口唇张开时的开口半径，是口唇张开时的开口半径，是声波传是声波传播速度。图播速度。图2-24 2-24 显示了辐射阻抗的实部和虚部的频率响应曲线。显示了辐射阻抗的实部和虚部的频率响应曲线。v由辐射引起的能量损耗正比于辐射阻抗的实部，所以辐射模型是一阶类由辐射引起的能量损耗正比于辐射阻抗的实部，所以辐射模型是一阶类高通滤波器。高通滤波器。语音信号的数学模型语音信号的数学模型 v综上所述，完整的语音信号的数字模型可以用三个子模型：综上所述，完整的语音信号的数字模型可以用三个子模型：激励模型、声道模型和辐射模型的串联来表示。如图所示：激励模型、声道模型和辐射模型的串联来表示。如图所示：它的传输函数可以表示为：它的传输函数可以表示为：语音信号的数学模型语音信号的数学模型v这里，这里，U(z)U(z)是激励信号，浊音时是激励信号，浊音时U(z)U(z)是声门脉冲即斜三角形脉冲序列的是声门脉冲即斜三角形脉冲序列的z z变换；在清音的情况下，变换；在清音的情况下，U(z)U(z)是一个随机噪声的是一个随机噪声的z z变换。变换。V(z)V(z)是声道传是声道传输函数，既可用声管模型，也可以共振峰模型等来描述。实际上就是全输函数，既可用声管模型，也可以共振峰模型等来描述。实际上就是全极点模型：极点模型：v应该指出，上式所示模型的内部结构并不和语音产生的物理过程相一致，应该指出，上式所示模型的内部结构并不和语音产生的物理过程相一致，但这种模型和真实模型在输出处是等效的。另外，这种模型是但这种模型和真实模型在输出处是等效的。另外，这种模型是“短时短时”的模型，因为一些语音信号的变化是缓慢的，例如元音在的模型，因为一些语音信号的变化是缓慢的，例如元音在1020ms1020ms内其参内其参数可假定不变。这里声道转移函数是一个参数随时间缓慢变化的模型。数可假定不变。这里声道转移函数是一个参数随时间缓慢变化的模型。另外，这一模型认为语音是声门激励源激励线性系统另外，这一模型认为语音是声门激励源激励线性系统-声道所产生的。声道所产生的。2.6 2.6 语音信号的特性分析语音信号的特性分析v语音信号的特性主要是指它的声学特性、语音信号语音信号的特性主要是指它的声学特性、语音信号的时域波形和频谱特性以及语音信号的统计特性等。的时域波形和频谱特性以及语音信号的统计特性等。关于声学特性在上面已经作了简单的介绍，下面主关于声学特性在上面已经作了简单的介绍，下面主要就语音信号的时域波形和频谱特性以及语音信号要就语音信号的时域波形和频谱特性以及语音信号的统计特性等进行分析。的统计特性等进行分析。语音信号的时域波形和频谱特性语音信号的时域波形和频谱特性 v在时间域里，语音信号可以直接用它的时间波形表示出来，通过观察时间波形可在时间域里，语音信号可以直接用它的时间波形表示出来，通过观察时间波形可以看出语音信号的一些重要特性。下图是汉语拼音以看出语音信号的一些重要特性。下图是汉语拼音“sou ke”sou ke”的时间波形。表示的时间波形。表示这段语音波形时采用的采样频率是这段语音波形时采用的采样频率是8kHz8kHz，量化精度是，量化精度是16bit16bit。图上标明了时间及。图上标明了时间及各个音节的起始位置。由于在时域波形里各个单音节间不好明显地分界，因此，各个音节的起始位置。由于在时域波形里各个单音节间不好明显地分界，因此，图上标出的某个音的起点只是粗略的。观察语音信号时间波形的特性，可以通过图上标出的某个音的起点只是粗略的。观察语音信号时间波形的特性，可以通过对语音波形的振幅和周期性来观察不同性质的音素的差别。对语音波形的振幅和周期性来观察不同性质的音素的差别。语音信号的时域波形和频谱特性语音信号的时域波形和频谱特性v从上图可以看出，清辅音从上图可以看出，清辅音sksk和元音和元音ou eou e这两类音的这两类音的时间波形有很大区别。例如，从时间波形有很大区别。例如，从A A点开始的音节点开始的音节ss，以及从，以及从C C点开始的点开始的kk都是清辅音，它们的波形类似于白噪声，振幅都是清辅音，它们的波形类似于白噪声，振幅很小，没有明显的周期性；而从很小，没有明显的周期性；而从B B点开始的元音点开始的元音ouou以及从以及从D D点开始的点开始的ee都具有明显的周期性，且振幅较大。它们的周都具有明显的周期性，且振幅较大。它们的周期对应的就是声带振动的频率，即基音频率，它是声门脉冲期对应的就是声带振动的频率，即基音频率，它是声门脉冲的间隔。如果考察其中一小段元音语音波形，从它的频谱特的间隔。如果考察其中一小段元音语音波形，从它的频谱特性大致可以看出它们的共振峰特性。性大致可以看出它们的共振峰特性。语音信号的时域波形和频谱特性语音信号的时域波形和频谱特性v语音信号属于短时平稳信号，一般认为在语音信号属于短时平稳信号，一般认为在101030ms30ms内语音信内语音信号特性基本上是不变的，或者变化很缓慢。于是，可以从中号特性基本上是不变的，或者变化很缓慢。于是，可以从中截取一小段进行频谱分析截取一小段进行频谱分析。下图给出下图给出“sou”sou”中音素中音素“ou”ou”的傅里叶变换的傅里叶变换：频率/kHz幅度/dB语音信号的语谱图语音信号的语谱图 v 语音的时域分析和频域分析是语音分析的两种重要方法。显然这两种单语音的时域分析和频域分析是语音分析的两种重要方法。显然这两种单独分析的方法均有局限性：时域分析对语音信号的频率特性没有直观的独分析的方法均有局限性：时域分析对语音信号的频率特性没有直观的了解；而频域分析出的特征中又没有语音信号随时间的变化关系。由于了解；而频域分析出的特征中又没有语音信号随时间的变化关系。由于语音信号随时间变化是很缓慢的，因而在一段短时间内（如语音信号随时间变化是很缓慢的，因而在一段短时间内（如10ms10ms30ms30ms之间，即所谓的一帧之内）可以认为其频谱是固定不变的，这种频谱又之间，即所谓的一帧之内）可以认为其频谱是固定不变的，这种频谱又称为短时谱。短时谱只能反映语音信号的静态频率特性，不能反映语音称为短时谱。短时谱只能反映语音信号的静态频率特性，不能反映语音信号的动态频率特性。因此，人们致力于研究语音的时频分析特性，把信号的动态频率特性。因此，人们致力于研究语音的时频分析特性，把和时序相关的傅立叶分析的显示图形称为和时序相关的傅立叶分析的显示图形称为语谱图语谱图（SonogramSonogram，或者，或者SpectrogramSpectrogram）。）。v语谱图是一种三维频谱，它是表示语音频谱随时间变化的图形，其纵轴语谱图是一种三维频谱，它是表示语音频谱随时间变化的图形，其纵轴为频率，横轴为时间，任一给定频率成分在给定时刻的强弱用相应点的为频率，横轴为时间，任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。灰度或色调的浓淡来表示。语谱图中显示了大量的与语音的语句特性有语谱图中显示了大量的与语音的语句特性有关的信息，它综合了频谱图和时域波形的特点，明显地显示出语音频谱关的信息，它综合了频谱图和时域波形的特点，明显地显示出语音频谱随时间的变化情况，或者说是一种动态的频谱。记录这种谱图的仪器就随时间的变化情况，或者说是一种动态的频谱。记录这种谱图的仪器就是语谱仪。是语谱仪。语音信号的统计特性语音信号的统计特性v语音信号的统计特性可以用它的波形振幅概率密度语音信号的统计特性可以用它的波形振幅概率密度函数和一些统计量如均值和自相关函数来描述。表函数和一些统计量如均值和自相关函数来描述。表示语音信号的统计特性的概率密度的估算方法是根示语音信号的统计特性的概率密度的估算方法是根据长时间范围内一段语音信号的大量取样数据的幅据长时间范围内一段语音信号的大量取样数据的幅度绝对值计算出其度绝对值计算出其幅度直方图幅度直方图，然后，根据统计的，然后，根据统计的振幅直方图，寻找近似的概率密度表达式。振幅直方图，寻找近似的概率密度表达式。语音信号的统计特性语音信号的统计特性v通过对语音信号的统计特性的研究表明，语音信号振幅分布通过对语音信号的统计特性的研究表明，语音信号振幅分布的概率密度有两种逼近方法，一种是修正伽玛（的概率密度有两种逼近方法，一种是修正伽玛（GammaGamma）分）分布概率密度函数布概率密度函数v另一种是拉普拉斯（另一种是拉普拉斯（LaplaceLaplace）分布概率密度函数）分布概率密度函数语音信号的统计特性语音信号的统计特性v对于长期统计来说，用拉普拉斯分布描述语音信号的统计特对于长期统计来说，用拉普拉斯分布描述语音信号的统计特性不及用伽玛分布描述精确，但其函数式却简单一些。也可性不及用伽玛分布描述精确，但其函数式却简单一些。也可以用高斯分布（以用高斯分布（GaussianGaussian）来近似。这三个分布函数中，伽）来近似。这三个分布函数中，伽玛函数逼近的效果最好，其次是拉普拉斯函数，而高斯分布玛函数逼近的效果最好，其次是拉普拉斯函数，而高斯分布逼近效果最差。逼近效果最差。

注意事项

本文（语音信号处理第2章.ppt）为本站会员（wuy****n92）主动上传，淘文阁 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知淘文阁 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。