语音信号的基础知识.ppt
《语音信号的基础知识.ppt》由会员分享,可在线阅读,更多相关《语音信号的基础知识.ppt(56页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、苗立刚苗立刚东北大学秦皇岛分校电子信息系东北大学秦皇岛分校电子信息系第二章第二章 语音信号处理的基础知识语音信号处理的基础知识语音信号处理 语音语音(Speech)=(Speech)=声音声音(Acoustic)+(Acoustic)+语言语言(Language)(Language)语音是由一连串的音素组成语言的声音语音是由一连串的音素组成语言的声音。语音语音:人们讲话时发出的话语叫语音。是一种人人们讲话时发出的话语叫语音。是一种人们进行信息交流的声音,是组成语言的声音们进行信息交流的声音,是组成语言的声音/带有带有语言信息的声音。语言信息的声音。n语音信号的基本概念语音信号的基本概念第二章
2、语音信号处理的基础知识对对语音的研究包括两个方面语音的研究包括两个方面 1)语音中各个音的排列由一些规则所控制,对这语音中各个音的排列由一些规则所控制,对这些规则及其含义的研究称为些规则及其含义的研究称为语言学语言学(linguistics)。语言学语言学是语音信号处理的基础。例如:可以利用是语音信号处理的基础。例如:可以利用句法和语义信息减少语音识别中搜索匹配范围,提高句法和语义信息减少语音识别中搜索匹配范围,提高正确识别率。正确识别率。第二章 语音信号处理的基础知识 语音学语音学和和语音信号处理语音信号处理联系更加紧密。如:运联系更加紧密。如:运用现代信号处理技术建立发音的数学模型,确定发
3、用现代信号处理技术建立发音的数学模型,确定发音方法;用声学和非平稳信号分析理论来解释各种音方法;用声学和非平稳信号分析理论来解释各种语音现象;语音信息的存储形式等。语音现象;语音信息的存储形式等。第二章 语音信号处理的基础知识 2)语音中各个音的物理特性和分类的研究称为语音中各个音的物理特性和分类的研究称为语音学语音学(phonetics)(phonetics)。它考虑的是语音产生、语音感。它考虑的是语音产生、语音感知等过程,以及各个音的特征和分类。知等过程,以及各个音的特征和分类。语音学基本语音学基本内容包括:内容包括:发音语音学发音语音学 确定发音机理确定发音机理 声学语音学声学语音学 信
4、号分析理论解释语音现象信号分析理论解释语音现象 听觉语音学听觉语音学 认识感知的过程认识感知的过程 语音信号的产生语音信号的产生 语音信号的感知(了解)语音信号的感知(了解)语音信号的线性产生模型语音信号的线性产生模型 语音信号的非线性产生模型(了解)语音信号的非线性产生模型(了解)n 本章主要讨论的问题:本章主要讨论的问题:第二章 语音信号处理的基础知识n 人类的说话过程分五个阶段人类的说话过程分五个阶段 想说想说 说出说出 传送传送 接收接收 理解理解 语音交流是通过联结说话人和听话人的一语音交流是通过联结说话人和听话人的一连串心理、生理和物理的转换过程实现的连串心理、生理和物理的转换过程
5、实现的。一 语音信号的产生大脑中枢大脑中枢发音器官发音器官空气空气听觉器官听觉器官大脑中枢大脑中枢n语音的发音器官语音的发音器官一 语音信号的产生肺和气管肺和气管:能量源:能量源 咽喉咽喉:震动源,包括声带和声门:震动源,包括声带和声门声道声道:谐振腔,声门到嘴唇的呼吸:谐振腔,声门到嘴唇的呼吸通道,包括咽腔、口腔、鼻腔等通道,包括咽腔、口腔、鼻腔等其他发音器官其他发音器官:包括唇、齿、舌、:包括唇、齿、舌、面颊等,使谐振腔改变形状面颊等,使谐振腔改变形状与箫、唢呐比较与箫、唢呐比较肺和气管肺和气管一 语音信号的产生 肺肺是胸腔内的一团有弹性的海绵状物质,它可以是胸腔内的一团有弹性的海绵状物质
6、,它可以储存空气。通过正常的呼吸系统空气可以进入肺部,储存空气。通过正常的呼吸系统空气可以进入肺部,说话时腹肌收缩使横膈膜向上,挤出肺部的空气,形说话时腹肌收缩使横膈膜向上,挤出肺部的空气,形成气流。由肺部呼出的气流是语音产生的成气流。由肺部呼出的气流是语音产生的原动力原动力。气管气管将肺部呼出的气流送到咽喉,它是肺部气流将肺部呼出的气流送到咽喉,它是肺部气流的的通道通道。气管的上端是喉部。气管的上端是喉部。甲状软骨甲状软骨喉的生理结构喉的生理结构声门声门声带声带环形软骨环形软骨人的前方人的前方一 语音信号的产生 喉位于气管的上端,实际喉位于气管的上端,实际上是气管末端一圈软骨构成的上是气管末
7、端一圈软骨构成的一个框架:前方稍高处的软骨一个框架:前方稍高处的软骨称为甲状软骨,前后方环成一称为甲状软骨,前后方环成一圈的称为喉部环形软骨,喉中圈的称为喉部环形软骨,喉中两片肌肉称为两片肌肉称为声带声带,声带之间,声带之间的空隙为的空隙为声门声门。当声带张开时,声门打开,当声带张开时,声门打开,空气可自由呼出,正常呼吸就空气可自由呼出,正常呼吸就处于这种情况;当声带闭合,处于这种情况;当声带闭合,声门关闭。声门关闭。声门和声带声门和声带 当说话时,声带在软骨的作用下相互靠当说话时,声带在软骨的作用下相互靠近但不完全闭合,声门变成一条窄缝。当气近但不完全闭合,声门变成一条窄缝。当气流通过气管经
8、过咽喉时,收紧的声带由于气流通过气管经过咽喉时,收紧的声带由于气流的冲击而产生振动,不断地张开和闭合,流的冲击而产生振动,不断地张开和闭合,使声门向上送出一连串喷流。使声门向上送出一连串喷流。声带靠拢声带靠拢Tp基音周期基音周期 声带的开启和闭合称为声带的开启和闭合称为振动。这一振动过程周而复振动。这一振动过程周而复始,形成了一串周期性脉冲始,形成了一串周期性脉冲气流送入声道。这个过程发气流送入声道。这个过程发出的音称为出的音称为浊音浊音。如汉语发。如汉语发音的音的aa、ii、uu和和oo等。等。一 语音信号的产生 F F0 0=1/Tp=1/Tp,基音频率,由声带的质量来决定。,基音频率,由
9、声带的质量来决定。F F0 0的大小决定了声音的高低,称为音高。的大小决定了声音的高低,称为音高。男性的男性的F F0 0大致分布在:大致分布在:60-200Hz60-200Hz 女性和儿童的女性和儿童的F F0 0大致分布在:大致分布在:200-450Hz200-450Hz基音频率(基音频率(Fundamental Frequency)F0 一 语音信号的产生声带的一个重要参数:声带的一个重要参数:声道声道 人在说话时,空气由肺部压入,由嘴唇呼出,声门由此开人在说话时,空气由肺部压入,由嘴唇呼出,声门由此开启和闭合,构成声带振动,然后通过声道(喉腔、咽腔和口腔)启和闭合,构成声带振动,然后通
10、过声道(喉腔、咽腔和口腔)响应响应(引起共振特性)(引起共振特性)变成语音,气流从喉向上经过口腔或鼻变成语音,气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向外辐射,期间的传输通道称为声道。气流流腔后从嘴或鼻孔向外辐射,期间的传输通道称为声道。气流流过声道时犹如通过了一个具有某种谐振特性的腔体,放大某些过声道时犹如通过了一个具有某种谐振特性的腔体,放大某些频率,在频谱上形成相应位置的峰起,称为频率,在频谱上形成相应位置的峰起,称为共振峰共振峰。讲话时,由于舌和唇的连讲话时,由于舌和唇的连续运动,使声道形状改变,随续运动,使声道形状改变,随即改变谐振频率,使得发不同即改变谐振频率,使得发不同的音。声道的
11、不同的形状,对的音。声道的不同的形状,对应不同的谐振频率。应不同的谐振频率。声带振动频率声带振动频率输出气流的输出气流的频率频率声道的谐振特性声道的谐振特性一 语音信号的产生鼻端鼻端嘴唇嘴唇17cm8.5cm13cm声道的无损模型声道的无损模型谐振频率的计算谐振频率的计算谐振频率发生在:谐振频率发生在:F Fn n=(声道的横截面是均匀的,(声道的横截面是均匀的,发元音发元音e e时,声道近似是均匀时,声道近似是均匀的。)的。)L=17cmL=17cm,声道的长度,声道的长度n=1,2,3 n=1,2,3 称为第一共振峰称为第一共振峰F F1 1=500Hz=500Hz、第二共振峰、第二共振峰
12、F F2 2=1500Hz=1500Hz、第三共振峰、第三共振峰F F3 3=2500Hz=2500Hz,c=340m/s c=340m/s 声速声速2n-14Lc一 语音信号的产生n n表示谐振频率的序号表示谐振频率的序号 一种声道形状对应一套共振峰一种声道形状对应一套共振峰不同人的声道大小不同,共振峰不同不同人的声道大小不同,共振峰不同同一人,发不同音,共振峰也不同同一人,发不同音,共振峰也不同声道的作用相当于一个滤波器,它放大(或声道的作用相当于一个滤波器,它放大(或增强)某些频率而衰减其他频率分量增强)某些频率而衰减其他频率分量前三个共振峰的大致范围前三个共振峰的大致范围(HzHz)共
13、振峰共振峰 成年男子成年男子 成年女子成年女子 带宽带宽 f1 200800 2501000 4070 f2 6002800 7003300 5090 f3 13003400 15004000 60180一 语音信号的产生鼻腔的作用鼻腔的作用 在软腭的帮助下,可使空气经过鼻腔排除人体外,由在软腭的帮助下,可使空气经过鼻腔排除人体外,由此产生的语音称为鼻音。如此产生的语音称为鼻音。如nn、ngng为鼻音韵母,为鼻音韵母,mm、nn、ll为鼻音声母。鼻腔是一个谐振腔,由于形状固定,为鼻音声母。鼻腔是一个谐振腔,由于形状固定,故其共振峰频率是确定的。故其共振峰频率是确定的。口腔和鼻腔口腔和鼻腔口腔的
14、作用口腔的作用一 语音信号的产生 使空气经过口腔排除人体外,由此产生的语音称为口使空气经过口腔排除人体外,由此产生的语音称为口音。口腔的形状不固定,故其共振峰频率也是不确定的。音。口腔的形状不固定,故其共振峰频率也是不确定的。等效为激励源声道喇叭口等效为激励源声道喇叭口一 语音信号的产生激励源:声带激励源:声带声带振动频率基频声带振动频率基频(基音频基音频率率)清音清音 声带不振动声带不振动浊音浊音 声带振动声带振动声道:可变谐振腔声道:可变谐振腔不同形状、不同声音不同形状、不同声音共振共振(谐振谐振)频率频率n 发音的分类发音的分类 浊音浊音(voiced soundsvoiced soun
15、ds):声道打开,声带在先):声道打开,声带在先打开后关闭,气流经过使声带要发生张驰振动,变打开后关闭,气流经过使声带要发生张驰振动,变为准周期振动气流。浊音的激励源被等效为准周期为准周期振动气流。浊音的激励源被等效为准周期的脉冲信号。的脉冲信号。清音清音(unvoiced soundsunvoiced sounds):声带不振动,而在):声带不振动,而在在声道某处保持收缩,气流在声道里收缩后高速通在声道某处保持收缩,气流在声道里收缩后高速通过产生湍流,再经过主声道(咽、口腔)的调整最过产生湍流,再经过主声道(咽、口腔)的调整最终形成清音。清音的激励源被等效为一种白噪声信终形成清音。清音的激励
16、源被等效为一种白噪声信号。号。爆破音爆破音(plosive soundsplosive sounds):声道关闭之后产):声道关闭之后产生压缩空气然后突然打开声道所发出的声音。生压缩空气然后突然打开声道所发出的声音。一 语音信号的产生一 语音信号的产生 语音是发声器官发出的一种声波,具有一定的音色、音语音是发声器官发出的一种声波,具有一定的音色、音调和音强和音长。调和音强和音长。音色音色:又称为音质,是一种声音区别于另一种声音又称为音质,是一种声音区别于另一种声音的基本特性。与声带的振动频率、发音器官的送气方式和的基本特性。与声带的振动频率、发音器官的送气方式和声道的形状、尺寸密切相关。声道的
17、形状、尺寸密切相关。音调:声音的高低,取决于声波的频率。音调:声音的高低,取决于声波的频率。音强:声音的强弱,它由声波的振动幅度所决定音强:声音的强弱,它由声波的振动幅度所决定 音长:声音的长短,取决于发音持续时间的长短,音长:声音的长短,取决于发音持续时间的长短,n语音的基本声学特性语音的基本声学特性一 语音信号的产生n 语音信号的时域和频域表示语音信号的时域和频域表示一 语音信号的产生 语音信号的时域波形语音信号的时域波形结论结论1 1:时间的连:时间的连续函数、频率幅度续函数、频率幅度随时间变化是随机随时间变化是随机的的结论结论2 2:短时间内:短时间内近似认为不变近似认为不变结论结论3
18、 3:元音是准:元音是准周期函数周期函数(基频基频)结论结论4 4:清音为随:清音为随机起伏机起伏一 语音信号的产生 语音信号的频域波形语音信号的频域波形F1=500HzF1=500Hz,F2=1000HzF2=1000Hz,F3=1500HzF3=1500HzTp=250HzTp=250Hz一 语音信号的产生基音周期基音周期 语音信号的语谱图语音信号的语谱图一 语音信号的产生女声:女声:“他去无锡市,我去黑他去无锡市,我去黑龙江龙江”的语谱图的语谱图1)语谱图:表示语音信号随时)语谱图:表示语音信号随时间而变化的频谱特性,在每个间而变化的频谱特性,在每个时刻用其附近的短时段语音信时刻用其附近
19、的短时段语音信号分析得到的一种频谱。号分析得到的一种频谱。2)语谱图的纵轴对应于频率,)语谱图的纵轴对应于频率,横轴对应于时间,图像的灰度横轴对应于时间,图像的灰度对应于信号的能量。对应于信号的能量。3)声道的谐振频率表示为黑带,)声道的谐振频率表示为黑带,浊音部分则以出现条纹图形为浊音部分则以出现条纹图形为特征,这是因为此时的时域波特征,这是因为此时的时域波形具有周期性,而在清音的时形具有周期性,而在清音的时间间隔内比较致密间间隔内比较致密4)“声纹声纹”,用于说话人识别,用于说话人识别load mtlbload mtlbspecgram(mtlb,512,Fs,kaiser(500,5),
20、475)specgram(mtlb,512,Fs,kaiser(500,5),475)title(Spectrogram)title(Spectrogram)一 语音信号的产生load specgram.matload specgram.matwavplay(a,Fs)wavplay(a,Fs)specgram(a,512,Fs,kaiser(500,5),475specgram(a,512,Fs,kaiser(500,5),475)一 语音信号的产生n 汉语中语音的分类汉语中语音的分类一 语音信号的产生音素音素:是发音的最小单位,分为:是发音的最小单位,分为元音元音和和辅音辅音。元音。元音是
21、构成音节的主干,从长度和能量来看,在音节中是构成音节的主干,从长度和能量来看,在音节中占主要位置;辅音只是出现在音节的前端或后端或占主要位置;辅音只是出现在音节的前端或后端或前后两端,它们的时长和能量较小。前后两端,它们的时长和能量较小。音节音节:发音时,被明显感觉到的语音片段为音节。:发音时,被明显感觉到的语音片段为音节。一个音节由一个音素或几个音素构成。一个音节由一个音素或几个音素构成。单词的最小单位为单词的最小单位为音节音节,句子的最小单位为句子的最小单位为单词单词。1 1)音素与音节)音素与音节一 语音信号的产生音系简单,在汉语中一个字就是一个音节,由一音系简单,在汉语中一个字就是一个
22、音节,由一般为般为2 23 3个音素组成,而且具有音素少、音节少。个音素组成,而且具有音素少、音节少。英语中一个单词由若干个音节组成,一般为英语中一个单词由若干个音节组成,一般为2 23 3个,个,一个音节由若干个音素组成,一般为一个音节由若干个音素组成,一般为1 14 4个。个。清辅音多,在听感上有清亮、高扬和舒服、柔和清辅音多,在听感上有清亮、高扬和舒服、柔和的感觉。的感觉。有鲜明的轻重音和儿化韵,所以字词分隔清楚,有鲜明的轻重音和儿化韵,所以字词分隔清楚,语言表达准确而丰富。语言表达准确而丰富。2 2)汉语语音的特点)汉语语音的特点 在汉语中,由音素构成声母和韵母。在汉语中,由音素构成声
23、母和韵母。一 语音信号的产生 声母声母:一个音节开始的辅音,声母完全由辅:一个音节开始的辅音,声母完全由辅音充当,但辅音不等于声母,因为辅音还可以作音充当,但辅音不等于声母,因为辅音还可以作为韵尾放在音节的末尾。为韵尾放在音节的末尾。(21(21个个)b b、p p、m m、f f、d d、t t、n n、l l、g g、k k、h h、j j、q q、x x、zhzh、chch、shsh、z z、c c、s s、r r3 3)语音的拼音方法)语音的拼音方法 韵母韵母:在音节中占主要部分,音节中除了头上的:在音节中占主要部分,音节中除了头上的声母以外的部分,由单、双元音、元音带上辅音等几声母以
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 信号 基础知识
限制150内