4第三章--语音信号分析---频域、倒谱、线性预测-语音信号处理-课件.ppt
《4第三章--语音信号分析---频域、倒谱、线性预测-语音信号处理-课件.ppt》由会员分享,可在线阅读,更多相关《4第三章--语音信号分析---频域、倒谱、线性预测-语音信号处理-课件.ppt(160页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、3.4 语音信号的频域分析一、短时傅立叶变换求语音的短时谱二、语音的短时谱的临界带特征矢量1 1一、短时傅立叶变换求语音的短时谱1.1.短时傅立叶变换(语音的短时谱)N=2 N=2L L,不足补零不足补零2 22.2.短时谱的卷积形式3 3 为了使为了使 能够与能够与 具有相同的性质,具有相同的性质,则要求则要求 是一个冲激函数。窗长是一个冲激函数。窗长N越长,越长,的主瓣越狭窄尖锐,则的主瓣越狭窄尖锐,则 越逼近于越逼近于 。但窗长。但窗长N太大,窗选信号不满足语音的短时平太大,窗选信号不满足语音的短时平稳特性,稳特性,不能正确反映短时语音的频谱不能正确反映短时语音的频谱了。为此,必须要合理
2、选择窗长了。为此,必须要合理选择窗长N。4语音的短时对数幅度谱语音的短时对数幅度谱矩形窗矩形窗6 6汉宁窗汉宁窗语音的短时对数幅度谱语音的短时对数幅度谱7 7汉宁窗汉宁窗矩形窗矩形窗语音的短时对数幅度谱语音的短时对数幅度谱语音的短时对数幅度谱语音的短时对数幅度谱8 8矩形窗矩形窗汉宁窗汉宁窗101011(1).(1).可以得到基频、共振峰频率等物理量可以得到基频、共振峰频率等物理量4.4.频谱、功率谱的作用频谱、功率谱的作用 一帧浊音信号短时频谱和功率谱一帧浊音信号短时频谱和功率谱 基频为基频为150Hz F1150Hz F1为为350.8Hz F2350.8Hz F2为为651Hz651Hz
3、短时频谱短时频谱短时功率谱短时功率谱1313(2).(2).利用短时功率谱的统计进行有声和无声的检测利用短时功率谱的统计进行有声和无声的检测 含噪语音信号的短时功率谱统计,含噪语音信号的短时功率谱统计,对每一帧输入对每一帧输入信号,通过与预先设定的一系列门限值比较来判断该信号,通过与预先设定的一系列门限值比较来判断该帧是信号帧还是噪声帧。帧是信号帧还是噪声帧。15151.1.临界带特征矢量的意义二、语音的短时谱的临界带特征矢量 符合人耳的听觉特征的频率分布是按临界带符合人耳的听觉特征的频率分布是按临界带频率分布的,反映出人耳对频率高低的非线性心频率分布的,反映出人耳对频率高低的非线性心理感觉角
4、度,短时谱按实际频率分布的频谱作为理感觉角度,短时谱按实际频率分布的频谱作为语音特征,不符合人耳的听觉特征将会降低语音语音特征,不符合人耳的听觉特征将会降低语音信号处理系统的性能。往往要求将实际的频谱转信号处理系统的性能。往往要求将实际的频谱转化为临界带频谱特征的方法。化为临界带频谱特征的方法。1616第第1 1临界带临界带第第2 2临界带临界带 如果采样频率为如果采样频率为8kHz,8kHz,在在0.10.14kHz4kHz范围内需要范围内需要安排安排1616个临界带。将每个临界带内中的个临界带。将每个临界带内中的|X|Xn n(k)|(k)|2 2取取和即可得到相应的临界带特征矢量。记为:
5、和即可得到相应的临界带特征矢量。记为:G=gG=g1 1,g,g2 2,.g,.gL L。1818第第1 1临界带临界带第第2 2临界带临界带19193.5 语音信号的倒谱分析一、同态信号处理的基本原理二、复倒谱和倒谱三、语音信号两个卷积分量的复倒谱四、语音信号倒谱五、MEL频率倒谱参数(MFCC)2020一、同态信号处理的基本原理1.同态信号处理的作用 同态信号处理也称为同态滤波,实现同态信号处理也称为同态滤波,实现将将卷积关系和乘积关系变换为求和关系卷积关系和乘积关系变换为求和关系的分离的分离处理。处理。,*,将非线性信号,将非线性信号处理变为线性信号处理的过程。处理变为线性信号处理的过程
6、。2121 语音信号语音信号x(n)x(n)可视为声门激励信息可视为声门激励信息u(n)u(n)及声道及声道响应脉冲响应响应脉冲响应h(n)h(n)的卷积的卷积:x(n)=u(n)*h(n):x(n)=u(n)*h(n)通过处理可将语音信号的声门激励信息及声道通过处理可将语音信号的声门激励信息及声道响应信息分离开来,从而求得声道共振特征和基音响应信息分离开来,从而求得声道共振特征和基音周期。周期。22222.2.同态信号处理的基本原理同态信号处理的基本原理 进行如下处理:进行如下处理:(1 1)特征系统)特征系统D D*完成将卷积信号转化为加性信号的运算。完成将卷积信号转化为加性信号的运算。2
7、424(2 2)逆特征系统)逆特征系统D D*-1-1 ,恢复为卷积性信号。,恢复为卷积性信号。进行如下处理:进行如下处理:2525a.a.第一步和第三步的运算相同。第一步和第三步的运算相同。b.b.第二步不同,前者是对数运算,后者是指数第二步不同,前者是对数运算,后者是指数运算。运算。(3 3)特征系统)特征系统D D*和逆特征系统和逆特征系统D D*-1-1的区别的区别 Z Z exp exp Z Z-1-1 Z Z ln ln Z Z-1-1x(n)x(n)x(n)x(n)x(n)x(n)x(n)x(n)2626线性系统线性系统线性系统线性系统特征系统特征系统特征系统特征系统D D D
8、D*逆特征系统逆特征系统逆特征系统逆特征系统D D D D*-1-1-1-1x(n)x(n)*y(n)y(n)*3.3.常见的同态信号处理系统常见的同态信号处理系统+2828进行如下处理:进行如下处理:(1 1)第一个子系统特征系统)第一个子系统特征系统D D*完成将卷积信号完成将卷积信号转化为加性信号的运算。转化为加性信号的运算。2929二、复倒谱和倒谱1.复倒频谱域和复倒谱 和和 信号也均是时域序列,但它们所信号也均是时域序列,但它们所处的离散时域显然不同于处的离散时域显然不同于x(n)x(n)和和y(n)y(n)所处的离散所处的离散时域,故把它称之为复倒频谱域。时域,故把它称之为复倒频谱
9、域。是是x(n)x(n)的的复倒频谱,简称为复倒谱,有时也称为对数复倒复倒频谱,简称为复倒谱,有时也称为对数复倒谱。同样谱。同样 是是y(n)y(n)的复倒谱。的复倒谱。x(n)x(n)y(n)y(n)x(n)x(n)y(n)y(n)3131 一般的,一般的,X(z)X(z)、Y(z)Y(z)和和 、的收敛域的收敛域包含单位圆,则可将包含单位圆,则可将Z Z变换和反变换和反Z Z变换用傅立叶变变换用傅立叶变换或离散傅立叶变换来代替,有:换或离散傅立叶变换来代替,有:复倒谱的傅立叶变换定义复倒谱的傅立叶变换定义 X(z)X(z)Y(z)Y(z)32特征系统特征系统逆特征系统逆特征系统33复倒谱的
10、离散傅立叶变换定义复倒谱的离散傅立叶变换定义 34特征系统特征系统逆特征系统逆特征系统35DTFTDTFT ln lnIDTFTIDTFT Z Z ln ln Z Z-1-1x(n)x(n)x(n)x(n)x(n)x(n)x(n)x(n)求复倒谱求复倒谱DFTDFT ln lnIDFTIDFTx(n)x(n)x(n)x(n)362.2.倒谱倒谱取对数有:取对数有:仍然是复数,只考虑其实部。令:仍然是复数,只考虑其实部。令:37 c(n)c(n)是序列是序列x(n)x(n)对数幅度谱的傅立叶逆变换,称对数幅度谱的傅立叶逆变换,称为倒频谱,简称为倒谱,有时也称为对数倒频谱,其为倒频谱,简称为倒谱,
11、有时也称为对数倒频谱,其量纲为时间。量纲为时间。c(n)c(n)就是要求取的语音信号倒谱特征。就是要求取的语音信号倒谱特征。DTFTDTFTln|.|ln|.|IDTFTIDTFTx(n)x(n)c(n)c(n)38383.复倒谱和倒谱的关系(1)(1)复倒谱进行复对数运算,而倒谱只进行实对复倒谱进行复对数运算,而倒谱只进行实对数运算。数运算。(2)(2)倒谱中丢失了信号原有的相位信息,因此序倒谱中丢失了信号原有的相位信息,因此序列列x(n)x(n)经过倒谱的特征系统和逆特征系统后,一经过倒谱的特征系统和逆特征系统后,一般不能还原其自身。般不能还原其自身。DTFTDTFTln|.|ln|.|I
12、DTFTIDTFTx(n)x(n)c(n)c(n)DTFTDTFT ln lnIDTFTIDTFTx(n)x(n)x(n)x(n)3939偶对称序列和奇对称序列之和偶对称序列和奇对称序列之和(4)(4)已知一个实数序列已知一个实数序列x(n)x(n)的复倒谱的复倒谱 ,可以由其,可以由其求出倒谱求出倒谱c(n)c(n)。x(n)x(n)40偶对称序列是序列频谱的实部的傅立叶反变换偶对称序列是序列频谱的实部的傅立叶反变换41 才是一个因果稳定序列。才是一个因果稳定序列。是一个最小相位序列是一个最小相位序列(5)(5)已知一个实数序列已知一个实数序列x(n)x(n)的倒谱的倒谱c(n)c(n),可
13、以,可以由其求出复倒谱由其求出复倒谱 。x(nx(n)X(z)X(z)的零极点都应该在单位圆内的零极点都应该在单位圆内X(z)X(z)的零极点都是的零极点都是 的极点,因此只有当的极点,因此只有当它们都在单位圆内,才能使它们都在单位圆内,才能使 的极点全部的极点全部在单位圆内。在单位圆内。x(n)x(n)x(n)x(n)=u(n)42 复倒谱和倒谱复倒谱和倒谱具有线性关系。具有线性关系。43三、语音信号两个卷积分量的复倒谱三、语音信号两个卷积分量的复倒谱 语音信号可看着声门激励信号和声道冲激响应语音信号可看着声门激励信号和声道冲激响应信号的卷积。信号的卷积。进行如下处理:进行如下处理:复倒谱关
14、系式复倒谱关系式44时变数字时变数字滤波器(滤波器(h(n)h(n))x(n)x(n)speechspeechu(n)u(n)excitationexcitation45(1)(1)发清音时,声门激励是频谱均匀的白噪声。发清音时,声门激励是频谱均匀的白噪声。(2)(2)发浊音时,声门激励是以基音为周期的冲激发浊音时,声门激励是以基音为周期的冲激序列。序列。主要考察浊音时的声门激励信号的复倒谱。主要考察浊音时的声门激励信号的复倒谱。1.1.声门激励信号的复倒谱声门激励信号的复倒谱4646M,rM,r均为正整数均为正整数为幅度因子为幅度因子为用样点数表示的基音周期为用样点数表示的基音周期nu(n)
15、0Np2NpMNpu(n)的幅度呈衰减趋势的幅度呈衰减趋势47(1)(1)对对u(n)u(n)进行进行Z Z变换变换求求u(n)u(n)的复倒谱的复倒谱48(2)(2)对对U(z)U(z)取对数,并进行泰勒级数展开取对数,并进行泰勒级数展开49(3)(3)对对 进行逆进行逆Z Z变换,求得变换,求得u(n)u(n)的复倒谱的复倒谱50 结论:一个有限长的周期冲激序列,其复倒结论:一个有限长的周期冲激序列,其复倒谱也是一个周期冲激序列,其周期不变,只是序谱也是一个周期冲激序列,其周期不变,只是序列变为无限长。同时其振幅随着列变为无限长。同时其振幅随着k k的增大而衰减,的增大而衰减,衰减速度比原
16、序列要快。衰减速度比原序列要快。5151n0Np2NpMNpu(n)的幅度呈衰减趋势的幅度呈衰减趋势n0Np2NpMNp522.2.声道冲激响应序列声道冲激响应序列(1)(1)对声道响应对声道响应h(n)h(n)用零极点来描述用零极点来描述分别为单位圆内的零、极点个数分别为单位圆内的零、极点个数分别为单位圆外的零、极点个数分别为单位圆外的零、极点个数53(2)(2)对对H(z)H(z)取对数,并进行泰勒级数展开取对数,并进行泰勒级数展开5455(3)(3)对对 进行逆进行逆Z Z变换,求得变换,求得h(n)h(n)的复倒谱的复倒谱56结论结论:(1):(1)h(n)h(n)的复倒谱的复倒谱是双
17、边序列是双边序列 (2)(2)由于由于|a|ak k|、|b|bk k|、|c|ck k|和和|d|dk k|均小于均小于1,1,故故复复倒谱是衰减序列,随着倒谱是衰减序列,随着n n的增大而衰减。的增大而衰减。5757 (3)(3)复倒谱衰减速度快,更集中于原点附近,具有复倒谱衰减速度快,更集中于原点附近,具有短时性短时性 ,用短时窗函数提取声道响应序列的复倒谱,用短时窗函数提取声道响应序列的复倒谱是很有效的。是很有效的。(4)(4)如果如果h(n)h(n)是最小相位序列,即是最小相位序列,即b bk k0 0和和d dk k0 0,则复倒谱序列为因果稳定序列。因此,最小相位序则复倒谱序列为
18、因果稳定序列。因此,最小相位序列的复倒谱是因果稳定序列。相反,可以得出,最列的复倒谱是因果稳定序列。相反,可以得出,最大相位序列的复倒谱是稳定反因果序列。大相位序列的复倒谱是稳定反因果序列。5858四、语音信号的倒谱倒谱关系式倒谱关系式5959 由于倒谱和复倒谱之间的线性关系,因此有:由于倒谱和复倒谱之间的线性关系,因此有:(1 1)c ch h(n)(n)的性质与的性质与h(n)h(n)的的复倒谱性质一致,主要集复倒谱性质一致,主要集中于原点附近。中于原点附近。(2 2)c cu u(n)(n)的性质与的性质与u(n)u(n)的的复倒谱性质一致,呈现周复倒谱性质一致,呈现周期性期性,并且逐渐
19、衰减。并且逐渐衰减。6060Np2Np6161浊音信号浊音信号倒谱倒谱6262 图为一帧浊音信号的倒谱。一般人的基音周期图为一帧浊音信号的倒谱。一般人的基音周期的变化范围为的变化范围为2.2ms2.2ms至至20ms20ms之间。若采样频率为之间。若采样频率为22.05kHz,22.05kHz,则对应的样点数为:则对应的样点数为:4949441441。浊音信号浊音信号倒谱倒谱周期周期周期周期基音基音周期周期6363清音信号清音信号倒谱倒谱6464图为一帧清音信号的倒谱图为一帧清音信号的倒谱清音信号清音信号倒谱倒谱6565 由于由于c ch h(n)(n)随随n n增大而迅速递减,在增大而迅速递
20、减,在n n的间隔很少的间隔很少的值之外已经非常小,如采样频率的值之外已经非常小,如采样频率10kHz10kHz,c ch h(n)(n)在在间隔为间隔为-25,25-25,25之外的值已经很小,可忽略。因此,之外的值已经很小,可忽略。因此,基音信息和声道信息可以认为是分离的。基音信息和声道信息可以认为是分离的。6666DTFTDTFTln|.|ln|.|IDTFTIDTFTDTFTDTFTx(n)x(n)X(eX(ejwjw)c(n)c(n)加短时窗加短时窗Ln|H(eLn|H(ejwjw)|)|共振峰估计的方法共振峰估计的方法 采用低时窗,取出原点附近的一部分信号,经采用低时窗,取出原点附
21、近的一部分信号,经过过DFTDFT得到的频谱就是声道的谱包络,经过峰值检测,得到的频谱就是声道的谱包络,经过峰值检测,来估计共振峰。来估计共振峰。c ch h(n)(n)6767倒谱倒谱声道响应的谱包络声道响应的谱包络共振峰位置共振峰位置加短时窗加短时窗Ln|H(eLn|H(ejwjw)|)|c ch h(n)(n)6868Ln|H(eLn|H(ejwjw)|)|Ln|X(eLn|X(ejwjw)|)|6969 如果如果h(n)h(n)是最小相位序列,即是最小相位序列,即b bk k0 0和和d dk k0 0,则复倒谱,则复倒谱 序列为因果稳定序列。如果序列为因果稳定序列。如果已知已知c c
22、h h(n)(n),可以求出,可以求出 。70逆特征系统逆特征系统D D*-1-1h(n)h(n)71 倒谱的作用:倒谱的作用:(1 1)区分清)区分清/浊音浊音 (2 2)求浊音的基音周期)求浊音的基音周期,可以得到浊音的激可以得到浊音的激励信号。励信号。(3 3)得到声道的冲激响应)得到声道的冲激响应h(n)h(n)7272 同态声码器:同态声码器:DFTDFTln|.|ln|.|IDFTIDFT量化量化x xn n(n)(n)X(k)X(k)c(n)c(n)加短时窗加短时窗c ch h(n)(n)码字码字基音估计基音估计清浊音判决清浊音判决激励激励参数参数码字码字cch h(n)(n)c
23、 c h h(n)(n)DFTDFTEXP(.EXP(.)IDFTIDFT解码解码基音周期基音周期清清/浊音浊音激励信号激励信号发生器发生器卷积卷积运算运算h(n)h(n)解码解码u(n)u(n)合成合成语音语音原始语音原始语音7373Exercises1.1.画出语音生成的数学模型,给出相应的表达式,画出语音生成的数学模型,给出相应的表达式,并简单阐述。并简单阐述。2.2.结合窗函数,说明语音的短时分析技术。结合窗函数,说明语音的短时分析技术。3.3.常用的基音周期检测的方法有哪些?它们的基本常用的基音周期检测的方法有哪些?它们的基本原理是什么?原理是什么?4.4.常用的清常用的清/浊音判别
24、方法有哪些?它们的基本原浊音判别方法有哪些?它们的基本原理是什么?理是什么?5.5.设序列设序列 (1)(1)求求x(n)x(n)的复倒谱;(的复倒谱;(2 2)大致画出)大致画出x(n)x(n)的倒谱。的倒谱。7474DTFTDTFTln|.|ln|.|IDTFTIDTFTDTFTDTFTx(n)x(n)X(eX(ejwjw)c(n)c(n)加短时窗加短时窗Ln|H(eLn|H(ejwjw)|)|c ch h(n)(n)exp exp|H(e|H(ejwjw)|)|生物医学信号处理中倒谱的作用生物医学信号处理中倒谱的作用时变数字时变数字滤波器(滤波器(h(n)h(n))x(n)x(n)u(n
25、)u(n)75757676五、MEL频率倒谱参数(MFCC)MelMel频率倒谱参数频率倒谱参数(MFCC)(MFCC),着眼于人耳的听觉,着眼于人耳的听觉特性。人耳所听到的声音的高低与声音的频率并不特性。人耳所听到的声音的高低与声音的频率并不成线性正比关系,而成线性正比关系,而MelMel频率尺度则更符合人耳的频率尺度则更符合人耳的听觉特性。听觉特性。Mel(f)=2595lg(1+f/700)Mel(f)=2595lg(1+f/700)类似于临界频带的划分,可以将语音频率划分类似于临界频带的划分,可以将语音频率划分成一系列三角形的滤波器序列,即成一系列三角形的滤波器序列,即MelMel滤波
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第三 语音 信号 分析 频域 线性 预测 处理 课件
限制150内