工学chpart频域分析课件.pptx
短时(加窗)傅立叶变换的定义Short Time Fourier Transform-STFT一、定义一、定义两种解释:两种解释:1)n固定固定 FT2)固定固定 Linear Filter第1页/共57页x(m)x(m)w(n-w(n-m)m)w(m)w(m)m mm mn n 透过位于透过位于n n处的窗口所观察到的语音短段的傅立处的窗口所观察到的语音短段的傅立叶变换。叶变换。n n取不同值时,窗取不同值时,窗w(n-m)w(n-m)沿时间轴滑到不沿时间轴滑到不同位置,取出不同的语音段,故同位置,取出不同的语音段,故 不仅是不仅是 的函数,还是时间的函数,还是时间n n的函数。的函数。第2页/共57页短时幅度谱的计算过程第3页/共57页短时幅度谱得出的参数第4页/共57页二、移动窗形状对二、移动窗形状对 的影响的影响元音元音a的短时幅度谱(的短时幅度谱(n=512)rectangular windowrectangular windowhamming windowhamming window第5页/共57页 从短时频谱图中可知:(1 1)快速变化,由激)快速变化,由激励信号引起的;(励信号引起的;(2 2)慢速变化,声道滤波器的)慢速变化,声道滤波器的共振峰特性引起的(共振峰特性引起的(3 3)采用汉明窗得到的短时)采用汉明窗得到的短时频谱较矩形窗平滑,因而在语音分析中汉明窗用频谱较矩形窗平滑,因而在语音分析中汉明窗用得较普遍。得较普遍。hamming windowhamming window第6页/共57页Vowel /a:/(a)50ms 包含包含6个周期,基音周期频率为个周期,基音周期频率为120Hz。(b)30ms rectangular window (c)15ms rectangular(d)30ms hamming window (e)15ms hamming第7页/共57页(a)50ms 包含包含10个周期,基音周期频率为个周期,基音周期频率为200Hz。(b)30ms rectangular window (c)15ms rectangular(d)30ms hamming window (e)15ms hammingVowel /a:/第8页/共57页汉明窗矩形窗语音的短时对数幅度谱语音的短时对数幅度谱第9页/共57页矩形窗汉明窗第10页/共57页三、窗宽对三、窗宽对 的影响的影响 窗宽为窗宽为6464点(点(10kHz10kHz)元音)元音aa的短时频谱图的短时频谱图短窗的频率分辨率下降,频谱图中丢失了关于语音短窗的频率分辨率下降,频谱图中丢失了关于语音基音周期的信息,只保留慢变化。基音周期的信息,只保留慢变化。矩形窗矩形窗汉明窗汉明窗第11页/共57页语谱图语谱图(Spectrogram)语音的时域分析和频域分析是语音分析的两种重语音的时域分析和频域分析是语音分析的两种重要的方法,但是这两种方法均有局限性:时域分析对要的方法,但是这两种方法均有局限性:时域分析对语音信号的频率特性没有直观的了解;而频域特性中语音信号的频率特性没有直观的了解;而频域特性中又没有语音信号随时间的变化关系。因此人们致力于又没有语音信号随时间的变化关系。因此人们致力于研究将时域分析和频域相结合,将时间依赖于傅立叶研究将时域分析和频域相结合,将时间依赖于傅立叶分析的显示图形称作为语谱图,横坐标为时间,纵坐分析的显示图形称作为语谱图,横坐标为时间,纵坐标为频率,谱的色调的浓淡表示声音的强弱。它综合标为频率,谱的色调的浓淡表示声音的强弱。它综合了频谱图和时域波形的优点,明显得展示了语音频谱了频谱图和时域波形的优点,明显得展示了语音频谱随时间的变化情况。随时间的变化情况。第12页/共57页Band-pass filter1Band-pass filter2Band-pass filterNSpeechtimefrequencyThe two-dimensional function is called the spectrogram.第13页/共57页Every salt breeze comes form the seaWide bandnarrowband第14页/共57页Matlab 命令:specgramWideband spectrogram:给出共振峰频率Narrowband spectrogram:基音周期及其谐波 specgram computes the windowed discrete-specgram computes the windowed discrete-time Fourier transform of a signal using a time Fourier transform of a signal using a sliding window.The spectrogram is the sliding window.The spectrogram is the magnitude of this function.magnitude of this function.第15页/共57页第16页/共57页第17页/共57页N=1024 hamming window 幅度谱 第18页/共57页N=2048 hamming window 幅度谱 第19页/共57页 欢迎使用微软中国研究院中文语音合成系统欢迎使用微软中国研究院中文语音合成系统的时域波形和语谱图的时域波形和语谱图第20页/共57页第21页/共57页短时谱的卷积形式短时谱的卷积形式语音信号语音信号x(m)x(m)的频谱的频谱 窗函数窗函数w(m)w(m)的频谱的频谱窗函数窗函数w(n-m)w(n-m)的频谱的频谱第22页/共57页“毕业毕业”第23页/共57页短时傅立叶变换的性质一、由 得出当当n=mn=m时,且时,且第24页/共57页绝对值滤波器h(n)x(m)x(m)w(n-w(n-m)m)m mn nx xn n(m)(m)第25页/共57页二二.短时谱的卷积形式短时谱的卷积形式语音信号语音信号x(m)x(m)的频谱的频谱 窗函数窗函数w(m)w(m)的频谱的频谱窗函数窗函数w(n-m)w(n-m)的频谱的频谱第26页/共57页用用代替代替 为了使 能够与 具有相同的性质,则要求 是一个冲激函数 。窗长N越长,的主瓣越狭窄尖锐,则 越逼近于 。但窗长N太大,窗选信号不满足语音的短时平稳特性,不能正确反映短时语音的频谱了。为此,必须要合理选择窗长N。第27页/共57页第28页/共57页三三.短时功率谱和短时谱的关系短时功率谱和短时谱的关系四四.短时功率谱和短时自相关函数的关系短时功率谱和短时自相关函数的关系第29页/共57页 男声男声“深圳深圳 广州广州 珠海珠海”的短时功率谱统的短时功率谱统计。在采样频率为计。在采样频率为22050Hz22050Hz的情况下,取的情况下,取20ms20ms作作为一帧,帧长为为一帧,帧长为441441点,一共统计了点,一共统计了180180帧。帧。短时功率谱短时功率谱原始原始语音语音第30页/共57页(2).(2).利用短时功率谱的统计进行有声和无声的检测利用短时功率谱的统计进行有声和无声的检测 含噪语音信号的短时功率谱统计,含噪语音信号的短时功率谱统计,对每一帧输入对每一帧输入信号,通过与预先设定的一系列门限值比较来判断该信号,通过与预先设定的一系列门限值比较来判断该帧是信号帧还是噪声帧。帧是信号帧还是噪声帧。第31页/共57页短时傅立叶变换的线性滤波实现一、的另一种解的另一种解释释当将当将 看成一个参变量,看成一个参变量,就只是就只是n n的函数。的函数。w(n)短时频谱的线性滤波表示短时频谱的线性滤波表示第32页/共57页 w(n)w(n)短时频谱的线性滤波实现短时频谱的线性滤波实现第33页/共57页 w(n)w(n)w(n)是窄带低通滤波器是窄带低通滤波器假设 将将x(n)x(n)的频谱向左搬移的频谱向左搬移了了 ,或等效将,或等效将 频率上频率上的频谱搬移到了零频率处。的频谱搬移到了零频率处。因此为使输出端有:因此为使输出端有:w(n)w(n)是窄带低通滤波器是窄带低通滤波器第34页/共57页第35页/共57页令令令令2.2.实数运算实现短时谱的线性滤波表示实数运算实现短时谱的线性滤波表示窄带带通滤波器窄带带通滤波器第36页/共57页第37页/共57页 实数运算实现短时谱的线性滤波表示实数运算实现短时谱的线性滤波表示第38页/共57页短时傅立叶变换的取样时域取样时域取样 n n频域取样频域取样一、时域取样一、时域取样 n n(线性滤波实现线性滤波实现)w(m)带宽为带宽为B B带宽也为带宽也为B B取样频率取样频率 由窗的主瓣宽度来决定。矩形窗为由窗的主瓣宽度来决定。矩形窗为1 1,汉明窗为,汉明窗为2 2。第39页/共57页二、频域取样二、频域取样 每帧每帧 中语音信号个数为窗长中语音信号个数为窗长N N第40页/共57页三、时域和频域的总取样三、时域和频域的总取样 当当时时 的取样率和的取样率和 的取样率之比:的取样率之比:(过取样比过取样比)第41页/共57页语音的短时合成技术 离散短时傅立叶反变换离散短时傅立叶反变换 离散短时傅立叶变换离散短时傅立叶变换 离散短时傅立叶反变换离散短时傅立叶反变换在什么条件下由在什么条件下由y(n)y(n)x(n)x(n)第42页/共57页一、滤波器组相加法一、滤波器组相加法窄带带通滤波器窄带带通滤波器假设第43页/共57页用带通滤波器组进行短时傅立叶分析用带通滤波器组进行短时傅立叶分析N N个中心频率处于个中心频率处于 的滤波器组成的的滤波器组成的滤波器组滤波器组第44页/共57页第45页/共57页1.时域条件若N Nw wN,=N,=N,只要w(rN)=0,r=,-2,-1,1,2,w(rN)=0,r=,-2,-1,1,2,N N2N2NN Nw w-1-1N-1N-1第46页/共57页2.频域条件第47页/共57页第48页/共57页0 0第49页/共57页 由于由于 是宽度为是宽度为N N的有限时宽序列,而的有限时宽序列,而 的频率取样在的频率取样在 为为N N个。个。根据根据 的周期性,的周期性,故:故:第50页/共57页二、叠接相加法(二、叠接相加法(Overlap-Add Method)IFTIFT如果窗移为如果窗移为R,R,也就是也就是可以相继恢复出各个窗口内的各可以相继恢复出各个窗口内的各N N个取样值个取样值第51页/共57页1.1.临界带特征矢量的意义二、语音的短时谱的临界带特征矢量 符合人耳的听觉特征的频率分布是按临界带符合人耳的听觉特征的频率分布是按临界带频率分布的,反映出人耳对频率高低的非线性心频率分布的,反映出人耳对频率高低的非线性心理感觉角度,短时谱按实际频率分布的频谱作为理感觉角度,短时谱按实际频率分布的频谱作为语音特征,不符合人耳的听觉特征将会降低语音语音特征,不符合人耳的听觉特征将会降低语音信号处理系统的性能。往往要求将实际的频谱转信号处理系统的性能。往往要求将实际的频谱转化为临界带频谱特征的方法。化为临界带频谱特征的方法。第52页/共57页2.2.临界带频谱特征矢量的求法(1)(1)求出一帧加窗语音求出一帧加窗语音x xn n(m)(m)的短时谱的短时谱(2)(2)在在f=0f=0f fs s/2/2中确定若干各临界带频率分割点中确定若干各临界带频率分割点临界点频率(临界点频率(HzHz)第53页/共57页第第1 1临界带临界带第第2 2临界带临界带 如果采样频率为如果采样频率为8kHz,8kHz,在在0.10.14kHz4kHz范围内需要范围内需要安排安排1616个临界带。将每个临界带内中的个临界带。将每个临界带内中的|X|Xn n(k)|(k)|2 2取取和即可得到相应的临界带特征矢量。记为:和即可得到相应的临界带特征矢量。记为:G=gG=g1 1,g,g2 2,.g.gL L。第54页/共57页第第1 1临界带临界带第第2 2临界带临界带第55页/共57页THANKS第56页/共57页感谢您的观看。第57页/共57页