《数字语音处理知识点总结.docx》由会员分享,可在线阅读,更多相关《数字语音处理知识点总结.docx(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、绪论语音信号处理是一门兴的边缘学科, 它是语音学与数字信号处理两个学科相结合的产物。语音信号处理的目的是要得到某种语音特征参数以便高效地传输或存储,或者是通过某种处理运算以到达某种用途的要求。通常认为,语音信息的交换大致上可以 分为三类:1人与人之间的语言通信:包括语音压缩与编码、语音增加等。2 第一类人机语言通信问题,指的是机器 讲话、人听话的争辩,即语音合成。3 其次类人际语言通信问题,指的是人讲 话、机器听话的状况,即语音识别和理 解。自 20 世纪 80 年月末期至今,语音合成技术又有了的进展,特别是 1990 年提出的基音同步叠加PSOLA方法,使基于时域波形拼接方法合成的语音的音色
2、和自然度大大提高。语音编码的目的就是在保证肯定语音质量的前提下,尽可能降低编码比特率, 以节约频率资源。语音编码技术主要有两个努力方向:一是中低速率的语音编码的有用化及如何在有用化过程中进一步提高其抗干扰、抗噪声力量,另一个是如何进一步降低其编码速率。语音信号的数字模型人类的语音是由人的发声器官在大脑的把握下的生理运动产生的,人的发声器官由 3 局部组成:1肺和气管产生气源,2喉和声带组成声门,3由咽腔、口腔、鼻腔组成声道。肺的发声功能主要是产生压缩气体,通过气管传送到声音生成系统,气管连接着肺和喉,它是肺与声道联系的通道。响度这是频率和强度级的函数,通常用响度单位为宋和响度级单位为方来表示。
3、人耳刚刚能听到的声音强度,称为“听阈”,此时响度级定为零方。响度与响度级是有区分的,60 方响度级比 30 方响度级的声音要响,但没有响了一倍。响度是刻划数量关系的,2 宋响度要比 1 宋响度的声音响一倍,1 宋响度被定义为1kHz纯音在声响级为40dB 时声强为 10-12W/cm2的响度。音高也称基音,物理单位为赫兹,主观感觉的音高单位是美 Mel,当声强级为40dB或响度级为40 方、频率为1kHz时,设定的音高为 1000 美。由发声机理模型图可知,语音生成系统包含三局部,由声门产生的鼓励函数G(z)、由声道产生的调制函数 Vz和由嘴唇产生的辐射函数 R(z)。语音生成系统的传统函数由
4、这三个函数级联而 成,即:H(z)=G(z)V(z)R(z)发浊音时,由于声门不断开启和关闭, 产生间隙的脉冲。经仪器测试它类似于斜三角形的脉冲,也就是说,这时的鼓励波是一个以基音为周期的斜三角脉冲串。G(z)=典型的声道模型有两种,即无损声管模型和共振峰模型,通过两种方法得到的数字模型本质上没有区分。当声波通过声道时,受到声腔共振的影响,在某些频率四周形成谐振,反映在信号频谱图上,在谐振频率处其谱线包络产生峰值,一般把它叫做共振峰。 下面的图为浊音的频谱图,具有明显的蜂起,即为共振峰,一般元音可以有 35 个共振峰。例如对成人声道 L=17cm 长,其共振频率计算公式为Fi=c(2i-1)/
5、4L i=1,2,3,.,i是共振频率的序号,c=340m/s 为声速。依据随即过程理论,一个零点可以用假设干极点来近似,因此,适中选取极点个数 P,可以用全极点模型即 ARp过程来表达语音信号:H(z)=语音信号产生的二次元鼓励模型: 语音信号的短时时域分析有了语音数据文件后,对语音的预处理包括:预加重和加窗分帧等。对输入的数字语音信号进展预加重,其目的是为了对语音的高频局部进展加 重,去除口唇辐射的影响,增加语音的高频区分率, 一般通过传递函数为H(z)=1- z-1 的一阶 FIR 高通数字滤波器来实现预加重,其中, 为预加重系数,0.9 1.0。进展预加重数字滤波处理后,接下来进展加床
6、分帧处理。由于发声器官的惯性运动,可以认为在一小段时间里一般为 1030ms语音信号近似不变,即语音信号具有短时平稳性,这样,可以把语音信号分为一些短段称为分析帧来进展处理。矩形窗的主瓣宽度小于汉明窗,具有较高的频谱区分率,但是矩形窗的旁瓣峰值较大,因此其频谱泄露比较严峻,相比较,虽然汉明窗的主瓣宽度较宽,约大于矩形窗一倍,但是它的旁瓣衰减较大,具有更平滑的低通特性。在确定窗函数后,对语音信号的分帧处理,实际上就是对各帧进展某种变换或运算,设这种变换或运算用T 表示,x(n)为输入语音信号,n为窗序列,h(n) 是与 n有关的滤波器,则各帧经处理后的输出可以表示为Qn=常见的几种短时处理方法:
7、 1.Tx(m)=x2(m),h(n)= 2(n),Qn 对应于能量。2.Tx(m)=|sgnx(m)-sgnx(m-1)|,h(n)= (n),Qn 对应于平均过零率。3.Tx(m)=x(m)x(m+k) , h(n)= (n) (n+k),Qn 对应于自相关函数。定义 n 时刻某语言信号的短时平均能量En 为:短时能量的一个主要问题是En 对信号电平值过于敏感,由于需要计算信号样值的平方和,在定点实现时很简洁产生溢出,为了抑制这个缺点,可以定义一个短时平均幅度函数 Mn 来衡量语音幅度的变化。短时平均过零率是语音信号时域分析中的一种特征参数,它是指每帧内信号通过零值的次数。因此在统计一帧N
8、 点的短时平均过零率时,求和后必需要除以2N,这样就可以将窗函数 n表示为:短时平均过零率可以用于语音信号清、浊音的推断,语音产生模型说明,由于声门波引起了谱的高频跌落,所以浊音语音能量约集中在 3kHz 一下,但对于清音语音,多数能量却是消灭在较高的频率上,所以,假设过零率高,语音信号就是清音,假设过零率低,语音信号就是浊音,但有的音,位于浊音和清音的重叠局部,这时,只依据短时平均过零率就不行能来明确地推断清、浊音。 自相关函数用于衡量信号自身时间波形的相像性。浊音的时间波形呈现出肯定的周期性, 波形之间相像性较好,清音的时间波形呈现出随机噪声的特性,杂乱无章,样点间的相像性较差。窗长对浊音
9、的短时自相关有着直接的影响。一方面,由于语音信号的特性是变化的,因此要求 N 应尽量小。但是与之相冲突的另一方面是为了充分反映语音的周期性,又必需选择足够宽的窗,以使得选出的语音段包含两个以上的基音周期,由于基音频率的分布在50500Hz 的范围内,8kHz 采样时对应于 16160 点,那么窗长N 的选择要求N320。 两级判决法承受双门限比较法。1. 第一级判决先依据语音短时能量的轮廓选取一个较高的门限T1,进展一次粗判:语音起止点位于该门限与短时能量包络交点所对应的时间间隔之外即 AB 段之外依据背景噪声的平均能量确定一个较低的门限T2,并从 A 点往左,从 B 点往右搜寻,分别找到短时
10、能量包络与门限T2 相交的两个点C 和D,于是CD 段就是用双门限方法依据短时能量所判定的语音段。2. 其次级判决以短时平均过零率为标准,从 C 点往左和从 D 点往右搜寻,找到短时平均过零率低于某个门限T3 的两点E 和 F,这便是语音段的起止点,门限 T3 是由背景噪声的平均过零率所确定的。这里要留意,门限 T2、T3 都是由背景噪声特性确定的,因此,在进展起止点判 决前,通常都要采集假设干帧背景噪声并 计算其平均短时能量和平均过零率,作 为选择T2 和T3 的依据,固然,T1,T2, T3 三个门限值确实定还应当通过屡次试验。基于MATLAB程序实现能量与过零率的端点检测算法步骤如下:语
11、音信号 x(n)进展分帧处理,每一帧记为 si(n),n=1,2,3,N,n 为离散语音信号时间序列,N 为帧长,i 表示帧数。一个门限T3,用于推断语音前端的清音和后端的尾音, 1, 2 为经过大量试验得到的阅历值。语音信号的短时频域分析当 N 固定 时, 它们就是 序列 (n-m)x(n)( m+)的傅里叶变换或离散傅里叶变换。当 或 k 固定时, 它们就是一个卷积,这相当于滤波器的运算,因此,语音信号的短时频域分析可以解释为傅里叶变换或滤波器。承受矩形窗时,基音谐波的各个峰都比较锋利,且整个频谱图显得比较裂开类似于噪声,这是由于矩形窗的主瓣较窄,具有较高的频谱区分率,但它也具有较高的旁瓣
12、,因而使基音的相邻谐波之间的干扰比较严峻。在相邻谐波间隔内有时叠加、有时抵消,消灭了一种随机变化的现象,相邻谐波之间的这种严峻“泄露”的现象,抵消了矩形窗主瓣窄的优点。综上所述,关于短时谱和移动窗可以得出以下结论:长窗具有较高的频谱区分率,较低的时间区分率,从一个基音周期到另一个基音周期,共振峰是要发生变化的,这一点即使从语音波形上也能够看出来, 然而假设承受较长的窗,这种变化便被模糊了,由于长窗起到了时间上的平均作用。短窗具有较低的频率区分率,较高的 时间区分率,承受矩形窗时,能够从短 时频谱中提取出共振峰从一个基音周期 到另一个基音周期所发生的变化,固然, 鼓励源的谐波的细致构造也从短时频
13、谱 图上消逝了。窗宽的选择需要这种考虑,短窗具有较好的时间区分率,能够提取出语音信号中的短时变化这经常是分析的目的,折损了频谱区分率。但应留意到,信号 x(n) (n-m)的带宽等于N 个采样。的总采样率SR等于:SR=2BN采样/秒 语音信号的同态处理通过仿照一般线性系统的叠加原理,我们能定义一类系统,它听从广义叠加原理,其中加法可由卷积代替,即有: Hx(n)=Hx1(n)*x2(n)=Hx1(n)*Hx2(n)=y1(n)*y2(n)=y(n)。因此假设一个系统具有上式所表示的性质,则称为“卷积同态系统”。卷积同态系统的典范表示如下图,它由三局部组成:特征系统D* 、线性系统 L 及逆特
14、征系统第一局部为特征系统D* ,其输入是假设干信号的卷积组合,而输出是假设干信号的加法组合。其次局部是一般的线性系统,它听从一般的叠加原理。第三局部是特征系统D* 的逆系统,它将信号的加法组合变换回卷积组合。 卷积同态系统的典范表示:则上式即为信号 x(n)的复倒谱 的定义。计算每一帧语音的短时能量,得到语语音信号的基因周期提取范围很大。因倒频谱c(n)为实倒谱,简称为倒谱,即:音的短时帧能量:Ei=计算每一帧的语音的过零率,得到短时帧过零率:Zi=其中:考察语音的平均能量设置一个较高的门限 T1,用以确定语音的开头,然后再依据背景噪声的平均能量确定一个稍低的门限T2,用以确定第一级中的语音完
15、毕点,T2= 1En,En 为噪声段能量的平均值,完成第一级判决,其次级判决同样依据背景噪声的平均过零率Zn,设置此,窗宽的选择应当考虑这个因素。矩形窗和汉明窗的频谱特性都具有低通的性质,在截止频率处都比较锋利, 当其通带都比较窄时窗越宽,通带越窄,加窗后得到的频谱能够很好的靠近短时语音信号的频谱,窗越宽,靠近效果越好。要求线性滤波器近似为一个窄带低通滤波器。因此可知,假设使用汉明窗,近似带宽为:其中,Fs 是信号x(n)的采样率,因此, 在时间域内要求的采样率为复倒谱的重要性质:1. 即使 x(n)可以满足因果性,稳定性甚至持续期有限的条件,一般而言复倒谱也是非零的,而且在正负 n 两个方向
16、上都是无限伸展的。2. 复倒谱是一个有界衰减序列,其界限是其中, 是的最大确定值,而 是一个常数。3. 假设 X(z) 在单位圆外无极点和零点即,则有:这种信号称为“最小相位”信号,有一个通用的结论:这种序列完全可以用它们的傅里叶变换的实部来表示。4. 对于 Xn在单位圆内没有极点或零点的情形,可以得到与此类似的结论, 这种信号称为“最大相位”信号,在此状况下有:5. 假设输入信号为一串冲击信号,它具有如下形式对浊音来说,它的鼓励脉冲串在时域和复倒谱域都是间隔为 Np 的周期性冲激串,在时域的脉冲串与是相卷积的关系,各周期之间经常存在混叠,无法 把从信号 s(n)中很好的分别出来。但是,在复倒
17、谱域冲激串与是相加关系,承受宽度小于 Np 的复倒谱窗,就可以去掉鼓励脉冲,得到的良好估值, 再把它通过逆特征系统就可以求得, 实现解卷。因此这里倒谱窗定义为:假设要保存鼓励重量,选择倒谱窗 l(n)为:接求出一组推测系数 a1,a2,ap,这组推测系数就是被看做语音产生模型中系统函数 H(z)的参数,它使得在一短段语音波形中均方推测误差最小,理论上常用的是均方误差的最小准则,E表示对财务查的平方求数学期望或平均值。LPC 误差滤波器:推测误差与信号的过去 p 个取样值是正交的,成为正交函数。因而可以简洁看出,复倒谱只在Np 的各整数倍点上不为零,这意味着也是一个间隔为Np 的冲击串。浊音信号
18、的鼓励串在时域和复倒谱域都是周期为Np 的脉冲串最小相位信号法:是解决相位卷绕的一 种比较好的方法,但它有一个限制条件, 即被处理的信号 x(n)必需是最小相位信号。实际上很多信号就是最小相位信号, 或可以看做最小相位信号。假设 x(n)是最小相位信号,则Nn和D(n)的全部根均在z 平面的单位圆内,同时,由上式可知,此时nx(n)的 z 变换的全部极点【即上式分母NzDz的根】也均位于 z 平面的单位圆内。这说明,假设x(n)是最小相位信号,则 必定是稳定的因果序列。另外,由 Hilbert 变换的性质可知,任一因果的复倒谱序列都可以分解为偶对称重量和奇对称重量之和。一个因果序列可由其偶对称
19、重量来恢 复,假设引入一个辅导银子g(n),则:最小相位法求复倒谱的原理框图:其中Np。倒谱窗在对数幅度谱域起平滑作用。语音信号线性推测分析作为最有效的语音分析技术之一,线性推测分析的根本思想是:一个语音取样的现在值可以用假设干个语音取样过去值的加权线性组合来靠近。在线性组合中的加权系数成为推测器系数,通过使实际语音抽样和线性推测抽样之间差值的平方和到达最小值,能够打算唯一的一组推测器系数。为了保证在较好的语音编码质量前提 下,尽量削减编码速率,可设法减我码器输入信号的动态范围,线性推测编码就是利用过于的样值对样值进展推测,然后将样值的实际值与其推测值相减得到一个误差信号,明显误差信号的动态范
20、围远小于原始语音信号的动态范围,对误差信号进展量化编码,可大大削减量化所需的比特数,使编码速率降低。设为 s(n)的推测值,则有:上式成为线性推测器,推测器的阶数为 p阶,p 阶线性推测器的传递函数为可见,推测误差e(n)是信号,s(n)通过具有如下传递函数的系统输出语音信号模型:参数有清、浊音判决, 浊语音的基因周期、增益常数 G 及数字时变滤波器系数 a1,a2,ap,这些参数是随时间缓慢变化的。按其有理式不同,有如下 3 种信号模型:如下图,称系统 Az为 LPC 误差滤自回归华东平均模型ARMA 模型,波器,设计推测误差滤波器 A(z)就是求解推测系数 a1,a2,ap,使得推测器的误
21、差 e( n)在某个预定的准则下最小,这个过程称为LPC 分析。线性推测的根本问题就是由语音信号直这种模型 H(z)既有极点又有零点,是一种一般的模型,此时模型输出 s(n)可由信号的过去值 s(n-i),i=0,1,q 来推测得到。自回归信号模型AR 模型,此时 Hz只有极点没有零点,模型输出 s(n)小,这一特性有利于 LSP 参数的量化和只由过去的信号值s(n-i,i=0,1,内插,在对 LSP 参数进展量化矢量时可p 线性组合来得到。以把码本分裂为几个低维矢量分别进滑动平均模型MA 模型,此时 H(z)行,这样不仅大大削减搜寻量、存储量只有零点没有极点,模型输出 s(n)只由模和训练量
22、,又可以使整体质量得以保证。型的输入u(n-l),l=0,1,q 线性组合LSP 参数能够反映声道幅度谱的特点, 来确定。在幅度大的地方分布较密,反之较疏。 由声学理论可知,除了鼻音和摩擦音时这样就相当于反映出了幅度谱中的共振 变声道系统H(z)需用零极点模型ARMA峰特性,由于依据线性推测分析的原理, 来模拟,其他的语音均可用全极点 AR语音信号的谱特性可以由LPC 模型谱来模型来模拟。估量。特普利兹矩阵自相关求解式:相邻帧 LSP 参数之间都具有较强的相关性,便于语音编码时帧间参数的内插。P(z)和Q(z)的根在单位圆上的分布图:映射为码书中的一个码字Yi,即:常用的失真测度有如下几种:平
23、方失真测度:确定误差失真测度:此失真测度的主要优点是计算简洁,硬件简洁实现。加权平方失真测度:式中:T矩阵转置符号,W正定加权矩阵。矢量量化原理框图经典的方法有两种:一种是自相关法,该方法假定语音信号 序列 s(n)在间隔 0nN-1 以外为 0;这相当于用窗函数从语音序列中截取出选 定的序列局部,截取出的序列记为s(0), s(1),s(N-1)。另一种是协方差法,该 方法不规定语音信号序列 s(n)的长度范围,但是中 n 的范围为 0nN-1,这样相当于在此范围内估算 R(k)所需要的 s(n)是存在的。此外,协方差法需要确定的是信号序列之间的相互关函数,由此组成的协方差方程组系数矩阵已经
24、不具备有Toeplitz 矩阵的性质,因此其方程的求解不同于自相关法。由于不需要加窗,协方差法计算精度较自相关法大大提高, 但是由于协方差法不具有自相关法系统稳定性的条件,因此在进展线性推测的时候,必需随时判定 H(z)的极点位置, 并加以修正,才能得到稳定的结果。 利用对称Toeplitz 矩阵的性质,自相关求解式可用莱文森-杜兵递推算法求解。矢量量化矢量量化的理论根底是香农的率失真理论。率失真函数RD定义为:在给定的失真 D 条件下,所能够到达的最小速率用每维计算。率失真理论指出,利用矢量量化,编码性能有可能任一接近率失真函数, 其方法是增加维数k。通常把全部 N 个量化矢量重构矢量或恢复
25、矢量构成的集合 Yi称为码书或码本。码书中的矢量成为码字或码矢。依据上面对量化矢量的描述,我们可以把量化矢量定义为:矢量量化是一种高效的数据压缩技术, 和其他数据压缩技术一样,它除了有失真以外,还有一个传输速率的问题,即每一个样值每维平均编码所需的比特数。矢量量化器的速率定义为:其中 B=log表示每一个码字的编码下面对LSP 参数的特性归纳如下:比特数。N码书的大小。K维数。LSP 参数都在单位圆上且满足降序排列的特性。与LSP 参数对应的LSF 都满足升序排列的挨次特性,且 P(z)和 Q(z)的根相互交替消灭,这可使与 LSP 参数对应的LPC 滤波器的稳定性得到保证。由于它保证了在单位
26、圆上,任何时候P(z)和Q(z) 不行能同时为零。LPS 参数都具有相对独立的性质,假设某个特定的 LSP 参数中只移动其中任何一个线谱频率 i 的位置,那么它所对应的频谱只在 i 四周与原始语音频谱有差异,而在其他 LSP 频率上则变化很量化矢量是把一个K 维模拟矢量映射为另一个 k 维量化矢量,其数学表达式为: Y=Q(X)式中:X输入矢量。 信源空间。k 维欧氏空间。Y量化矢量。输出空间码字。Q()量化符号。N码书的大小即码字的数目矢量量化系统通常可以分解为两个映射的乘积:Q= 。式中, 是编码器, 它是将输入矢量 映射为信号符号集中的一个元 , 是译码器,它是将信道符号信道中传速速率与
27、矢量量化器速率 r的关系为:式中:为抽样速率。语音编码可变速率编码是近年来消灭的技术, 依据统计,两方通话大约只有 40%的时间是真正有声音的,因此一个自然的想法是承受通、断状态编码。通状态对应有声期,承受固定编码速率,断状态对应无声期,转送极低速率信息如背景噪声特征等,甚至不传送任何信息。可变速率编码主要包括两个算法:一是语音激活检测VAD,主要用于确定输入信号是语音还是背景噪声,其难点在于正确识别出语音段的开头点,确保语音的可懂性, 二是舒适噪声的生成CNG,主要是用于接收端重建背景噪声,其设计必需保证发送端和接收端的同步。语音质量主观评价方法:在数字通信中,通常认为 MOS 分 4.04.5 分为高质量语音通信,到达长途 网的质量要求,也常称之为网络质量,MOS评分在 3.5 分左右时成为通信质量,这时能感觉到重建语音质量有所下降,但是不阻碍正常通话。MOS 评分在 3.0 分以下的常称合成语音质量,这是指一些声码器合成的语音所能到达的质量,它一般具有足够高的可懂性,但自然度及讲话人确实认等方面不够好。
限制150内