第三章-语音信号的特征分析讲解.ppt
《第三章-语音信号的特征分析讲解.ppt》由会员分享,可在线阅读,更多相关《第三章-语音信号的特征分析讲解.ppt(77页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第三章第三章 语音信号的特征分析语音信号的特征分析v语音信号的数字化语音信号的数字化v语音信号的短时分析与短时处理的概念语音信号的短时分析与短时处理的概念 v语音信号的时域特征分析语音信号的时域特征分析v语音信号的频率特征分析语音信号的频率特征分析v语音信号的同态解卷与倒谱分析语音信号的同态解卷与倒谱分析v端点检测、语音分割与基频估计端点检测、语音分割与基频估计3.1 语音信号的数字化语音信号的数字化通过电脑或者其它数字录音设备采集的语音信号都已通过电脑或者其它数字录音设备采集的语音信号都已经经过数字化了,一般不需要用户再进行数字化处理。经经过数字化了,一般不需要用户再进行数字化处理。尽管如此
2、,有必要简单了解一下语音信号的数字化过尽管如此,有必要简单了解一下语音信号的数字化过程与原理。程与原理。声音信号的数字化声音信号的数字化模拟语音信号在时间与幅度上的二重连续性模拟语音信号在时间与幅度上的二重连续性v时间上离散化:每秒钟需要采集多少个声音样本,时间上离散化:每秒钟需要采集多少个声音样本,也就是采样频率也就是采样频率(fs)是多少,是多少,v幅度上离散化:每个声音样本的位数幅度上离散化:每个声音样本的位数(bit per sample,bps)应该是多少,也就是量化精度。应该是多少,也就是量化精度。语音信号的采样频率语音信号的采样频率v奈奎斯特采样定理:奈奎斯特采样定理:fs 2
3、fmaxv窄带语音信号:窄带语音信号:fs=8000Hz电话语音(固网电话通信频带为电话语音(固网电话通信频带为300-3400Hz)可以基本保持语义,不影响人对语音的感知可以基本保持语义,不影响人对语音的感知质量不是很好,有时候会有变音质量不是很好,有时候会有变音v宽带语音信号:宽带语音信号:fs=16000Hz一般对语音质量要求较高的场合一般对语音质量要求较高的场合再提高采样频率也不会对语音质量有太多贡献再提高采样频率也不会对语音质量有太多贡献量化精度量化精度v量化所用比特越大,声音质量越好量化所用比特越大,声音质量越好v声音质量也跟量化算法有关,比如同样用声音质量也跟量化算法有关,比如同
4、样用8bit量化,量化,非均匀量化(非均匀量化(-律或律或A-A-律)就比均匀量化好很多律)就比均匀量化好很多固网电话语音量化就是用的非均匀量化固网电话语音量化就是用的非均匀量化质量采样频率(kHz)样本精度(bit/s)单道声/立体声数据率(kB/s)(未压缩)频率范围电话88单道声8 3003400 HzAM11.0258单道声11.0205000 HzFM22.05016立体声88.2 507000 HzCD44.116立体声176.42020000 HzDAT4816立体声192.02020000 Hz声音的质量与数据率(采样频率和量化精度)的关系声音的质量与数据率(采样频率和量化精度
5、)的关系v语音分析是语音信号处理的前提和基础;分析的目的是提取需要的信息,获取特征表示参数;v短时分析语音是一个时变信号语音的短时平稳特性,在1030ms时间段内相对平稳3.2 语音信号的短时分析语音信号的短时分析预滤波v预滤波的目的防止混叠干扰抑制50Hz的电源干扰 预滤波实际上是一个带通滤波器,其上下截止频率分别为fH和fL。对于电话语音编码器而言,要求fH=3400Hz,fL=60100Hz,fs=8KHz.对于语音识别系统而言,用于电话用户时要求技术指标与语音编码器相同,如果对于更高的要求场合,则fH=4500Hz或8000Hz,fL=60Hz,fs=10KHz或20KHz帧和加窗的概
6、念v短时分析将语音流分为一段一段来处理,每一段称为一“帧”;v帧长:1030;帧移:01倍帧长,帧与帧之间的平滑过渡;v语音识别中常用的帧长为2030ms,帧移为10msv为了减小语音帧的截断效应,需要加窗处理;矩形窗哈明窗(Hamming)汉宁窗(Hanning)几种常见的窗函数的波形几种常见的窗函数的波形Matlab中,可以通过中,可以通过help window命令来查看怎么产生不同的窗命令来查看怎么产生不同的窗v几种不同的窗函数波形与频谱的比较几种不同的窗函数波形与频谱的比较HammingHanning矩形窗哈明窗哈明窗汉宁窗汉宁窗不同的窗选择,将决定短时语音分析结果的好坏不同的窗选择,
7、将决定短时语音分析结果的好坏v首先是窗的长度,无论什么形状的窗,长度N将起决定性的作用。N选得太大,不能保证每一帧的语音的平稳特性N太小,不能保证信号的统计特性,容易产生统计噪声对于频域分析而言,窗长N还直接决定了信号频谱的分辨率对于语音信号,通常帧长应选择为一个语音帧包含有至少2个基音周期为好。人的语音的基音周期值是变化的,从女性小孩的2ms到老年男子的14ms(即基音频率为500Hz至70Hz),所以N的选择是比较困难的。通常折衷的选择N为2030ms。若采用频率为10KHz,则相当于每帧的长度(即窗口序列的长度)约为200300点为宜。若采样频率为8KHz,相当于160240点v其次是窗
8、口的形状,不同的窗,其频率特性是不一样的,这在短时频域分析时尤为重要。窗口的形状和长度对分析影响很大,不同的分析方法对窗函数窗口的形状和长度对分析影响很大,不同的分析方法对窗函数的要求不尽一样。的要求不尽一样。窗函数频谱的主瓣与旁瓣窗函数频谱的主瓣与旁瓣v主瓣:主瓣宽度控制频谱分析的频率分辨率,主瓣越窄,频率分辨率越高v矩形窗的主瓣宽度=fs/Nvhamming窗的主瓣宽度 约为 2fs/Nv旁瓣:旁瓣的高度决定了对临近频率成分的干扰抑制能力,高度越低,抑制干扰能力越强 v矩形窗:主瓣高度-第一个旁瓣高度 13dBvhamming窗:主瓣高度-第一个旁瓣高度 40dB旁瓣高度跟窗长N 无关窗函
9、数及其比较 三种窗函数都有低通特性,通过分析三种窗的频率响应幅度特性可以发现:矩形窗的主瓣宽度最小分辨率最高,旁瓣高度最高,会导致泄漏现象,哈明窗的主瓣最宽,分辨率低(可以通过适当提高窗长解决),旁瓣高度最低,可以有效的克服泄漏现象,具有更平滑的低通特性,应用更广泛。短时能量短时平均幅度短时过零率短时自相关函数短时平均幅度差函数3.3 语音信号的时域特征分析语音信号的时域特征分析语音信号的短时能量(语音信号强度语音信号的短时能量(语音信号强度的度量参数)的度量参数)v语音信号x(n)的短时能量(假定加长度为N的窗)可以表示为v若加的是矩形窗 则语音信号及其取不同窗长时的短时能量语音信号及其取不
10、同窗长时的短时能量短时平均能量的主要用途可以从语音中区别出浊音来,因为浊音时短时平均能量的值要比清音时短时平均能量的值大很多;可以用来区别声母和韵母的分界、无声和有声的分界等语音信号的短时平均幅度v语音信号x(n)的短时平均幅度(假定加长度为N的矩形窗)可以表示为语音信号的短时过零率v过零就是指信号通过零值。过零率(zero-crossing rate)就是每秒内信号值通过零值的次数。v对于离散时间序列,过零则是指序列取样值改变符号,过零率则是每秒内信号样本改变符号的次数。对于语音信号,则是指在一帧语音中语音信号波形穿过横轴(零电平)的次数。可以用相邻两个取样改变符号的次数来计算。v短时过零率
11、v波形穿过横轴(零电平)的次数短时过零可以看作信号频率的简单度量短时过零率在语音信号分析中的应用v发浊音时,声带振动,因而声门激励是以此音调频率为基频来使声道共振;尽管有若干个共振峰,但其能量的分布集中于低于3KHz的频率范围内。v发清音时声带不振动,声道某部分阻塞产生类白噪声激励,通过声道后其能量集中在比浊音时更高的频率范围内。v浊音时能量集中于较低频率段内,具有较低的过零率,而清音时能量集中于较高频率段内,具有较高的过零率。直方图的分布形状与高斯分布很吻合,而且浊音时的短时平均过零率的均值为14过零/10ms,清音时短时过零率的均值为47过零/10ms。注意到浊音和清音有一个交叠区域,此时
12、很难分清是浊音还是清音,尽管如此,平均过零率仍可以粗略的判断清音和浊音。浊音和清音情况下典型的平均过零率的直方图浊音和清音情况下典型的平均过零率的直方图v作为短时过零率的一个改进参数,语音分析时更常用的是短时过电平率(level-crossing rate)。短时过电平率在区分清音和静音时很有用短时过电平率在区分清音和静音时很有用短时过零率短时过电平率利用过零率与过电平率区分清、浊音和静音利用过零率与过电平率区分清、浊音和静音清清(U)、浊、浊(V)、无声、无声(S)的平均幅度的平均幅度(M)和过零率和过零率(Z)的条件概率密度函数的条件概率密度函数浊音、清音、无声的短时特性S(无声)U(清音
13、)V(浊音)三种情况下短时平均幅度的条件概率密度的示意图。可以看出,浊音的短时平均幅度最大,无声的短时平均幅度最小。清音的短时过零率最大,无声居中,浊音的短时过零率最小语音有声和无声v在许多语音处理技术中需要判断一段输入信号中哪些是语音段,哪些是无声段(只有背景噪声)v在语音识别中正确的决定所要识别语音的起点、终点对于提高识别率往往是重要的。v对于数字移动通信的手持机编译码器,在较长的无声段应降低发射功率以节约其电池的消耗。v对于已经判定为语音段的部分,尚需决定其清音或浊音,无论对于语音识别还是低速语音编译码器这都是很重要的。这些问题可以概括为无声/有声判决以及更细致的S/U/V判决。v能够实
14、现这些判决的依据在于不同性质的语音的各种短时参数具有不同的概率密度函数以及相邻的若干帧语音应具有一致的语音特性,它们不会在 S、U、V之间跳来跳去。判断语音信号的起点和终点的一种算法判断语音信号的起点和终点的一种算法v在孤立词(字)语音识别系统中需正确判定每一个输入语音的起点和终点,利用短时平均幅度和短时过零率可以做到这一点。v首先,可根据浊语音情况下短时平均幅度M的概率密度函数P(M/V)确定一个阈值参数MH,MH的值定得比较高。当一帧输入信号的M值超过MH时,就可以十分肯定该帧语音信号不是无声,而有相当大的可能性是浊音。v根据MH可判定输入语音中的前后两个点 和 ,它们之间肯定是语音段,但
15、是语音的精确起点、终点还要在 之前和 之后仔细查找。为此在设置一个低阈值参数ML,由 向前找,当短时平均幅度M由大到小减至ML时可以确定点N1。类似由 向后找,可以确定N2。在N1和N2之间仍能肯定是语音段。判断语音信号的起点和终点的一种算法(续)判断语音信号的起点和终点的一种算法(续)v由N1向前和N2向后继续用短时过零率Z进行搜索。根据无声情况下短时过零率Z的均值,设置一个参数Z0,如果由N1向前搜索时Z始终大于Z0的3倍,则认为这些信号仍属于语音段,直至Z突然下降到低于3Z0值时,这时可以确定语音的精确起点。对终点做同样的处理。采取这一算法的原因在于,N1以前可能是一段清辅音段(如f,s
16、),它的能量相当弱,依靠能量不可能把他们与无声段区别开,而他们的过零率明显高于无声,因而能用这个参数来精确的判断二者的分割点,也就是语音真正的起点。判断语音信号的起点和终点的一种算法(续)判断语音信号的起点和终点的一种算法(续)判断语音信号的起点和终点的其它算法判断语音信号的起点和终点的其它算法v另一种判断的方法是如果能够求出S、U、V三种情况下短时平均幅度M和短时过零率Z的条件联合概率密度函数P(M、Z/S),P(M、Z/U),P(M、Z/V),那么就可以采用统计学中的最大似然算法,根据一帧信号的M和Z值来判断它的S/U/V。就是计算后验概率:vP(X/M,Z)=P(M,Z/X)P(X)/P
17、(M,Z)v其中,X=S或U或V。后验概率最大者即作为判决结果。v事实上,仅依靠M和Z两个参数还是不够的,通常要选择更多的参数,如相关函数等。v自相关函数(auto-correlation function)1、是偶函数;2、s(n)是周期的,那么R(k)也是周期的;3、可用于基音周期估计和线性预测分析;语音信号的短时自相关函数语音信号的短时自相关函数语音信号的短时自相关函数假设 一段加窗语音信号,非零区间为n=0N-1,的自相关函数称为语音信号的短时自相关函数,自相关函数是偶函数在l=0处取得最大值,且值为短时能量如果s(n)是周期的,则R(l)也是周期的,且周期等于s(n)的周期浊音和清音
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第三 语音 信号 特征 分析 讲解
限制150内