《语音信号处理》PPT课件.ppt
《《语音信号处理》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《语音信号处理》PPT课件.ppt(177页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、语音信号处理院定选修课 学时:32学分:2信号信息处理的重要研究方向1第一章第一章 绪绪 论论研究对象研究对象 语音:语语言言的的声声学学表表现现。由由人人的的发发音音器器官官发发出出的的、具具有有一一定语法和意义的声音定语法和意义的声音。重要性:最最重重要要、最最有有效效、最最常常用用、最最方方便便的的信信息息交交换换手段。手段。“四会四会”语音信号处理:用用数数字字信信号号处处理理技技术术对对语语音音信信号号进进行行处处理。理。新兴、综合性、交叉学科;新兴、综合性、交叉学科;涉及到语言学、声学、认知学、涉及到语言学、声学、认知学、心理学。心理学。信号与信息处理的重要组成部分信号与信息处理的
2、重要组成部分热门学科,存在大量机遇热门学科,存在大量机遇2研究内容包括:研究内容包括:语音编码语音编码压缩压缩语音合成语音合成计算机讲话读文章计算机讲话读文章语音识别语音识别口授打字机等,翻译口授打字机等,翻译关键词识别关键词识别语音增强语音增强说话人识别说话人识别“声纹声纹”身份识别。身份识别。3教学内容与目标教学内容与目标:课程内容课程内容:基本概念的建立;各种理论和算法介绍。教学目标教学目标:对语音信号处理有基本了解,为以后的研究工作做储备。4发展概况发展概况:39年的声码器用于通讯年的声码器用于通讯40年代后期的语谱仪年代后期的语谱仪60年代的数字模型年代的数字模型70年代的年代的LP
3、C80年代的年代的VQ以及以及HMM90年代的神经元等新技术年代的神经元等新技术5第二章语音信号处理的基础知识2.1 概述概述本章讨论内容1、语音产生模型语音产生模型 线性模型线性模型2、语音学基本内容语音学基本内容信息交流信息交流“发音传递感知发音传递感知”三个阶段三个阶段发音语音学发音语音学 确定发音机理确定发音机理 声学语音学声学语音学 信号分析理论解释语音现象信号分析理论解释语音现象 听觉语音学听觉语音学 认识感知的过程认识感知的过程62.2 语音产生的过程语音产生的过程语音是具有一语音是具有一定意义的声音。定意义的声音。经分析:经分析:欲表达欲表达选择词、语句选择词、语句控制肌肉运动
4、控制肌肉运动振动空气形成语音振动空气形成语音波波 与箫、唢呐比较与箫、唢呐比较7等效为激励源声道喇叭口8等效为激励源声道喇叭口激励源:声带声带振动频率基频(基音频率)清音 声带不振动浊音 声带振动声道:可变谐振腔不同形状、不同音共振(谐振)频率c为声速,L为声道长度,n为谐振频率的序号分析认为,声道的谐振频率(设截面均匀):9共振峰Fn的局部最大值,称为共振峰。与声道对应,反映语音的频率特性,是语音的主要特征之一。不同人不同,同一人发不同音时也不同。第一共振峰F1第二共振峰F2第三共振峰F310一般地:语音识别,取前3个共振峰,而对语音合成,需取5个频率范围(Hz)成年男子成年女子带宽F120
5、080025010004070F2600280070033005090F3130034001500400060180112.3语音信号的特性2.3.1 语言和语音的基本特性语言和语音的基本特性语言,特殊的声音,按一定规则排列声音的物理属性声音的物理属性音质:基本特征音调:频率音强:量、响度、幅度音长:声音的长短语音特有的属性语音特有的属性音节:语音流的最小单位音素:语音的最小单位,音素构成音节感情:重音语调声调等122.3.2 语音的时间波形和频谱特性语音的时间波形和频谱特性看一段实际语音放大结论1:时间的连续函数、频率幅度随时间变化是随机的13元音元音 其中一段再放大结论2:短时间短时间内近
6、似认为不变结论3:元音是准周期函数(基频)基音周期14清音清音结论4:清音为随机起伏152.4语音信号产生的数字模型理想模型标准准确但不可能,必近似、简化简单最好用成熟的理论线性模型线性系统语音信号脉冲序列脉冲序列 激励源,线性系统 声道喇叭口激励源 周期序列(浊音)/随机序列(清音)线性系统 短时内不变16一个实用模型P16图212激励模型 声道模型 辐射模型 17小结语音的时间波形连续、随机、短时性、基频、清/浊音、共振峰线性模型激励声道辐射182.4.1 激励模型激励模型根据前节分析,激励源在清、浊音时不同,分别讨论浊音浊音有人测量知,声带振动产生斜三角型脉冲波Tp为冲激脉冲的周期,声门
7、波模型产生单个声门脉冲将其表示为Z变换,有:冲激序列:E(z)浊音激励模型:U(z)=AVG(z)E(z)清音清音 随机白噪声192.4.2声道模型声音在声道的传播涉及到许多物理定律(能量守恒、流体力学),需简化。有不同的模型。1、声管模型“短时”间声道是一个形状稳定的级联管道声音在不同截面积间传输会有反射,反射系数:km(Am+1-Am)/(Am+1+Am)Am,Am+1是第m、m+1段的截面积Km是声道的特性,确定Km,就确定了声道!A1A2A3.202、共振峰模型根据声道近似为谐振腔的特性,有另外模型模拟其共振峰。35个(1)级联型用串联网络模拟声道。一般元音用全极点模型,转移函数:G
8、幅值因子Ak 模型系数P 极点个数(阶数)P、ak决定了声道地特性(人的特征),p越大越吻合。一般p=812利用Z变换的知识,把H(z)分解为多个二阶极点网络的级联:H1H2H3Hp/221(2)级联型用并联网络模拟声道。大部分音用零极点模型,转移函数:级联简单,可用于一般元音,一般35级并联复杂,可用于许多音,但Ai难控制221)辐射+声门脉冲的作用合并在线性系统中2)时变参数:基频、开关、增益、参数3)“终端模拟”(听输出结果)验证有效4)模型可能要修正2.4.3辐射模型声道输出的速度波,经口唇变成声压辐射效应研究得模型R(z)=R0(1Z-1)2.4.4完整的语音信号数字模型综上,激励声
9、道辐射有V(z)=U(z)H(z)R(z)准周期脉冲序列发生器随机序列发生器线性时变系统基音周期系统参数清/浊音控制增益控制语音信号232.5语音感知研究人对声音的感知,对语音编码识别很重要MP3。对人的感知认识还有过程。研究发现:听觉(主观感觉)与声波不完全一样声音三要属(响度、音调、音色)在人听起来相互影响,且人的敏感度不同,分配不同bit。听觉掩蔽效应利用感知加权滤波器改善语音质量24第三章语音信号的时域分析3.1概述为甚分析与怎样分析1、通过分析,进一步了解、区别语音,提取少量参数描述语音,获得基音、开关、增益等模型参数2、分析方法:模型分析LPC、共振峰等非模型分析时域、频域、倒谱域
10、等3、“短时分析技术”基本方法,帧,加窗4、必要时考虑时变性,用HMM本章用短时分析技术,在时域提取基频、清浊、增益253.2语音信号的数字化和预处理3.2.1取样率与量化字长的选择1、抽样定理抽样频率8K、16K等2、量化误差e(n)平稳、均匀分布,大小与量化间隔、编码字长(最小8bit)有关3、量化信噪比SNR与信号的峰值、量化字长有关一般分析,字长为16bit反混叠滤波器抽样量化模拟信号x(t)离散信号x(n)抽样信号263.2.2预处理1、语音信号处理框图2、滤波器特性要求使混叠失真足够小,阻带66dB,用9阶椭圆滤波器 3、加重减小动态范围H(z)=1uz-1与滤波器同时实现,也有在
11、AD后273.3短时能量分析1、“短时分析”本章一直在用。取一段的方法:加窗“分帧”帧长与帧移:取的点数为帧长,乘以采样周期得帧长时间两帧间隔为帧移两帧一定有重叠,否则有参数突变!信号x(n),窗函数w(n),加窗后为x(m)w(n-m)282、短时平均能量及含义根据前法,对加窗后的信号求解XX得短时XX短时平均能量:每取一个n,得到一个En。n的间隔为帧移。上式变形:H(z)X2(n)En293、窗口选择以上分析见,加窗为一滤波器取出一部分。同前,滤波器的特性影响结果。希望直角窗1,0nN-1h(n)=0,其他海明窗(Hamming)h(n)=0.54-0.46cos2npi/(N-1),0
12、n m=m1+n 则:计算自相关,先乘后加,运算量大!用来求基音周期!363.5.2修正的短时自相关函数1、存在的问题随k的变化,参加运算的项减少。极限k=N-1时无运算项!2、修正的短时自相关函数两个不同长度的窗w1(n)【0N-1】与w2(n)【0N-1+K-k】Kk当w1,w2为直角窗时(0kK)k=250k=0373.5.3短时平均幅度差函数问题的提出:自相关计算量大,大在乘法!短时平均幅度差函数(AMDF)定义:式中R为x(n)的平均值w1、w2同修正的自相关函数中的定义对于浊音信号,在周期倍数点上,幅值相等,Fn038第三章小结采样与反混叠短时分析方法、窗口与长度选择短时能量定义短
13、时过零分析短时相关分析与修正短时平均幅度分析(AMDF)39第四章语音信号的短时傅立叶分析4.1概述傅立叶重要性,时域频域,信号的某些特性短时谱:分帧处理4.2短时傅立叶变换4.2.1短时傅立叶变换的定义1、短时傅立叶变换对于第n帧语音信号,xn(m)=x(m)w(n-m)可见既是时间n的离散函数,又是角频率的连续函数40讨论:(1)n不变,记y(m)=xn(m),标准的傅立叶变换(2)不变,记l=两者卷积w(n)系统y(n)信号信号经过线性系统据此:短时傅立叶变换有两层含义2、离散的短时傅立叶变换令=2k/N,在0 k N-141用傅立叶变换解释窗口与长度4.2.2标准傅立叶变换的解释n不同
14、,得不同值。n不变,一个一般傅立叶变换短时功率谱:海明海明直角直角分辨率衰减共振峰42改写短时傅立叶表达式:由时域特性:因此可见,短时谱为信号谱与窗口谱的卷积,受窗影响(1)窗口形状的选择若.内为冲激函数,则Xn(.)=X(.)同谱!比较矩形与海明窗主瓣主瓣(2)窗口宽度的选择f01=1/NT,T为采样周期。N大,f01接近0,W(.)类冲激函数!但N大,短时性差,要综合考虑!43P44图4-2与图4-3海明比较,N=500(上)与N=50(下)比较444.2.3滤波器的解释与通信原理中的幅度调制比较454.3短时傅立叶变换的取样率短时谱既是时间n的函数,又是频率的函数二维即:每个n都有一个X
15、()。为用计算机保存短时谱既要对取样,又要对n取样。1、时域取样率(对n)固定Xn(.)是w(n)的输出,设w(n)带宽为BHz,则带宽为B,时域取样率2B(点/秒)B的确定:由的第一零点01确定,01=2/N N点对应的时间为NTs=N/fs 故模拟角频率01fs B=01fs/2=fs/N 对于直角窗的时域取样率2B=2fs/N(直角窗)462、频域取样率当n固定时,Xn(.)是的周期函数。根据“傅立叶变换的离散性与周期性”(如图),3、总取样率n固定时:L=N时域取样率:2B总取样率:SR=2BL两者关系如下图,对Xn()抽样后,为了时域不重叠,取:T1NTs即LN取等共共N N点,点,
16、T1=NTsT1=NTs共共L L点,点,fs=Lf1fs=Lf1474.4语音信号的短时综合由Xn()恢复x(n)的方法:滤波器组求和法/FFT求和法1、单一频率k 已知 则:hk(m)取样率:x(n)10KHzXn()也要10KHz?否!w(m)为低通,故Xn()带宽远小于X()可降低采样率综合:网络综合482、L个频率取样后,有L个频率点,每个频率点有一个yk(n)。根据线性系统的理论,总输出:可以证明y(n)=x(n)494.5语谱图一种分析短时谱的仪器,Xn()是时间n,频率的函数,要用三维显示。二维易显,三维?nXn早期用亮度现有用图形为实时,也有仍用亮度声纹50第四章小结与作业第
17、四章小结1、短时傅立叶变换定义及两层含义2、窗口形状、长度对短时谱的影响3、短时谱的取样率(n,w)4、短时综合5、语谱图51第五章第五章 语音信号的同态滤语音信号的同态滤波及倒谱分析波及倒谱分析5.1概述从模型看,激励系统,如何从语音信号中取出激励序列、声道冲击响应?语音信号激励与声道的卷积解卷积算法:“参数解卷”线性预测分析“非参数解卷”同态滤波(同态信号处理)把求卷积 求和倒谱分析:同态分析的结果称为倒谱525.2同态信号处理的基本原理1、不同信号的处理方法加性信号线性关系、叠加原理,处理方法成熟乘性信号卷积信号非线性关系,不能用叠加原理,处理困难2、卷积同态系统y(n)=Hx(n)=H
18、x1(n)*Hx2(n)*表示离散时间卷积运算卷积同态系统模型任何同态系统可表示为三个子系统的级联D*L*D*-1*+特特征征系系统统线性系统逆逆特特征征系系统统53特征系统D*把卷积转换为和,把非线性变为线性逆特征系统D*1把和转换为卷积,把线性变为非线性线性系统L*真正需要的处理算法,可利用信号与系统中所学过的各种处理手段,满足叠加原理ZlnZ-1*+ZexpZ-1+*+543、同态滤波的基本原理设有x(n)=x1(n)*x2(n)(1)D*Z-ln-Z-1(2)D*-1Z-exp-Z-1Y1(z)Y2(z)名称?名称?555.3复倒谱和倒谱1、概念 是x(n)经特征系统后的值,是时域序列
19、,是信号的频谱取对数的反变换。由于与x(n)的谱间的关系,给他起名:复倒频谱Complex Cepstrum Spectrum2、DFT下的特征系统DFT运算快,一般用DFT、IDFT代替z变换(1)D*(2)D*-1x(n)的频谱x(n)的对数频谱x(n)的复倒谱563、复倒谱的幅度与相位同傅立叶变换,复倒谱有幅频特性、相频特性复数计算量大复数计算量大考虑人的听觉对相位不敏感,为减少运算量,丢掉相位4、倒谱若c1(n)c1(n)、c2(n)c2(n)是x1(n)x1(n)、x2(n)x2(n)的倒谱,且x(n)=x1(n)*x2(n)x(n)=x1(n)*x2(n)有有c(n)=c1(n)+
20、c2(n)c(n)=c1(n)+c2(n)C(n)与x(n)一对多的关系,由c(n)不可还原x(n),因丢相位575.4语音信号两个卷积分量复倒谱的性质从模型知,在时域语音为声门序列*声道序列。用前述方法,分析这两个序列。复倒谱求解方法 声门激励信号求x(n)的复倒谱(1)求z变换(2)取对数用泰勒级数展开ln()58(3)求逆变换式中结论:声门激励信号的复倒谱是无限冲激序列,幅度变、周期不变5.4.2声道冲激响应序列模型实系数值小于值小于1 1零点、极点;园内、园外 59求对数,展开为泰勒级数再求逆Z变换得:(n=0)(n0)(n0)结论:(1)双边序列(2)衰减序列(3)集中在原点附近 据
21、此,可以用低倒谱窗从x(n)的倒谱中取出声道特性的复倒谱。(分离声道、声门)推导过程见机械工业出版社赵力编的语音信号处理推导过程见机械工业出版社赵力编的语音信号处理605.5避免相位卷绕的算法1、什么是相位卷绕?对于傅立叶的乘积取对数后的振幅与相位和的值可能大于2,而计算只在02间,即:主值称为相位卷绕2、对复倒谱的影响计算时,相位与实际相位差2k,不是实际相位。误!3、对策改进算法,避开相位求和相位求和!615.5.1微分法利用傅立叶变换的微分特性与对数微分特性,来避开相位卷绕由傅立叶变换的微分特性,若则由于同理:把ln(.)代入上式可求的nx(n)避开了相位求和!缺点:nx(n)比x(n)
22、含更多的高频成分,用x(n)的采样率会带来频谱混叠!626.5.2最小相位信号法设有因果序列x(n),则可分解为奇和偶:零极在Z平面单位园内可见:通过xe(n)求x(n)结论:求x(n)变为求xe(n)63由傅立叶变换的奇偶虚实性知:645.6语音信号复倒谱分析实例加窗信号傅氏幅值傅氏相位主值复倒谱倒谱声道的倒谱高通:声门低通:声道65声道、声门序列估计取出倒谱,经逆特征系统得到的y(n)分析得到的声道幅频分析得到的声道相频声道冲激响应估值声门序列估值清音信号的例子得共振峰基音周期X(n)复倒谱低倒谱窗复倒谱低倒谱窗 声道的复倒谱声道的复倒谱 逆特征逆特征 声道冲激声道冲激 高倒谱窗高倒谱窗
23、声门的复倒谱声门的复倒谱 逆特征逆特征 声门序列声门序列66第五章小结同态滤波作用,特征、逆特征系统复倒谱与倒谱声门序列、声道序列的复倒谱分析相位卷绕与避免方法67第六章语音信号的线性预测分析6.1概述67年用于语音信号处理。核心技术/用于各方面/真正实用能精确地估计语音参数,效率高预测参数:LPC、PARCOR参数、LSP参数基本概念:用过去的一组值估计(预测)新值6.2线性预测分析的基本原理6.2.1基本原理全极点模型,原因P70设输出的语音信号为s(n)激励信号为u(n),则过去P个值的加权求和预测预测语音特征:Np、G、ai这些系数如何求?686.2.2线性预测怎样求ai?方法多样。其
24、中一种:若则称c(n)为误差。在最小均方误差准则下,可确定一组系数ai,称为线性预测系数(LPC)(LinearPredictiveCoefficients)6.3线性预测方程组的建立F(z)s(n)s(n)A(z)s(n)e(n)1、线性预测系数求解预测值预测误差显然A(z)称为“逆滤波器”或“预测误差滤波器”e(n)是随机序列,均方误差表示为集平均?时间平均?令求出一组系数ai均方误差692线性预测方程按前述方法,对误差求偏倒数,并令其为0,可得方程组线性预测的标准方程组s若定义则方程式为703线性预测增益最小预测误差e(n)=s(n)s(n)。可见e(n)=Gu(n)式中,u(n)为声门
25、激励序列方差/短时为常数可见,声道的线性预测增益6.4线性预测分析的解法(一)自相关法、协方差法有了线性方程组,如何求解?方法很多,介绍几种自相关法是利用短时自相关函数,改写、求解方程1、改写方程式序列信号s(n)加窗后记为sn(k),其短时自相关函数为71改写方程式写成矩阵形式Yule-Walker方程Toeplitz矩阵线性预测方程722求解该矩阵的一种常用递推算法Levinson-Durbin递推步骤:1、i0,E0=Rn(0),a1(0)=1递推次数初值2、i从1到p计算:(2)ai(i)=ki递推0次时的a值(3)j从1到i-1计算aj(i)=aj(i-1)kiai-j(i-1)(4
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音信号处理 语音 信号 处理 PPT 课件
限制150内