语音信号处理.ppt
语音语音信号处理信号处理Speech Signal ProcessingSpeech Signal Processing 杨杨 震震 (教授教授、博导、博导)2011.22011.2绪绪 论论当当今今世世界界正正处处于于信信息息时时代代,计计算算机机技技术术、通通信信技技术术和和电电子子技技术术的的高高速速发发展展,推推动动人人类类社社会会进进入入了了信信息息社社会会。因因特特网网和和移移动动通通信信的的普普及及、电电子子购购物物的的兴兴起起、多多媒媒体体通通信信及及其其应应用用的的蓬蓬勃勃发发展,改变了人类生活、工作、娱乐的方式展,改变了人类生活、工作、娱乐的方式信信息息的的获获取取、处处理理、传传输输、显显示示和和存存储储,是是信信息技术研究的主要内容息技术研究的主要内容人人类类作作为为社社会会的的主主人人,一一直直是是接接收收和和发发送送信信息息的主体的主体语语音音,始始终终是是人人类类互互相相交交流流、互互相相通通信信的的最最主主要要、最方便、最快捷的工具最方便、最快捷的工具信息载体信息载体 信息与信号信息与信号信息是信号的内涵信息是信号的内涵 (1)信息是信号描述的对象)信息是信号描述的对象(2)信息是信号载荷的内容)信息是信号载荷的内容信号是信息的外延信号是信息的外延 信号是信息在物理表达上的外延,信号是信息的载体信号是信息在物理表达上的外延,信号是信息的载体同一信息可以用不同的物理量信号同一信息可以用不同的物理量信号(声、像、图、文声、像、图、文)来载荷,也可以采用不同的数学描述方式来载荷,也可以采用不同的数学描述方式(数字或模拟数字或模拟)同一类型信号也可以代表不同内容的信息同一类型信号也可以代表不同内容的信息语音信号处理是一门涉及面很广的交叉语音信号处理是一门涉及面很广的交叉学科学科 研究内容包括研究内容包括 1 1、语音特性分析和建模、语音特性分析和建模 2 2、语音编码、语音编码 3 3、语音识别、语音识别 4 4、语音合成、语音合成 5 5、语音增强、语音增强 6 6、语音通信、语音通信 授授课课内内容容【1 1】绪论绪论【2 2】声音信号的分类与数字化声音信号的分类与数字化 【3 3】语音的发声模型和人的听觉特性语音的发声模型和人的听觉特性【4 4】语音信号的时域和频域分析方法语音信号的时域和频域分析方法【5 5】语音信号的线性预测编码语音信号的线性预测编码(LPC)(LPC)技术技术【6 6】演示实验演示实验【7 7】各种语音处理和通信系统的质量评价标准各种语音处理和通信系统的质量评价标准【8 8】语音信号的数字压缩编码标准语音信号的数字压缩编码标准 授授课课内内容容【9 9】语音波形编码技术语音波形编码技术-part one-part one【1010】语音波形编码技术语音波形编码技术-part two-part two【1111】语音参数及混合编码技术语音参数及混合编码技术-part one-part one【1212】语音参数及混合编码技术语音参数及混合编码技术-part two-part two【1313】人机通信人机通信part onepart one语音识别原理语音识别原理【1414】人机通信人机通信part twopart two语音合成原理语音合成原理【1515】实用系统中的语音增强与消噪技术实用系统中的语音增强与消噪技术【1616】语语音音压压缩缩编编码码、消消噪噪、识识别别与与合合成成演演示示实实验验 参考文献参考文献1、鲍长春、鲍长春.数字语音编码原理数字语音编码原理M.西安西安:西安电子科西安电子科技大学出版社,技大学出版社,2007.2 2、王王柄柄锡锡 “语语音音编编码码”“变变速速率率语语音音编编码码”,西西安安电子科技大学出版社,电子科技大学出版社,20022002,200420043 3、韩韩纪纪庆庆等等“语语音音信信号号处处理理”,清清华华大大学学出出版版社社,200420044 4、赵力、赵力“语音信号处理语音信号处理”,机械工业出版社,机械工业出版社,200320035 5、Thomas Thomas F.Q F.Q“离离散散时时间间语语音音信信号号处处理理原原理理与与应用应用”,电子工业出版社,电子工业出版社,20042004 6 6、王王晓晓龙龙 “计计算算机机自自然然语语言言处处理理”,清清华华大大学学出出版版社,社,200520057 7、拉拉宾宾纳纳,谢谢佛佛 “语语音音信信号号数数字字处处理理”科科学学出出版版社社,19781978参参考考文文献献研究动态研究动态1 1、Proceedings of ICASSP(Proceedings of ICASSP(声学、语音、信号处理声学、语音、信号处理国际会议录国际会议录)2 2、IEEE Transactions on Speech and Audio IEEE Transactions on Speech and Audio Processing Processing 3 3、IEEE Transactions on Signal Processing IEEE Transactions on Signal Processing 4 4、Speech Communications Speech Communications 5 5、ICSLPICSLP(Spoken Language ProcessingSpoken Language Processing)6 6、IEL IEL 数据库数据库第一章第一章 声音信号的分声音信号的分类类与数字化与数字化 1.1 1.1 声音信号的分声音信号的分类类语音语音(speech)自然语音自然语音窄带语音窄带语音,又叫电话频带语音又叫电话频带语音 宽带语音宽带语音 非语声音频信号非语声音频信号(audio)(audio)CDCD质量声音质量声音高高 保保 真真 HiFi(HighFidelity)和和 环环 绕绕(SurroundedEffect)声音声音DolbyAC35.1声道音响位置声道音响位置第一章第一章 声音信号的分声音信号的分类类与数字化与数字化 1.2 1.2 声音信号的声音信号的特征参数特征参数1.2.11.2.1声声音音的的传传播播速速度度、频频率率、周周期期和波和波长长1.2.21.2.2声压、声功率、声强和声级声压、声功率、声强和声级 1.2.31.2.3声音三要素声音三要素 音高与频率间关系音高与频率间关系Fletcher-Munson人耳听觉等响度级曲线人耳听觉等响度级曲线第一章第一章 声音信号的分声音信号的分类类与数字化与数字化 1.3 1.3 声音信号的数字化声音信号的数字化 抽样抽样量化量化编码编码常见采样频率常见采样频率电话电话通信通信领领域的域的8 8千赫千赫兹兹和和1616千赫千赫兹兹。计计算算机机声声音音处处理理系系统统中中的的11.02511.025千千赫赫兹兹,22.05,22.05千赫千赫兹兹和和44.144.1千赫千赫兹兹。广广播播,影影视视,娱娱乐乐领领域域的的3232千千赫赫兹兹,44.1,44.1千千赫赫兹兹和和4848千赫千赫兹兹。存储一分钟声音信号所需要的存储容量存储一分钟声音信号所需要的存储容量第一章第一章 声音信号的分声音信号的分类类与数字化与数字化 压缩感知压缩感知 Compressed SensingCompressed Sensing 技术及其对于语音信号处理的影响技术及其对于语音信号处理的影响 1 1、CSCS基本原理基本原理 2 2、基于、基于CSCS的语音处理开放性课题的语音处理开放性课题第一章第一章 声音信号的分声音信号的分类类与数字化与数字化 1.4 1.4 声音信号的数字存储格式声音信号的数字存储格式WAVWAV:数字音频波形格式,微软公司开发数字音频波形格式,微软公司开发MIDIMIDI:数字乐器合成器,多用于合成音乐数字乐器合成器,多用于合成音乐 目前我们遇到的多数为目前我们遇到的多数为.wav.wav和和.mid.mid文件文件第一章第一章 声音信号的分声音信号的分类类与数字化与数字化 微微软软公公司司与与IBMIBM公公司司共共同同制制定定的的WAVWAV格格式式文文件件的的第第一一个个四四字字节节是是RIFFRIFF,它它用用来来指指 明明 文文 件件 属属 于于 多多 媒媒 体体 资资 源源 交交 换换 文文 件件RIFF(Resource RIFF(Resource Interactive Interactive File File Format)Format)的一种的一种.RIFFRIFF文文件件的的基基本本结结构构是是块块,第第一一个个块块为为WAVEWAVE类类型型,指指定定文文件件为为波波形形数数字字音音频频文文件件,第第二二个个块块为为fmtfmt块块,定定义义文文件件中中其其它数据的格式。它数据的格式。第一章第一章 声音信号的分声音信号的分类类与数字化与数字化 typedeftypedef struct_WaveFmtstruct_WaveFmt WORD WORD wFormatTagwFormatTag;/编编码码方方式式的的标标记记;PCMPCM时为时为1 1WORD WORD nChnnelsnChnnels;/信信道道数数;单单声声道道等等于于0 0,立体声等于,立体声等于2 2WORD WORD nSamplesPerSecnSamplesPerSec;/;/每秒采每秒采样样数数WORD WORD nAvgBytesPerSecnAvgBytesPerSec;/;/每秒平均字每秒平均字节节数数WORD WORD nBlockAlignnBlockAlign;/;/数据数据块块的偏移量的偏移量 fmtfmt 作业作业1、利用计算机,任选一个语音信号进行观、利用计算机,任选一个语音信号进行观察,然后描述你观察出的语音信号主要特征;察,然后描述你观察出的语音信号主要特征;2、语音信号携带语义信息,查阅资料并请、语音信号携带语义信息,查阅资料并请回答:回答:(1)语义信息在哪些语音信号特征参数上)语义信息在哪些语音信号特征参数上(2)人耳是如何感知这些信息的)人耳是如何感知这些信息的第二章第二章 语语音信号的音信号的产产生、特征与人耳的生、特征与人耳的听听觉觉特性特性 2.1 2.1 语音信号的产生语音信号的产生 人类发音器官示意图人类发音器官示意图第二章第二章 语语音信号的音信号的产产生、特征与人耳的生、特征与人耳的听听觉觉特性特性 发音器官:发音器官:1)1)肺和气管肺和气管 2)2)咽喉咽喉3)3)声道声道(包括口腔、鼻腔等包括口腔、鼻腔等)4)4)嘴唇嘴唇男声发音男声发音“我的语音我的语音”的时域波形和语谱图的时域波形和语谱图第二章第二章 语语音信号的音信号的产产生、特征与人耳的生、特征与人耳的听听觉觉特性特性 第二章第二章 语语音信号的音信号的产产生、特征与人耳的生、特征与人耳的听听觉觉特性特性 2.2 2.2 语音信号的分类语音信号的分类声学语音学,根据激励方式划分:声学语音学,根据激励方式划分:(1 1)浊音)浊音(voiced speech)(voiced speech),又称为有声语音又称为有声语音 基音(基音(pitchpitch)(2 2)清音)清音(unvoiced speech)(unvoiced speech),又称为无声语音又称为无声语音(3 3)爆破音()爆破音(plosive speechplosive speech)发音语音学:元音和辅音;音素、音节发音语音学:元音和辅音;音素、音节第二章第二章 语语音信号的音信号的产产生、特征与人耳的生、特征与人耳的听听觉觉特性特性 2.3 2.3 语音信号产生的模型语音信号产生的模型语音生成模型常用的有:语音生成模型常用的有:(1 1)声管模型:波动方程描述)声管模型:波动方程描述(2 2)LPCLPC模型:数学模型描述模型:数学模型描述(3 3)共振峰模型:谐振腔描述)共振峰模型:谐振腔描述 语音信号产生的简化数字模型语音信号产生的简化数字模型LPCLPC模型模型关键:关键:级联型共振峰模型级联型共振峰模型并联型共振峰模型并联型共振峰模型混合型共振峰模型混合型共振峰模型第二章第二章 语语音信号的音信号的产产生、特征与人耳的生、特征与人耳的听听觉觉特性特性 2.4 2.4 人耳的听觉特征掩蔽效应与人耳的听觉特征掩蔽效应与临临界界频带频带 人人耳耳的的掩掩蔽蔽(masking)(masking)作作用用指指的的是是耳耳朵朵对对一一个个声声音音的的听听觉觉感感受受,受受到到另另一一个个声声音音影影响响的的现现象象。FletcherFletcher和和Munson Munson 19371937年年发发现现,一一个个音音调调(tone)(tone)可可被被一一个个以以音音调调频频率率为为中中心心频频率率的的宽宽带带噪噪声声掩掩盖盖而而听听不不见见,并并且且,如如果果该该宽宽带带噪噪声声能能量量不不变变而而改改变变其其带带宽宽的的话话,这这种种掩掩盖盖现现象象不不受受噪噪声声带带宽宽变变化化的的影影响响,除除非非噪噪声声带带宽宽超超过过一一个个临临界界值值,这这个个临临界界值值即即称称为为临临界界频频带带(critical(critical band)band)。换换言言之之,人人耳耳对对一一个个临临界频带里的音不易分清。界频带里的音不易分清。第二章第二章 语语音信号的音信号的产产生、特征与人耳的生、特征与人耳的听听觉觉特性特性 临临界界频频带带这这个个参参数数提提出出的的意意义义是是可可将将人人耳耳当当作作一一个个并并联联的的滤滤波波器器组组,各各个个滤滤波波器器有有不不同同的带宽,分别对听觉作出不同的贡献的带宽,分别对听觉作出不同的贡献 临临界界频频带带的的单单位位一一般般用用BarkBark来来表表示示以以纪纪念念科科学学家家BarkhauseuBarkhauseu。1 1 BarkBark用用来来指指明明一一个个临临界界频带的频率宽度频带的频率宽度 若若记记BarkBark域域的的频频率率变变量量为为b,b,赫赫兹兹(Hertz)(Hertz)域域频率变量为频率变量为f f,则有:则有:第二章第二章 语语音信号的音信号的产产生、特征与人耳的生、特征与人耳的听听觉觉特性特性 2.5 2.5 人耳的各种听觉效应人耳的各种听觉效应掩蔽效应掩蔽效应 同时掩蔽(频率掩蔽):同时掩蔽(频率掩蔽):纯音的同时掩蔽现象纯音的同时掩蔽现象第二章第二章 语语音信号的音信号的产产生、特征与人耳的生、特征与人耳的听听觉觉特性特性 非同时掩蔽(时间掩蔽):非同时掩蔽(时间掩蔽):纯音的非同时掩蔽现象纯音的非同时掩蔽现象 第二章第二章 语语音信号的音信号的产产生、特征与人耳的生、特征与人耳的听听觉觉特性特性 2.5 2.5 人耳的其它各种听觉效应人耳的其它各种听觉效应(1 1)哈斯()哈斯(HassHass)效应(延时掩蔽)效应(延时掩蔽)(2 2)双耳效应(灵敏度、定位)双耳效应(灵敏度、定位)(3 3)鸡尾酒会效应(选择性接收)鸡尾酒会效应(选择性接收)。第第三三章章 语语音信号的音信号的分析方法分析方法3.13.1语语音信号的音信号的统计统计特性特性 语语音:非平音:非平稳稳随机随机过过程程一一、概概率率密密度度函函数数:超超高高斯斯随随机机信信号号;近近似似GammaGamma分布,可用分布,可用Laplace Laplace 或或GaussGauss分布近似分布近似二、零均二、零均三、非平稳时变信号;短时平稳:三、非平稳时变信号;短时平稳:101030ms30ms四、基音频率、基音周期四、基音频率、基音周期五、频率分布五、频率分布第第三三章章 语语音信号的音信号的分析方法分析方法3.23.2语语音信号的音信号的短时分析方法短时分析方法 语语音信号的音信号的开窗开窗分析技分析技术术:(1 1)均匀)均匀窗:窗:DSPDSP教材教材(2 2)非均匀)非均匀窗:各种国窗:各种国际标际标准准(3 3)重叠)重叠窗(窗(overlapoverlap)第第三三章章 语语音信号的音信号的分析方法分析方法常用语音信号特征参数常用语音信号特征参数(1 1)短时能量)短时能量 EnEn(2 2)短时平均幅度)短时平均幅度 MnMn (3 3)短时平均过零率)短时平均过零率 ZnZn(4 4)短时自相关函数)短时自相关函数 RnRn(5 5)短时傅立叶变换)短时傅立叶变换 FnFn(6 6)基于参数模型的模型参数)基于参数模型的模型参数 。第第三三章章 语语音信号的音信号的分析方法分析方法一、短时能量一、短时能量EnEn和短时平均幅度和短时平均幅度MnMn 浊音:大浊音:大 清音:较小清音:较小 静默:最小静默:最小第第三三章章 语语音信号的音信号的分析方法分析方法二、短时平均过零率二、短时平均过零率ZnZn 浊音:较小浊音:较小 清音:大清音:大 静默:最小(如果没有背景噪声)静默:最小(如果没有背景噪声)较大(如果存在背景噪声)较大(如果存在背景噪声)一一般般的的经经验验数数据据是是,对对于于清清音音语语音音,在在采采样样频频率率为为8 8千千赫赫兹兹条条件件下下,其其过过零零率率为为每每10ms10ms内内ZnZn4949,而而对对于于浊浊音音语语音音,其其过过零零率率为每为每10ms10ms内内ZnZn1414第第三三章章 语语音信号的音信号的分析方法分析方法三、短时自相关函数三、短时自相关函数 浊音:呈现浊音:呈现准准周期性、逐渐衰减周期性、逐渐衰减清音:清音:RnRn(0 0)较大,衰减很快较大,衰减很快 静默:静默:RnRn(0 0)小,衰减很快小,衰减很快语音信号短时自相关函数第第三三章章 语语音信号的音信号的分析方法分析方法四、短时傅立叶变换分析四、短时傅立叶变换分析1 1、反反映映了了短短时时间间内内激激励励和和声声道道的的频频谱谱特特性性,声道特性主要由频谱的包络特性来描述声道特性主要由频谱的包络特性来描述2 2、浊音浊音:频谱能量集中在低频率区,衰减较:频谱能量集中在低频率区,衰减较快,呈现锯齿状快,呈现锯齿状 清音清音:频谱能量分布在整个频率段内,无:频谱能量分布在整个频率段内,无明显衰减明显衰减 静默静默:频谱能量很小:频谱能量很小3 3、可以求基音频率可以求基音频率浊浊音音谱谱清清音音谱谱第第三三章章 语语音信号的音信号的分析方法分析方法五、五、GaborGabor变换和小波变换变换和小波变换平平稳稳信信号号的的分分析析工工具具:FourierFourier变变换换将将信信号分解号分解为为正弦波的正弦波的线线性性组组合合非非平平稳稳信信号号的的分分析析工工具具:WaveletWavelet变变换换将将信号分解信号分解为为小波的小波的线线性性组组合合第第三三章章 语语音信号的音信号的分析方法分析方法3.33.3语语音信号的分音信号的分类类和和词词的分割方法的分割方法 某帧分类:浊音、清音、静默某帧分类:浊音、清音、静默分类技术:分类技术:一、基于能量或过零率硬判决一、基于能量或过零率硬判决二、基于自相关函数或傅氏变换硬判决二、基于自相关函数或傅氏变换硬判决三三、基基于于模模式式分分类类技技术术(如如统统计计模模式式分分类类、结结构构模模式式分分类类、ANN模模式式分分类类、模糊模式分类。)模糊模式分类。)第第三三章章 语语音信号的音信号的分析方法分析方法 用于用于语语音信号音信号帧帧属性划分的参数属性划分的参数选择选择 可可用用来来判判决决信信号号帧帧特特性性的的参参数数有有不不少少,比比如如基基于于各各帧帧信信号号的的能能量量、过过零零率率、低低通通滤滤波波后后语语音音能能量量、高高/低低通通能能量量比比、一一阶阶LPCLPC系系数数、一一阶阶LPCLPC反反射射系系数数、每每帧帧预预测测误误差差能能量量、位位于于基基音周期处的自相关函数比等。音周期处的自相关函数比等。文文献献表表明明,仅仅根根据据单单个个参参数数是是很很难难准准确确判判断断输输入入信信号号特特征征的的,即即使使是是在在相相对对简简单单的的二二元元语语音音分分类类如如VADVAD中中,往往往往也也要要根根据据多多个个参参数数进进行分类,如行分类,如G.729BG.729B标准采用了四种参数。标准采用了四种参数。第第三三章章 语语音信号的音信号的分析方法分析方法 对对电电话话语语音音进进行行的的统统计计表表明明,每每个个话话者者通通话话时时各各种种语语音音信信号号帧帧的的大大致致比比例例(统计帧统计帧数数30003000,帧长帧长2020毫秒毫秒)为:为:背景声背景声:55.7%55.7%清清 音音:12.5%:12.5%浊浊 音音:32.8%:32.8%第第三三章章 语语音信号的音信号的分析方法分析方法词词的的分分割割技技术术:端端点点检检测测(从从包包含含语语音音的的一一段段信信号号中中确确定定出出语语音音的的起起点点和和结结束束点点);多多数数基基于于短短时时能能量量和和过过零零率,多门限判决。率,多门限判决。能能量量和和过过零零率率检检测测法法双双门门限限法法。这这种种方方法法也也常常称称为为显显式式法法,即即端端点点的的确确定定与与以以后后的的判判决决无无关关。具具体体的的说说,首首先先用用短短时时能能量量做做第第一一次次判判断断,然然后后在在此此基基础础上上用用短短时时平平均过零率做第二次判断。均过零率做第二次判断。第第四四章章 语语音信号的音信号的LPCLPC分析方法分析方法 信号的预测问题可表述如下信号的预测问题可表述如下:给定给定P P个观测点个观测点 寻找某个函数:寻找某个函数:使估计误差序列使估计误差序列之均方值最小化之均方值最小化 若若 是线性函数是线性函数,则为众所周知的则为众所周知的LPLP问题:问题:第第四四章章 语语音信号的音信号的LPCLPC分析方法分析方法基音基音LPLP预测分析(长项预测:预测分析(长项预测:Long-termLong-term)T T 是基音周期是基音周期,M,M一般取一般取1 1或或2 2 第第四四章章 语语音信号的音信号的LPCLPC分析方法分析方法4.1 LPC4.1 LPC技术是语音信号处理中最成功、最成熟的技技术是语音信号处理中最成功、最成熟的技术。术。语语音音编码编码国国际标际标准准中广泛使用:中广泛使用:G.723.1 MP-MLQ/ACEG.723.1 MP-MLQ/ACELPLPG.728 LD-CEG.728 LD-CELPLP(L Low ow D Delay elay CELPCELP)G.729 CS-ACEG.729 CS-ACELPLP(C Conjugate onjugate S Structure-tructure-A Algebraic lgebraic CELP CELP)GSM RPE/LTP(GSM RPE/LTP(R Regular egular P Pulse ulse E Excited/xcited/L Long ong T Term erm P Predictionrediction)IS-54 VSEIS-54 VSELPLP(V Vector ector S Sum um E Excited xcited L Linear inear P Prediction)rediction)IS-95 IS-95 QCEQCELPLP(Q Qualcommualcomm CELPCELP)FS(Federal Standards)FS1015 FS(Federal Standards)FS1015 LPCLPC1010、FS1016 CEFS1016 CELPLP InmarsatInmarsat APC(APC(A Adaptive daptive P Predictionrediction C Coding)oding)MP MPLPLPC(C(M Multi-ulti-P Pulse ulse L Linear inear P Prediction rediction C Coding)oding)IMBE(IMBE(I Improved mproved M Multi-ulti-B Band and E Excite)xcite)第第四四章章 语语音信号的音信号的LPCLPC分析方法分析方法4.2 4.2 语音信号线性预测分析的基本原理语音信号线性预测分析的基本原理1 1、基于简化语音发声数学模型基于简化语音发声数学模型需要分析提取声道和激励参数需要分析提取声道和激励参数 第第四四章章 语语音信号的音信号的LPCLPC分析方法分析方法2 2、声道用时变数字滤波器代替声道用时变数字滤波器代替 语语音音抽抽样样s(n)s(n)和和激激励励信信号号e(n)e(n)之之间间的的关关系系可可以以用用下下列列的差分方程来表示:的差分方程来表示:A(Z)A(Z)称作逆滤波器,传输函数为:称作逆滤波器,传输函数为:第第四四章章 语语音信号的音信号的LPCLPC分析方法分析方法问题:问题:3 3、如何求解时变滤波器的参数和模型激励参数如何求解时变滤波器的参数和模型激励参数(1 1)激激励励参参数数主主要要是是清清/浊浊音音判判断断、浊浊音音中中基基音音周周期期的的求解等求解等(2 2)求取时变滤波器的参数即求取时变滤波器的参数即P P 和和 是关键是关键(3 3)主要方法主要方法 自相关法和协方差法自相关法和协方差法第第四四章章 语语音信号的音信号的LPCLPC分析方法分析方法4.3 4.3 语音信号线性预测分析的自相关法和协方差法语音信号线性预测分析的自相关法和协方差法第第n n时刻的预测序列:时刻的预测序列:第第n n时刻的预测误差序列:时刻的预测误差序列:方程方程求解出的求解出的 ,即为声道(时变数字滤波器)特性中,即为声道(时变数字滤波器)特性中的参数的参数 第第四四章章 语语音信号的音信号的LPCLPC分析方法分析方法上式的解上式的解为为:定义相关矩阵定义相关矩阵 第第四四章章 语语音信号的音信号的LPCLPC分析方法分析方法4.3.14.3.1自相关法:自相关法:设设 在区间在区间外等于零外等于零,信号范围信号范围 00,N-1 N-1 第第四四章章 语语音信号的音信号的LPCLPC分析方法分析方法方程解法:迭代运算方程解法:迭代运算Levinson、Durbin、Burg、Lattice、Schur等算法等算法第第四四章章 语语音信号的音信号的LPCLPC分析方法分析方法4.3.2协方差法:协方差法:设设 在区间在区间外等于零外等于零,信号范围信号范围 P P,N-1 N-1 方程解法:方程解法:基于矩阵的基于矩阵的Cholesky分解(分解(LU分解)分解)第第四四章章 语语音信号的音信号的LPCLPC分析方法分析方法4.3.3时变数字滤波器的增益时变数字滤波器的增益准则:语音的能量应该和线性预测模型产生准则:语音的能量应该和线性预测模型产生的合成语音能量相等的合成语音能量相等4.3.4Durbin(杜宾)法杜宾)法第第四四章章 语语音信号的音信号的LPCLPC分析方法分析方法4.4语音信号线性预测分析各种算法特性的比较语音信号线性预测分析各种算法特性的比较方法方法CholeskyDurbinLattice存储量存储量数据数据N1N23N3相相关关矩矩阵阵正比于正比于P平方平方正比于正比于P0窗函数窗函数0N20乘乘法法计计算算量量加窗加窗0N20相相关关矩矩阵阵正比于正比于N1正比于正比于N20解矩阵解矩阵5N3系统稳定性系统稳定性不一定不一定有保证有保证一定稳定一定稳定截断误差截断误差小小较大较大较小较小第第四四章章 语语音信号的音信号的LPCLPC分析方法分析方法4.5语音信号线性预测误差信号语音信号线性预测误差信号1、针对不同语音激励时针对不同语音激励时的形状的形状2、基于基于求解语音的基音周期求解语音的基音周期3、简单逆滤波器跟踪法简单逆滤波器跟踪法SIFT4.6基于基于ANN的非线性语音预测技术的非线性语音预测技术第第四四章章 语语音信号的音信号的LPCLPC分析方法分析方法4.7语音各种参数的特性及其相互转换语音各种参数的特性及其相互转换1、反射系数与、反射系数与2、对数面积比与反射系数、对数面积比与反射系数3、系统函数、系统函数H(Z)的极点与的极点与4、线谱对、线谱对LSP系数与系数与5、LPC倒谱系数与倒谱系数与Mel倒谱系数倒谱系数第第四四章章 语语音信号的音信号的LPCLPC分析方法分析方法倒谱和同态倒谱和同态信号处理信号处理倒倒谱谱(对对LPC模模型型的的Z变变换换H(Z)求求倒倒谱谱)第第四四章章 语语音信号的音信号的LPCLPC分析方法分析方法MEL倒谱倒谱作业作业请查阅参考文献,并进行推导,写出请查阅参考文献,并进行推导,写出LPC参数参数ai与下列语音参数的变换关系:与下列语音参数的变换关系:1、反射系数、反射系数2、对数面积比参数、对数面积比参数3、线谱对、线谱对LSP系数系数4、Mel倒谱系数倒谱系数第第五五章章语语音音处处理和通信系理和通信系统统的的质质量量评评价体系价体系 5.15.1语音处理系统质量评价语音处理系统质量评价 语语音音处处理理系系统统主主要要指指语语音音数数字字压压缩缩编编解解码码系系统统、语语音音识识别别与与合合成成系系统统、语语音音增增强强系系统等。统等。5.1.15.1.1语音数字压缩编解码系统质量评价语音数字压缩编解码系统质量评价 对对编编解解码码器器性性能能的的要要求求主主要要包包含含下下列列方方面面:第第五五章章语语音音处处理和通信系理和通信系统统的的质质量量评评价体系价体系 恢复声音的质量恢复声音的质量 即即经经过过编编码码系系统统再再经经过过收收方方解解码码系系统统恢恢复出的声音质量,主要有复出的声音质量,主要有SNRSNR和和MOSMOS两种两种 单单项项感感觉觉指指标标还还有有如如可可懂懂度度、清清晰晰度度、自然度指标等自然度指标等(P.862(P.862、P.1387P.1387标准标准)比特率比特率 指指的的是是编编码码器器对对输输入入的的声声音音压压缩缩后后,每每秒送出的二进制码元个数秒送出的二进制码元个数 第第五五章章语语音音处处理和通信系理和通信系统统的的质质量量评评价体系价体系 处理的复杂度处理的复杂度 指实现编译码算法的困难程度。指实现编译码算法的困难程度。处理时延处理时延 是完成编译码算法所需的时间。是完成编译码算法所需的时间。容容错错能力或能力或鲁鲁棒性棒性(Robustness)(Robustness)指指编编译译码码系系统统抗抗误误差差,线线路路噪噪声声等等各各种种干干扰扰的能力。的能力。第第五五章章语语音音处处理和通信系理和通信系统统的的质质量量评评价体系价体系 5.1.2语音识别与合成系统质量评价语音识别与合成系统质量评价衡量语音识别系统的质量评价主要是衡量语音识别系统的质量评价主要是正确识别率正确识别率处理的复杂度处理的复杂度处理时延处理时延衡量语音合成系统的质量评价主要是衡量语音合成系统的质量评价主要是可懂度可懂度清晰度清晰度自然度自然度 第第五五章章语语音音处处理和通信系理和通信系统统的的质质量量评评价体系价体系 5.1.3语音增强系统质量评价语音增强系统质量评价衡衡量量语语音音增增强强系系统统的的质质量量评评价价主主要要是是恢恢复复声声音音的的质质量量,这与语音编码相似这与语音编码相似5.2语音通信系统质量评价语音通信系统质量评价接收端恢复语音的质量接收端恢复语音的质量 客观质量客观质量,即信噪比即信噪比SNRSNR 主主观观质质量量,常常用用的的是是 MOSMOS分分数数,还还加加上上可可懂懂度度、清清晰晰度和自然度指标。度和自然度指标。传输速率或占用信道带宽传输速率或占用信道带宽误码率或分组丢失率误码率或分组丢失率传输时延和变化传输时延和变化第第六六章声音信号的数字章声音信号的数字压缩标压缩标准与技准与技术术 6.1.6.1.常用语音信号数字压缩标准常用语音信号数字压缩标准:6.1.1 6.1.1 国际标准。国际标准。19721972年制定的年制定的G.711PCMG.711PCM标准标准19841984年制定的年制定的G.721 ADPCMG.721 ADPCM标准标准 19901990年合并归入年合并归入G.726G.726。19961996年制定的年制定的G.723.1 MP-MLQ/ACELPG.723.1 MP-MLQ/ACELP标准标准1992年制定的年制定的G.728LD-CELP(LowDelayCELP)标准标准1996年制定的年制定的G.729CS-ACELP(ConjugateStructure-AlgebraicCELP)标准标准第第六六章声音信号的数字章声音信号的数字压缩标压缩标准与技准与技术术 19881988年制定的年制定的G.722SB-ADPCMG.722SB-ADPCM标准标准(S Sub ub B Band and ADPCMADPCM)1990年制定的年制定的G.727Embeded-ADPCM(又称又称GEMB)标准标准20022002年制定的年制定的G.722.2 AMR-WBG.722.2 AMR-WB标准,与标准,与AMR-NBAMR-NB标标准准 一起,作为一起,作为WCDMAWCDMA移动通信系统中语音编码的标准移动通信系统中语音编码的标准20032003年年 3GPP23GPP2选定诺基亚公司的选定诺基亚公司的VMRVMRNB/WBNB/WB,作作为为 CDMA2000CDMA2000移动通信系统中语音编码的标准移动通信系统中语音编码的标准第第六六章声音信号的数字章声音信号的数字压缩标压缩标准与技准与技术术 语音编码标准化工作近五年的新进展:语音编码标准化工作近五年的新进展:1 1、G.729.1(2006-05):G.729-based embedded variable bit-rate coder:An 8-32 kbit/s scalable wideband coder bitstream interoperable with G.729 2、G.711.1(2008-03-15):Wideband embedded extension for G.711 pulse code modulation 3、G.718(2008-06-13):Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s第第六六章声音信号的数字章声音信号的数字压缩标压缩标准与技准与技术术 6.1.2 6.1.2 地区和国家标准地区和国家标准 欧洲欧洲GSMGSM移动通信标准移动通信标准,RPE/LTP(,RPE/LTP(R Regular egular P Pulse ulse E Excited/xcited/L Long ong T Term erm P Prediction),1987rediction),1987年年IS(Interim Standard)IS(Interim Standard)北美移动通信标准北美移动通信标准 IS-54 IS-54 标准标准VSELP(VSELP(V Vector ector S Sum um E Excited xcited L Linear inear P Prediction)rediction),19901990年年IS-95标准标准QCELP(QualcommCELP),1993年年第第六六章声音信号的数字章声音信号的数字压缩标压缩标准与技准与技术术 FS(FederalStandards)美国联邦标准美国联邦标准 FS1015FS1015:LPCLPC10 10 FS1016 FS1016:CELPCELPInmarsatInmars