语音信号处理.ppt
《语音信号处理.ppt》由会员分享,可在线阅读,更多相关《语音信号处理.ppt(147页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 语音语音信号处理信号处理Speech Signal ProcessingSpeech Signal Processing 杨杨 震震 (教授教授、博导、博导)2011.22011.2绪绪 论论当当今今世世界界正正处处于于信信息息时时代代,计计算算机机技技术术、通通信信技技术术和和电电子子技技术术的的高高速速发发展展,推推动动人人类类社社会会进进入入了了信信息息社社会会。因因特特网网和和移移动动通通信信的的普普及及、电电子子购购物物的的兴兴起起、多多媒媒体体通通信信及及其其应应用用的的蓬蓬勃勃发发展,改变了人类生活、工作、娱乐的方式展,改变了人类生活、工作、娱乐的方式信信息息的的获获取取、处处
2、理理、传传输输、显显示示和和存存储储,是是信信息技术研究的主要内容息技术研究的主要内容人人类类作作为为社社会会的的主主人人,一一直直是是接接收收和和发发送送信信息息的主体的主体语语音音,始始终终是是人人类类互互相相交交流流、互互相相通通信信的的最最主主要要、最方便、最快捷的工具最方便、最快捷的工具信息载体信息载体 信息与信号信息与信号信息是信号的内涵信息是信号的内涵 (1)信息是信号描述的对象)信息是信号描述的对象(2)信息是信号载荷的内容)信息是信号载荷的内容信号是信息的外延信号是信息的外延 信号是信息在物理表达上的外延,信号是信息的载体信号是信息在物理表达上的外延,信号是信息的载体同一信息
3、可以用不同的物理量信号同一信息可以用不同的物理量信号(声、像、图、文声、像、图、文)来载荷,也可以采用不同的数学描述方式来载荷,也可以采用不同的数学描述方式(数字或模拟数字或模拟)同一类型信号也可以代表不同内容的信息同一类型信号也可以代表不同内容的信息语音信号处理是一门涉及面很广的交叉语音信号处理是一门涉及面很广的交叉学科学科 研究内容包括研究内容包括 1 1、语音特性分析和建模、语音特性分析和建模 2 2、语音编码、语音编码 3 3、语音识别、语音识别 4 4、语音合成、语音合成 5 5、语音增强、语音增强 6 6、语音通信、语音通信 授授课课内内容容【1 1】绪论绪论【2 2】声音信号的分
4、类与数字化声音信号的分类与数字化 【3 3】语音的发声模型和人的听觉特性语音的发声模型和人的听觉特性【4 4】语音信号的时域和频域分析方法语音信号的时域和频域分析方法【5 5】语音信号的线性预测编码语音信号的线性预测编码(LPC)(LPC)技术技术【6 6】演示实验演示实验【7 7】各种语音处理和通信系统的质量评价标准各种语音处理和通信系统的质量评价标准【8 8】语音信号的数字压缩编码标准语音信号的数字压缩编码标准 授授课课内内容容【9 9】语音波形编码技术语音波形编码技术-part one-part one【1010】语音波形编码技术语音波形编码技术-part two-part two【11
5、11】语音参数及混合编码技术语音参数及混合编码技术-part one-part one【1212】语音参数及混合编码技术语音参数及混合编码技术-part two-part two【1313】人机通信人机通信part onepart one语音识别原理语音识别原理【1414】人机通信人机通信part twopart two语音合成原理语音合成原理【1515】实用系统中的语音增强与消噪技术实用系统中的语音增强与消噪技术【1616】语语音音压压缩缩编编码码、消消噪噪、识识别别与与合合成成演演示示实实验验 参考文献参考文献1、鲍长春、鲍长春.数字语音编码原理数字语音编码原理M.西安西安:西安电子科西安
6、电子科技大学出版社,技大学出版社,2007.2 2、王王柄柄锡锡 “语语音音编编码码”“变变速速率率语语音音编编码码”,西西安安电子科技大学出版社,电子科技大学出版社,20022002,200420043 3、韩韩纪纪庆庆等等“语语音音信信号号处处理理”,清清华华大大学学出出版版社社,200420044 4、赵力、赵力“语音信号处理语音信号处理”,机械工业出版社,机械工业出版社,200320035 5、Thomas Thomas F.Q F.Q“离离散散时时间间语语音音信信号号处处理理原原理理与与应用应用”,电子工业出版社,电子工业出版社,20042004 6 6、王王晓晓龙龙 “计计算算机机
7、自自然然语语言言处处理理”,清清华华大大学学出出版版社,社,200520057 7、拉拉宾宾纳纳,谢谢佛佛 “语语音音信信号号数数字字处处理理”科科学学出出版版社社,19781978参参考考文文献献研究动态研究动态1 1、Proceedings of ICASSP(Proceedings of ICASSP(声学、语音、信号处理声学、语音、信号处理国际会议录国际会议录)2 2、IEEE Transactions on Speech and Audio IEEE Transactions on Speech and Audio Processing Processing 3 3、IEEE Tra
8、nsactions on Signal Processing IEEE Transactions on Signal Processing 4 4、Speech Communications Speech Communications 5 5、ICSLPICSLP(Spoken Language ProcessingSpoken Language Processing)6 6、IEL IEL 数据库数据库第一章第一章 声音信号的分声音信号的分类类与数字化与数字化 1.1 1.1 声音信号的分声音信号的分类类语音语音(speech)自然语音自然语音窄带语音窄带语音,又叫电话频带语音又叫电话频带语
9、音 宽带语音宽带语音 非语声音频信号非语声音频信号(audio)(audio)CDCD质量声音质量声音高高 保保 真真 HiFi(HighFidelity)和和 环环 绕绕(SurroundedEffect)声音声音DolbyAC35.1声道音响位置声道音响位置第一章第一章 声音信号的分声音信号的分类类与数字化与数字化 1.2 1.2 声音信号的声音信号的特征参数特征参数1.2.11.2.1声声音音的的传传播播速速度度、频频率率、周周期期和波和波长长1.2.21.2.2声压、声功率、声强和声级声压、声功率、声强和声级 1.2.31.2.3声音三要素声音三要素 音高与频率间关系音高与频率间关系F
10、letcher-Munson人耳听觉等响度级曲线人耳听觉等响度级曲线第一章第一章 声音信号的分声音信号的分类类与数字化与数字化 1.3 1.3 声音信号的数字化声音信号的数字化 抽样抽样量化量化编码编码常见采样频率常见采样频率电话电话通信通信领领域的域的8 8千赫千赫兹兹和和1616千赫千赫兹兹。计计算算机机声声音音处处理理系系统统中中的的11.02511.025千千赫赫兹兹,22.05,22.05千赫千赫兹兹和和44.144.1千赫千赫兹兹。广广播播,影影视视,娱娱乐乐领领域域的的3232千千赫赫兹兹,44.1,44.1千千赫赫兹兹和和4848千赫千赫兹兹。存储一分钟声音信号所需要的存储容量
11、存储一分钟声音信号所需要的存储容量第一章第一章 声音信号的分声音信号的分类类与数字化与数字化 压缩感知压缩感知 Compressed SensingCompressed Sensing 技术及其对于语音信号处理的影响技术及其对于语音信号处理的影响 1 1、CSCS基本原理基本原理 2 2、基于、基于CSCS的语音处理开放性课题的语音处理开放性课题第一章第一章 声音信号的分声音信号的分类类与数字化与数字化 1.4 1.4 声音信号的数字存储格式声音信号的数字存储格式WAVWAV:数字音频波形格式,微软公司开发数字音频波形格式,微软公司开发MIDIMIDI:数字乐器合成器,多用于合成音乐数字乐器合
12、成器,多用于合成音乐 目前我们遇到的多数为目前我们遇到的多数为.wav.wav和和.mid.mid文件文件第一章第一章 声音信号的分声音信号的分类类与数字化与数字化 微微软软公公司司与与IBMIBM公公司司共共同同制制定定的的WAVWAV格格式式文文件件的的第第一一个个四四字字节节是是RIFFRIFF,它它用用来来指指 明明 文文 件件 属属 于于 多多 媒媒 体体 资资 源源 交交 换换 文文 件件RIFF(Resource RIFF(Resource Interactive Interactive File File Format)Format)的一种的一种.RIFFRIFF文文件件的的基
13、基本本结结构构是是块块,第第一一个个块块为为WAVEWAVE类类型型,指指定定文文件件为为波波形形数数字字音音频频文文件件,第第二二个个块块为为fmtfmt块块,定定义义文文件件中中其其它数据的格式。它数据的格式。第一章第一章 声音信号的分声音信号的分类类与数字化与数字化 typedeftypedef struct_WaveFmtstruct_WaveFmt WORD WORD wFormatTagwFormatTag;/编编码码方方式式的的标标记记;PCMPCM时为时为1 1WORD WORD nChnnelsnChnnels;/信信道道数数;单单声声道道等等于于0 0,立体声等于,立体声等
14、于2 2WORD WORD nSamplesPerSecnSamplesPerSec;/;/每秒采每秒采样样数数WORD WORD nAvgBytesPerSecnAvgBytesPerSec;/;/每秒平均字每秒平均字节节数数WORD WORD nBlockAlignnBlockAlign;/;/数据数据块块的偏移量的偏移量 fmtfmt 作业作业1、利用计算机,任选一个语音信号进行观、利用计算机,任选一个语音信号进行观察,然后描述你观察出的语音信号主要特征;察,然后描述你观察出的语音信号主要特征;2、语音信号携带语义信息,查阅资料并请、语音信号携带语义信息,查阅资料并请回答:回答:(1)语
15、义信息在哪些语音信号特征参数上)语义信息在哪些语音信号特征参数上(2)人耳是如何感知这些信息的)人耳是如何感知这些信息的第二章第二章 语语音信号的音信号的产产生、特征与人耳的生、特征与人耳的听听觉觉特性特性 2.1 2.1 语音信号的产生语音信号的产生 人类发音器官示意图人类发音器官示意图第二章第二章 语语音信号的音信号的产产生、特征与人耳的生、特征与人耳的听听觉觉特性特性 发音器官:发音器官:1)1)肺和气管肺和气管 2)2)咽喉咽喉3)3)声道声道(包括口腔、鼻腔等包括口腔、鼻腔等)4)4)嘴唇嘴唇男声发音男声发音“我的语音我的语音”的时域波形和语谱图的时域波形和语谱图第二章第二章 语语音
16、信号的音信号的产产生、特征与人耳的生、特征与人耳的听听觉觉特性特性 第二章第二章 语语音信号的音信号的产产生、特征与人耳的生、特征与人耳的听听觉觉特性特性 2.2 2.2 语音信号的分类语音信号的分类声学语音学,根据激励方式划分:声学语音学,根据激励方式划分:(1 1)浊音)浊音(voiced speech)(voiced speech),又称为有声语音又称为有声语音 基音(基音(pitchpitch)(2 2)清音)清音(unvoiced speech)(unvoiced speech),又称为无声语音又称为无声语音(3 3)爆破音()爆破音(plosive speechplosive sp
17、eech)发音语音学:元音和辅音;音素、音节发音语音学:元音和辅音;音素、音节第二章第二章 语语音信号的音信号的产产生、特征与人耳的生、特征与人耳的听听觉觉特性特性 2.3 2.3 语音信号产生的模型语音信号产生的模型语音生成模型常用的有:语音生成模型常用的有:(1 1)声管模型:波动方程描述)声管模型:波动方程描述(2 2)LPCLPC模型:数学模型描述模型:数学模型描述(3 3)共振峰模型:谐振腔描述)共振峰模型:谐振腔描述 语音信号产生的简化数字模型语音信号产生的简化数字模型LPCLPC模型模型关键:关键:级联型共振峰模型级联型共振峰模型并联型共振峰模型并联型共振峰模型混合型共振峰模型混
18、合型共振峰模型第二章第二章 语语音信号的音信号的产产生、特征与人耳的生、特征与人耳的听听觉觉特性特性 2.4 2.4 人耳的听觉特征掩蔽效应与人耳的听觉特征掩蔽效应与临临界界频带频带 人人耳耳的的掩掩蔽蔽(masking)(masking)作作用用指指的的是是耳耳朵朵对对一一个个声声音音的的听听觉觉感感受受,受受到到另另一一个个声声音音影影响响的的现现象象。FletcherFletcher和和Munson Munson 19371937年年发发现现,一一个个音音调调(tone)(tone)可可被被一一个个以以音音调调频频率率为为中中心心频频率率的的宽宽带带噪噪声声掩掩盖盖而而听听不不见见,并并
19、且且,如如果果该该宽宽带带噪噪声声能能量量不不变变而而改改变变其其带带宽宽的的话话,这这种种掩掩盖盖现现象象不不受受噪噪声声带带宽宽变变化化的的影影响响,除除非非噪噪声声带带宽宽超超过过一一个个临临界界值值,这这个个临临界界值值即即称称为为临临界界频频带带(critical(critical band)band)。换换言言之之,人人耳耳对对一一个个临临界频带里的音不易分清。界频带里的音不易分清。第二章第二章 语语音信号的音信号的产产生、特征与人耳的生、特征与人耳的听听觉觉特性特性 临临界界频频带带这这个个参参数数提提出出的的意意义义是是可可将将人人耳耳当当作作一一个个并并联联的的滤滤波波器器组
20、组,各各个个滤滤波波器器有有不不同同的带宽,分别对听觉作出不同的贡献的带宽,分别对听觉作出不同的贡献 临临界界频频带带的的单单位位一一般般用用BarkBark来来表表示示以以纪纪念念科科学学家家BarkhauseuBarkhauseu。1 1 BarkBark用用来来指指明明一一个个临临界界频带的频率宽度频带的频率宽度 若若记记BarkBark域域的的频频率率变变量量为为b,b,赫赫兹兹(Hertz)(Hertz)域域频率变量为频率变量为f f,则有:则有:第二章第二章 语语音信号的音信号的产产生、特征与人耳的生、特征与人耳的听听觉觉特性特性 2.5 2.5 人耳的各种听觉效应人耳的各种听觉效
21、应掩蔽效应掩蔽效应 同时掩蔽(频率掩蔽):同时掩蔽(频率掩蔽):纯音的同时掩蔽现象纯音的同时掩蔽现象第二章第二章 语语音信号的音信号的产产生、特征与人耳的生、特征与人耳的听听觉觉特性特性 非同时掩蔽(时间掩蔽):非同时掩蔽(时间掩蔽):纯音的非同时掩蔽现象纯音的非同时掩蔽现象 第二章第二章 语语音信号的音信号的产产生、特征与人耳的生、特征与人耳的听听觉觉特性特性 2.5 2.5 人耳的其它各种听觉效应人耳的其它各种听觉效应(1 1)哈斯()哈斯(HassHass)效应(延时掩蔽)效应(延时掩蔽)(2 2)双耳效应(灵敏度、定位)双耳效应(灵敏度、定位)(3 3)鸡尾酒会效应(选择性接收)鸡尾酒
22、会效应(选择性接收)。第第三三章章 语语音信号的音信号的分析方法分析方法3.13.1语语音信号的音信号的统计统计特性特性 语语音:非平音:非平稳稳随机随机过过程程一一、概概率率密密度度函函数数:超超高高斯斯随随机机信信号号;近近似似GammaGamma分布,可用分布,可用Laplace Laplace 或或GaussGauss分布近似分布近似二、零均二、零均三、非平稳时变信号;短时平稳:三、非平稳时变信号;短时平稳:101030ms30ms四、基音频率、基音周期四、基音频率、基音周期五、频率分布五、频率分布第第三三章章 语语音信号的音信号的分析方法分析方法3.23.2语语音信号的音信号的短时分
23、析方法短时分析方法 语语音信号的音信号的开窗开窗分析技分析技术术:(1 1)均匀)均匀窗:窗:DSPDSP教材教材(2 2)非均匀)非均匀窗:各种国窗:各种国际标际标准准(3 3)重叠)重叠窗(窗(overlapoverlap)第第三三章章 语语音信号的音信号的分析方法分析方法常用语音信号特征参数常用语音信号特征参数(1 1)短时能量)短时能量 EnEn(2 2)短时平均幅度)短时平均幅度 MnMn (3 3)短时平均过零率)短时平均过零率 ZnZn(4 4)短时自相关函数)短时自相关函数 RnRn(5 5)短时傅立叶变换)短时傅立叶变换 FnFn(6 6)基于参数模型的模型参数)基于参数模型
24、的模型参数 。第第三三章章 语语音信号的音信号的分析方法分析方法一、短时能量一、短时能量EnEn和短时平均幅度和短时平均幅度MnMn 浊音:大浊音:大 清音:较小清音:较小 静默:最小静默:最小第第三三章章 语语音信号的音信号的分析方法分析方法二、短时平均过零率二、短时平均过零率ZnZn 浊音:较小浊音:较小 清音:大清音:大 静默:最小(如果没有背景噪声)静默:最小(如果没有背景噪声)较大(如果存在背景噪声)较大(如果存在背景噪声)一一般般的的经经验验数数据据是是,对对于于清清音音语语音音,在在采采样样频频率率为为8 8千千赫赫兹兹条条件件下下,其其过过零零率率为为每每10ms10ms内内Z
25、nZn4949,而而对对于于浊浊音音语语音音,其其过过零零率率为每为每10ms10ms内内ZnZn1414第第三三章章 语语音信号的音信号的分析方法分析方法三、短时自相关函数三、短时自相关函数 浊音:呈现浊音:呈现准准周期性、逐渐衰减周期性、逐渐衰减清音:清音:RnRn(0 0)较大,衰减很快较大,衰减很快 静默:静默:RnRn(0 0)小,衰减很快小,衰减很快语音信号短时自相关函数第第三三章章 语语音信号的音信号的分析方法分析方法四、短时傅立叶变换分析四、短时傅立叶变换分析1 1、反反映映了了短短时时间间内内激激励励和和声声道道的的频频谱谱特特性性,声道特性主要由频谱的包络特性来描述声道特性
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 信号 处理
限制150内