《语音信号处理期末复习.优秀PPT.ppt》由会员分享,可在线阅读,更多相关《语音信号处理期末复习.优秀PPT.ppt(66页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、考试时间和地点12月26日(周四)14:00-15:40地点:4-202复 习 课第一章 绪论一些语音处理的应用领域语音压缩语音压缩语音合成语音合成语音识别语音识别说话人识别说话人识别什么是语音语音是人类发音器官发出的、具有确定意义的、语音是人类发音器官发出的、具有确定意义的、能起社会交际作用的声音。能起社会交际作用的声音。能够代表确定的意义,这是语言的声音同自然能够代表确定的意义,这是语言的声音同自然界其他一切声音的本质区分。界其他一切声音的本质区分。自然的风声、水声、动物叫声自然的风声、水声、动物叫声(不来自人体发音器官,无明确意义)(不来自人体发音器官,无明确意义)吹口哨,打鼾,口技吹口
2、哨,打鼾,口技(来自发音器官,但五明确意义,不能交际)(来自发音器官,但五明确意义,不能交际)什么是语音处理什么是语音处理语音信号处理简称语音处理,是以语音学和语音信号处理简称语音处理,是以语音学和数字信号处理为基础而形成的一门综合性学数字信号处理为基础而形成的一门综合性学科。科。处理的目的是要得到一些语音参数以便高效处理的目的是要得到一些语音参数以便高效地传输或存储,或者通过处理的某种运算以地传输或存储,或者通过处理的某种运算以达到某种用途的要求,例如人工合成出语音,达到某种用途的要求,例如人工合成出语音,辨识出说话者,识别讲话的内容等。辨识出说话者,识别讲话的内容等。它包括语音编码、语音合
3、成、语音识别和说它包括语音编码、语音合成、语音识别和说话人识别四大分支。(下面简洁介绍)话人识别四大分支。(下面简洁介绍)语音的物理属性物理声学认为声波具有物理声学认为声波具有响度响度音调音调音色音色三种要素。三种要素。其次章 语音信号处理的基础学问语音构成语音构成音素是语音的最小构成单位音素是语音的最小构成单位依据声带是否振动,音素可以分为浊音和清音依据声带是否振动,音素可以分为浊音和清音浊音浊音由声带振动产生的音为浊音由声带振动产生的音为浊音包括全部原音和一些辅音包括全部原音和一些辅音清音清音不由声带振动产生的音不由声带振动产生的音为清音为清音包括另一部分辅音包括另一部分辅音人体发声的部位
4、声带振动的来源TpTp为基音周期,倒数为基音频率,用为基音周期,倒数为基音频率,用fpfp表示,表示,取决于声带的尺寸和特性取决于声带的尺寸和特性男性说话者的男性说话者的fpfp大致分布在大致分布在60-200Hz60-200Hz范围内范围内女性说话者和小孩的女性说话者和小孩的fpfp值在值在200-450Hz200-450Hz范围内范围内同一个人所发出的声音有凹凸变更,是靠限同一个人所发出的声音有凹凸变更,是靠限制声带的松紧来调整的。制声带的松紧来调整的。2.42.4语音信号的数字模型(重点)语音信号的数字模型(重点)语音信号的产生模型(语音信号的产生模型(p7p7,图,图2-32-3)激励
5、模型激励模型声管模型声管模型共振峰模型共振峰模型辐射模型辐射模型声道的模型声道的模型声门的模型声门的模型口唇的模型口唇的模型平均看法得分(平均看法得分(MOSMOS)MOSMOS得分接受得分接受5 5级评分标准级评分标准MOSMOS得分得分质量等级质量等级 失真级别失真级别5 5优优不觉察不觉察4 4良良刚有觉察刚有觉察3 3可可有觉察且稍有可厌有觉察且稍有可厌2 2差差明显觉察且可厌但可忍受明显觉察且可厌但可忍受1 1坏坏不可忍受不可忍受第三章 语音信号的时域分析语音信号的稳态语音信号的稳态帧的概念帧的概念语音自身从长时间看是非稳态过程,从短时语音自身从长时间看是非稳态过程,从短时间看是相对
6、稳定的,既间看是相对稳定的,既“短时性短时性”。将语音分为一段一段的,每一段称为将语音分为一段一段的,每一段称为“一帧一帧”,或许时间为,或许时间为10-30ms10-30ms短时时域分析是语音处理的基本方法,也是短时时域分析是语音处理的基本方法,也是最直观、最易理解的方法最直观、最易理解的方法3.3短时能量分析短时能量定义短时能量定义短时:通过加窗来实现短时:通过加窗来实现能量:通过求信号幅度的平方来实现能量:通过求信号幅度的平方来实现窗的位置随窗的位置随n n变更变更窗的类型窗的类型直角窗(矩形窗)直角窗(矩形窗)窗的类型窗的类型海明窗(海明窗(HammingHamming,也称汉明窗,升
7、余弦),也称汉明窗,升余弦)时域比较直角窗海明窗频域对比(留意纵坐标不同)直角窗海明窗短时平均幅度短时平均幅度MnMnEnEn须要将信号求平方,大信号急剧变大,要须要将信号求平方,大信号急剧变大,要求动态范围大求动态范围大MnMn只是取确定值,不需增加额外的动态范围只是取确定值,不需增加额外的动态范围其功能与能量是一样的,区分清、浊音等其功能与能量是一样的,区分清、浊音等3.4短时过零分析过零率过零率短时过零分析:短时过零分析:过零率过零率就是每秒内信号值通就是每秒内信号值通过零值的次数,短时过零就是指在一段时间过零值的次数,短时过零就是指在一段时间内(一帧内)内(一帧内)平均的过零率平均的过
8、零率。对于窄带信号,是很好的统计其对于窄带信号,是很好的统计其频率特性频率特性的的参数参数最典型的是正弦波(单一频率)最典型的是正弦波(单一频率)3.5 短时相关分析3.5.1 3.5.1 短时自相关函数短时自相关函数自相关函数自相关函数短时自相关函数短时自相关函数3.5.2 修正的短时自相关函数为了解决窗口长度对自相关函数的影响原函数修正函数作业:计算序列0,1,2,3,0,1,2,3,0,1,2,3求:1.窗口长度为10的自相关函数2.窗口长度为6 的自相关函数3.窗口长度为6 的修正自相关函数第四章 语音信号的频域分析语音信号的频域分析本质:加窗后进行傅里叶变换适合语音的短时性同时得到语
9、音的时间、频率特性时间辨别率与频谱辨别率鱼和熊掌不能兼得!P36 下半部分对于直角窗,频域第一个过零点N越大,主瓣越窄,频率辨别率越高,但时域辨别率越低,其实,当N大于一个语素,就失去分析的意义语谱图第五章 语音信号的同态分析目前解卷的算法主要有两种同态分析线性预料分析同态分析也称“倒谱分析”解卷的原理 倒倒谱谱的作用:的作用:(1 1)区区分分清清/浊浊音音 (2 2)求)求浊浊音的基音周期音的基音周期,可以得到可以得到浊浊音的激音的激励励信信号号。(3 3)得到)得到声声道的冲激道的冲激响应响应h(n)h(n)第六章 语音信号的线性预料分析线性预料的概念P61页 第四段基本概念:一个(当前
10、的)语音抽样值可以用过去若干个抽样值的线性组合来靠近。线性组合的系数 可以通过计算采样值与预料值的差别(如最小均方误差)等方法得到。第七章 语音信号的矢量量化矢量量化的过程以2维矢量量化为例过程见黑板重要的变量(p84最上面)矢量译码见黑板传输中只传区域的代码Yi,数据量小,且具有确定的保密性量化误差第八章 隐马尔科夫模型(HMM)HMM的独到之处我们已学过的全部算法(短时傅里叶,线性预料,)都是基于平稳过程的语音本身是时变的,不平稳的所以须要将语音分帧所以以上方法只能提取独立的帧内特征HMM能驾驭语音长时间的特性,不须要分帧第9章 基音提取和共振峰估计提取基音周期的方法自相关法并行处理法倒谱
11、法线性预料谱第十章 语音信号的波形编码语音编码的分类(很重要)分为:波形编码、声码器和混合型波形编码声码器编码信息波形尽量恢复波形短时谱包络音源信息(音调、幅度、浊/清音)数码率3264kbit/s 中、宽带2.416kbit/s 窄带,甚至低于1.2k适用对象任何声音人讲话的声音优点还原的声音质量高,可懂度和自然度都较好可以分别说话的人压缩率高可懂度较好自然度不好,不好分别说话人存在问题由于受量化噪声的限制,降低码率较困难环境噪声使语音质量下降误码是语音质量下降,提高语音质量困难,处理复杂典型方式时域:PCM,ADPCM,DM,ADM,APC频域:SBC,ATC通道声码器,共振峰声码器,同态
12、声码器,LPC声码器常用波形编码方式PCM,非匀整PCM预料编码及其自适应APC自适应差分脉冲编码调制(ADPCM)及自适应增量调试(ADM)子带编码(SBC)自适应变换编码(ATC)数字化分为两步:采样和量化采样精度至少11bit(保证信噪比不低于60dB)语音质量广播质量长途电话质量通信质量合成质量质量高质量低10.3.2非匀整量化PCMA律和律输出的数据率为64 kb/s。CCITT举荐的G.711标准A律(A-Law)压扩(G.711)主要用在欧洲和中国大陆等地区的数字电话通信中 m 律(m-Law)压扩(G.711)主要用在北美和日本等地区的数字电话通信中10.5.2 增量调制(DM
13、)及ADM增量调制(DM:Delta Modulation)提高取样率后,只用1bit来量化斜率过载散弹噪声第11章 声码器编码相位声码器(p136)类似子带编码在频域将语音信号分为多个子带,每个子带特别窄,或许100Hz只对子带内的“幅度”和“相位的导数”干脆编码通道声码器(p137)与相位声码器类似保留频谱幅度和基音周期,不对“相位的导数”编码事实上,编码内容近似为声音信号的频谱包络,而频谱包络比声音信号本身变更慢的多第12章 语音合成语音合成分类分为三类波形合成参数合成规则合成(最难的,干脆阅读文本)第13章 语音识别13.1 概述定义:探讨使机器能精确地听出人的语音内容的问题,即精确地识别人所说的话将来,对着机器(汽车、房间)干脆语音限制,语音输入文本,第14章 说话人识别定义说话人识别是一类特殊的语音识别,其目的不在于讲话内容,而是提取个人的特征,识别说话人的身份信息。考试时间和地点12月26日(周四)14:00-15:40地点:4-202感谢大家一个学期的培伴!不仅祝大家取得好成果!更诚意祝大家前程似锦!
限制150内