2022年通信中的语音信号处理复习大纲.docx
《2022年通信中的语音信号处理复习大纲.docx》由会员分享,可在线阅读,更多相关《2022年通信中的语音信号处理复习大纲.docx(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选学习资料 - - - - - - - - - 学而不思就惘,思而不学就殆通信中的语音信号处理复习大纲北科大版1、 明白语音信号处理的目的、实质和进展历史;实质 :是讨论用数字信号处理技术对语音信号进行处理的一门学科目的 :通过处理得到一些反映语音信号重要特点的语音参数以便高效地传输或储存语音信号所包含的信息;通过对语音信号进行某种运算以达到某种要求;进展历史 :1876 年电话的创造,贝尔(Bell);1939 年声码器的研制胜利声源声道;1947 年贝尔试验室创造语谱图仪语音识别讨论的开头;50 岁月第一台口授打字机和英语单词语音识别器;60 岁月显现了第一台以数字运算机为基础的孤立词语
2、音识别器和有限连续语音识别器;70 岁月动态规划技术、隐马尔可夫模型、线性猜测技术和矢量量化码书生成方法用于语音编码和识别;80、 90 岁月语音处理技术产品化IBM Tangora-5 和 Tangora-20英语听写机, Dragon Dictate 词汇翻译系统 70000,汉语听写机;CMU 语音组研制胜利 SPHINX系统( 997, 95.8%; 国内,清华高校、中科院声学所和中科院自动化所在汉语听写机讨论方面有肯定成果;(除了属于这种 LPC线性猜测分析法 的方法外, 仍开发了各种数字语音处理方法;到目前为止, 相继实现了语音编码、语音分析、语音合成、语音修正、语音识别、说话者识
3、别等各种详细应用系统;)2、 懂得和把握语音信号的表示和处理方法,常用的语音编码的采样率和相应的数字语音信号的速率;1.语音 表示方法 的挑选: 要储存语音信号中的消息内容;表示形式要便于传输和储备、变换和处理, 不至于严峻损害消息的内容,有用信息更易于被提取;2. 语音信号数字表示的优点:数字技术能完成很多很复杂的信号处理工作;语音可以看成是音素的组合,具有离散的性质,特殊适合于数字处理;数字系统具有高牢靠性、价廉、紧凑、快速等特点,很简单完成实时处理任务;数字语音适于在强干扰信道中传输,易于和数据一起在通信网中传输,也易于进行加密传输;3. 语音信号的数字表示方法:波形表示采样和量化,保持
4、波形;参数表示鼓励源和模型参数(其次章)语音信号的特点短时平稳性4. 处理方法 :短时时域处理方法短时能量、短时平均过零率以及短时自相关函数运算 短时频域分析短时傅立叶分析 线性猜测技术本质上属于时域分析方法,但其结果可以是频域参数倒谱和同态分析、矢量量化和隐马尔可夫模型5. PCM 编码:采样率: 8000 次/second,匀称量化:采样率12bps 信号速率96kbps,非匀称量化:采样率8bps 信号速率 64kbps ADPCM:采样率: 8khz 速率: 32kbps 3、 懂得语音信号的产生过程、发生气理和语音信号的声学特性;产生过程 :语音是说话人和听者之间相互传递的信号,传递
5、的媒介是声波,说话人的发音器官做动身声动作,接着空气振动形成 声波,声波传到听者的耳朵里,马上引起听者的听觉反应发生气理 :声学特性: 频率:与音高有关;振幅:与响度有关;4、 懂得和把握语音信号浊音的基音频率、共振峰,及共振峰的运算方法;浊音的基音频率 F0:由声带的尺寸、特性和声带所受张力打算,其值等于声带张开和闭合一次的时间的倒数;人类基音频率的范围在 60Hz 至 450Hz 左右;共振峰( formant :声道是一个谐振腔,当鼓励的频率达到至声道的固有频率,就声道会以最大的振幅振荡,此时的频率称之为共名师归纳总结 - - - - - - -振峰或共振峰频率;声道具有的一组共振峰,声
6、道的频谱特性主要反映出这些共振峰的不同位置以及各个峰的频带宽度;共振峰及其带宽取决于声道某一瞬时的外形和尺寸,因而不同的语音对应于一组不同的共振峰参数;实际应用中, 头三个共振峰最重要;第 1 页,共 6 页精选学习资料 - - - - - - - - - 学而不思就惘,思而不学就殆抱负状态下共振峰的运算:假设声道截面是匀称的(此时可把声道看作一个粗细匀称的圆筒)离 L=17 cm,音速 c=340 m/s,就共振峰将发生在:F cn(2 n4 L 1)c 为第n个共振峰的波长 ,从喉到唇的距n ,1 2 ,运算 前三个共振峰:1 2F 1 c1 4 cL 4 17 34010 2 500 H
7、z P x n , 2 N 1 | X n , |j kF 2 c 3 c 1500 Hz , F 3 c 5 c 2500 Hz 其中,X n , k x k w n k e2 4 L 3 4 L w n 是长度为 2N1 的窗函数5、 懂得语音信号的时域、频域以及语谱图的表示方法;X n , 表示在时域以 n 点为中心的时域波形 :时间、振幅;频域波形 -频谱 :频率、分贝;一帧信号的傅立叶变换 在 处的大小语谱图 :用横坐标表示时间,纵坐标表示频率,每个像素的灰度值大小反映相应时刻和相应频率的能量在频域上,能量集中处就是共振峰 formant 之所在,在 语谱图 上就是颜色 较深 的位置
8、;语谱图能供应有关不同时间不同频率的相对音强的有价值的信息,如共振峰频率和基音周期;在发元音时,音强较大,声带振动而出现出基频及其谐振频率,也可以明显看到共振峰,能量集中在低频;假如是发辅音,而且声带不振动,就看不到谐振频率;通常辅音的音强小,颜色看来就比较淡,而且能量较集中在高频;如是在没有语音的空档,就语谱图上出现的,就是有一段空白;6、 (建立一个离散时域的语音信号产生的数字模型)懂得和把握语音信号的线性产生模型:鼓励模型、声道模型和辐射模型 (由于人类语音的频率范畴主要集中在300Hz3400Hz,数字模型中的信号取样率一般为8KHz;)由此模型框图,我们可将语音信号看成准周期序列或随
9、机噪声序列作为鼓励的线性非移变系统的输出,此模型可分为三个部 分: 1鼓励模型 2声道模型 3辐射模型 浊音 鼓励模型 Uz:发浊音时声带绷紧,声带不断张开和关闭产生的脉冲波,类似于斜三角波 清音 鼓励模型 :声带不发生振动,气流通过声门直接进入声道,气流被阻碍形成湍流,相当于随机白噪声(此处用均值为 0,方差 为 1 并在幅值上为平稳分布的序列)声道模型 Vz:两种建模方法:a声管模型:b共振峰模型: 共振峰模型将声道视为一个谐振腔,按此原就导出;基于各种音素发音的不同谐振特点可建立起三种有用的共振峰模型:a级联型(适用于一般单元音 ,认为声道是一组串联的二阶谐振器,谐振中心频率值等于共振峰
10、,如把语音的各个共振峰所对 应的二阶系统级联起来就形成了一个完整的级联型声道模型,且具有明显的谐振特性;)b并联型(适用于鼻音、复合元音及大部分辅音,发这些音时发音腔体具有反谐振特性,必需在模型中加入零点以减弱谐振强度,故要考虑用零、极点模型)3 到 5 级;H zU z V zR z级联或并联的级数取决于声道的长度,一般成人取c混合型辐射模型Rz:在发音腔道内形成的气流经由嘴唇端辐射出来,到达听者耳朵的这段过程,声音信号会衰减,而且有r1,高通滤波 的特性;常用一个一阶的数字高通滤波器模拟这个现象R z 1rz1,r17、 懂得语音信号的短时特性的懂得,以及语音信号平稳性的懂得;语音信号从整
11、体上来看表征其本质特点的参数都是随时间变化的,这一点可以从语音信号的时域幅度波形上看出,故语音信 号是一个非平稳随机过程,不能用处理平稳随机信号的技术对其进行分析处理;由于语音信号是由人的口腔内一系列肌肉运动构成的发声模型产生的,而口腔肌肉的这种运动相对于语音频率来说是特别缓名师归纳总结 - - - - - - -慢的,故在一个短时间范畴内(一般认为1030ms),其特性基本保持不变,可以将其看作“ 准稳态随机过程”,这就是语音信号的“ 短时平稳性”;任何语音信号的分析处理都必需建立在短时平稳的基础上,即进行“ 短时分析” :将语音信号分为一段一段来分析其特点参数;其中每一段称为一帧(fram
12、e ),帧长一般取1030ms;这样对于语音信号的整体而言,分析出的就是每一帧参数组成的特点参数第 2 页,共 6 页精选学习资料 - - - - - - - - - 学而不思就惘,思而不学就殆时间序列;8、 把握语音信号的采样和量化过程,如何运算量化器中每个比特字长对信噪比的奉献,以及通过动态范畴运算量化字长 ;采样:一个数字信号取样之后,变成离散时间信号,接下来就是要用数字方式来表示这个离散时间信号上的每个取样值;量化:一个电位波形会有固定的电压范畴,一个取样值可以是在此电压范畴内的任何电位;假如只能用固定数目的位来表示这些取样值,那么这些二进数字就只能代表固定的几个电位值,这个转换就是量
13、化 quantization ,而转换之后只答应存在的几个电位值就是量化阶数 quantization level ;执行量化转换的硬件电路,就是量化器(quantizer ;匀称 量化的缺点 : 对于小信号,其信噪比太低量化器中每个比特字长对信噪比的 奉献大约为 6dB;当量化字长为 7bit 时,信噪比为 35dB,此时量化后的语音质量能满意一般通信系统的要求;如需要更大的动态范畴,例如 55dB,就语音信号的量化字长为 10bit 以上9、 懂得短时加窗中的矩形窗和汉明窗;用一个固定长度的窗口 window 套上去,只看窗口内的信号,对这些信号做运算,用以求出在这窗口内的语音特点 spe
14、ech features;这样的处理方式,就叫加窗 windowing ,而套上去的这一段语音即称为语音帧 frame ;通常窗口的长度是取 1040 毫秒 ms,窗口的移动距离,大约会取 520 ms,让前后的语音帧有部分重叠,这样能观看到语音特点转变的连续性以保证分析的精确性;矩形窗:汉明窗:汉明窗的第一个零值频率位置比矩形窗大一倍左右,即,汉明窗的带宽大约是同样宽度矩形窗带宽的两倍;同时,在通带外,汉明窗的衰减较相应的矩形窗大得多;10、懂得短时能量分析、短时平均过零率和短时相关的定义;信号 xn的短时能量定义:En 表示在信号的第 n 个点开头加窗函数时的短时能量,可以看作语音信号的平
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022 通信 中的 语音 信号 处理 复习 大纲
限制150内