语音信号处理.优秀PPT.ppt
《语音信号处理.优秀PPT.ppt》由会员分享,可在线阅读,更多相关《语音信号处理.优秀PPT.ppt(75页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Speech Signal Processing 中国矿业高校中国矿业高校 信息工程系信息工程系全书三篇,全书三篇,16章(讲章(讲15章)章)第一篇第一篇 语音信号处理基础语音信号处理基础其次章其次章 语音信号处理的基础学问语音信号处理的基础学问第一章第一章 绪论绪论其次篇其次篇 语音信号分析语音信号分析第三章第三章 语音信号的时域分析语音信号的时域分析第四章第四章 语音信号的短时傅里叶分析语音信号的短时傅里叶分析第五章第五章 语音信号的同态滤波及倒谱分析语音信号的同态滤波及倒谱分析第六章第六章 语音信号的线性预料分析语音信号的线性预料分析第七章第七章 语音信号的矢量量化语音信号的矢量量化第
2、八章第八章 隐马尔可夫模型(隐马尔可夫模型(HMMHMM)第九章第九章 语音检测分析语音检测分析第三篇第三篇 语音信号处理技术与应用语音信号处理技术与应用第第 十十 章章 语音编码(一)语音编码(一)波形编码波形编码 第十一章第十一章 语音编码(二)语音编码(二)声码器技术与混合编码声码器技术与混合编码第十二章第十二章 语音合成语音合成第十三章第十三章 语音识别语音识别第十四章第十四章 说话人识别说话人识别第十五章第十五章 语音增加语音增加其次章其次章 语音信号处理的基础学问语音信号处理的基础学问语音的产生语音的产生语音的分类语音的分类语音的基本特性语音的基本特性语音的时间波形和频谱特性语音的
3、时间波形和频谱特性语音信号的统计特性语音信号的统计特性声道模型声道模型语音信号语音信号的产生模型的产生模型激励模型激励模型辐射模型辐射模型声管模型声管模型共振峰模型共振峰模型级联型级联型并联型并联型混合型混合型语音感知语音感知定义定义人耳的听力范围人耳的听力范围声音的三要素声音的三要素掩蔽效应掩蔽效应其次章思索题:其次章思索题:什么叫语言?什么叫语音?什么叫语言?什么叫语音?人类的发音器官包括哪些?在发音时各起人类的发音器官包括哪些?在发音时各起了什么作用?了什么作用?说明以下概念:基音频率、共振峰、浊音、说明以下概念:基音频率、共振峰、浊音、清音。清音。语音信号模型包括哪些子模型?激励模型语
4、音信号模型包括哪些子模型?激励模型和辐射模型各属于什么性质的滤波器?和辐射模型各属于什么性质的滤波器?第三章语音信号的时域分析第三章语音信号的时域分析语音处理的目的语音处理的目的语音信号分析方法语音信号分析方法短时分析技术短时分析技术语音信号的语音信号的数字化和预处理数字化和预处理取样率的选择取样率的选择量化字长的选择量化字长的选择预处理预处理短时能量分析短时能量分析短时平均能量的定义短时平均能量的定义窗口形态的选择窗口形态的选择窗口的长度窗口的长度主要用途主要用途直角窗和海明窗直角窗和海明窗的频率特性比较的频率特性比较短时平均幅度短时平均幅度短时过零分析短时过零分析过零分析的概念过零分析的概
5、念短时平均过零数的实现短时平均过零数的实现短时平均过零数的应用短时平均过零数的应用短时相关分析短时相关分析自相关函数的定义自相关函数的定义自相关函数的性质自相关函数的性质短时自相关函数的定义短时自相关函数的定义修正的短时自相关函数修正的短时自相关函数短时平均幅度差函数短时平均幅度差函数(AMDF)相关分析相关分析第三章思索题:第三章思索题:1.在语音信号参数分析前为什么要在语音信号参数分析前为什么要进行预处理,有哪些预处理过程?进行预处理,有哪些预处理过程?2.短时平均能量(平均幅度)和短短时平均能量(平均幅度)和短时平均过零率的定义。这两种时域时平均过零率的定义。这两种时域参数的用途。窗口函
6、数的长度和形参数的用途。窗口函数的长度和形态对它们有什么影响?态对它们有什么影响?3.短时自相关函数和短时平均幅度短时自相关函数和短时平均幅度差函数定义和用途,它们间有什么差函数定义和用途,它们间有什么差异?差异?第四章第四章 语音信号的短时傅里叶分析语音信号的短时傅里叶分析 短时傅里叶变换的定义短时傅里叶变换的定义短时傅里叶变换的取样率短时傅里叶变换的取样率标准傅里叶变换的说明标准傅里叶变换的说明滤波器的说明滤波器的说明语音信号的短时综合语音信号的短时综合滤波器组求和法滤波器组求和法语谱图可同时在时间和频率上显示语音频谱随可同时在时间和频率上显示语音频谱随时间的变更。时间的变更。第四章思索题
7、:第四章思索题:1.1.语音信号的短时谱的定义。如何提高短语音信号的短时谱的定义。如何提高短时谱的频率辨别率?时谱的频率辨别率?2.2.在求语音信号的短时谱时,对窗函数有在求语音信号的短时谱时,对窗函数有什么要求?什么要求?对语音信号频谱分析接受海对语音信号频谱分析接受海明窗和矩形窗各有什么特点?明窗和矩形窗各有什么特点?3.3.3.3.什么是语谱图?它有什么特性?什么是语谱图?它有什么特性?第五章第五章 语音信号的同态滤波及倒谱分析语音信号的同态滤波及倒谱分析 同态信号处理也叫同态滤波,它实现了将卷积关系同态信号处理也叫同态滤波,它实现了将卷积关系变换为求和关系的分别处理。变换为求和关系的分
8、别处理。复倒谱和倒谱复倒谱和倒谱同态信号处理的基本原理同态信号处理的基本原理 卷积同态系统模型卷积同态系统模型特征系统特征系统D D*和和D D*-1-1 的三步数学运算的三步数学运算语音信号两个卷积重量的复倒谱语音信号两个卷积重量的复倒谱避开相位卷绕的算法避开相位卷绕的算法最小相位信号序列:最小相位信号序列:信号的零极点全部在信号的零极点全部在z z平面单位圆内。平面单位圆内。1.卷积同态系统的组成及意义?特征系统卷积同态系统的组成及意义?特征系统D*和逆特征和逆特征系统系统D*-1 运算的三个步骤是什么?运算的三个步骤是什么?2.什么是复倒谱?什么是倒谱?清、浊音的复倒谱或倒什么是复倒谱?
9、什么是倒谱?清、浊音的复倒谱或倒谱各有什么特点?谱各有什么特点?第五章思索题:第五章思索题:主要内容主要内容6.16.1概述概述6.26.2线性预料分析的基本原理线性预料分析的基本原理6.36.3线性预料分析的解法线性预料分析的解法自相关法自相关法6.46.4格型法格型法6.56.5线性预料分析应用线性预料分析应用 -LPC -LPC谱估计和谱估计和LPCLPC复倒谱复倒谱线性预料分析就是依据已知信号线性预料分析就是依据已知信号s(n)s(n)对各参对各参数数 和增益和增益G G进行估计。在这里进行估计。在这里 为为线性预料系数线性预料系数 F(z)s(n)图图6-3 6-3 线性预料器线性预
10、料器A(z)s(n)e(n)H(z)u(n)s(n)图图6-1 6-1 信号信号s(n)s(n)的模型化的模型化1.1.如何将信号模型化为模型参数?最常用的是如何将信号模型化为模型参数?最常用的是什么模型?什么叫线性预料?什么叫逆滤波器什么模型?什么叫线性预料?什么叫逆滤波器?2.2.什么叫什么叫LPCLPC参数?参数?PARCORPARCOR参数?参数?LSPLSP参数?参数?3.3.什么是什么是LPCLPC谱?谱?LPCLPC谱估计的特点。谱估计的特点。第六章思索题:第六章思索题:7.17.1概述概述7.27.2矢量量化的基本原理矢量量化的基本原理7.37.3失真测度失真测度7.47.4最
11、佳矢量量化器和码本设计最佳矢量量化器和码本设计7.57.5降低困难度的矢量量化系统降低困难度的矢量量化系统7.67.6语音参数的矢量量化语音参数的矢量量化1.1.矢量量化的定义矢量量化的定义2.2.什么是失真测度?常用的失真测度有哪什么是失真测度?常用的失真测度有哪些?些?3.3.矢量量化器最佳设计的两个条件?矢量量化器最佳设计的两个条件?4.LBG算法算法 第七章思索题:第七章思索题:8.1 8.1 概述概述8.2 8.2 隐马尔可夫模型的引入隐马尔可夫模型的引入8.3 8.3 隐马尔可夫模型的定义隐马尔可夫模型的定义8.4 8.4 隐马尔可夫模型三项问题的求解隐马尔可夫模型三项问题的求解
12、1.1.什么叫做隐马尔可夫过程?为什什么叫做隐马尔可夫过程?为什么说语音信号可以看成隐马尔可夫过么说语音信号可以看成隐马尔可夫过程?隐马尔可夫模型有哪些模型参数程?隐马尔可夫模型有哪些模型参数?请叙述这些参数的含义和定义式。?请叙述这些参数的含义和定义式。2.HMM2.HMM模型的结构主要有哪两种?模型的结构主要有哪两种?主要用在什么场合?主要用在什么场合?3.3.转移概率矩阵的计算。转移概率矩阵的计算。第八章思索题第八章思索题语音检测分析语音检测分析语音特征参数的提取和分析。语音特征参数的提取和分析。主要包括:基音检测和共振峰参数的估值。主要包括:基音检测和共振峰参数的估值。简化逆滤波法(简
13、化逆滤波法(SIFTSIFT)基音检测基音检测倒谱法倒谱法自相关法自相关法共振峰估值共振峰估值1.带通滤波器法带通滤波器法2.DFT法法3.倒谱法倒谱法4.LPC法法1.1.基音检测的自相关法中的中心削波处理的思基音检测的自相关法中的中心削波处理的思路及实现过程?路及实现过程?2.2.用倒谱法实现基音检测和共振峰检测的原理用倒谱法实现基音检测和共振峰检测的原理?第九章思索第九章思索题题语音编码的概念、应用和分类等语音编码的概念、应用和分类等语音信号的压缩编码原理语音信号的压缩编码原理 对语音进行压缩编码的两个基本依据等对语音进行压缩编码的两个基本依据等 语音通信中的语音质量语音通信中的语音质量
14、 脉冲编码调制脉冲编码调制(PCM)及其自适应及其自适应 自适应量化分为前馈或反馈两种自适应量化分为前馈或反馈两种预料编码及其自适应预料编码及其自适应APC 自适应预料编码自适应预料编码APC系统框图、总量化误差系统框图、总量化误差 预料编码可以改善信噪比的缘由预料编码可以改善信噪比的缘由 短时预料和长时预料短时预料和长时预料自适应差分编码调制(自适应差分编码调制(ADPCM)1.1.在语音通信中,常将语音质量分为哪四等?在语音通信中,常将语音质量分为哪四等?2.2.语音信号能进行压缩编码的依据是什么?语语音信号能进行压缩编码的依据是什么?语音编码的分类?音编码的分类?3.3.自适应的限制量有
15、几个?限制方式有几种,自适应的限制量有几个?限制方式有几种,其特点是什么?其特点是什么?4.4.预料编码可以改善信噪比的缘由是什么?预料编码可以改善信噪比的缘由是什么?5.5.什么是短时预料和长时预料什么是短时预料和长时预料?第十章思索题第十章思索题 参数编码概念、与波形编码的不同参数编码概念、与波形编码的不同声码器的基本结构声码器的基本结构相位声码器和通道声码器相位声码器和通道声码器同态声码器同态声码器线性预料声码器线性预料声码器混合编码:混合编码:MPLPC、CELP原理、原理、传输码率计算等传输码率计算等第十一章第十一章 语音编码声码器技术及混合编码语音编码声码器技术及混合编码 语音合成
16、的概念、目的语音合成的概念、目的 语音合成系统与声码器中的语音合成器的区分语音合成系统与声码器中的语音合成器的区分 语音合成原理语音合成原理 语音合成的方法:波形合成法语音合成的方法:波形合成法、参数合成法规、参数合成法规则合成法则合成法 语音合成系统的特性语音合成系统的特性共振峰合成共振峰合成线性预料合成:形式有两种线性预料合成:形式有两种 用预料器系数用预料器系数ai干脆构成的递归型合成滤波干脆构成的递归型合成滤波器器 接受反射系数构成的格型合成滤波器接受反射系数构成的格型合成滤波器第十三章第十三章第十三章第十三章 语音识别语音识别语音识别语音识别 语音识别的概念、目的和分类语音识别的概念
17、、目的和分类 语音识别原理:语音识别原理:模式匹配原理、语音识别的步骤模式匹配原理、语音识别的步骤 框图理解框图理解动态时间规整(动态时间规整(DTW):):目的、原理目的、原理孤立词识别系统:孤立词识别系统:原理和框图理解原理和框图理解 端点检测的作用端点检测的作用1.什么是语音识别什么是语音识别?语音识别系统如何分类语音识别系统如何分类?当前当前,语音识语音识别的主流方法是什么别的主流方法是什么?2.语音识别系统由哪几个部分组成语音识别系统由哪几个部分组成?语音识别中常用的语语音识别中常用的语音特征参数有哪些音特征参数有哪些?3.什么是动态时间规整什么是动态时间规整?实际中实际中,它解决了
18、什么问题它解决了什么问题?4.孤立词识别系统框图孤立词识别系统框图?框图中框图中,参考模式库和模式识别参考模式库和模式识别的作用是什么的作用是什么?第十三章思索题第十三章思索题第十四章 说话人识别 说话人识别定义、目的和关键问题说话人识别定义、目的和关键问题说话人识别分类、应用说话人识别分类、应用特征提取特征提取 说话人识别所用的特征说话人识别所用的特征 特征类型的优选准则:特征类型的优选准则:F比作为有效性准则比作为有效性准则 说话人识别系统的结构:说话人识别系统的结构:组成、基本结构、说话人识别系统的性能评组成、基本结构、说话人识别系统的性能评价价 如:说话人确认系统最重要的两特性能指标:
19、如:说话人确认系统最重要的两特性能指标:错误拒绝率(错误拒绝率(FR)、错误接受率()、错误接受率(FA)说话人识别中的识别方法说话人识别中的识别方法 DTW型说话人识别系统:说话人确认系统型说话人识别系统:说话人确认系统 应用应用VQ的说话人识别系统:说话人分辨系统的说话人识别系统:说话人分辨系统1.说话人识别和语音识别的区分在什么地方说话人识别和语音识别的区分在什么地方?2.说话人确认和说话人分辨有什么不同?说话人确认和说话人分辨有什么不同?3.在说话人识别中,应选择哪些可以表征个人特征在说话人识别中,应选择哪些可以表征个人特征的识别参数?的识别参数?4.怎样评价说话人识别特征参数选取的好
20、坏?即怎样评价说话人识别特征参数选取的好坏?即F比比的物理意义?的物理意义?5.说话人确认系统最重要的两特性能指标是什么?说话人确认系统最重要的两特性能指标是什么?含义为什么?含义为什么?6.基于基于DTW和和VQ算法的系统框图理解。算法的系统框图理解。第十四章思索题第十四章思索题人类的语音是由人体发音器官在大脑限制下的人类的语音是由人体发音器官在大脑限制下的生理运动产生的;生理运动产生的;人的发音器官包括:肺、气管、喉、咽、鼻、人的发音器官包括:肺、气管、喉、咽、鼻、口等。口等。声带开启和闭合使气流形成一系列脉冲。声带开启和闭合使气流形成一系列脉冲。每开启和闭合一次的时间即振动周期称为每开启
21、和闭合一次的时间即振动周期称为基音周期,其倒数为基音频率,简称基频。基基音周期,其倒数为基音频率,简称基频。基频确定了声音频率的凹凸,频率快则音调高,频确定了声音频率的凹凸,频率快则音调高,频率慢则音调低。频率慢则音调低。基音的范围约为基音的范围约为70-350Hz,70-350Hz,与说话人的与说话人的性别、年龄等状况有关。性别、年龄等状况有关。语音由声带振动或不经声带振动来产生,其中:语音由声带振动或不经声带振动来产生,其中:由声带振动产生的音称为由声带振动产生的音称为浊音(浊音(Voice SpeechVoice Speech);不由声带振动产生的音称为不由声带振动产生的音称为清音清音(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 信号 处理 优秀 PPT
限制150内