最新语音声纹识别技术及应用.ppt
《最新语音声纹识别技术及应用.ppt》由会员分享,可在线阅读,更多相关《最新语音声纹识别技术及应用.ppt(92页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、最新语音声纹识别技术及应用最新语音声纹识别技术及应用20182018年年1 1月月语音声纹识别技术及应用主要内容主要内容声音处理技术语音识别技术声纹识别技术技术演示2语音声纹识别技术及应用声音处理声音处理声音处理声音处理声音的三要素声音的三要素声音的三要素声音的三要素 音质音质音质音质声音的三要素是音调、音色和音强声音的三要素是音调、音色和音强声音的三要素是音调、音色和音强声音的三要素是音调、音色和音强 vv音调代表声音的高低,与频率有关。频率越高,音调越高,反之亦然。音调代表声音的高低,与频率有关。频率越高,音调越高,反之亦然。音调代表声音的高低,与频率有关。频率越高,音调越高,反之亦然。音
2、调代表声音的高低,与频率有关。频率越高,音调越高,反之亦然。vv音色是声音的特色。影响声音特色的主要因素是复音,即具有不同频率和不音色是声音的特色。影响声音特色的主要因素是复音,即具有不同频率和不音色是声音的特色。影响声音特色的主要因素是复音,即具有不同频率和不音色是声音的特色。影响声音特色的主要因素是复音,即具有不同频率和不同振幅的混合声音。同振幅的混合声音。同振幅的混合声音。同振幅的混合声音。vv音强是声音的强度,也被称为声音的强度。音强与声波的振幅成正比,振音强是声音的强度,也被称为声音的强度。音强与声波的振幅成正比,振音强是声音的强度,也被称为声音的强度。音强与声波的振幅成正比,振音强
3、是声音的强度,也被称为声音的强度。音强与声波的振幅成正比,振幅越大,强度越大。幅越大,强度越大。幅越大,强度越大。幅越大,强度越大。vv对于数字音频信号,音质的好坏与数据采样频率和数据位数有关。对于数字音频信号,音质的好坏与数据采样频率和数据位数有关。对于数字音频信号,音质的好坏与数据采样频率和数据位数有关。对于数字音频信号,音质的好坏与数据采样频率和数据位数有关。vv音质与声音还原设备有关。音质与声音还原设备有关。音质与声音还原设备有关。音质与声音还原设备有关。vv音质与信号噪声比音质与信号噪声比音质与信号噪声比音质与信号噪声比(SNR)(SNR)(SNR)(SNR)有关有关有关有关。语音声
4、纹识别技术及应用文件文件文件文件数字化的音频文件主要分为数字化的音频文件主要分为数字化的音频文件主要分为数字化的音频文件主要分为4 4类:类:类:类:vv波形音频文件。一种最直接的表达声波的数字形式,文件扩展名是波形音频文件。一种最直接的表达声波的数字形式,文件扩展名是波形音频文件。一种最直接的表达声波的数字形式,文件扩展名是波形音频文件。一种最直接的表达声波的数字形式,文件扩展名是“.wav”wav”。vvMIDIMIDI音频文件。一种计算机数字音乐接口生成的数字描述音频文件,扩展名音频文件。一种计算机数字音乐接口生成的数字描述音频文件,扩展名音频文件。一种计算机数字音乐接口生成的数字描述音
5、频文件,扩展名音频文件。一种计算机数字音乐接口生成的数字描述音频文件,扩展名是是是是“.mid”mid”。vvCD-DACD-DA音频文件。标准激光盘文件,扩展名是音频文件。标准激光盘文件,扩展名是音频文件。标准激光盘文件,扩展名是音频文件。标准激光盘文件,扩展名是“.cda”.cda”。vv压缩音频文件。在数字音频领域,一种压缩音频文件。在数字音频领域,一种压缩音频文件。在数字音频领域,一种压缩音频文件。在数字音频领域,一种MP3MP3格式的压缩音频文件很流行,该格式的压缩音频文件很流行,该格式的压缩音频文件很流行,该格式的压缩音频文件很流行,该格式的文件简称格式的文件简称格式的文件简称格式
6、的文件简称MP3MP3文件。文件。文件。文件。声音处理声音处理声音处理声音处理语音声纹识别技术及应用声音处理声音处理声音处理声音处理获取声音获取声音获取声音获取声音获得获得获得获得CDCD中的声音中的声音中的声音中的声音 录音录音录音录音声音转换声音转换声音转换声音转换 如果希望把音乐如果希望把音乐如果希望把音乐如果希望把音乐CDCD中的歌曲或乐曲作为素材,需要把这些歌曲或乐曲转中的歌曲或乐曲作为素材,需要把这些歌曲或乐曲转中的歌曲或乐曲作为素材,需要把这些歌曲或乐曲转中的歌曲或乐曲作为素材,需要把这些歌曲或乐曲转换成计算机能够处理的数字化声音,这就是换成计算机能够处理的数字化声音,这就是换成
7、计算机能够处理的数字化声音,这就是换成计算机能够处理的数字化声音,这就是“采样采样采样采样”。可以使用。可以使用。可以使用。可以使用Easy CD-Easy CD-DA ExtractorDA Extractor、CoolEditCoolEdit等音频处理软件对音频进行编辑和处理。等音频处理软件对音频进行编辑和处理。等音频处理软件对音频进行编辑和处理。等音频处理软件对音频进行编辑和处理。要录制音质好的声音,有两个途径:使用性能优良的录音设备;采用较高要录制音质好的声音,有两个途径:使用性能优良的录音设备;采用较高要录制音质好的声音,有两个途径:使用性能优良的录音设备;采用较高要录制音质好的声音
8、,有两个途径:使用性能优良的录音设备;采用较高的采样频率。可以使用的采样频率。可以使用的采样频率。可以使用的采样频率。可以使用WindowsWindows系统自带的系统自带的系统自带的系统自带的“录音机录音机录音机录音机”进行录音。进行录音。进行录音。进行录音。声音的转换只能从高质量向低质量进行,声音的转换不需要专门的软件,声音的转换只能从高质量向低质量进行,声音的转换不需要专门的软件,声音的转换只能从高质量向低质量进行,声音的转换不需要专门的软件,声音的转换只能从高质量向低质量进行,声音的转换不需要专门的软件,使用使用使用使用WindowsWindows的的的的“录音机录音机录音机录音机”转
9、换即可,并且转换功能很强。转换即可,并且转换功能很强。转换即可,并且转换功能很强。转换即可,并且转换功能很强。如果要进一步处理,可采用如果要进一步处理,可采用如果要进一步处理,可采用如果要进一步处理,可采用CoolEdit(Adobe AuditionCoolEdit(Adobe AuditionCoolEdit(Adobe AuditionCoolEdit(Adobe Audition)工具软件。)工具软件。)工具软件。)工具软件。语音声纹识别技术及应用短时能量和过零率短时能量和过零率语音分帧语音分帧每帧10-30ms,帧间隔10ms短时能量短时能量对数平方和绝对值过零率过零率(ZCR)6语
10、音声纹识别技术及应用参数提取的预处理参数提取的预处理预加重:预加重:减少尖锐噪声影响,提升高频部分减少尖锐噪声影响,提升高频部分加窗:加窗:Hamming 减少减少Gibbs效应效应7语音声纹识别技术及应用各种参数的比较各种参数的比较Linear Prediction Cepstrum Coefficients(LPCC)假定所处理信号为自回归信号(不适用辅音);计算简单,但抗噪性差。Mel-Frequency Cepstrum Coefficients(MFCC)模拟人的听觉模型;强调低频部分,屏蔽噪声影响;识别率高,但计算量大。能量能量辅助作用,需归一化。音调音调对算法要求高,适于二次判别
11、。8语音声纹识别技术及应用Mel-频率频率目的:模拟人耳对不同频率语音的感知目的:模拟人耳对不同频率语音的感知人类对不同频率语音有不同的感知能力人类对不同频率语音有不同的感知能力1kHz以下,与频率成线性关系1kHz以上,与频率成对数关系Mel频率定义频率定义1Mel1kHz音调感知程度的1/10009语音声纹识别技术及应用Mel-频率频率公式:公式:频率频率Mel-频率:频率:-频率-Mel-频率Mel-频率频率(Hz)10语音声纹识别技术及应用MFCC计算流程:计算流程:11DFT时域信号线性谱域Mel滤波器组LogDCTMel谱域对数谱域MFCC语音声纹识别技术及应用主要内容主要内容声音
12、处理技术语音识别技术声纹识别技术技术演示12语音声纹识别技术及应用语音识别语音识别Automatic Speech Recognition(ASR)的中文含意是自动语音识别。语音识别技的中文含意是自动语音识别。语音识别技术的目标是让机器能够术的目标是让机器能够“听懂听懂”不同人说不同人说的话,实现从声音到文字的转换。的话,实现从声音到文字的转换。13语音声纹识别技术及应用语音识别语音识别基本术语基本术语特定人和非特定人(话者相关或话者无关)特定人和非特定人(话者相关或话者无关)词汇量(大,小)词汇量(大,小)孤立词,连接词,关键词和连续语音孤立词,连接词,关键词和连续语音自然发音和朗读发音自然
13、发音和朗读发音口音(方言)口音(方言)背景噪音(环境噪音)背景噪音(环境噪音)信道差异(固定电话,麦克,手机等)信道差异(固定电话,麦克,手机等)声学模型(声学模型(HMM,mono-phone,bi-phone,tri-phone)声学特征(声学特征(MFCC)解码(解码(Viterbi)14语音声纹识别技术及应用语音识别语音识别基本术语基本术语识别指标:识别指标:SER(Sentence Error Rate,句子错误率)WER(Word Error Rate,词错误率)CER(Character Error Rate,字错误率)PER(Phone Error Rate,音节错误率)采样率
14、,采样率,8kHz(电话或手机),(电话或手机),16kHz(麦克风)(麦克风)时域,频域时域,频域端点检测,静音检测或有效音检测(端点检测,静音检测或有效音检测(VAD)15语音声纹识别技术及应用语音识别语音识别分类分类孤立词识别识别单元是有限的,单个的词;优点:速度快,识别正确率高缺点:应用范围窄,不能识别词表外的词应用案例:语音命令,手机语音拨号连续语音识别识别单元可以是字,词或者句子优点:应用范围广缺点:速度慢,识别率不高,尤其是词表较大的时候应用案例:语音翻译,语音短信,听写机,语音邮件关键词识别识别单元是词,判断输入语音中是否含有词表中的词优点:能够处理连续语音,词表可定制缺点:速
15、度较慢,词表越大,错误率越多应用案例:电话呼叫服务,电话安全监听16语音声纹识别技术及应用语音识别发展历史语音识别发展历史 50年代年代AT&T Bell Lab,可识别,可识别10个英文数字个英文数字60年年代代LP较较好好地地解解决决了了语语音音信信号号产产生生模模型型,DP则则有有效效解解决决了不等长语音的匹配问题。了不等长语音的匹配问题。70年年代代DTW(Dynamic Time Warp)技技术术基基本本成成熟熟,实实现现了了基基于于LPC和和DTW技技术术相相结结合合的的特特定定人人孤孤立立词词语语音音识识别别系系统。统。80年年代代HMM模模型型和和人人工工神神经经元元网网络络
16、(ANN)在在语语音音识识别别中中成成功功应应用用。1988年年美美国国CMU大大学学基基于于VQ/HMM开开发发SI-CSR系统系统 SPHINX。90年代大规模应用,工业标准,理论进展缓慢。年代大规模应用,工业标准,理论进展缓慢。17语音声纹识别技术及应用语音识别语音识别潜在应用潜在应用语音监听语音拨号语音命令语音导航语音搜索语音听写语音翻译18语音声纹识别技术及应用语音识别系统框架语音识别系统框架19特征提取训练模式匹配拒识语法模型结果语音说话人自适应语音声纹识别技术及应用语音识别过程语音识别过程20语音声纹识别技术及应用HMM基础基础(1)隐含隐含Markov模型模型观测可见,状态隐含
17、基本要素基本要素N -模型状态数=i-初始概率分布A=aij -状态转移矩阵B=bj(k)-输出概率矩阵21语音声纹识别技术及应用HMM基础基础(2)转移概率矩阵转移概率矩阵aij状态i到状态j发生跳转的概率22语音声纹识别技术及应用HMM基础基础(3)输出概率输出概率bi(x)x属于状态i的概率23语音声纹识别技术及应用HMM基础基础(4)HMM的三个基本问题的三个基本问题 -模型评估问题模型评估问题(如何求:如何求:P(O|)-最佳路径问题最佳路径问题(如何求:如何求:Q=q1q2qT)-模型训练问题模型训练问题(如何求:如何求:A、B、)24语音声纹识别技术及应用模型评估问题模型评估问题
18、(如何求:如何求:P(O|)前向概率前向概率给定HMM参数 ,在t时刻处于状态i,部分观察序列为o1o2ot 的概率后向概率后向概率给定HMM参数 ,在t时刻处于状态i,部分观察序列为ot+1ot+2oT 的概率25语音声纹识别技术及应用模型评估问题模型评估问题(如何求:如何求:P(O|)前向和后向递推的示意图前向和后向递推的示意图26语音声纹识别技术及应用最佳路径问题最佳路径问题(如何求:如何求:Q=q1q2qT)前向后向算法的缺点前向后向算法的缺点计算量的浪费状态路径不能明确判定Viterbi算法算法不完全的状态空间搜索保留状态转移路径的信息27语音声纹识别技术及应用最佳路径问题最佳路径问
19、题(如何求:如何求:Q=q1q2qT)Viterbi算法的搜索空间算法的搜索空间28语音声纹识别技术及应用Viterbi识别算法和路径回溯识别算法和路径回溯29语音声纹识别技术及应用模型训练问题模型训练问题(如何求:如何求:A、B、)优化问题优化问题优化目标:P(O|)最大Lagrange数乘法,辅助函数:30语音声纹识别技术及应用Baum-Welch参数重估算法:参数重估算法:31模型训练问题模型训练问题(如何求:如何求:A、B、)语音声纹识别技术及应用连续连续HMM算法算法连续的含义连续的含义参数重估参数重估识别算法识别算法32语音声纹识别技术及应用“连续连续”的含义的含义连续混合高斯概率
20、密度函数连续混合高斯概率密度函数(pdf):每个状态表示为若干函数fn(x)的线性组合fn(x)是连续高斯概率密度函数33语音声纹识别技术及应用连续连续HMM参数重估参数重估(1)需要重估的参数:需要重估的参数:起始概率转移概率各状态中不同pdf的权各状态中不同pdf的均值和方差34语音声纹识别技术及应用连续连续HMM参数重估参数重估(2)t时刻序列处于状态时刻序列处于状态j、混合高斯密度、混合高斯密度l的概的概率率35语音声纹识别技术及应用连续连续HMM参数重估参数重估(3)pdf的无溢出参数重估公式的无溢出参数重估公式36语音声纹识别技术及应用识别算法识别算法概率计算概率计算:P(O|)V
21、iterbi算法算法对数形式与离散HMM相似,只需替换bjl(x)37语音声纹识别技术及应用实际实际HMM系统的具体问题系统的具体问题起始概率的问题起始概率的问题转移概率的问题转移概率的问题模型的自适应模型的自适应区别性训练区别性训练38语音声纹识别技术及应用起始概率的问题起始概率的问题自左向右结构的自左向右结构的HMM,起始概率为:起始概率为:1,0,0,0即:只能从第一个状态开始39语音声纹识别技术及应用转移概率的问题转移概率的问题大量实验证明:转移概率对识别性能的影大量实验证明:转移概率对识别性能的影响是微不足道的响是微不足道的训练过程中,常常将其设定为常数:训练过程中,常常将其设定为常
22、数:aij=0.5识别过程中,不进行识别过程中,不进行log(aij)的累加的累加仅考虑仅考虑bi(.)的作用的作用40语音声纹识别技术及应用模型的自适应模型的自适应(1)自适应的必要性自适应的必要性口音感冒.MAP自适应算法自适应算法MAP:最大后验概率准则本质上是重新训练一次,对原B矩阵进行微调特点:简单,对每个HMM单独自适应,只需一次发音41语音声纹识别技术及应用模型的自适应模型的自适应(2)MLLR算法算法MLLR:最大似然线性回归本质:将原模型的参数进行线性变换后再进行识别特点:少量语音可以对所有模型进行自适应,只要得到线性变换矩阵即可42语音声纹识别技术及应用区别性训练区别性训练
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 语音 声纹 识别 技术 应用
限制150内