《语音声纹识别技术及应用幻灯片.ppt》由会员分享,可在线阅读,更多相关《语音声纹识别技术及应用幻灯片.ppt(75页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、语音声音声纹识别技技术及及应用用第1页,共75页,编辑于2022年,星期三主要内容主要内容声音处理技术语音识别技术声纹识别技术技术演示2第2页,共75页,编辑于2022年,星期三声音处理声音处理声音处理声音处理 声音的三要素声音的三要素声音的三要素声音的三要素 音质音质音质音质声音的三要素是音调、音色和音强声音的三要素是音调、音色和音强声音的三要素是音调、音色和音强声音的三要素是音调、音色和音强 音调代表声音的高低,与频率有关。频率越高,音调越高,反之亦然。音调代表声音的高低,与频率有关。频率越高,音调越高,反之亦然。音调代表声音的高低,与频率有关。频率越高,音调越高,反之亦然。音调代表声音的
2、高低,与频率有关。频率越高,音调越高,反之亦然。音色是声音的特色。影响声音特色的主要因素是复音,即具有不同频率和不同振幅的混合声音。音色是声音的特色。影响声音特色的主要因素是复音,即具有不同频率和不同振幅的混合声音。音色是声音的特色。影响声音特色的主要因素是复音,即具有不同频率和不同振幅的混合声音。音色是声音的特色。影响声音特色的主要因素是复音,即具有不同频率和不同振幅的混合声音。音强是声音的强度,也被称为声音的强度。音强与声波的振幅成正比,振幅越大,音强是声音的强度,也被称为声音的强度。音强与声波的振幅成正比,振幅越大,音强是声音的强度,也被称为声音的强度。音强与声波的振幅成正比,振幅越大,
3、音强是声音的强度,也被称为声音的强度。音强与声波的振幅成正比,振幅越大,强度越大。强度越大。强度越大。强度越大。对于数字音频信号,音质的好坏与数据采样频率和数据位数有关。对于数字音频信号,音质的好坏与数据采样频率和数据位数有关。对于数字音频信号,音质的好坏与数据采样频率和数据位数有关。对于数字音频信号,音质的好坏与数据采样频率和数据位数有关。音质与声音还原设备有关。音质与声音还原设备有关。音质与声音还原设备有关。音质与声音还原设备有关。音质与信号噪声比音质与信号噪声比音质与信号噪声比音质与信号噪声比(SNR)(SNR)(SNR)(SNR)有关有关有关有关。第3页,共75页,编辑于2022年,星
4、期三 文件文件文件文件数字化的音频文件主要分为数字化的音频文件主要分为数字化的音频文件主要分为数字化的音频文件主要分为4 4类:类:类:类:波形音频文件。一种最直接的表达声波的数字形式,文件扩展名是波形音频文件。一种最直接的表达声波的数字形式,文件扩展名是波形音频文件。一种最直接的表达声波的数字形式,文件扩展名是波形音频文件。一种最直接的表达声波的数字形式,文件扩展名是“.wav”wav”。MIDIMIDI音频文件。一种计算机数字音乐接口生成的数字描述音频文件,扩展名是音频文件。一种计算机数字音乐接口生成的数字描述音频文件,扩展名是音频文件。一种计算机数字音乐接口生成的数字描述音频文件,扩展名
5、是音频文件。一种计算机数字音乐接口生成的数字描述音频文件,扩展名是“.mid”mid”。CD-DACD-DA音频文件。标准激光盘文件,扩展名是音频文件。标准激光盘文件,扩展名是音频文件。标准激光盘文件,扩展名是音频文件。标准激光盘文件,扩展名是“.cda”.cda”。压缩音频文件。在数字音频领域,一种压缩音频文件。在数字音频领域,一种压缩音频文件。在数字音频领域,一种压缩音频文件。在数字音频领域,一种MP3MP3格式的压缩音频文件很流行,该格式的文件简称格式的压缩音频文件很流行,该格式的文件简称格式的压缩音频文件很流行,该格式的文件简称格式的压缩音频文件很流行,该格式的文件简称MP3MP3文件
6、。文件。文件。文件。声音处理声音处理声音处理声音处理第4页,共75页,编辑于2022年,星期三声音处理声音处理声音处理声音处理获取声音获取声音获取声音获取声音 获得获得获得获得CDCD中的声音中的声音中的声音中的声音 录音录音录音录音 声音转换声音转换声音转换声音转换 如果希望把音乐如果希望把音乐如果希望把音乐如果希望把音乐CDCD中的歌曲或乐曲作为素材,需要把这些歌曲或乐曲转换成计中的歌曲或乐曲作为素材,需要把这些歌曲或乐曲转换成计中的歌曲或乐曲作为素材,需要把这些歌曲或乐曲转换成计中的歌曲或乐曲作为素材,需要把这些歌曲或乐曲转换成计算机能够处理的数字化声音,这就是算机能够处理的数字化声音,
7、这就是算机能够处理的数字化声音,这就是算机能够处理的数字化声音,这就是“采样采样采样采样”。可以使用。可以使用。可以使用。可以使用Easy CD-DA ExtractorEasy CD-DA Extractor、CoolEditCoolEdit等音频处理软件对音频进行编辑和处理。等音频处理软件对音频进行编辑和处理。等音频处理软件对音频进行编辑和处理。等音频处理软件对音频进行编辑和处理。要录制音质好的声音,有两个途径:使用性能优良的录音设备;采用较高的采要录制音质好的声音,有两个途径:使用性能优良的录音设备;采用较高的采要录制音质好的声音,有两个途径:使用性能优良的录音设备;采用较高的采要录制音
8、质好的声音,有两个途径:使用性能优良的录音设备;采用较高的采样频率。可以使用样频率。可以使用样频率。可以使用样频率。可以使用WindowsWindows系统自带的系统自带的系统自带的系统自带的“录音机录音机录音机录音机”进行录音。进行录音。进行录音。进行录音。声音的转换只能从高质量向低质量进行,声音的转换不需要专门的软件,使用声音的转换只能从高质量向低质量进行,声音的转换不需要专门的软件,使用声音的转换只能从高质量向低质量进行,声音的转换不需要专门的软件,使用声音的转换只能从高质量向低质量进行,声音的转换不需要专门的软件,使用WindowsWindows的的的的“录音机录音机录音机录音机”转换
9、即可,并且转换功能很强。转换即可,并且转换功能很强。转换即可,并且转换功能很强。转换即可,并且转换功能很强。如果要进一步处理,可采用如果要进一步处理,可采用如果要进一步处理,可采用如果要进一步处理,可采用CoolEdit(Adobe AuditionCoolEdit(Adobe AuditionCoolEdit(Adobe AuditionCoolEdit(Adobe Audition)工具软件。)工具软件。)工具软件。)工具软件。第5页,共75页,编辑于2022年,星期三短时能量和过零率短时能量和过零率语音分帧语音分帧每帧10-30ms,帧间隔10ms短时能量短时能量对数平方和绝对值过零率过
10、零率(ZCR)6第6页,共75页,编辑于2022年,星期三参数提取的预处理参数提取的预处理预加重:预加重:减少尖锐噪声影响,提升高频部分减少尖锐噪声影响,提升高频部分加窗:加窗:Hamming 减少减少Gibbs效应效应7第7页,共75页,编辑于2022年,星期三各种参数的比较各种参数的比较Linear Prediction Cepstrum Coefficients(LPCC)假定所处理信号为自回归信号(不适用辅音);计算简单,但抗噪性差。Mel-Frequency Cepstrum Coefficients(MFCC)模拟人的听觉模型;强调低频部分,屏蔽噪声影响;识别率高,但计算量大。能量
11、能量辅助作用,需归一化。音调音调对算法要求高,适于二次判别。8第8页,共75页,编辑于2022年,星期三Mel-频率频率目的:模拟人耳对不同频率语音的感知目的:模拟人耳对不同频率语音的感知人类对不同频率语音有不同的感知能力人类对不同频率语音有不同的感知能力1kHz以下,与频率成线性关系1kHz以上,与频率成对数关系Mel频率定义频率定义1Mel1kHz音调感知程度的1/10009第9页,共75页,编辑于2022年,星期三Mel-频率频率公式:公式:频率频率Mel-频率:频率:-频率-Mel-频率Mel-频率频率(Hz)10第10页,共75页,编辑于2022年,星期三MFCC计算流程:计算流程:
12、11DFT时域信号线性谱域Mel滤波器组LogDCTMel谱域对数谱域MFCC第11页,共75页,编辑于2022年,星期三主要内容主要内容声音处理技术语音识别技术声纹识别技术技术演示12第12页,共75页,编辑于2022年,星期三语音识别语音识别Automatic Speech Recognition(ASR)的中的中文含意是自动语音识别。语音识别技术的目标文含意是自动语音识别。语音识别技术的目标是让机器能够是让机器能够“听懂听懂”不同人说的话,实现从不同人说的话,实现从声音到文字的转换。声音到文字的转换。13第13页,共75页,编辑于2022年,星期三语音识别语音识别基本术语基本术语特定人和
13、非特定人(话者相关或话者无关)特定人和非特定人(话者相关或话者无关)词汇量(大,小)词汇量(大,小)孤立词,连接词,关键词和连续语音孤立词,连接词,关键词和连续语音自然发音和朗读发音自然发音和朗读发音口音(方言)口音(方言)背景噪音(环境噪音)背景噪音(环境噪音)信道差异(固定电话,麦克,手机等)信道差异(固定电话,麦克,手机等)声学模型(声学模型(HMM,mono-phone,bi-phone,tri-phone)声学特征(声学特征(MFCC)解码(解码(Viterbi)14第14页,共75页,编辑于2022年,星期三语音识别语音识别基本术语基本术语识别指标:识别指标:SER(Sentenc
14、e Error Rate,句子错误率)WER(Word Error Rate,词错误率)CER(Character Error Rate,字错误率)PER(Phone Error Rate,音节错误率)采样率,采样率,8kHz(电话或手机),(电话或手机),16kHz(麦克风)(麦克风)时域,频域时域,频域端点检测,静音检测或有效音检测(端点检测,静音检测或有效音检测(VAD)15第15页,共75页,编辑于2022年,星期三语音识别语音识别分类分类 孤立词识别识别单元是有限的,单个的词;优点:速度快,识别正确率高缺点:应用范围窄,不能识别词表外的词应用案例:语音命令,手机语音拨号 连续语音识别
15、识别单元可以是字,词或者句子优点:应用范围广缺点:速度慢,识别率不高,尤其是词表较大的时候应用案例:语音翻译,语音短信,听写机,语音邮件 关键词识别识别单元是词,判断输入语音中是否含有词表中的词优点:能够处理连续语音,词表可定制缺点:速度较慢,词表越大,错误率越多应用案例:电话呼叫服务,电话安全监听16第16页,共75页,编辑于2022年,星期三语音识别发展历史语音识别发展历史 50年代年代AT&T Bell Lab,可识别,可识别10个英文数字个英文数字60年年代代LP较较好好地地解解决决了了语语音音信信号号产产生生模模型型,DP则则有有效效解解决决了了不不等等长长语音的匹配问题。语音的匹配
16、问题。70年年代代DTW(Dynamic Time Warp)技技术术基基本本成成熟熟,实实现现了了基于基于LPC和和DTW技术相结合的特定人孤立词语音识别系统。技术相结合的特定人孤立词语音识别系统。80年年代代HMM模模型型和和人人工工神神经经元元网网络络(ANN)在在语语音音识识别别中中成成功功应应用用。1988年年美美国国CMU大大学学基基于于VQ/HMM开开发发SI-CSR系系统统 SPHINX。90年代大规模应用,工业标准,理论进展缓慢。年代大规模应用,工业标准,理论进展缓慢。17第17页,共75页,编辑于2022年,星期三语音识别语音识别潜在应用潜在应用语音监听语音拨号语音命令语音
17、导航语音搜索语音听写语音翻译18第18页,共75页,编辑于2022年,星期三语音识别系统框架语音识别系统框架19特征提取训练模式匹配拒识语法模型结果语音说话人自适应第19页,共75页,编辑于2022年,星期三语音识别过程语音识别过程20第20页,共75页,编辑于2022年,星期三HMM基础基础(1)隐含隐含Markov模型模型观测可见,状态隐含基本要素基本要素N -模型状态数=i-初始概率分布A=aij -状态转移矩阵B=bj(k)-输出概率矩阵21第21页,共75页,编辑于2022年,星期三HMM基础基础(2)转移概率矩阵转移概率矩阵aij状态i到状态j发生跳转的概率22第22页,共75页,
18、编辑于2022年,星期三HMM基础基础(3)输出概率输出概率bi(x)x属于状态i的概率23第23页,共75页,编辑于2022年,星期三HMM基础基础(4)HMM的三个基本问题的三个基本问题 -模型评估问题模型评估问题(如何求:如何求:P(O|)P(O|)-最佳路径问题最佳路径问题(如何求:如何求:Q=qQ=q1 1q q2 2q qT T)-模型训练问题模型训练问题(如何求:如何求:A A、B B、)24第24页,共75页,编辑于2022年,星期三模型评估问题模型评估问题(如何求:如何求:P(O|)P(O|)前向概率前向概率给定HMM参数 ,在t时刻处于状态i,部分观察序列为o1o2ot 的
19、概率后向概率后向概率给定HMM参数 ,在t时刻处于状态i,部分观察序列为ot+1ot+2oT 的概率25第25页,共75页,编辑于2022年,星期三模型评估问题模型评估问题(如何求:如何求:P(O|)P(O|)前向和后向递推的示意图前向和后向递推的示意图26第26页,共75页,编辑于2022年,星期三最佳路径问题最佳路径问题(如何求:如何求:Q=qQ=q1 1q q2 2q qT T)前向后向算法的缺点前向后向算法的缺点计算量的浪费状态路径不能明确判定Viterbi算法算法不完全的状态空间搜索保留状态转移路径的信息27第27页,共75页,编辑于2022年,星期三最佳路径问题最佳路径问题(如何求
20、:如何求:Q=qQ=q1 1q q2 2q qT T)Viterbi算法的搜索空间算法的搜索空间28第28页,共75页,编辑于2022年,星期三Viterbi识别算法和路径回溯识别算法和路径回溯29第29页,共75页,编辑于2022年,星期三模型训练问题模型训练问题(如何求:如何求:A A、B B、)优化问题优化问题优化目标:P(O|)最大Lagrange数乘法,辅助函数:30第30页,共75页,编辑于2022年,星期三Baum-Welch参数重估算法:参数重估算法:31模型训练问题模型训练问题(如何求:如何求:A、B、)第31页,共75页,编辑于2022年,星期三连续连续HMM算法算法连续的
21、含义连续的含义参数重估参数重估识别算法识别算法32第32页,共75页,编辑于2022年,星期三“连续连续”的含义的含义连续混合高斯概率密度函数连续混合高斯概率密度函数(pdf):每个状态表示为若干函数fn(x)的线性组合fn(x)是连续高斯概率密度函数33第33页,共75页,编辑于2022年,星期三连续连续HMM参数重估参数重估(1)需要重估的参数:需要重估的参数:起始概率转移概率各状态中不同pdf的权各状态中不同pdf的均值和方差34第34页,共75页,编辑于2022年,星期三连续连续HMM参数重估参数重估(2)t时刻序列处于状态时刻序列处于状态j、混合高斯密度、混合高斯密度l的概率的概率3
22、5第35页,共75页,编辑于2022年,星期三连续连续HMM参数重估参数重估(3)pdf的无溢出参数重估公式的无溢出参数重估公式36第36页,共75页,编辑于2022年,星期三识别算法识别算法概率计算概率计算:P(O|)Viterbi算法算法对数形式与离散HMM相似,只需替换bjl(x)37第37页,共75页,编辑于2022年,星期三实际实际HMM系统的具体问题系统的具体问题起始概率的问题起始概率的问题转移概率的问题转移概率的问题模型的自适应模型的自适应区别性训练区别性训练38第38页,共75页,编辑于2022年,星期三起始概率的问题起始概率的问题自左向右结构的自左向右结构的HMM,起始概率为
23、:,起始概率为:1,0,0,0即:只能从第一个状态开始39第39页,共75页,编辑于2022年,星期三转移概率的问题转移概率的问题大量实验证明:转移概率对识别性能的影大量实验证明:转移概率对识别性能的影响是微不足道的响是微不足道的训练过程中,常常将其设定为常数:训练过程中,常常将其设定为常数:aij=0.5识别过程中,不进行识别过程中,不进行log(aij)的累加的累加仅考虑仅考虑bi(.)的作用的作用40第40页,共75页,编辑于2022年,星期三模型的自适应模型的自适应(1)自适应的必要性自适应的必要性口音感冒.MAP自适应算法自适应算法MAP:最大后验概率准则本质上是重新训练一次,对原B
24、矩阵进行微调特点:简单,对每个HMM单独自适应,只需一次发音41第41页,共75页,编辑于2022年,星期三模型的自适应模型的自适应(2)MLLR算法算法MLLR:最大似然线性回归本质:将原模型的参数进行线性变换后再进行识别特点:少量语音可以对所有模型进行自适应,只要得到线性变换矩阵即可42第42页,共75页,编辑于2022年,星期三区别性训练区别性训练传统传统HMM训练算法的缺陷训练算法的缺陷MCE算法算法MCE:最小分类误差准则使用场合:小词表识别系统需要细致调整算法参数,才能保证收敛43第43页,共75页,编辑于2022年,星期三中文语音识别的特点中文语音识别的特点 相对于西方语言来说,
25、中文有自己的独特之处。中文是相对于西方语言来说,中文有自己的独特之处。中文是有调语言,发音的基本单元是声母和韵母并且以音节为有调语言,发音的基本单元是声母和韵母并且以音节为自然单位,一个音节就是一个字甚至词,以至字词的时自然单位,一个音节就是一个字甚至词,以至字词的时长很短,混淆度更大。长很短,混淆度更大。另外,中文用另外,中文用415415个基本的无调音节来构成个基本的无调音节来构成70007000多个多个基本汉字的发音,多音字很多。基本汉字的发音,多音字很多。特别是,中文的发音和字是独立的,仅仅是中国大陆地特别是,中文的发音和字是独立的,仅仅是中国大陆地区就有很多的方言,区就有很多的方言,
26、口音问题口音问题非常严重。特别是在做中非常严重。特别是在做中文孤立词和短语命令识别的时候,由于没有上下文的信文孤立词和短语命令识别的时候,由于没有上下文的信息并且语音的长度很短,口音会严重地降低识别率。息并且语音的长度很短,口音会严重地降低识别率。44第44页,共75页,编辑于2022年,星期三中文语音建模基元比较中文语音建模基元比较45第45页,共75页,编辑于2022年,星期三语音识别应用举例语音识别应用举例嵌入式语音识别:智能玩具:语音对话娃娃、语音声控机器人智能家电:语音识别台灯、语音识别插座智能手机:语音拨号电话语音识别:语音电话簿:电信增值智能语音总机:企业应用46第46页,共75
27、页,编辑于2022年,星期三嵌入式语音识别嵌入式语音识别47第47页,共75页,编辑于2022年,星期三智能玩具智能玩具语音对话娃娃语音对话娃娃序号序号问句句应答句答句1你好3条2你叫什么名字?3条3你从哪里来?3条4你会什么?1条5背首诗15首诗6讲个故事6个故事7我要听笑话4个笑话8唱首歌5首歌曲9来首英文歌5首英文歌10你喜欢玩什么?5条11你好可爱3条12我很喜欢你3条第48页,共75页,编辑于2022年,星期三智能玩具智能玩具语音声控机器人语音声控机器人问句问句回答回答前进前进后退后退左转左转右转右转跳舞跳舞第49页,共75页,编辑于2022年,星期三语音增值业务语音增值业务企业电话
28、簿:会议通知、语音信箱、传真信箱、企业邮箱、企业电话簿:会议通知、语音信箱、传真信箱、企业邮箱、信息发布、定向广告。信息发布、定向广告。个人电话簿:个人邮件、数据同步、资讯定制、个人财经、个人电话簿:个人邮件、数据同步、资讯定制、个人财经、业务定制。业务定制。语音门户:天气、股票、航班查询。语音门户:天气、股票、航班查询。50第50页,共75页,编辑于2022年,星期三主要内容主要内容声音处理技术语音识别技术声纹识别技术技术演示51第51页,共75页,编辑于2022年,星期三生物识别技术优势生物识别技术优势第52页,共75页,编辑于2022年,星期三生物识别技术比较生物识别技术比较 错误接受率
29、错误拒绝率容易实用性处理速度/人指纹识别很低较低好2s-5s掌纹识别低5%使用困难5s-10s人脸识别低0.2%非常好5s虹膜识别很低约10%需要培训才能使用,手工操作对虹膜有困难 仪器自动对准虹膜需要3s-5s,手工操作需要5s-25s视网膜识别未知未知不好15s-30s声纹识别低低可以1s-3s签名识别低10%一般5s-10s第53页,共75页,编辑于2022年,星期三声纹识别技术声纹识别技术声纹识别(又称说话人识别)技术声纹识别(又称说话人识别)技术是从说话人发出的是从说话人发出的语音信号中提取声纹信息,并对说话人进行身份验语音信号中提取声纹信息,并对说话人进行身份验证的生物识别技术。证
30、的生物识别技术。第54页,共75页,编辑于2022年,星期三声纹识别声纹识别基本术语基本术语类型分类:文本相关(Text-dependent)文本无关(Text-dependent)任务分类:说话人辨认(Speaker Identification)说话人确认(Speaker Verification)UBM(Universal Background Model),通用背景模型GMM(Gaussian Mixture Model),高斯混合模型背景噪音(环境噪音)信道差异(固定电话,手机,麦克风)身体差异,语速快慢,时间间隔第55页,共75页,编辑于2022年,星期三声纹识别声纹识别基本术语基
31、本术语FAR(False Accept Rate),错误接受率;FRR(False Reject Rate),错误拒绝率。EER(Equal Error Rate),等错误率;即FAR=FRR时的错误率。多说话人识别,分割第56页,共75页,编辑于2022年,星期三声纹识别声纹识别基本术语基本术语0.1 0.2 0.5 1 2 5 10 20 404020105210.50.20.1错 误 接 受 的 概 率 (%)错 误 拒绝的 概 率 (%)等错误率(ERR)=1%平衡点减少错误接受的可能,提高系统的安全。但是由于错误拒绝率高,会给用户使用带来不便。高安全性高方便性对于安全性要求不高的应用
32、场景,可以适当提高错误接受率,使得用户容易进入系统。DET(Detection Error Tradeoff)曲线第57页,共75页,编辑于2022年,星期三经典模型经典模型GMM(1)GMM高斯混合模型基本原理:基本原理:根据从语音信号中提取的特征参数,为每一个说话人建立一个GMM。为处 理的方便,人为的使不同说话人的模 型的概率密度函数在形式上都是一样 的,不同的只是函数中的参数。优优 点:点:简单高效,可以很好的描述从语音信 号中提取的特征参数等不规则的数据。GMM是当今应用于说话人识别的最主流模型第58页,共75页,编辑于2022年,星期三经典模型经典模型GMM(2)一个M阶高斯混合模
33、型的概率密度函数是由M个高斯概率密度函数加权求和得到,如下:其中M是混合模型的阶数,X是一个D维随机向量wi是混合权重,满足:bi(X)是子分布,每个子分布是D维的联合高斯概率分布,表示为:是均值向量,是协方差矩阵第59页,共75页,编辑于2022年,星期三经典模型经典模型GMM(3)完整的高斯混合模型由参数均值向量、协方差矩阵和混合权重共同描述。因此,一个模型可表示为如下一个三元组:GMM计算结构:第60页,共75页,编辑于2022年,星期三经典模型经典模型GMM(4)GMM的说话人鉴别(Speaker Identification)系统第61页,共75页,编辑于2022年,星期三UBMUB
34、M通用背景模型 UBM也是一个GMM,只是这个GMM需要用 大量的 不同说话人的语音数据经过训练来表 示说话 人无关的特征分布,这种特征是大多 数说话人的共性特征共性特征。第62页,共75页,编辑于2022年,星期三GMM-UBM建模 说话人需要建立自己的模型时,就可以通过 自适应UBM来得到个性特征,即修正后的参 数,从而得到自己的GMM。GMM-UBM优点实现信道均衡少量训练数据得到比较理想的说话人模型第63页,共75页,编辑于2022年,星期三说话人确认系统说话人确认系统GMM-UBM说话人确认系统第64页,共75页,编辑于2022年,星期三研究热点研究热点技术难题:技术难题:跨信道、噪
35、声跨信道、噪声 实验室理想条件实验室理想条件 实际应用场合(远程、噪声背景)实际应用场合(远程、噪声背景)训练阶段训练阶段识别阶段识别阶段第65页,共75页,编辑于2022年,星期三解决办法解决办法信道补偿信道补偿支持向量机(支持向量机(SVM)联合因子分析(联合因子分析(JFA)迁移学习(迁移学习(Transfer Learning)第66页,共75页,编辑于2022年,星期三SVM训练训练第67页,共75页,编辑于2022年,星期三声纹识别声纹识别应用产品应用产品USB USB Voice Voice KeyKey声纹证件声纹证件公安系公安系统统银行系银行系统统第68页,共75页,编辑于2
36、022年,星期三声纹监听多人识别声纹比对银行(电话,网上)证券银行卡,身份卡声纹密匙高档酒店,会员俱乐部,贵族商城等玩具汽车个人电脑(家庭分级密码)公安领域?金融领域?生活领域 声纹识别声纹识别潜在应用潜在应用第69页,共75页,编辑于2022年,星期三典型应用典型应用司法鉴定司法鉴定 我们开发的智能声纹识别系统,已成功应用在司法鉴我们开发的智能声纹识别系统,已成功应用在司法鉴定等领域。定等领域。目前已成功完成多个声纹鉴定(同一性认定)、声音完整性认定目前已成功完成多个声纹鉴定(同一性认定)、声音完整性认定等项目,为司法部门提供了可靠的判断依据。等项目,为司法部门提供了可靠的判断依据。第70页
37、,共75页,编辑于2022年,星期三典型应用典型应用科技馆科技馆第71页,共75页,编辑于2022年,星期三典型应用典型应用教育系统教育系统第72页,共75页,编辑于2022年,星期三典型应用典型应用教育系统教育系统配置选项在线测试离线测试添加说话人添加新模型累积训练删除说话人删除模型说话人确认说话人身份确认波形图实时语音波形静音检测第73页,共75页,编辑于2022年,星期三典型应用典型应用基于声纹识别技术的电话语音远程考勤系统基于声纹识别技术的电话语音远程考勤系统电话通信中,通过识别来电号码电话通信中,通过识别来电号码(必须是固定电话)和来电者说话(必须是固定电话)和来电者说话声音的个人特
38、征,我们的系统就可声音的个人特征,我们的系统就可以快速的自动判断被监控人是否在以快速的自动判断被监控人是否在规定的时间出现在规定的场所执行规定的时间出现在规定的场所执行任务,以及记录在该场所停留的时任务,以及记录在该场所停留的时间长度。间长度。这个技术方案主要应用在电话远这个技术方案主要应用在电话远程考勤、移动办公、医疗服务程考勤、移动办公、医疗服务监控、监狱管理、劳改犯人的监控、监狱管理、劳改犯人的狱外服刑以及对假释犯罪嫌疑狱外服刑以及对假释犯罪嫌疑人的自动监控等方面。人的自动监控等方面。第74页,共75页,编辑于2022年,星期三参考资料参考资料X.D.Huang,A.Acero,and
39、H.-W.Hon,Spoken Language Processing:a Guide to Theory,Algorithm,and System Development,Upper Saddle River,New Jersey:Prentice Hall,2001.L.R.Rabiner and B.-H.Juang,Fundamentals of Speech Recognition,Prentice-Hall,Englewood Cliffs,1993.T.Kinnunen,H.Z.Li,An overview of text-independent speaker recognition:From features to supervectors,Speech Communication,Volume 52,Issue 1,January 2010,Pages 12-40.HTK:http:/htk.eng.cam.ac.uk/Sensory:http:/TalentedSoft:http:/CTI论坛:论坛:http:/
限制150内