最新语音声纹识别技术及应用ppt课件.ppt
《最新语音声纹识别技术及应用ppt课件.ppt》由会员分享,可在线阅读,更多相关《最新语音声纹识别技术及应用ppt课件.ppt(92页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、最新语音声纹识别技术及应用最新语音声纹识别技术及应用20182018年年1 1月月语音声纹识别技术及应用主要内容主要内容声音处理技术语音识别技术声纹识别技术技术演示2语音声纹识别技术及应用语音声纹识别技术及应用语音声纹识别技术及应用语音声纹识别技术及应用短时能量和过零率短时能量和过零率语音分帧语音分帧每帧10-30ms, 帧间隔10ms短时能量短时能量对数平方和绝对值过零率过零率(ZCR)6NiixE12)(logNiixE12)(NiixE1)(11) 1(sgn)(sgn21NnwwnsnsZ语音声纹识别技术及应用参数提取的预处理参数提取的预处理预加重:预加重: 减少尖锐噪声影响,提升高频
2、部分减少尖锐噪声影响,提升高频部分加窗:加窗:Hamming 减少减少Gibbs效应效应7 10.91.0y nx nx n 20.54 0.46cos01nw nn NN 语音声纹识别技术及应用各种参数的比较各种参数的比较Linear Prediction Cepstrum Coefficients (LPCC)假定所处理信号为自回归信号(不适用辅音);计算简单,但抗噪性差。Mel-Frequency Cepstrum Coefficients (MFCC)模拟人的听觉模型;强调低频部分,屏蔽噪声影响;识别率高,但计算量大。能量能量辅助作用,需归一化。音调音调对算法要求高,适于二次判别。8语
3、音声纹识别技术及应用Mel-频率频率目的:模拟人耳对不同频率语音的感知目的:模拟人耳对不同频率语音的感知人类对不同频率语音有不同的感知能力人类对不同频率语音有不同的感知能力1kHz以下,与频率成线性关系1kHz以上,与频率成对数关系Mel频率定义频率定义1Mel1kHz音调感知程度的1/10009语音声纹识别技术及应用Mel-频率频率公式:公式:频率频率Mel-频率:频率: 1125ln 1/700B fff- 频率B- Mel-频率Mel-频率频率(Hz)10语音声纹识别技术及应用MFCC计算流程:计算流程:11DFT时域信号线性谱域Mel滤波器组LogDCTMel谱域对数谱域MFCC语音声
4、纹识别技术及应用主要内容主要内容声音处理技术语音识别技术声纹识别技术技术演示12语音声纹识别技术及应用语音识别语音识别Automatic Speech Recognition (ASR) 的中文含意是自动语音识别。语音识别技的中文含意是自动语音识别。语音识别技术的目标是让机器能够术的目标是让机器能够“听懂听懂”不同人说不同人说的话,实现从声音到文字的转换。的话,实现从声音到文字的转换。13语音声纹识别技术及应用语音识别语音识别基本术语基本术语特定人和非特定人(话者相关或话者无关)特定人和非特定人(话者相关或话者无关)词汇量(大,小)词汇量(大,小)孤立词,连接词,关键词和连续语音孤立词,连接词
5、,关键词和连续语音自然发音和朗读发音自然发音和朗读发音口音(方言)口音(方言)背景噪音(环境噪音)背景噪音(环境噪音)信道差异(固定电话,麦克,手机等)信道差异(固定电话,麦克,手机等)声学模型(声学模型(HMM,mono-phone,bi-phone,tri-phone)声学特征(声学特征(MFCC)解码(解码(Viterbi)14语音声纹识别技术及应用语音识别语音识别基本术语基本术语识别指标:识别指标:SER(Sentence Error Rate,句子错误率)WER(Word Error Rate,词错误率)CER(Character Error Rate,字错误率)PER(Phone
6、Error Rate,音节错误率)采样率,采样率,8kHz(电话或手机),(电话或手机),16kHz(麦克风)(麦克风)时域,频域时域,频域端点检测,静音检测或有效音检测(端点检测,静音检测或有效音检测(VAD)15语音声纹识别技术及应用语音识别语音识别分类分类 孤立词识别识别单元是有限的,单个的词;优点:速度快,识别正确率高缺点:应用范围窄,不能识别词表外的词应用案例:语音命令,手机语音拨号 连续语音识别识别单元可以是字,词或者句子优点:应用范围广缺点:速度慢,识别率不高,尤其是词表较大的时候应用案例:语音翻译,语音短信,听写机,语音邮件 关键词识别识别单元是词,判断输入语音中是否含有词表中
7、的词优点:能够处理连续语音,词表可定制缺点:速度较慢,词表越大,错误率越多应用案例:电话呼叫服务,电话安全监听16语音声纹识别技术及应用语音识别发展历史语音识别发展历史 50年代年代AT&T Bell Lab,可识别,可识别10个英文数字个英文数字60年代年代LP较好地解决了语音信号产生模型较好地解决了语音信号产生模型, DP则有效解决则有效解决了不等长语音的匹配问题。了不等长语音的匹配问题。70年代年代DTW(Dynamic Time Warp)技术基本成熟,实现)技术基本成熟,实现了基于了基于LPC和和DTW技术相结合的特定人孤立词语音识别系技术相结合的特定人孤立词语音识别系统。统。80年
8、代年代HMM模型和人工神经元网络(模型和人工神经元网络(ANN)在语音识别中)在语音识别中成功应用。成功应用。1988年美国年美国CMU大学基于大学基于VQ/HMM开发开发SI-CSR系统系统 SPHINX。90年代大规模应用,工业标准,理论进展缓慢。年代大规模应用,工业标准,理论进展缓慢。17语音声纹识别技术及应用语音识别语音识别潜在应用潜在应用语音监听语音拨号语音命令语音导航语音搜索语音听写语音翻译18语音声纹识别技术及应用语音识别系统框架语音识别系统框架19特征提取训练模式匹配拒识语法模型结果语音说话人自适应语音声纹识别技术及应用语音识别过程语音识别过程20语音声纹识别技术及应用HMM基
9、础基础(1)隐含隐含Markov模型模型观测可见,状态隐含基本要素基本要素N - 模型状态数=i - 初始概率分布A=aij - 状态转移矩阵B=bj(k) - 输出概率矩阵21o1 o2 o3 o4 t oTS1S2S3S4a11a22a33a44a12a23a34语音声纹识别技术及应用HMM基础基础(2)转移概率矩阵转移概率矩阵aij状态i到状态j发生跳转的概率2211122223333444000000000aaaaAaaa语音声纹识别技术及应用HMM基础基础(3)输出概率输出概率bi(x) x属于状态i的概率23S1S2S3S4a11a22a33a44a12a23a34b1(.)b2(
10、.)b3(.)b4(.)语音声纹识别技术及应用HMM基础基础(4)HMM的三个基本问题的三个基本问题 - - 模型评估问题模型评估问题( (如何求:如何求:P(O|)P(O|) - - 最佳路径问题最佳路径问题( (如何求:如何求:Q=qQ=q1 1q q2 2q qT T) ) - - 模型训练问题模型训练问题( (如何求:如何求:A A、B B、)24语音声纹识别技术及应用模型评估问题模型评估问题( (如何求:如何求:P(O|)P(O|)前向概率前向概率给定HMM参数 ,在t时刻处于状态i,部分观察序列为o1o2ot 的概率后向概率后向概率给定HMM参数 ,在t时刻处于状态i,部分观察序列
11、为ot+1ot+2oT 的概率25 |,21iqoooPittt |,21iqoooPitTttt语音声纹识别技术及应用模型评估问题模型评估问题( (如何求:如何求:P(O|)P(O|)前向和后向递推的示意图前向和后向递推的示意图26语音声纹识别技术及应用最佳路径问题最佳路径问题( (如何求:如何求:Q=qQ=q1 1q q2 2q qT T) )前向后向算法的缺点前向后向算法的缺点计算量的浪费状态路径不能明确判定Viterbi算法算法不完全的状态空间搜索保留状态转移路径的信息27语音声纹识别技术及应用最佳路径问题最佳路径问题( (如何求:如何求:Q=qQ=q1 1q q2 2q qT T)
12、)Viterbi算法的搜索空间算法的搜索空间28时间20s,测试8s)注册与测试录音要求较短(注册、测试均只需13s)注册与测试语音不必强求一致注册与测试录音尽量要求相似适合后台监控,海量数据检索可以作为声纹密码,一对一服务虚警相对较高准确度很高语音声纹识别技术及应用提升企业形象 作为高科技的生物识别方案,具有独特的亮点 用户直接感受的系统特点,有效提升用户对企业整体的印象有效提升用户体验 不涉及隐私,用户无任何心理障碍,用户接受程度高 在自然对话中即可实现声纹识别远程控制表现更突出 非接触式识别,唯一可用于远程控制领域的生物识别技术 更安全可靠声纹系统的优点与其他生物识别技术(如脸型、掌形、
13、虹膜识别等)相比较:与其他生物识别技术(如脸型、掌形、虹膜识别等)相比较:语音声纹识别技术及应用衡量声纹系统效果指标Imposter False Accept Rate (FAR)User False Reject Rate (FRR)安全性高安全性高Balance易用性强易用性强EER: FR=FAX X阈值阈值= 4X X阈值阈值= 2错误接受率(False Accept Rate)指非本人被错误的认为是本人的次数占总共测试次数的比值错误拒绝率(False Reject Rate)指本人被错误的认为是非本人的次数占总共测试次数的比值相等错误率(Equal Error Rate) 指FA等于
14、FR时的百分比。是衡量声纹验证效果的重要依据语音声纹识别技术及应用声纹系统准确率系统EER时长标准InterVeri(非声纹密码系统)综合7%注册语音:20秒测试语音:10秒声纹密码系统0.5%(冒认者不知道密码)2.5%(冒认者知道密码)注册和测试:2秒左右 基于科大讯飞深厚的研究积累,整合国际说话人识别大赛第一名的领先技术,提供业界领先的高准确率,帮助语音应用获得最佳安全性。语音声纹识别技术及应用第三方评测代号代号代表机构代表机构三大核心测试指标三大核心测试指标在在4444个系统中排名个系统中排名MinDCFMinDCFEEREERDCFDCFMinDCFMinDCFEEREERDCFDC
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 语音 声纹 识别 技术 应用 ppt 课件
限制150内