声纹识别系统原理及其关键技术(共8页).doc
《声纹识别系统原理及其关键技术(共8页).doc》由会员分享,可在线阅读,更多相关《声纹识别系统原理及其关键技术(共8页).doc(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上学术.技术声纹识别系统原理及其关键技术朱浩冰 , 郭东辉( 厦门大学 , 福建 厦门 )摘 要:以声纹为特征的身份识别技术具有十分广阔的应用前景。该文介绍了声纹识别系统的应用分类及其基本技术原理,重点分析了声纹识别系统中的特征参数提取、模式匹配判断等关键技术问题,并总结声纹识别技术的研究进展。 关键词:声纹识别;特征参数提取;模式匹配判断Principles and Key Technologies of Voiceprint Recognition SystemZHU Hao-bing, GUO Dong-hui(Xiamen University, Xiamen
2、, P.R.China)Abstract: The identity recognition technology which uses voiceprint as feature has very broad application foreground. In this paper, the applied classification and basic technology principles of voiceprint recognition system are presented. Based on this, two key technologies of feature p
3、arameter extraction and pattern matching judgment in voiceprint recognition system are analyzed in detail, then the research development of voiceprint recognition technology are summarized.Key words: voiceprint recognition; feature parameter extraction; pattern matching judgment专心-专注-专业1 引言伴随着信息技术和网
4、络技术的迅猛发展,人们对身份识别技术的需求越来越多,对其安全可靠性的要求也越来越严格。基于传统密码认证的身份识别技术在实际信息网络应用中已经暴露出许多不足之处,而基于生物特征辨别的身份识别技术近年来也日益成熟并在实际应 用中展现出极大的优越性 1。其中,声纹识别技术便是近年来发展起来的一种新的更有效的身份识别技术之一。声纹是指说话人语音频谱的信息图。由于每个人的发音器官不同,所发出来的声音及其音调各不相同,因此,声纹作为基本特征来实现人的身份识别具有实际的不可替代性和稳定性,使声纹识别技术广泛地应用于信息网络的各个领域。尽管至今已有许多介绍声纹识别技术及 应用的相关论文发表 2-5,但是,多数
5、论文仅局限于介绍声纹识别技术的某一具体方法改进或某一缺点问题克服。为此,本文希望能够通过综述性地介绍声纹识别系统的基本原理及其关键技术,并总结分析声纹识别的技术研究进展及其应用方向,为人们进一步研究声纹识别技术及其应用提供技术参考。2 声纹识别系统及其技术实现原理声纹识别系统是基于对说话人的语音识别或鉴别的应用系统,它是根据人所说语音信息而表征出来的说话人的生理和行为特征来自动识别或鉴别说话人身份的技术 系统 3,6。基于声纹识别系统的不同应用,声纹识别系统的技术实现基本上可以分归两类,如图 1 所示,即说话人 确认技术和说话人辨认技术 3。前者是用于判断未知说话人是否为某个指定人;后者则是用
6、于辨认未知说话人是已记录说话人中的哪一位。因此,声纹识别系统最终要解决的技术问题就是体现在“一对一”的匹配判断问题或“多选一”的比较判断问题。(a) 说话人确认 (b) 说话人辨认图 1 说话人确认与辨认从声纹识别系统的使用场合来看,需要判别的声音其来源基本可分为 3 种情况,即文本提示型、文本相关型和 文本无关型 4。其中,文本提示型的声纹识别系统要求被鉴别的人需要根据给定的文字进行发音判别,即要求用户配合发音,才能实现识别功能;文本有关型的声纹识别系统要求系统录制有被判别人一定数量的规定文本内容的声音,只要判别人发出相关内容的声音就可以实现判别功基金项目:本文得到福建省自然科学基金计划资助
7、项目(A)、国家教育部新世纪人才计划项目和国家人事部留学人员创业基金项目的联合资助。14 计算机安全 2007.09能;而文本无关型的声纹识别系统则不规定说话人的发音 内容,只要系统中录有说话人的声音,就能够识别是否为 该说话人。可见,文本无关型的声纹识别系统的技术含量 要求比较高,它不仅仅需要解决匹配判断问题,还需要预 先提取说话人的语音特征,才能进行判断识别。此外,从声纹识别的目标对象来看,声纹识别系统的 适用范围可以分为两类,即闭集识别和开集识别 7,8。前 者是指对特定人群中的说话人识别,即被判定的说话人是 在已记录说话人集合内,而后者是指被判定的说话人可能 不在已被记录的这个集合内。
8、相比于闭集识别系统,开集 识别系统需要增加一个阈值来判断未知说话人是否在已记 录说话人集合内。如果不在集合内,系统需要重新进行语 音记录和训练。因此,适用于开集识别的声纹识别系统还 需要解决训练学习的技术问题。总的看来,一个典型的声纹识别系统的技术实现原理 可以用如图 2 所示的框图来概括。即声纹识别系统的工作 过程一般可以分为两个过程:训练过程和识别过程。无论 训练还是识别,都需要首先对输入的原始语音信号进行预 处理,如采样、量化、预加重和加窗等处理过程 9,以实 现语音特征的提取功能。在训练过程中,声纹识别系统要 对所提取出来的说话人语音特征进行学习训练,建立声纹 模板或语音模型库,或者对
9、系统中已有的声纹模板或语音 模型库进行适应性修改。在识别过程中,声纹识别系统要 根据系统已有的声纹模板或语音模型库对输入语音的特征 参数进行模式匹配计算,从而实现识别判断,得出识别结 果。图 2 声纹识别系统的技术实现原理框图3 声纹识别的关键技术从声纹识别系统技术实现的基本原理来看,其关键技术在于语音预处理后的特征参数提取技术、系统训练过程中的建模学习技术及系统识别过程中的模式匹配识别判断技术。其中,声纹识别系统中应用的建模学习技术类同其 他样本学习技术 10-12,因此,这里主要介绍语音特征参数提取技术和模式匹配识别技术。3.1 语音特征参数提取技术学术.技术特征参数提取的目的就是从说话人
10、语音中提取出能够表征说话人特定器官结构或习惯行为的特征参数。该特征参数对同一说话人具有相对稳定性,不能随时间或环境变化而不一致,对同一说话人的不同话语也应该是一致的;而对于不同的说话人即使说同样的话语也应该易于区分,具有不易模仿性和较强的抗噪性。目前常用语音特征参数的提取技术主要体现在以下的几种特征参数提取:3.1.1 语音频谱参数 这种参数的提取主要是基于说话人发声器官,如声门、声道和鼻腔等的特殊结构而提取出说话人语音的短时谱特 征(即基音频率谱及其轮廓)6。它是表征说话人声音的激励源和声道的固有特征,可以反映说话人语音器官的差异,而短时谱随时间或幅度变化的特征,在一定程度上反映了说话人的发
11、音习惯。因此,语音频谱参数在声纹识别中的 应用主要体现在基音频谱及其轮廓 13、基音帧的能量 6,14、基音共振峰的出现频率及其轨迹 15 等的参数表征与模式识别。3.1.2 线性预测参数 这种参数的提取则是以若干“过去”的语音抽样或已有的数学模型来逼近当前的语音抽样,用相应的逼近参数 来估计的语音特征 16。 它能够实现用少量的参数有效地 表现语音的波形和频谱特性,具有计算效率高、应用灵活 的特点。目前声纹识别中广泛应用的线性预测参数提取方 法主要包括有:线性预测倒谱 (LPCC)17、线谱对 (LSP)18、 自相关和对数面积比 19、Mel 频率倒谱 (MFCC) 9,17,20、感知线
12、性预测 (PLP)21 等不同方法的特征系数提取。3.1.3 小波特征参数 这种参数的提取是利用小波变换技术 22 对语音信号进行分析处理以获得表示语音特征的小波系数。小波变换具有分辨率可变、无平稳性要求和时频域兼容表征等优点,能够有效地表征说话人的个性信息。因此,它在声纹识别系统中实际应用体现出计算量小、复杂度低、识别效果好 等特点 22,是近年来语音特征参数提取技术的研究热点。此外,不同方法提取出来的特征参数如果其之间相关性不大时,说明它们分别反映了语音信号的不同特征,因此,也可以通过不同特征参数的组合技术 23 来获得更适用于模式匹配识别判断的语音特征参数模型。3.2 模式匹配识别判断技
13、术模式匹配识别判断的目的在于获取表现说话人个性的特征参数的基础上,将待识别的特征参数模板或模型与训2007.09计算机安全 15学术.技术练学习时得到的模板或模型库作相似性匹配,得到特征模式之间的相似性距离度量,并选取适当的距离度量作为门限值,从而识别判断出可能结果中最好的结果。由识别系统输出。目前常用模式匹配识别判断技术主要体现在以下几种模型:3.2.1 矢量化模型 这种模型通过某种矢量化方法,将提取的说话人特征参数编辑为某种具有代表性的特定矢量,识别时将待识别参数按此特定矢量进行模型编辑,依照一定的判决标准如:量化时产生的失真度来得出识别结果。矢量化模型在声纹 识别系统中的应用主要包括:动
14、态时间规整 (DTW)3、矢量量化 (VQ)24,25 及支持向量机 (SVM)11,26 等。3.2.2 随机模型 这种模型是一种基于转移概率和传输概率的模型。在使用随机模型进行识别时,为每个说话人建立发声模型,通过训练得到状态转移概率矩阵和符号输出概率矩阵,识别时计算待识别语音在状态转移过程中的最大概率,根据最大概率对应的模型进行识别判断。其优点是计算有效,性能较好,因此成为主流的模式匹配识别判断技术。随机模型在声纹识别系统中的应用主要包括:隐马尔可夫模型(HMM)4,24,27、高斯混合模型 (GMM)28。3.2.3 神经网络模型 神经网络模型 29 在某种程度上模拟了生物的感知特性
15、, 它是一种分布式并行处理结构的网络模型 , 具有自组 织和自学习能力、很强的复杂分类边界区分能力以及对不 完全信息的鲁棒性 , 在训练过程中能不断调整自身的参数 权值和结构拓扑,以适应环境和系统性能优化的需求。其 优点是速度快、识别率高,近几年来不断地被完善 30。此外,为了提高声纹识别系统的准确率,将不同的模 式匹配方法融合起来进行识别,也是声纹识别系统研究的 一个方向。4 声纹识别技术的研究进展声纹识别技术的研究始于 20 世纪 30 年代,从技术特 点上看可以分为以下几个发展阶段 3:(1) 技术启蒙阶段 即 20 世纪 30 年代,研究工作主要集中在人耳听辩实验和 探讨听音识别的可能
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 声纹 识别 系统 原理 及其 关键技术
限制150内