面向智能语音控制场景的短语音讲话人确认技术综述.docx
《面向智能语音控制场景的短语音讲话人确认技术综述.docx》由会员分享,可在线阅读,更多相关《面向智能语音控制场景的短语音讲话人确认技术综述.docx(28页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、面向智能语音控制场景的短语音讲话人确认技术综述面向智能语音控制场景的短语音讲话人确认技术综述文/北京大学深圳研究生院当代信号与数据处理实验室彭导语:基于语音的讲话人认证技术声纹识别技术属于生物特征识别研究范畴,在互联网/物联网时代具有重要的应用价值。基于语音的讲话人认证技术声纹识别技术属于生物特征识别研究范畴,在互联网/物联网时代具有重要的应用价值。目前,限定条件下的讲话人身份认证技术已较为成熟,在智能手机、银行效劳、门禁控制和智能客服等场景获得了广泛的应用。然而,作为智能控制场景中实现基于语音的自然人机交互的关键技术,短语音讲话人身份认证技术目前尚不能知足应用需求。本文将重点对短语音讲话人确
2、认技术的研究进展技术综述。首先,概述讲话人确认技术的根本概念和主流技术道路;其次,分析短语音讲话人确认技术面临的挑战;然后,对基于深度学习的讲话人确认技术进展综述;最后,展望了短语音讲话人确认技术的开展趋势和应用前景。1引言人类之所以可以闻其声而知其人,是由于每个讲话人都有不同的讲话方式和用词习惯,以及略有差异的发声器官生理构造,这两点导致不同讲话人在声音上各具特点,具有不同声纹信息。基于语音的讲话人确认是利用计算机分析和提取语音中蕴含的讲话人信息来自动进展讲话人身份认证的技术,是自然人机交互的重要技术之一,也是智能机器人的关键技术,具有重要的研究价值。讲话人确认技术目前广泛应用于各类具有身份
3、认证需求的领域,例如:在智能家居领域,讲话人确认技术能帮助智能设备确认讲话人的身份,使得智能系统能对于不同讲话人提供定制化效劳和内容;在金融领域,讲话人确认技术可以用于基于网络交易的远程身份认证,进而进步金融账户的平安性,并降低基于互联网的金融犯罪成功率;在公安司法领域,可以用于电信诈骗犯的身份侦查,进而帮助公安有效遏制并打击犯罪。详细而言,公安人员可以利用讲话人确认技术,先从录音中截取目的讲话人的语音数据,再匹配讲话人数据库,最终锁定犯罪嫌疑人。使用先进的讲话人确认技术可以降低办案本钱,进步破案率。讲话人确认技术的研究开场于20世纪30年代,早期研究人员的工作主要集中在人耳听辨,模板匹配等方
4、向;随着统计学和计算机科学的开展,讲话人确认的工作开场转向语音特征提取和形式匹配等方法研究;近年随着人工智能的崛起和计算才能的提升,基于机器学习和深度学习的讲话人确认技术逐渐成为主流。本文将首先介绍讲话人确认的根本概念,其次从特征提取和短语音建模两个角度,对智能语音控制场景下的短语音讲话人确认技术的开展历程进展扼要回首,然后分析几类运用深度学习的短语音讲话人确认技术,最后对开展趋势做出总结与展望。2讲话人确认技术综述讲话人确认SpeakerVerification技术,如图1所示,是确定待识别的语音是否来自其所声称的目的讲话人12,是“一对一的判决问题。详细而言,讲话人确认任务可以分为训练,注
5、册,验证三个阶段。在训练阶段:利用大量的数据训练讲话人通用模型;注册阶段:收集注册讲话人的少量语音数据并通过算法获得注册讲话人的声纹模型;验证阶段:输入声称为目的讲话人的测试语音并计算对应的讲话人模型,再与已经注册的目的讲话人模型进展匹配,最终断定其身份是否为已注册的目的讲话人。图1讲话人确认概念示意图2.1文本相关和文本无关根据讲话人确认技术对语音的文本信息是否予以限制,可以将讲话人确认技术分为文本无关的text-independent和文本相关的text-dependent。文本无关的讲话人确认技术:训练模型时不限定所采用语音数据的文本信息,且训练语音和测试语音的文本内容不要求一致,即讲话
6、人可以随意讲任意语句。文本相关的讲话人确认技术:模型训练时所采用语音数据的文本内容预先固定在某一个特定的范围内,并要求训练语音和测试语音的文本内容保持一致。2.2讲话人确认技术性能评测衡量讲话人确认技术性能的两个根本指标是:错误承受率FalseAcceptationRate,FAR和错误回绝率FalseRejectionRate,FRR,其定义如下:其中,FAR表示将非目的讲话人的语音经讲话人确认系统,其相似度得分大于给定的阈值,进而被判定为目的讲话人的错误率。FAR的值越小,表示系统将非目的讲话人错误识别成目的讲话人的概率越低,系统的性能就越好。当处于需要实现快速访问,对于准确度的要求不高的
7、日常生活中,讲话人确认系统可以设定稍高的FAR值。另一方面,FRR表示将目的讲话人语音经讲话人确认系统的得分低于设置的阈值,被系统判定为非目的讲话人的错误率。可以看出,FRR的值越小,系统将目的讲话人误识为非目的讲话人的概率越低,系统的性能越好;在需要高平安性的贸易场景中,讲话人确认系统可设定稍高的FRR值,以牺牲访问速度为代价,换取更高的系统平安性。根据FAR和FRR,可拓展得到三个常用的讲话人确认系统性能评价指标。1等错误率EER在讲话人确认系统效能评测中,FAR随着阈值的增大而减少,FRR随阈值的增大而增大。目前国际竞赛中最常用的测评指标是将FAR和FRR统一为一个指标。即取两者相等时的
8、错误率作为衡量讲话人确认算法的性能指标,该错误率称为等错误率EqualErrorRate,EER。在EER指标中,FAR和FRR被赋予一样的权重,即以为他们对系统影响的权重是一样的。对于不同的讲话人确认算法而言,较低的EER值,意味着FAR和EER曲线都会向下挪动,表示算法的性能较优秀。2最小检测代价美国国家标准及技术研究所NationalInstituteofStandardsandTechnology,NIST在其举办的讲话人确认评测SpeakerRecognitionEvaluation,SRE竞赛中定义了一个利用FAR和FRR加权和来衡量讲话人确认系统性能的指标,即检测代价函数Dete
9、ctionCostFunction,DCF3。DCF定义如下:其中,CFRR表示错误回绝的权重系数,CFAR表示错误承受的权重系数;这些参数的值在比赛中由NIST官方给定,针对不同的任务,每届比赛中这些参数的值不尽一样;在实际应用中,这些权重参数值可以根据详细的应用场景进展设定。DCF的值取决于判决阈值,改变判决阈值就可以使得DCF的值到达最小,就形成了最小检测代价minDCF。相较于EER,minDCF考虑了两种不同错误率带来不同的代价,因此在实际应用中更加公道,可以更好地评价讲话人确认系统的性能。3DET曲线讲话人确认系统中,可以根据不同的应用场景设置不同的阈值,对FAR和FRR进展取舍,
10、实际应用中一般采用DET曲线DetectionErrorTrade-offCurve,DETCurve来表示FAR和FRR随阈值变化关系的曲线。如图2展示的是i-vector系统4采用不同后端打分模型所对应的DET曲线,从DET曲线可以直观地看出不同后端打分函数后讲话人确认算法的性能差异。显然DET曲线离原点越近系统的性能越好。此外,DET曲线中的变化是一种阶梯状的阶跃函数,当测试数据集足够多的时候,DET曲线才能显示出较平滑的斜率。图3DET曲线3主流短语音讲话人确认技术综述讲话人确认技术经过近80年的开展,在辨识才能,鲁棒性和模型表达才能上都获得了一些令人瞩目的成绩。在安静条件下的长时讲话
11、人确认技术已经可以知足商用需求。实际应用中,研究人员发现讲话人语音的长短对于讲话人确认系统有较大的影响56,主流的讲话人确认技术在测试语音时长较短(小于3秒)的条件下,其性能有较大的波动。图3显示了高斯混合-通用背景模型GaussianMixtureModel-UniversalBackgroundModel,GMM-UBM7系统和ivector-GPLDA8系统当语音时长从150秒缩短为2秒间9,EER的变化情况。可见讲话人确认系统随着训练和测试数据中语音持续时间的变短而急剧下降。针对这个问题,研究者们开场将讲话人确认技术的研究重点转向短语音条件下的讲话人确认技术。图3讲话人确认系统性能随不
12、同语音时长的变化3.1语音控制场景下短语音讲话人确认技术的挑战一般而言,短语音讲话人确认常见于智能家居,智能机器人等智能语音控制场景。对于智能语音控制场景下的短语音讲话人确认技术,其短语音指的是,讲话人的注册和验证的语音内容均为时长较短的词语,比方:“开门、“关门等,时长短于3秒的语音。考虑详细应用场景,收集的语音信号混合了其他讲话人、环境噪音、信道失配等干扰信息。对于短语音讲话人确认技术的难点,总结如下:1时长短:讲话人注册和测试的语音时长较短,通常仅仅只包含几个字,比方:“开窗,关灯等。这些语句中包含的有效语音信息较少,且讲话人信息不充足10,可能使得训练和测试时匹配度下降,进而使得讲话人
13、确认系统表现较差。2噪声干扰问题:实际应用中,环境背景噪声将会对讲话人确认结果造成非常大的干扰,噪声将会导致目的讲话人语音中混入大量的不确定信息,进而使得参数模型无法计算准确统计量,最终严重降低讲话人确认系统的性能11。3无效录音:在实际场景中收集语音数据时,测试集和训练集中的语音不可防止的混入无效语音,这使得有用语音的时间进一步变短,缺乏以提供足够的信息来训练模型。对于传统的讲话人统计模型,这将使模型的后验协方差变大1213,系统估计的不确定性上升。3.2短语音讲话人确认技术由于短语音包含信息有限,不能沿袭传统的长时讲话人确认技术道路,需要寻找更合适短语音的特征表示,并对短语音进展公道建模或
14、者补偿。3.2.1特征提取传统长时讲话人确认方法多采用梅尔倒谱滤波器系数(MelFilterCepstralCoefficient,MFCC)作为输入特征,但对于短语音讲话人确认,由于语音中的不确定性往往不能忽略,所以基于MFCC和传统i-vector的方法无法计算准确的讲话人表征,导致识别率较差14。为了克制这一问题,有研究者提出采用多特征交融的方法,利用不同特征包含不同信息的特性,弥补短语音的缺陷。在数据量有限的文本无关讲话人确认场景下,选取对语音上下文信息变化不敏感的特征进展交融15。初期研究者们尝试了利用LPCC,LSF,PLP和PARCOR(Partialcorrelationcoe
15、fficients)161718等短时频谱特征进展交融,来提升短语音讲话人确认系统的性能。近年,Todisco19提出了一种更能表征讲话人信息的新特征,称为CQCC(constantQtransformcoefficients),通过模拟人的听觉感悟系统,引入常数Q因子,使得生成的频谱图在高频和低频都具有较高的分辨率,同MFCC特征相比更合适短语音讲话人确认任务。此外,Leung等20利用语音上下文的关联性,提出了基于N-gram语言模型的短语音讲话人确认的方法。Penny等21提出将音素后验概率信息转换为特征的方法,利用语音识别得到音素后验概率信息,辅助训练UBM。Fu22那么使用串联特征(
16、Tandemfeature)方法,即串联短时频谱特征和基于语音识别深度网络的特征,在基于GMM-UBM的框架下获得了较高的识别率。Sainath23采用自编码器的构造,将网络的某个隐藏层设置为瓶颈层(Bottlenecklayer),将瓶颈层的输出和其他特征串联,实验说明该方法有助于提升短语音讲话人确认系统性能。3.2.2短语音建模近年随着i-vector框架成为讲话人确认的基准(benchmark),研究者也展开了基于i-vector框架的短语音讲话人确认研究。由于PLDA的框架可以适用于任意语音长度的讲话人确认24,因此,很多研究者开场了基于i-vector-PLDA框架下对短语音讲话人确
17、认技术的探究。其中形式匹配和归一化是近年的研究热门。Jelil等25提出了在文本相关的短语音讲话人确认中使用语音中隐含的音素序列信息的方法,分别构建了讲话人相关的GMM和特定短语的高斯后验概率图,在测试阶段,一方面需要比拟目的讲话人的GMM,另一方面,也要利用动态时间规整(DTW)方法与特定短语模板后验图匹配;Dey等26那么尝试在在基于DNN和i-vector框架下通过DTW引用序列信息,来提升文本相关短语音讲话人确认性能。归一化方法主要用于补偿训练、注册及测试经过中语音时长不匹配造成的影响。Hautamki等人12提出基于minimax策略提取i-vector向量以表征讲话人,在使用EM算
18、法提取Baum-Welch统计量时引入minimax方法帮助模型获取更加鲁棒的i-vector;2021年,Kanagasundaram等2728发现模型估计同一讲话人多条短语音的i-vectors有明显差异,他们假设这种差异;于i-vectors所包含的不一致的音素信息,由于短语音中包含的词汇少、覆盖的音素少,因此包含的讲话人信息有限,在该假设的根底上,他们提出短语音方差规整(Shortutterancevariancenormalization,SUVN)的方法来补偿失配音素内容。Hasan等29在统计时长和音素数目的关系时发现,当语音时长变短时,一句话中可检测到的音素数目呈指数趋势下降,
19、基于这个发现,他们将时长差异视为i-vector空间的噪声,并对其建模,进步了讲话人确认系统在短语音条件下的性能。2021年后基于深度学习的方法也被引入,在DNN框架下,Snyder等人30利用时序池化层(temporalpoolinglayer)处理变长语音输入;长时讲话人确认中语音的i-vectors还可以学习到短语音下的音素内容差异29,受此启发,Hong等31将迁移学习(transferlearning)的方法引入短语音讲话人确认系统中,从长时语音训练的模型域学习讲话人区分性信息,并将KL正那么化项参加到后端PLDA目的函数中,来度量源域和目的域的相似度,实验结果显示该方法有助于提升i
20、-vector-PLDA框架下的短语音讲话人确认性能。3.3基于i-vector和PLDA的讲话人确认算法2020年,Dehak在实验中发现,JFA算法32假设本征信道空间是利用讲话人无关的信道信息估计得到,但实际中局部讲话人相关的信息也会泄露至本征信道空间之中,即JFA算法固然假设利用本征音空间和本征信道空间来区分讲话人信息和信道信息,但是无法有效别离两个空间。因此,Dehak不划分征音信道空间和本征音空间,并使用一个全局差异TotalVariability空间来统一描绘讲话人信息和信道信息,并一个全局差异因子(i-vector)描绘讲话人因子和信道因子4。在i-vector讲话人确认系统中
21、,讲话人超矢量被分解为:公式中m表示非特定讲话人的超矢量;是低秩的全局差异空间;是全局差异因子,也称为身份矢量,即i-vector。在i-vector方法中,讲话人信息和信道信息都包含在全局差异空间中,为了进步i-vector对讲话人表征的准确度,需要引入信道补偿技术来进一步消除信道因子的影响,因此,引入PLDA33对i-vector做进一步的因子分析,即将i-vector空间进一步分解为讲话人空间和信道空间,详细分解如下:其中,表示讲话人的语音;是所有训练i-vector的均值;表示讲话人空间矩阵,描绘讲话人相关特征;是讲话人因子;是信道空间矩阵,描绘同一讲话人不同语音之间的差异;是信道因子
22、;为噪声因子。此外,和知足(0,1)分布。在测试阶段,通过对数似然比来判定两条语音是否由同一讲话人空间的特征生成,其公式如下:其中1,2分别为注册和测试阶段的讲话人i-vector向量,H0假设两段语音属于不同讲话人,H1假设两段语音属于同一个讲话人。4基于深度学习的时讲话人确认主流技术2021年前,主流的讲话人确认技术都是基于统计模型方法。随着深度学习方法在语音识别,图像处理等领域获得打破性进展,学者们开场研究基于深度学习的讲话人确认技术。其中主要分支包括:基于深度网络特征学习的讲话人确认方法,基于度量学习的讲话人确认方法,基于多任务学习的讲话人确认方法和端到端的讲话人确认方法。4.1基于深
23、度网络特征提取的方法基于深度网络的特征学习方法,利用复杂非线性构造赋予的特征提取才能,能自动对输入的语音信号进展特征分析,提取出更高层、更抽象的讲话人表征。2021年,谷歌的研究员Ehsan等人34提出了基于DNN(DeepNeuralNetworks,DNN)构造的讲话人确认算法,选取最后一层隐藏层激活后的输出作为讲话人帧级别特征(frame-levelfeatures);一段语音所有帧级别特征取平均后得到该段语音的句子级特征(utterance-levelfeatures),称之为d-vector;2021年,Chen等人35发现输入层到DNN第一个隐藏层间存在权值矩阵过大的问题,将其可视
24、化后,发现存在大量的零值,而非零权值那么存在聚集效应,针对这一问题,提出了使用部分连接和卷积网络(ConvolutionalNeuralNetworks,CNN)代替全连接的方法,新网络的参数目下降了30%,且性能仅有4%的损失,此外,在同样多的参数情况下,新网络的EER分别进步了8%和10%;2017年,清华大学的Wang36提出了一种CNN和TDNN混合的特征提取网络,输入为语谱图,输出那么是具有可分性的讲话人表征,由于通过语谱图可以直接获取句子级别的特征,因此网络性能具有较大的提升。2018年,Li等人37发如今基于DNN的特征传统提取构造中,由于使用了含有参数的softmax层,可能导
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 面向 智能 语音 控制 场景 讲话 确认 技术 综述
限制150内