基于fisher判别字典学习的说话人识别-王伟.pdf
《基于fisher判别字典学习的说话人识别-王伟.pdf》由会员分享,可在线阅读,更多相关《基于fisher判别字典学习的说话人识别-王伟.pdf(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第 38 卷第 2 期 电 子 与 信 息 学 报 Vol . 38No.2 2016 年 2 月 Journal of Electronics & Information Technology Feb. 2016 基于Fisher判别字典学习的说话人识别 王 伟 韩纪庆*郑铁然 郑贵滨 陶 耀 (哈尔滨工业大学计算机科学与技术学院 哈尔滨 150001) 摘 要:稀疏表示已成功应用于说话人识别领域。在稀疏表示中,构造好的字典起着重要的作用。该文将 Fisher准则的结构化字典学习方法引入说话人识别系统。在判别字典的学习过程中,每一个字典对应一个类标签,因此同类别训练样本的重构误差较小。同时,
2、保证训练样本的稀疏编码系数类内误差最小,类间误差最大。在 NIST SRE 2003 数据库上,实验结果表明该算法得到的等错误率是 7.62%,基于余弦距离打分的 i-vector 的等错误率是 6.7%。当两个系统融合后,得到的等错误率是 5.07%。 关键词:说话人识别;字典学习;稀疏表示;Fisher 判别 中图分类号:TP391.42 文献标识码:A 文章编号:1009-5896(2016)02-0367-06 DOI: 10.11999/JEIT150566 Speaker Recognition Based on Fisher Discrimination Dictionary L
3、earning WANG Wei HAN Jiqing ZHENG Tieran ZHENG Guibin TAO Yao (School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China) Abstract: Motivated by the success of sparse representation in speaker recognition, a good dictionary plays an important role in sparse repr
4、esentation. In this paper, the structured dictionary learning is introduced to speaker recognition based on the Fisher criterion. In the process of learning the discrimination dictionary, each sub-dictionary of the learned dictionary corresponds to a class label, so the reconstruction error of the s
5、ame training samples is small. Meanwhile, the sparse coding coefficients have small with-class scatter and big between-class scatter. On the NIST SRE 2003 database, the experimental results indicate that the proposed method achieves an Equal Error Rate (EER) of 7.62%, and the i-vector system based o
6、n cosine distance scoring gives an EER of 6.7%. Moreover, an EER of 5.07% is obtained by combining two systems. Key words: Speaker recognition; Dictionary learning; Sparse representation; Fisher Discrimination (FD) 1 引言在过去的几年里,稀疏信号表示已广泛应用于数字信号处理领域说话人识别是语音识别领域的一个重要组成部分,其目的是从说话人的语音中提取出说话人的个性特征,对说话人进行辨
7、别的过程。该技术广泛应用于司法取证、声控门锁、银行、电子商务和国防等领域。 1 5,例如:压缩感知和图像恢复。近年来,人们发现基于分类的稀疏表示的实验结果比较好,因此被广泛使用。稀疏编码是通过构建过完备字典6对任意一个信号进行最紧凑的线性表示。构建稀疏编码字典的方法有两种,分别是标收稿日期: 2015-05-13;改回日期: 2015-09-06;网络出版: 2015-11-19 *通信作者:韩纪庆 基金项目: 国家自然科学基金( 61071181, 61471145), 国家自然科学基金重大研究计划 (91120303) Foundation Items: The National Nat
8、ural Science Foundation of China (61071181, 61471145), The Major Research Plan of the National Natural Science Foundation of China (91120303) 准的数据模型法( 例如:wavelets7, curvelets8和Gabor函数9)和数据驱动方法( 例如: k-SVD10和online dictionary11)。在第 1种方法中,选择的标准字典原子通常不能足够有效地表示信号,而利用数据驱动方法学习的字典却能更准确地代表信号,因此第 2种方法得到了成功的使用
9、12 14。例如,由所有类别的训练样本构成一个案例字典,通过比较未知话者和目标话者稀疏系数的范数值或者残差值进行分类10。但是,直接把训练样本作为字典是数据冗余的,如果训练样本数太多,大量的计算也会成为棘手的问题。因此, 在训练样本中学习得到一个更简洁或鲁棒的字典,不仅优于案例字典,而且具有更好的数据独立性10。目前,已有人提出基于分类的判别字典学习方法15 21,例如,利用判别重构约束的字典学习方法15和利用判别 K-SVD算法(Discriminative K-means Singular Value Decomposition, DKSVD)得到一个所有类别的公共字典的方法16等。但是,
10、一个公共字典的原子和类368 电 子 与 信 息 学 报 第 38 卷 别之间的关系是模糊的。为了克服这个弱点,需要从每类训练样本中学习同类别的子字典,通过使用较少的字典原子获得更个性化的信息,例如:文献17使用结构化不连贯的信息学习字典。然而,这种字典的学习方法没有考虑稀疏编码系数的判别能力。为了克服这个缺点,文献18 使用一个标签连续地正则化实现稀疏编码系数的判别性,文献19 通过使用逻辑损失函数学习一个监督的字典,文献20通过使用铰链损失函数去学习一个监督的字典。不同于上面的方法,文献 21提出了一种Fisher 准则的判别字典学习算法(Fisher Discrimination Dic
11、tionary Learning, FDDL),将其应用在图像分类上,得到了较好的性能。 针对以往基于字典学习的说话人识别方法中,既没有考虑字典中原子所对应的类别标签,也没有综合考虑稀疏编码系数的类内和类间误差。本文尝试将基于 Fisher 准则的判别字典学习方法引入到说话人识别中,通过利用字典中原子所对应类别标签来减少同类对应的重构误差,同时综合考虑稀疏编码系数类内和类间误差,以使类内误差最小、类间误差最大。此外,通过采用 L2 范数来求解稀疏编码系数以提高识别速度。 2 说话人识别系统 本节详细描述所提出的基于Fisher 准则判别字典学习的说话人识别方法。2.1 节介绍特征提取方法。2.
12、2 节详细解析基于Fisher 准则的判别字典学习框架。 最后一节介绍使用基于 Fisher准则的判别字典学习方法在说话人识别上的应用。 2.1 I-vector特征提取 目前,在说话人识别中最具有挑战的问题是训练数据和测试数据之间的信道不一致22, 23。经典的联合因子分析(Joint Factor Analysis , JFA)是基于说话人和信道因素分开的,但是信道空间还是会包含有说话人信息。文献24 提出了i -vector特征提取方法,其基本思想是假设说话人信息以及信道信息同时处于高 斯混合模型高维均值超矢量空间中的一个低维线性子空间结构中,使用式(1)表示。 M m Tw(1) 其中
13、, M 表示高斯混合模型均值超矢量, m 表示与特定说话人和信道都无关的超矢量。 而GZTR表示总体变化子空间矩阵,是低秩的矩形矩阵,其完成从高维空间到低维空间的映射。因此, 将说话人信息和信道信息的GMM 均值超向量GMR投影 到低秩空间T ,同时得到i -vector低维度的向量ZR ,其中 是一种具有标准正态分布的随机向量。 由于总体变化子空间包含说话人信息和信道的信息,在提取i -vector后,需在总体变化子空间上进行会话的补偿。信道补偿通常基于类内协方差归一化 (Within Class Covariance Normalization, WCCN)25和线性判别分析(Linear
14、 Discriminate Analysis, LDA)24两种方法。其中, WCCN用来规范化余弦函数补偿会话间的变化,LDA 用来寻找新的正交轴,即通过最大化类间方差和最小化类内方差来区分不同类别。 2.2 Fisher判别字典学习 假设有 C 类训练样本,从训练样本中提取 M 维度的i -vectors特征矩阵12, , MNCX XX X R ,用iMNiXR 表示第 i 类训练样本提取的i -vectors 特征,同时,1CiiNN表示在训练集中提取的 i-vectors特征的总个数。用12= , , , MKCD DD D R表示的判别字典中包含 C 类子字典,其中iMKiDR 为
15、第 i 类字典矩阵,并用1CiiKK表示字典中原 子的总数。用12, , KNCA AA A R 表示训练样本 X 在字典 D 上分解得到的稀疏编码系数,即X DA, KNiiAR 表示第 i 类训练样本iX 在字典 D 上分解后得到的稀疏编码系数。为了使学习的字典 D 既具有较好的重构能力,又具有很好的判别能力,我们采用了 Fisher准则的判别字典学习(FDDL)方法。本文的目标函数定义为 (,) 1 21(,)arg min ( , , ) ( ) DADAJ rXDA A Af(2) 其中, (,)rXDA是保真项;1| |A 为稀疏编码系数的稀疏约束项; ()Af 表示判别约束项;两
16、个常量1和2 控制目标函数中3 项信息的比例。 其中定义保真项为 122121,(,) ( , )CiiiCii i i iiFFiCjjiFj ji rXDA rX DAXDAXDADA (3) 其中,jiKNjiAR 表示第 i 类训练样本iX 在子字典jD 上分解后得到的稀疏编码系数。首先,字典 D 能很好地表示样本iX ,因此,2| |i iFX DA 应该小。其次,iD 也可以很好地表示样本iX ,但是不能被jD ( ij )很好地表示。因此,2| |ii ii FX DA 和2| |jji FDA 也应该小。 定义判别约束项 ()fA为 2( ) tr( ( ) tr( ( ) |
17、 |WB F fA S A S A A (4) 第 2 期 王 伟等: 基于 Fisher 判别字典学习的说话人识别 369 其中, ()fA保证训练样本的稀疏编码系数 A的类内误差 ()WSA最小,而类间误差 ()BSA最大, 表示常量。 定义类内误差 ()WSA为 T1() ()()kiCW kikiiaaa ASA m m (5) 定义类间误差 ()BSA为 T1() ()()CB ii ii SA nmmmm (6) 其中,KimR和KmR分别表示稀疏编码系数iA 和 A的均值向量。 in 表示iX 中i -vector采样特征的总数。将2| |FA 加入式(4)中解决非凸且不稳定的问
18、题。将式(3) 和式 (4)代入式 (2)中,可重新定义FDDL的目标函数为 (,) 11(,)122arg min , ,tr( ( ) tr ( )CiiiWBF DADAJ rX DA ASA SA A (7) 关于( ,DA)目标函数 J 是非联合凸函数,为了解决这个问题,我们可以固定 D,优化 A,或者固定 A,优化 D 。将(,)DAJ 采用现有的解决方案26, 27,求解最优化问题的步骤如表1 所示。 表1 基于Fisher准则的判别字典学习算法 (1)初始化字典 D ,字典的每个原子表示训练样本提取的 i-vector特征。 (2)固定字典 D ,化简式(7) 为 2() 1
19、1 2()221arg min , , | | | (8)iiii i iiFCk iFFk AAJ rX DA A A MMM A 其中KMR和KiMR分别代表所有类和第 i 类稀疏编码系数均值。利用迭代投影法26, 更新训练样本集的稀疏编码系数 A。 (3)固定稀疏编码系数 A,化简式(7) 为 2()()1,221,arg miniiCijj jiFCiji ii jiFFj jiD DDJ X DA DAX DA A(9) 使用投影字典对学习字典27,更新字典 D 。 (4)当相邻迭代结果误差达到了最大迭代次数时,输出 A和 D ,否则,返回步骤 2。 2.3 基于FDDL的说话人识别
20、 因为判别字典的学习使用了重构误差和稀疏编码系数的判别信息,所以同时使用重构误差和稀疏编码系数进行分类,从而测评子字典是否能很好地重构测试样本。使用子字典iD 表示测试样本MyR的稀疏编码系数,定义目标函数为 22222arg miniii aama y Daa(10) 其中,iim 是与字典iD 相关联的第i 类稀疏编码系数均值向量; 表示常量;使用最小化L2 范数求解 a 的最小二乘,可以很快得到解。 因为学习的字典iD 不仅可以很好地线性表示y , 而且稀疏编码系数向量 a 与iim 相似,定义分类的评分为 22222iiii ame y Daa(11) 最后分类结果为1,2, ,id(
21、 ) argmin iiCye最小值为正确 结果。 本文中,训练集和测试集都使用i -vector作为特征。通过使用FDDL 方法学习一个判别的字典,而判别字典的线性加权表示一个测试语音的i -vector特征。利用 L2范数最小化计算训练样本的稀疏编码系数。如果测试结果与说话人相关的ie 最小,就对应此说话人。图1 给出本文系统的详细结构图。 3 实验结果评估 为了评估本文方法的性能,我们在 NIST SRE 2003的女生数据集上进行了实验测试28。 NIST SRE 2003 数据集上包括女生数据集、男生数据集和男女混合数据集。每个数据集都有独立的测试计划。许多文章的实验结果都是在一个数
22、据集上进行的14, 29 31。因此,我们仅在 NIST SRE 2003 的女生数据集上进行测试。在 NIST SRE 2003 的女生数据集中,训练集由 207 个目标说话人语音组成,语音大约 2 min时长;测试集由 1759 个正确的说话人语音和 17590个错误的说话人语音组成。所有的语音文件都是wav 格式,采用了 8 kHz 采样和 16 位量化。提取每一帧的短时能量,窗长 20 ms,帧移 10 ms。在采用34 维 MFCC(16+log(energy+) 的特征提取后, 为了削弱语音内部的差异,又采用了归一化的倒谱均值减(CMS) 和特征弯折(FW)32处理。 3.1 基于
23、i-CDS的说话人识别系统 基线系统是基于余弦距离打分 (Cosine Dis- tance Scoring, CDS)的身份验证矢量i -vector系 统33。在 i-vector系统中,训练了1024个高斯的UBM ,UBM的参数估计采用最大似然准则。在OGI 语料和 370 电 子 与 信 息 学 报 第 38 卷 图1 本文系统的结构图 NIST SRE 2003语料上训练由200 个 总体因子构成的总体变化子空间矩阵。每个i -vector的维度是200 ,每个完备的字典包含100个原子。基于i -CDS的说话人识别基线系统,通过余弦距离打分来评测i -vector间 的相似性。根
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 fisher 判别 字典 学习 说话 识别 王伟
限制150内