用于语音质量客观评价的Mel谱失真测度.docx
《用于语音质量客观评价的Mel谱失真测度.docx》由会员分享,可在线阅读,更多相关《用于语音质量客观评价的Mel谱失真测度.docx(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Mel域语音质量客观评价测度性能研究陈华伟1,张知易2,靳 蕃1(1.西南交通大学 信息科学与技术学院,四川 成都 610031; 2.中国电子科技集团公司第三十研究所,四川 成都 610041)摘 要:为了有效进行语音质量客观评价,对以MFSC为特征参数的Mel-SD和以MFCC为特征参数的Mel-CD进行对比分析,研究了特征提取中滤波器构造变化对两种测度的影响,并对Mel-SD中压缩因子的影响加以研究。测试研究表明,Mel-SD性能好于Mel-CD,同时具有对滤波器组构造变化的鲁棒性;Mel-CD对滤波器构造变化比较敏感,在滤波器数目超过13后随着滤波器数目的增加性能下降。Mel-SD在给
2、定的滤波器数目的情况下,有最佳的压缩因子。当在一定的范围内,压缩因子的影响并不严重。最佳压缩因子基本符合对心理声学静态测量实验结论的近似表达。将参数优化的Mel-CD和Mel-SD用于干扰条件下通信系统的语音质量的客观评价,结果表明,Mel-SD性能优于Mel-CD和PESQ,Mel-CD性能则与PESQ相当。关键词:语音质量;客观评价;美尔谱系数;Mel谱失真测度;Mel倒谱系数失真测度中图分类号:TN912.3 文献标识码:A Analysis on Performance of Objective Speech Quality Measures in Mel DomainCHEN Hua
3、-wei1, ZHANG Zhi-yi2,JIN Fan1(1. School of Information Science & Technology, Southwest Jiaotong University, Sichuan Chengdu, 610031; 2. No.30 Institute of CETC, Sichuan Chengdu , 610041)Abstract: To evaluate speech quality effectively and exactly, Mel-SD and Mel-CD are compared and analyzed, especia
4、lly on feature extraction. The effects of the structure of Mel filter bank on both measures are investigated. The result shows that Mel-SD performance better than Mel-CD, while retaining robust on variety of Mel filter bank .Mel-CD is sensitive to structure of Mel filter bank, and decreases its perf
5、ormance when the size of bank is increased. Based on optimal size of bank, Mel-SD was tested by different compression factor to find the optimal factor in assessing speech quality. Furthermore, optimal Mel-SD and Mel-CD were tested by assessing speech quality of communication system. Experiment resu
6、lts show that Mel-SD has good performance, and performance of Mel-CD is equivalent to PESQ.Key words: Speech Quality; Objective Speech Quality Evaluation; Mel Frequency Spectral Coefficient; Mel Spectral Distortion Measure; Mel Cepstral Distance Measure收稿日期:作者简介:陈华伟(1972),男,江西宁都人,博士研究生。Email: chw.ma
7、il 在通信系统的研究、设计、发展、运营过程中,需要对设备和系统的性能进行监测,以便进行调整、改进、优化等。在涉及语音信息交流的系统中,评价系统性能优劣的一个重要指标就是系统所传输语音的质量。面对新的通信技术和通信服务的要求,研究灵活、可靠、准确的语音质量评价系统成为国内外研究者努力的目标。Mel-CD是Mel域上的语音质量客观评价方法,在研究和实践中都得到了一定的应用15。Mel-CD把美尔倒谱系数MFCC (Mel Frequency Cesptral Coefficient)作为语音信号的特征描述,并用于表示客观失真距离的计算模型。MFCC考虑了人耳对频率的非线性感知特性,但MFCC本身
8、是同态解卷积的处理,将其作为语音质量客观评价中的语音特征描述时并没有很好地符合听觉生理模型以及感知特性。针对Mel-CD存在的问题,文献6提出一种以美尔谱系数MFSC(Mel Frequency Spectral Coefficient)为特征参数的语音质量客观评价方法美尔谱失真测度Mel-SD (Mel Spectral Distortion Measure)。Mel域上的语音质量客观评价与Mel域滤波器的选择有密切的关系,本文将对Mel-SD、Mel-CD与滤波器关系加以研究,并在此基础上,对MFSC中非线性压缩函数变化对Mel-SD性能的影响进行研究。1 Mel-CD和Mel-SD典型的
9、基于输入-输出的语音质量客观评价主要由语音信号预处理、特征参数计算、失真计算/判断模型三部分组成,如图1所示。核心部分在于特征参数计算、失真计算及判断模型,不同的客观测度主要区别在于这个两个部分。音调是听觉分辨声音高低时,用于描述这种感觉的一种特性,客观上用频率表示音调,主观上音调的单位用Mel标度。图3 美尔谱系数计算计算短时功率谱滤波非线性压缩DCTFFTX(f)P(f)x(n)OjX(j)频率弯折MFSCP(mel)计算短时功率谱滤波log|*|DCTFFTX(f)P(f)x(n)OjX(j)频率弯折MFCCP(mel)图2 美尔倒谱系数计算Mel-CD和Mel-SD是建立在人对声音信号
10、频率所产生音调感知特性的基础上,对语音信号提取Mel域上的特征描述,得到失真量计算所需要的特征参数,通过合适的判断模型,将失真量与MOS值相对应。系统预处理特征参数计算预处理特征参数计算失真计算/判断模型原始语音失真语音图1基于输入输出语音质量客观评价原理框图本节将对Mel-CD和Mel-SD的主要不同部分-特征参数提取进行说明和比较。1.1 预处理由于输入-输出语音质量客观评价的要求,需要先对语音信号进行预处理,主要有:时间对齐、电平规整、预加重处理、分帧等。1.2 特征参数表示美尔倒谱系数MFCC与美尔谱系数MFSCMFCC与MFSC的计算过程见图2、图3。1.2.1 FFT与短时功率谱语
11、音信号是非平稳信号,但是一般认为,在1025ms内是短时平稳的,因此对25ms的语音帧计算其短时功率谱。1.2.2 频率弯折将频率按式(1)变换至Mel标度域。1.2.3 Mel域滤波第k帧的短时信号功率谱通过耳蜗三角带通滤波器组,得到滤波器功率谱输出。(2)是第k帧,第j个滤波器的输出,是滤波器组中的第j个滤波器的传输函数,N为滤波器的个数。Mel域滤波器组由给定数目的三角带通滤波器组成,滤波器的中心频率和带宽在04000Hz范围对应的Mel刻度频率域上均匀排列。各个三角滤波器带内,其对应线性频率对应的权值由式(3)确定: (3)为第j个滤波器的中心频率,为第j个滤波器的幅频特性。1.2.4
12、 对数运算与非线性压缩变换从图2、图3中,可以看出MFCC与MFSC的区别就在于对数运算与非线性压缩函数部分不同。MFCC中的对数运算源于同态解卷积,MFSC的非线性压缩运算基于强度响度感知变换。在MFSC中选择合理的压缩函数基于两点考虑:1.符合听觉感知特性;2.避免复杂计算模型。在文献7中选择立方根函数作为强度响度变化的近似。1.2.5 离散余弦变换MFCC中DCT变换目的本身是同态解卷积,同时也可以起去相关和降维作用。MFSC中DCT变换的目的是去相关和必要的降维作用,经过DCT处理后MFCC和MFSC各个系数分量之间不具有相关性,满足距离失真计算中的各分量间不相关的假设。1.2.6 M
13、FCC与MFSC的关系MFCC虽然结合了语音频率感知非线性和Mel域带通滤波的概念,但本质是基于同态解卷积的倒谱分析;MFSC则基于语音的频率和强度听觉感知的特征表示。但如果不考虑MFCC和MFSC原理的区别,若将对数运算作为非线性压缩的一个实现,则可以认为MFCC是MFSC的一个特例。在文中,为了比较MFCC与MFSC在客观音质评价中使用的不同效果,依然将两者看作是不同的特征参数。1.3 失真计算与判断模型1.3.1 失真量计算 Mel-SD与Mel-CD的失真量计算完全相同,下面仅仅对Mel-SD的失真量计算加以说明。第k帧的美尔谱失真距离定义如式(4) k =1,2,N (4)MFSCx
14、(i,k)为输入语音信号的第k帧MFSC第i阶系数,MFSCy(i,k)为失真语音信号的第k帧MFSC第i阶系数。N为语音信号的总帧数,m为MFSC的阶数。将语音文件每帧的美尔谱系数失真距离作算术平均,得到该失真文件的美尔谱系数失真距离,作为失真语音的总失真量,见式(5)。 (5)1.3.2 判断模型计算的失真量按最小二乘法准则进行二次多项式拟合,以对应相应的语音质量的客观MOS值或者称为预测MOS值。1.4 Mel-CD与Mel-SD的关系从以上分析,如果将MFCC作为MFSC的一个实现特例,则Mel-CD可以作为Mel-SD的一个特例,只是由于选择了并不符合听觉感知特性的对数压缩的原因,M
15、el-CD与Mel-SD在评价性能不同6。2 语音质量客观评价的性能指标语音质量客观评价方法的性能优劣,一般用语音质量的客观MOS值与主观MOS值之间的相关程度和预测误差作为评价的性能指标8,两者的相关程度采用Pearson相关系数加以描述,如式(6)所示。相关系数描述了客观评价与主观评价MOS之间的线性程度,相关系数越接近1,客观测度用于预测主观MOS值越准确。(6)预测误差用标准估计偏差ssse表示,见式(7)所定义。SSE越小,反映预测误差越小,客观评价测度的性能越好。 (7)在(6)和(7)中,MOSO(i)是第i个数据的客观MOS值,MOSs(i) 是主观评判的MOS分值,M是数据点
16、的数目。3 Mel-SD、Mel-CD与Mel滤波器数目的关系分析Mel-SD和Mel-CD,两者的区别在于提取的语音特征参数不同。而在MFCC和MFSC中,除了非线性变化部分不同,其他部分也是相同的。Mel域滤波是两个参数计算的共同部分,因此Mel滤波器组的选择对Mel-SD、Mel-CD都将产生影响。在此,我们希望了解Mel滤波器组对客观测度的影响。在此针对电话频带语音质量客观评价研究,我们选择带宽比电话频带略宽,为04000Hz。Mel滤波器组的构造,根据给定滤波器组中滤波器的数目,在对应04000Hz的Mel域范围02146Mel尺度域内三角形滤波器组的中心频率均匀排列。滤波器的数目不
17、同,则滤波器的带宽不同,滤波器组的构成也不同。滤波器组对测度性能的影响就转换为用滤波器组中滤波器数目的变化对测度的影响加以研究。滤波器的影响将通过Mel-CD和Mel-SD在测试中的性能体现出来。测试实验使用的汉语普通话语音材料,选自于音质MOS评价法标准SJ 20771-2000,及与之配套、强制性执行的MOS测试用语音数据库标准SJ 208522002,包括72个语音文件,每个文件包括大致持续10秒的三个测试语句(按照汉语的统计特性,经过语音平衡构建而成),且由3 男3 女发音录制而成的原始语音库。测试实验形成了不同通信体制、不同干扰样式及各种干信比的失真语音条件,总为8个不同的语音数据集
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 用于 语音 质量 客观 评价 Mel 失真 测度
限制150内