《基于SVM的语音情感识别系统设计.docx》由会员分享,可在线阅读,更多相关《基于SVM的语音情感识别系统设计.docx(43页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、基于SVM的语音情感识别系统设计目录本内容局部原创因才疏学浅偶有纰漏望不吝指出。本内容由灵声讯音频-语音算法实验室整理创作转载以及使用请与“联络联络方式QQ2450519431引言随着信息技术的不断开展情感信息处理及识别正在受到学者越来越广泛的重视。语音信号中除了与语言内容相关的信息之外还包含着讲话人的情感信息。这些情感信息在沟通中同样具有着重要的作用。不同的情感一般是由讲话人通过调整发音器官的动作改变了语音信号的声学特征所表达出来的。这些特征包括音质特征、韵律特征、共振峰特征等等。在相对研究较少的汉语情感识别方面我们在赵力2、蒋丹宁4等人所做工作的根底之上建立情感语音数据库是汉语普通话情感语
2、音识别研究的根底。为此我们建立了一个小规模的普通话情感语音数据库进而对数据库中的各种声学特征与情感状态之间的关系作了统计分析。本文组织如下第二章介绍了语音情感信号的收集以及数据库的建立第三章介绍了从情感语音数据库中提取基音、能量、共振峰等特征的方法第四章介绍了分类器的设计以及各种特征参数与情感的统计关系最后一章给出了分类的结论以及需要进展的后续工作。2情感语音信号的收集本文所研究的情感语料对单个特定人共包括5类情感愤怒、平静、悲伤、快乐、惊讶对三个人组成的特定人群包括3类情感愤怒、悲伤、平静。共有超过500句的情感语句包括了陈述句、祈使句、疑问句等句子类型和各种腔调组合及语句长度等情况。为方便
3、情感的表达不同的情感语音文本不完全一样。录音者就是本文的三位。录音软件为CoolEdit2000语音的文件格式为单声道16KHz采样量化比特数为16。为了检验所采集的语音情感的有效性我们找了另外3位同学随机播放所录制的情感语音要求他们通过主观评判讲出所播放语音的情感类别实验结果如表1。根据听取结果剔除了一些语句最后采用了的情感语句共480句。表1情感语音听取实验结果情感类别愤怒平静悲伤快乐惊讶错误率%愤怒12060259.8平静01203002.4悲伤02120001.6快乐2006026.3惊讶3201609.13.特征参数3.1基音频率参数对于基音频率的处理我们的作法是利用自相关法求出基音
4、频率并对基频曲线进展中心消波以及线性平滑处理然后对基频曲线的以下特征进展了研究并对特征可以较好区分的情感作了统计。绘制的图像见附表。为方便起见下文中五种情绪简化表示如下p平静b悲伤j惊讶f愤怒g快乐表2基音频率参数的统计结果特征名称各情感参数效果可以较好区分的情感愤怒平静悲伤惊讶快乐基频最大值337.5231.5314.4322.2351.6良PJ基频最小值64.244.657.260.966.8中无基频变化范围273.3186.9257.2261.2284.8中无基频部分最小值分布223.6127.4166.3179.2256.7良PF基频的均值233.4132.9167.0181.2264
5、.4好PJGF基频方差4.27e31.38e33.68e35.39e33.49e3中无基频变化率的均值-2.4e-3-9.7e-4-8.7e-4-3.5e-3-4.6e-4中无基频变化率的方差7.6e-33.4e-36.5e-36.3e-34.2e-3中无3.2共振峰参数共振峰是反映声道特性的一个重要参数我们通过对语音流中加汉明窗再对其进展傅立叶变换的方法求得共振峰并对其以下特征进展了研究。表3共振峰参数的统计结果特征名称各情感参数第一行为均值第二行为方差效果可以较好区分的情感愤怒平静悲伤惊讶快乐第一共振峰均值28.317.410.422.332.0好BJG共振峰方差16.46.9419.98
6、.8727.6中无3.3能量参数在能量方面考虑到音量的绝对大小并不应该成为表达情感的主要参数所以我们主要研究了能量变化率等相对变化的特征参数。其中重音特征可以把情感区分为“愤怒、惊讶、快乐组成的冲动类情感以及“平静、悲伤组成的平缓类情感。表4能量参数的统计结果特征名称各情感参数第一行为均值第二行为方差效果可以较好区分的情感愤怒平静悲伤惊讶快乐能量变化率的均值1.3e-51.9e-54.7e-51.1e-51.4e-5中无能量变化率的方差3.3e-53.5e-55.4e-54.1e-52.2e-5良BG能量变化率的变化率1.591.262.091.881.02良BG速度6.155.897.096
7、.256.19中无重音0.2850.00340.01790.17560.3166良冲动平缓4语音情感的识别4.1采用高斯分布模型的分类实验中我们采用的是一种比拟简单的高斯分布模型将每类特征的分布视为多个高斯分布的加权以及。公式描绘为其中M为高斯分布的个数分别为第i个高斯分布的均值以及方差。最后加权以及概率最大的类别C即为分类结果。4.2SVM分类器的原理SVM法即支持向量机(SupportVectorMachine)法由Vapnik等人于1995年度提出具有相对优良的性能指标。该方法是建立在统计学习理论根底上的机器学习方法。通过学习算法SVM可以自动寻找出那些对分类有较好区分才能的支持向量由此
8、构造出的分类器可以最大化类与类的间隔因此有较好的适应才能以及较高的分准率。该方法只需要由各类域的边界样本的类别来决定最后的分类结果。支持向量机算法的目的在于寻找一个超平面H(d),该超平面可以将训练集中的数据分开且与类域边界的沿垂直于该超平面方向的间隔最大故SVM法亦被称为最大边缘(maximummargin)算法。待分样本集中的大局部样本不是支持向量移去或减少这些样本对分类结果没有影响SVM法对小样本情况下的自动分类有着较好的分类结果.SVM方法是通过一个非线性映射p把样本空间映射到一个高维乃至无穷维的特征空间中Hilbert空间使得在原来的样本空间中非线性可分的问题转化为在特征空间中的线性
9、可分的问题。简单地讲就是升维以及线性化。升维就是把样本向高维空间做映射一般情况下这会增加计算的复杂性甚至会引起“维数灾难因此人们很少问津。但是作为分类、回归等问题来讲很可能在低维样本空间无法线性处理的样本集在高维特征空间中却可以通过一个线性超平面实现线性划分或者回归。一般的升维都会带来计算的复杂化SVM方法巧妙地解决了这个难题应用核函数的展开定理就不需要知道非线性映射的显式表达式由于是在高维特征空间中建立线性学习机所以与线性模型相比不但几乎不增加计算的复杂性而且在某种程度上防止了“维数灾难。这一切要归功于核函数的展开以及计算理论。选择不同的核函数可以生成不同的SVM常用的核函数有以下4种1线性
10、核函数K(x,y)xy2多项式核函数K(x,y)(xy)1d3径向基函数K(x,y)exp(-|x-y|2/d24二层神经网络核函数K(x,y)tanh(a(xy)b4.3数据分析及整理在提取了前面的特征参数之后通过分类器对其进展了分类结果列于下面的表5至表10中。下面的表5表6反映了单个特定人情况下训练集与测试集数目关系对正确率的影响。表格5单个特定人三种特征下训练集与测试集数目关系对正确率的影响训练集数目测试集数目错误率统计错误句数测试集正确率%训练集(错误数目及种类)测试集(错误数目及种类)平静悲伤惊讶愤怒快乐平静悲伤惊讶愤怒快乐20*540*501j1p02g1f2b3j1f3g5j2
11、f5169230*530*501j1p03g1j2f02j01g3j2f8894.740*520*501j2p1f3g1j1f0002g3j1f969450*510*501j1p1f5g1j2f0002g3j01159060*5无04j3p1f6g2j4f200表格6单个特定人两种特征下训练集与测试集数目关系对正确率的影响训练集数目测试集数目错误率统计错误句数测试集正确率%训练集(错误数目及种类)测试集(错误数目及种类)平静悲伤惊讶愤怒快乐平静悲伤惊讶愤怒快乐10*550*50000004f6j3f2g2j5f02291.220*540*502j03g1j002j1f4g5f06129430*
12、530*502j1p04g1j002j1f3g3j0899440*520*501j1p07g2j00001g2j01139750*510*502j1p09g3j00002g1j01539460*5无02j1p1f9g3j0160下面的表7反映了单个人情况下特征数目队正确率的影响表格7单个特定人特征数目对正确率的影响特征数目错误率统计错误句数测试集正确率%训练集40*5句(错误数目及种类)测试集20*5句(错误数目及种类)平静悲伤惊讶愤怒快乐平静悲伤惊讶愤怒快乐两种 (基音均值第一共振峰均值)01j1p07g2j00001g2j011397三种 (基音均值第一共振峰均值能量变化率的方差)01j2
13、p03g1j1f0002g3j1f9694三种 (基音均值第一共振峰均值能量变化率的变化率)1b2j3p02g2j2f0002g1f12397四种 (基音均值第一共振峰均值能量变化率的变化率能量变化率的方差)1b2j3p01g1j6f002f1g4j3f141090从上面几个表格中可以看出“愤怒以及“快乐两种情感比拟容易混淆下面就以训练集40*4句测试集20*4句的情况比拟愤怒以及快乐不同时出现的正确率结果见表8。表格8单个特定人愤怒Vs快乐情感数错误个数错误句数PBJFGPBJG001j1p0000020PBJF001j1p0002j2j42下面的表格9反映了组成特定人群的三位录音人在只有“
14、愤怒“悲伤“平静三种情感语音下的正确率。表格9三套单个特定人三种情绪的比照录音人总句数悲伤错误句数平静错误句数愤怒错误句数共错葛林1801p001张吉1292f1f1b4王文韬601p001下面的表格10是特定人群的研究先是两个人组成的特定人群然后是三个人组成的特定人群。分类时仍采用高斯分布模型利用基音频率的均值、能量变化率的方差、第一共振峰的均值三个特征。分类时对每个特定人的每种情感建立一个高斯分布进而分别求出这9个高斯分布的值然后分别对每类情感的3个特定人的分布求以及概率最大的那类情感就是分类结果。表格10特定人群正确率人群测试集句数测试集错误统计共错正确率%平静悲伤愤怒葛张2581f2f
15、2p1b697.7张王1201f2f1p2b695葛王1201b2f2p0595.8三人1801f1b3f4p1b1094.45实验结果5.1实验结果的小结经过特征的提取以及分析我们发现“基音频率的均值、“第一共振峰的均值这两个特征具有最好的区分效果“能量变化率的方差、“能量变化率的变化率、“基频最大值等特征也具有一定的区分效果。对单个特定人的愤怒、悲伤、惊讶、快乐、平静五种情感区分采用“基音频率的均值、“第一共振峰的均值的两个特征具有最好的区分效果识别正确率平均可达93.7%其中愤怒以及快乐两种情绪比拟容易混淆。对三个特定人组成的特定人群的愤怒、悲伤、平静三种情感区分采用“基音频率的均值、“第一共振峰的均值和“能量变化率的方差的三个特征具有最好的区分效果识别正确率平均可达94.4%。5.2系统展示参考文献 1语音信号数字处理电子工业出版社1995 2王治平等语音信号中的情感特征的分析以及识别东南大学无线电工程 3蒋丹宁蔡莲红基于韵律特征的汉语情感语音分类清华大学计算机系 4陈建厦语音情感识别综述厦门大学计算机科学系本内容局部原创因才疏学浅偶有纰漏望不吝指出。本内容由灵声讯音频-语音算法实验室整理创作转载以及使用请与“灵声讯联络联络方式245051943
限制150内