集成神经网络语音情感识别模型研究.docx
《集成神经网络语音情感识别模型研究.docx》由会员分享,可在线阅读,更多相关《集成神经网络语音情感识别模型研究.docx(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、集成神经网络语音情感识别模型研究集成神经网络语音情感识别模型研究罗丹青、邹月娴、黄东延导语:语音情感识别是效劳机器人的关键技术之一,具有重要的应用价值。与传统的语音情感识别方法相比,基于深度神经网络的语音情感识别方法已经展示出优越的性能。背景情感识别有助于为提供良好的体验,是将来必备的一项重要才能,因此近年度来语音情感识别已经逐渐成为一个研究热点,并有了大量应用。固然早在20世纪80年度代就出现了语音情感识别的相关研究,该课题对于机器而言确实较为棘手。此外,相比语音识别领域,用于语音情感识别的公开数据库少之又少。语音情感识别系统由两局部构成,即特征提取器和情感识别分类器。语音情感识别任务中使用
2、的声学特征可分为3类:韵律学特征、谱特征和音质特征。其中常用的韵律学特征包括时长、基频、能量等;谱特征一般有LPC、OSALPC等线性谱特征和MFCC、LPCC等倒谱特征;音质特征一般有共振峰频率及其带宽、频率微扰、振幅微扰和声门参数等。以上声学特征由于是从语音帧中提取,表征的是短时音频的特性,也统称为低层描绘子。然而人们对情感的感悟往往蕴藏于某一时间段内情感的波动表达,所以为了在更长的时间范围内对情感进展描绘,通常还计算句子的全局特征。全局特征用于刻画低层描绘子在整句话中的动态变化信息,因此由低层描绘子的统计值组成,常见的统计值有均值、极值、变化范围、丰度、偏度、矩和线性回归相关参数等。特征
3、设计在传统的语音情感识别方法中是重要的一环,决定了情感特征的好坏。然而,寻找最优的特征子集是一项繁琐的任务,也根据不同的数据库而有所不同。到目前为止,对于语音情感识别任务还没有一套公认的最优特征集,研究人员大多在实验中经历性地选择所需特征。根据特征;和分类器训练方法的不同,语音情感识别系统可以在两个层次进展情感的判断:短语音段层次和完好句子层次。对于短语音段的语音情感识别,一个句子被切分为多个语音段,使用语音段的特征训练分类器。低层描绘子在从语音帧提取出来后,被输入到序列分类器以模拟讲话人的情感分布状态,这样的序列分类器通常使用高斯混合模型和隐马尔可夫模型进展建模。在训练时短语音段的情感标签就
4、是所属句子的情感标签;测试时,由于一句话有多个语音段的识别结果,对它们进展大多数投票得到最终的识别结果。对于完好句子层次的语音情感识别,分类器输入的是从整个句子提取的特征。首先由低层描绘子和统计函数计算句子的全局特征,最后全局特征输入到一个判别分类器进展句子情感的识别。这样的判别分类器包括几乎所有的传统分类器,如支持向量机、决策树、K邻近模型等。近年度来,深度神经网络因其具有强大的从原始数据学习层级特征的才能,也被引入了语音情感识别领域。Han等人设计了DNN用于学习短时语音段情感特征,后端使用极限学习机对全局特征进展句子层次的情感分类。Lee等人提出了基于最大似然学习准那么的循环神经网络对随
5、机语音段标签序列进展建模,极大提升了语音情感识别的准确率。Mirsamadi等人针对语音情感识别探究了不同的RNN构造,并提出了注意力机制对不同情感重要程度的语音帧进展加权。Mao等人设计了卷积神经网络来学习语音中显著具有判别性的情感特征。在同一个数据库上比拟以上不同的方法,可以发现它们的混淆矩阵有很大差异。尽管使用一样的低层描绘子,不同分类器在每个情感类别上都获得了不一致的识别率。该现象讲明单一的分类器无法在所有情感类别上都表现良好,例如可能SVM无法有效识别出“快乐而DNN分类器却可以。这样的差异除了与数据不平衡有关,还与分类器自身的建模才能直接相关。从该结论出发,为了进步语音情感识别的准
6、确率,本文提出一种使用两类神经网络作为基分类器的集成学习方法。正如文献所讲,集成系统中的基分类器应该尽可能地具有不同构造来到达更好的泛化性能,本文选择了适于处理序列数据的循环神经网络和在图像分类中性能突出的宽度残差网络作为基分类器。基分类器介绍1.长短时记忆循环神经网络由于本身独特的构造,RNN拥有强大的处理序列数据的才能。隐含层在前后时间步间的连接使上一步的隐含层状态可以传递给当前步的隐含层。如此循环传递下去,序列中第一步的信息就能传递到最后一步,序列相关性得以建模。然而,当输入序列到达一定长度,由于梯度消失问题RNN的性能会急剧下降,长短时记忆模型就是为了克制该问题而设计的。总体来讲,一个
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 集成 神经网络 语音 情感 识别 模型 研究
限制150内