语音情感识别研究进展综述.docx





《语音情感识别研究进展综述.docx》由会员分享,可在线阅读,更多相关《语音情感识别研究进展综述.docx(31页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、语音情感识别研究进展综述人类之所以可以通过聆听语音捕捉对方情感状态的变化,是因为人脑具备了感悟以及理解语音信号中的可以反映讲话人情感状态的信息(如特殊的语气词、语调的变化等)的才能.自动语音情感识别那么是计算机对人类上述情感感悟以及理解经过的模拟,它的任务就是从收集到的语音信号中提取表达情感的声学特征,并找出这些声学特征与人类情感的映射关系.计算机的语音情感识别才能是计算机情感智能的重要组成局部,是实现自然人机交互界面的关键前提,具有很大的研究价值以及应用价值.语音情感识别研究的开展距今已有30余年度的历史,在此期间,它得到了世界范围内相关研究者们的广泛关注,也获得了一些令人瞩目的成绩,但同时
2、也面临着众多问题的考验与挑战.本文将立足于语音情感识别研究领域的已有成果,对领域内的研究进展进展总结,并对将来的技术开展趋势加以展望.一般讲来,语音情感识别系统主要由3局部组成:语音信号收集、情感特征提取以及情感识别,系统框图如图1所示.语音信号收集模块通过语音传感器(例如,麦克风等语音录制设备)获得语音信号,并传递到下一个情感特征提取模块对语音信号中与话者情感关联严密的声学参数进展提取,最后送入情感识别模块完成情感的判断.需要十分指出的是,一个完好的语音情感识别系统除了要完善上述3局部以外,还离不开两项前期工作的支持:(1)情感空间的描绘;(2)情感语料库的建立.情感空间的描绘有多重标准,例
3、如离散情感标签、鼓励-评价-控制空间以及情感轮等,不同的标准决定了不同的情感识别方式,会对情感语料的采集标注、识别算法的选择都产生影响.情感语料库更是语音情感识别研究的根底,负责向识别系统提供训练以及测试用语料数据.国内外相关研究根据研究者的出发点不同会各有侧重,但归根结底都可以涵盖到上述5个关键模块之中.图1(Figure1)Fig.1Frameworkofastandardspeechemotionrecognitionsystem图1语音情感识别系统框图因此,本文将首先对语音情感识别接近40年度的开展历程进展扼要的回首,然后从情感描绘模型、情感语音数据库、语音情感相关声学特征提取、语音情
4、感识别算法、语音情感识别技术应用这5个角度对当前的语音情感识别技术主流方法以及前沿进展进展系统的总结以及分析,最后给出技术挑战与展望.1语音情感识别历史回首最早的真正意义上的语音情感识别相关研究出如今20世纪80年度代中期,它们创始了使用声学统计特征进展情感分类的先河.紧接着,随着1985年度Minsky教授“让计算机具有情感才能观点的提出,和人工智能领域的研究者们对情感智能重要性认识的日益加深,越来越多的科研机构开场了语音情感识别研究的探究.在20世纪80年度代末至90年度代初期,麻省理工学院多媒体实验室构造了一个“情感编辑器对外界各种情感信号进展收集,综合使用人体的生理信号、面部表情信号、
5、语音信号来初步识别各种情感,并让机器对各种情感做出适当的简单反响;1999年度,Moriyama提出语音以及情感之间的线性关联模型,并据此在电子商务系统中建造出可以识别用户情感的图像收集系统语音界面,实现了语音情感在电子商务中的初步应用.整体而言,语音情感识别研究在该时期仍旧处于初级阶段,语音情感识别的研究主要侧重于情感的声学特征分析这一方面,作为研究对象的情感语音样本也多表现为规模小、自然度低、语义简单等特点,固然有相当数量的有价值的研究成果相继发表,但是并没有形成一套被广泛认可的、系统的理论以及研究方法.进入21世纪以来,随着计算机多媒体信息处理技术等研究领域的出现和人工智能领域的快速开展
6、,语音情感识别研究被赋予了更多的迫切要求,开展步伐逐步加快.2000年度,在爱尔兰召开的ISCAWorkshoponSpeechandEmotion国际会议第1次把致力于情感以及语音研究的学者聚集在一起.近年度来,先后又有假设干以包括语音情感计算在内的情感计算为主题的会议以及期刊被创立,并得到了世界范围内的注目,其中较为著名的有:始于2005年度的AffectiveComputingandIntelligentInteraction双年度会,始于2020年度的INTERSPEECHEmotionChallenge年度度竞赛,创刊于2020年度的?IEEETransactionsonAffect
7、iveComputing?期刊和始于2020年度的InternationalAudio/VisualEmotionChallengeandWorkshop(AVEC)年度度竞赛等.同时,越来越多国家的大学或者科研机构涉足到语音情感识别研究的工作中来,著名的有:贝尔法斯特女王大学Cowie以及Douglas-Cowie指导的情感语音小组;麻省理工大学Picard指导的媒体研究实验室;慕尼黑工业大学Schuller负责的人机语音交互小组;南加州大学Narayanan负责的语音情感组;日内瓦大学Soberer指导的情绪研究实验室;布鲁塞尔自由大学Canamero指导的情绪机器人研究小组等.国内对语音
8、情感识别研究的关注起始于21世纪初,经过近10年度的开展,目前已有越来越多的科研单位参加该领域的研究,著名的有东南大学无线电工程系、清华大学人机交互与媒体集成研究所、形式识别国家重点实验室、浙江大学人工智能研究所以及中国科学院语言研究所等.近10余年度来,语音情感识别研究工作在情感描绘模型的引入、情感语音库的构建、情感特征分析等领域的各个方面都得到了开展.Cowie等人开发的FEELTRACE情感标注系统为语音情感数据的标注提供了标准化工具.Grimm等人将三维情感描绘模型(activation-evaluation-powerspace)引入到自发语音情感识别的研究中,并将维度情感识别问题建
9、模为标准的回归预测问题.Grimm的工作为维度语音情感识别研究的开展争取到更多的关注,激发了维度语音情感识别的热潮开发了面向语音情感特征提取的开放式工具包openSMILE,实现了包括能量、基频、时长、Mel倒谱系数等在内的常用语音情感特征的批量自动提取,并逐渐得到广泛认可以科研工程为依托,创立了一个以科学研究为目的的大型多媒体情感数据库SEMAINE,并提供了情感数据的维度标注结果,为语音情感识别的研究以及开展提供了公开的、丰富的、高质量的自然情感语料.正是这些研究成果的不断涌现,为构建语音情感识别标准化平台做出了里程碑式的奉献.2两类主流情感描绘模型情感描绘方式大致可分为离散以及维度两种形
10、式.前者将情感描绘为离散的、形容词标签的形式,如快乐、愤怒等,在人们的日常沟通经过中被广泛使用,同时还被普遍运用于早期的情感相关研究中.丰富的语言标签描绘了大量的情感状态,那么,其中哪些情感状态的研究价值更具有普遍性呢?这个问题可以归结为对根本情感类别确实定.一般认为,那些可以跨越不同人类文化,甚至可以为人类以及具有社会性的哺乳动物所共有的情感类别为根本情感.表1列举了不同学者对根本情感的定义以及划分,其中,美国心理学家Ekman提出的6大根本情感(又称为bigsix)在当今情感相关研究领域的使用较为广泛.表1(Table1)Table1Variousdefinitionsofemotionf
11、romdifferentresearchers表1不同学者对根本情感的定义学者根本情感ArnoldAnger,aversion,courage,dejection,desire,despair,dear,hate,hope,love,sadnessEkman,Friesen,EllsworthAnger,disgust,fear,joy,sadness,surpriseFridjaDesire,happiness,interest,surprise,wonder,sorrowGrayDesire,happiness,interest,surprise,wonder,sorrowIzardAng
12、er,contempt,disgust,distress,fear,guilt,interest,joy,shame,surpriseJamesFear,grief,love,rageMcDougallFear,disgust,elation,fear,subjection,tender-emotion,wonderMowerPain,pleasureOatley,Johnson-LairdAnger,disgust,anxiety,happiness,sadnessPankseppAnger,disgust,anxiety,happiness,sadnessPlutchikAcceptanc
13、e,anger,anticipation,disgust,joy,fear,sadness,surpriseTomkinsAnger,interest,contempt,disgust,distress,fear,joy,shame,surpriseWatsonFear,loverageWeiner,GrahamHappiness,sadnessTable1Variousdefinitionsofemotionfromdifferentresearchers表1不同学者对根本情感的定义后者那么将情感状态描绘为多维情感空间中的点.这里的情感空间实际上是一个笛卡尔空间,空间的每一维对应着情感的一个
14、心理学属性(例如,表示情感谢烈程度的激活度属性和说明情感正负面程度的效价属性).理论上,该空间的情感描绘才能可以涵盖所有的情感状态.换句话讲,任意的、现实中存在的情感状态都可以在情感空间中找到相应的映射点,并且各维坐标值的数值大小反映了情感状态在相应维度上所表现出来的强弱程度.由于维度情感模型使用连续的实数值来刻画情感,因此在有些文献中又被称作连续情感描绘模型.一些既简单又能被广泛使用的维度情感描绘模型有二维的激活度-效价空间理论(arousal-valencespace)、三维的鼓励-评估-控制空间理论(valence-activation-dominancespace)以及情感轮理论(em
15、otionwheel)等.其中,激活度-效价空间理论如图2所示:垂直轴是激活度维,是对情感谢烈程度的描绘;程度轴是效价维,是对情感正负面程度的评价.情感状态的日常语音标签以及该坐标空间可以进展互相转化,通过对情感状态语言描绘的理解以及估计,就可以找到它在情感空间中的映射位置.图2(Figure2)Fig.2Arousal-Valenceemotionalspace图2激活度-效价情感空间两种表达模型各有千秋:从模型复杂度而言,离散描绘模型较为简洁、易懂,有利于相关研究工作的着手以及开展,而维度模型却要面对定性情感状态到定量空间坐标之间怎样互相转换的问题;从情感描绘才能的角度而言,离散情感模型的
16、情感描绘才能那么显示出较大的局限性,多数情况下,它只能刻画单一的、有限种类的情感类型,然而人们在日常生活中所体验的情感却是微妙而多变的,甚至是复杂而模糊的(例如,人们在受到惊吓时所表现出来的情感不仅有吃惊,往往还包含害怕甚至恐惧的成分;又比方,人们对愉悦的表达可以呈现出假设干的程度,可以从喜上眉梢,到眉飞色舞,再到手舞足蹈),可以讲,离散描绘方式以及自发情感的描绘之间还存在着较大的障碍,然而维度情感模型从多侧面、连续的角度进展情感的描绘,很好地化解了自发情感的描绘问题,并且以准确的数值很大程度上回避了离散情感标签的模糊性问题.最后,我们以表格的形式对两个情感描绘模型之间的区别进展了直观的总结以
17、及展示,见表2.表2(Table2)Table2Comparisonoftwoemotionalrepresentationmodels表2两种情感描绘模型的区别考察点离散情感描绘模型离散情感描绘模型情感描绘方式形容词标签笛卡尔空间中的坐标点情感描绘才能有限的几个情感类别任意情感类别被应用到语音情感识别领域的时期1980s2000s优点简洁、易懂、容易着手无限的情感描绘才能缺点单一、有限的情感描绘才能无法知足对自发情感的描绘将主观情感量化为客观实数值的经过是一个繁重且难以保证质量的经过Table2Comparisonoftwoemotionalrepresentationmodels表2两种情
18、感描绘模型的区别3具有代表性的情感语音数据库语音情感识别研究的开展离不开情感语音数据库的支撑.情感语音库的质量上下,直接决定了由它训练得到的情感识别系统的性能好坏.目前,领域内存在的情感语音库类型多样,并没有统一的建立标准,按照激发情感的类型可分为表演型、引导型、自然型这3个类别;按照应用目的可分为识别型以及合成型两个类别;按照语种不同可分为英语、德语、汉语等.不同于一般文献中的分类方法,本文将根据情感描绘模型的不同,将数据语料资源划分为离散情感数据库以及维度情感数据库两个分支,二者的区别在于情感标注形式的不同,前者以离散的语言标签(如快乐、悲伤等)作为情感标注,而后者那么以连续的实数坐标值表
19、示情感.由此,我们称以语言标签进展标注的情感语料库为离散情感语料库,而以情感空间坐标值进展标注的语料库为维度情感语料库.目前,就国内外整个研究领域而言,以离散情感语料库居多,而维度情感语料库还有待丰富.本文将按照上述两个分支对当前国内外颇具代表性的情感语音库进展扼要综述.它们固然没有涵盖领域内大局部的语音资源,但都是经过精挑细选的、语料质量较高、影响较为广泛的情感语音库.假设需解析更多的情感语料库情况,可以参考文献3.1离散情感数据库一个离散情感数据库一般包括有限的几类根本情感类型,并且祈望每类情感的演绎都能到达单一、浓重、易辨识的标准,然而这恰恰是生活化的自然语音难以知足的.因此,目前的离散
20、情感数据库多属于表演型或引导型,或二者的交融.例如,下面列举的代表性数据库中只有FAUAIBO属于自然型.3.1.1Belfast英语情感数据库Belfast情感数据库由Queen大学的Cowie以及Cowie录制,由40位录音人(18岁69岁,20男20女)对5个段落进展演绎得到.每个段落包含78个句子,且具有某种特定的情感倾向,分别为生气/anger、悲伤/sadness、快乐/happiness、恐惧/fear、中性/neutral.3.1.2柏林EMO-DB德语情感语音库DMO-DB是由柏林工业大学录制的德语情感语音库,由10位演员(5男5女)对10个语句(5长5短)进展7种情感(中性
21、/nertral、生气/anger、害怕/fear、快乐/joy、悲伤/sadness、厌恶/disgust、无聊/boredom)的模拟得到,共包含800句语料,采样率48kHz(后压缩到16kHz),16bit量化.语料文本的选取遵从语义中性、无情感倾向的原那么,且为日常口语化风格,无太多的书面语修饰.语音的录制在专业录音室中完成,要求演员在演绎某个特定情感前通过回忆自身真实经历或者体验进展情绪的酝酿,来增强情绪的真实感.经过20个介入者(10男10女)的听辨实验,得到84.3%的听辨识别率.3.1.3FAUAIBO儿童德语情感语音库FAUAIBO录制了51名儿童(10岁13岁,21男30
22、女)在与索尼公司消费的电子宠物AIBO游戏经过中的自然语音,并且只保存了情感信息明显的语料,总时长为9.2小时(不包括停顿),包括48401个单词.语音通过一个高质量的无线耳麦进展采集,并由DAT-recorder录制,48kHz采样(而后压缩到16kHz),16bit量化.为了记录真实情感的语音,工作人员让孩子们相信AIBO可以对他们的口头命令加以反响以及执行,而实际上,AIBO那么是由工作人员暗中人为操控的.标注工作由5名语言学专业的大学生共同完成,并通过投票方式决定最终标注结果,标注共涵盖包括joyful,irritated,angry,neutral等在内的11个情感标签.该数据库中的
23、18216个单词被选定为INTERSPEECH2020年度情感识别竞赛用数据库.3.1.4CASIA汉语情感语料库该数据库(:/chineseldc.org/resource_info.php?rid76)由中国科学院自动化研究所录制,由4位录音人(2男2女)在纯洁录音环境下(信噪比约为35db)分别在5类不同情感下(快乐、悲哀、生气、惊吓、中性)对500句文本进展的演绎得到,16kHz采样,16bit量化.经过听辨挑选,最终保存其中9600句.3.1.5ACCorpus系列汉语情感数据库该系列情感数据库(:/3.2维度情感数据库对维度情感语音数据库的建立而言,由于维度情感描绘模型的使用,使得
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 情感 识别 研究进展 综述

限制150内