多模态情绪识别技术及其在保险行业的应用.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《多模态情绪识别技术及其在保险行业的应用.docx》由会员分享,可在线阅读,更多相关《多模态情绪识别技术及其在保险行业的应用.docx(24页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、多模态情绪识别技术及其在保险行业的应用一、引言准确的情绪识别是进行自然、和谐、友好交流的基础和前提,在人际交往中有着重要的作用。随着智能机器人的快速发展和应用,如何使机器人具备这种对人的情绪状态进行快速准确判断的能力,并在此基础上准确地响应人类情感,真正实现智能的、有温度的、人性化的人机交互,是近年来学术界和产业界研究和应用的重点方向。人的情绪可以通过面部表情、声音声调、语言、脑电信号、身体姿态动作等多种模态表现出来。情绪识别可以基于这些模态中的单个或多个模态信息融合来进行。基于单一模态信息进行情绪识别,如基于面部表情的情绪识别,具有数据来源单一、易于获取、特征提取相对简单的特点,但也有抗噪性
2、能差、信息不全面的问题。因此,仅基于单一模态信息无法实现情绪的有效识别。而多模态情绪识别技术,综合运用互为补充、互为印证的视觉、听觉和自然语言文本等多个模态的信息进行情绪判断,将识别模型由单一算法向组合模型发展,进行特征级、决策级或模型级的融合,从而可以融合跨模态信息,进行情绪的综合理解和判断。多模态情绪识别比单一模态的识别具有更高的准确性、复杂度和难度。近年来,如何构建一个准确的多模态情绪识别模型已成为新的研究热点,在国际计算机语言协会(ACL)、国际人工智能学会(AAAI)等人工智能顶级会议和期刊上均有研究成果发表。随着情绪识别技术的迅速发展,相关的行业应用和初创企业也大量增加,该技术已在
3、智能客服、健康医疗、远程教育、安全驾驶等行业得到了应用。保险领域先天具有数据资源丰富且模态多样性的特点,大量的语音、文本、图片、视频信息尚没有被充分利用。多模态情绪识别可实现对这些不同模态数据的综合处理和分析,为保险领域的众多科技产品和服务的优化提升提供助力。二、情绪识别研究概览(一)情绪描述模型情绪描述是进行情绪识别的基础和前提。情绪识别过程包括建立数学模型描述情绪状态,然后通过情绪识别系统对情绪进行分类或量化。在现有的研究中,情绪通常有两种描述方式离散情绪模型和多维度情绪模型(见表1)。1. 离散情绪模型大多数研究人员认为,情绪可以用六种基本情绪的组合表示,即悲伤、愤怒、厌恶、恐惧、惊讶、
4、高兴,这六种基本情绪可以通过组合模式形成更复杂的情绪类别。离散情绪模型并不能反映情绪状态的复杂性和多样性,在量化用户情绪类型和强度的过程中有一定的局限性。2. 维度情绪模型维度情绪模型的理论认为,核心情绪在大脑中是连续的,维度情绪模型是将情绪状态映射为某一空间上的点。这其实与离散情绪模型并不冲突,只是维度情绪模型是连续的,具有表示情绪的范围广、能描述情绪的演变过程的优点。维度情绪模型,可以从多个维度量化和表征情绪的类型和强度,在一定程度上弥补了离散情绪模型的不足。(二)情绪表现模态在多模态情绪识别领域,多种模态可被用于识别和预测人类情绪。根据其表现方式大致分为以下两类。显性情感线索,包括面部表
5、情、眼球活动、语言、动作、步态和脑电图等,如从演员的面部表情可以直接观察到其情绪。隐性情感线索,为常用的数字媒体类型,包括文本、音频、图像和视频。本研究主要讨论的是隐性情感线索,可以通过客户和坐席的语音通话、聊天记录、视频内容等识别客户或者坐席的情绪。图1为情绪表现模态的示意图,图中包括了显性的面部表情图片和隐性的文本和语音模态。(三)情绪识别途径情绪既可以通过单一模态识别,也可以通过多种模态结合识别。单一模态情绪识别指只通过一种显性或隐性情感线索识别情绪,如只通过动作、文本或音频识别情绪。但是单一模态作为情感表达可靠渠道的有效性无法保证,这时需要考虑多种模态相结合来识别情绪,例如“文本+音频
6、”“文本+视频”“文本+音频+视频”等。多模态学习可以聚合多源数据的信息,使模型学习到的表示更加完备。以视频情绪识别为例,同时使用字幕标题等文本信息、音频信息和视觉信息的多模态模型要显著好于只使用任意一种信息的单一模态模型,这将提高情绪识别的可靠性和稳健性。(四)困难和挑战在多模态情绪识别的过程中,会遇到情绪主观性大、原始数据缺失、模态间不平衡、数据标签不准确等挑战。例如,在一些多模态情绪识别应用中,文本、图像、语音、视频模态所包含的信息量不均衡,不同模态含有的噪声也不同,在进行多模态学习中,这些模态之间不平衡的现象很容易造成模型偏向其中一个占据主导地位的模态。或者在人工数据标注过程中,会因为
7、每个人对于情绪的主观感受不同,导致数据标签不准确,这也会给模型训练带来一定的困难。三、多模态情绪识别技术情绪识别技术是智能人机交互的基石,它赋予计算机像人一样的观察和理解情绪特征的能力,使计算机像人一样进行生动交互成为可能,具有十分重要的理论意义和实际应用价值。(一)整体框图多模态情绪识别技术的研究主要涉及特征提取、模态融合和情绪识别等方面,目前大多数研究多集中在模态融合层面。图2以传统的多模态融合技术(特征级融合)为例介绍多模态情绪识别的流程。基于文本、语音、图像、视频等模态数据完成数据采集,分别对每种模态提取对应的特征,然后对多种模态信息进行跨模态融合。模态融合可以采用与模型无关的融合,或
8、者基于模型的融合,然后将多模态融合的特征输入到情绪识别模型中,根据任务需求可以对情绪进行分类、回归、检测等。(二)关键技术1. 特征提取在金融保险领域,主要涉及文本和音频数据,下面重点介绍一下文本和音频特征提取。(1)文本特征提取。目前比较流行的是基于深度学习的特征提取方法,主要包括Word2vec、BERT、ELMO等。Word2vec本质上是静态的方式,Word embedding不会随着上下文场景的变化而改变,具有一定的局限性。而BERT采用全新的掩码语言模型(Masked Language Model,MLM),可以生成深度的双向语言表征。同时它的泛化能力较强,可以在预训练后,只需要添
9、加一个额外的输出层进行微调,就可以在各种各样的下游任务中取得最佳表现,它可以比较方便地实现效果较好的文本特征提取。(2)音频特征提取。音频数据可以通过librosa库、wav2vec等工具提取特征。常用的音频特征包括梅尔频谱(Mel-Spectrogram)和梅尔频率倒谱系数(MFCC)等,它们的计算流程如图3所示。2. 多模态融合多模态融合的目的是将不同单模态中提取的信息整合到一个多模态表示中,也是多模态情绪识别中一个重要的研究方向。高效的模态融合能极大地提高情绪识别系统的完善性。不同模态之间的信息相互补充、相互支持,能够有效地提高情绪识别的效果。早期按照融合的阶段将多模态融合方法分为特征级
10、融合、决策级融合和混合融合,但是近年来,随着深度学习神经网络的日益发展和成熟,部分学者采用了新的融合分类方法:模型无关的融合方法与基于模型的融合方法。(1)模型无关的融合方法。模型无关的融合方法指模态融合的过程与具体采用的模型无关,可以分为特征级融合、决策级融合和混合方法融合。特征级融合也叫前期融合,指在编码前对多模态的特征进行融合,由于发生在特征提取阶段,特征级融合能够最大限度地保留原始信息,能有效地提取各模态之间的交互信息。图2中的架构就采用了特征级融合的方法,有代表性的方法包括张量融合网络(Tensor Fusion Network,TFN)、低阶多模态融合(Lowrank Multim
11、odal Fusion,LMF)。特征级融合模型相对简单,可以使单模态研究人员快速进行多模态的研究和训练。决策级融合也叫后期融合,是在分类器编码过程之后的决策层面上的融合,主要目标是找出各个模态的可信度,再进行协调、联合决策。常用的方法有平均、投票、加权、自适应增强、动态贝叶斯网络等。混合方法融合组合了前两种融合方法,既在特征提取阶段做了前期融合,又在决策阶段使用模型做了后期融合。(2)基于模型的融合方法。模型级融合可以将不同模态特征分别输入到不同的模型结构再进行进一步特征提取,例如,先手动提取各个模态的特征,再输入到神经网络中,从神经网络中学习到多种模态之间的共享表示。目前的模型级融合主要采
12、取的策略是通过构建深度网络模型,建立多层结构,逐层学习更加复杂的变换,从而拟合更加复杂的特征,增加非线性表达能力。总体来说,模型级融合相较于模型无关的融合方法最大的优势在于可以灵活地选择融合的位置。图5是识别视频中情绪的深度学习网络框架,可以看出这是充分利用了深度神经网络强大的特征学习能力的混合深度学习模型,实验结果也表明,这种基于深度神经网络的模型级融合框架比模型无关的融合方法表现得更好。3. 情绪识别模型对于多模态情感信号,可以进行不同的情绪识别任务,包括分类、回归、检测等。传统的机器学习分类算法包括决策树、支持向量机(Support Vector Machine,SVM)、逻辑回归、朴素
13、贝叶斯等,回归算法包括线性回归模型、多项式回归模型、岭回归模型等,但是它们都属于浅层结构算法,针对复杂问题其泛化能力受到一定制约。目前多模态情绪识别任务大多使用深度学习算法,可通过学习一种深层非线性网络结构,实现复杂函数逼近,并展现出强大的从少数样本学习数据集本质特征的能力。下面介绍两种常见的神经网络。(1)卷积神经网络。卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络,它的核心思想是捕捉局部特征,在图像、文本、音频等方面都有广泛的应用。CNN结构包含输入层、卷积层、池化层、输出层。(2)循环神经网络。循环神经网络
14、(Recurrent Neural Network,RNN)是一类以序列数据为输入,在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络。和CNN相比,RNN可以捕捉到长距离依赖关系。(三)典型相关任务1. 细粒度(方面级)情感分析在很多场景下,一句话对不同方面的表述可能呈现出不同的情感极性,例如,“这个产品性价比不错,但是他们公司服务实在不怎么样”,这句话对产品和服务两个方面呈现出了不同情感的极性。在这种情况下,需要细粒度情感分析进行具体情感极性的提取。细粒度情感分析在情感分析的基础上,对文本内容中各主体的具体属性进行进一步的分析。它在舆情分析、对话系统等场景中发挥了重要作
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多模态 情绪 识别 技术 及其 保险行业 应用
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内