欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    2022年情感语音的分析与转换 .pdf

    • 资源ID:33365665       资源大小:52.45KB        全文页数:3页
    • 资源格式: PDF        下载积分:4.3金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要4.3金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    2022年情感语音的分析与转换 .pdf

    第 1 页 共 3 页计算机世界 /2007 年/1 月/29 日/第 B13 版技术专题深入研究人类用语音表达情感的机理,探索不同情感状态下语音的差异以进行转换 ,可以为语音合成、语音分析、语音识别等提供指导,最终改善人机交互。情感语音的分析与转换崔丹丹蔡莲红情感是语音传情达意的重要成分。在交互过程中,语音的情感承载着丰富的信息,同样文本的语音可能表达出不同的情感和含义。情感语音转换主要关注表达的准确性,追求表达的真实意图和弦外之音。近年来,在信息、娱乐等服务的应用系统中,表现力和情感语音合成成为新的热点。美国早在1990 年就由 MIT 的 Cahn 构造了一个用声学和语音学来描述发音的计算机程序,用来驱动一个基于规则的语音合成器合成六种基本情感,合成的情感约有50%的识别率。欧洲也启动了 PHYSTA (Principled Hybrid Systems and Their Application)项目,目标是开发一个能从脸像和语音识别情感的系统。日本 ATR 实验室对人类自然语音交流中的情感、意图等非音段信息进行深入分析, 并录制和标注了大量的日常生活中的语音数据。国内也开展了情感语音相关的研究,特别是清华大学和中科院心理所合作,将人机交互技术与心理、认知科学相结合,在情感语音计算和处理领域迈出了新的探索之路。情感语音分析与转换的主要工作语音变换的目标是实现语音的个性化,比如实现男女声变换、特定声音音色的变换,而情感变换的目标是实现不同情感的变换,比如原有一个中性(无感情色彩)的声音变成“高兴的”声音。情感声音转换的研究分为情感语音分析和情感语音变换两个部分。情感语音分析的主要工作是收集各种带有不同情感的语音数据、提取声学特征,分析声学特征与情感联系,建立“情感描述词”与“情感状态空间”的映射、“情感空间”与语音特征的映射、训练情感转换模型。而情感语音变换是按照指定的“情感描述词”,利用情感转换模型实现转换。困难的是,语音表达丰富多彩,人类的情感也非常复杂,因而情感如何量化一直困挠着研究人员。清华大学与中科院心理所的研究人员借用心理学家提出的PAD 三维情感状态模型解决了情感的量化问题。PAD 情感状态模型包括三个维度,即愉悦度、激发度和优势度,特别是PAD 中“优势度”可很好地描述语音交互属性。如发出命令的声音比接受命令的声音优势度高。下面将介绍情感语音转换中的几个关键部分。从情感体验到情感状态空间为了实现人机语音交互系统的符号用户接口,建立如文本中的词汇、网络聊天用的字符表情、字体颜色等情感符号在情感描述空间上的分布是非常必要的。最基本的情感符号是表示情感的形容词,在心理学研究中叫做“情绪体验词”。情感符号都可以转写为特定的情绪体验词。为此,课题组选取了一个能够覆盖日常生活中常见情感表达模式的情绪体验词集合,并标定它们在PAD 空间的分布, 从而建立起从情感描述符号到情感状态空间的映射。其中,关键问题是情绪体验词的选取。为了解人的情绪体验,心理学者们常选用一系列形容词制成检表来测查心境状态或情绪性障碍,例如 Izard 的分化情绪量表DES 就得到了广泛的认可。在汉语方面,左衍涛先生评定出127组共 400 个汉语常见情绪词作为中文情绪词的代表样本,也很值得借鉴。而在课题组的研究中,名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 3 页 - - - - - - - - - 第 2 页 共 3 页情绪体验词的选取面向人机交互中的表达模式,在覆盖基本情感的基础上考虑了典型表达模式下的混合情感,并兼顾其在PAD 空间的分布。选取的情绪体验词集可以分为两个部分: 核心体验词:覆盖前面提到的基本情感范畴,是情绪的基本分化成份,如快乐的、惊奇的。混合体验词:代表典型表达模式下的混合情感,需要同时考虑典型性和区分性,如轻蔑的、温顺的。情感状态与声学特征研究情感空间与语音特征的关系首先要根据研究目标收集语音语料数据,得到能够支持分析的语料后,提取特征参数,进行分析,选择出与情感相关的特征参数。数据采集:数据的收集与处理是最为关键和困难的环节之一,而要获得有效理想的情感语音数据则格外困难。为此,在分析之前,课题组首先设计并收集了一个面向表达模式、以数据的典型性和区别性为目标的情感语音语料库。课题组从PAD 空间中最显著的区别即8 个象限入手, 从每个象限各选取了代表典型表达模式的一到二种常见情感,共10 种,包括兴高采烈、放松、温顺、惊奇、轻蔑、厌恶、恐惧、悲伤、焦虑、愤怒,加上中性,共11 种。根据研究的进展还可能扩充。课题组还为每种情感设计了5 个基于特定情景的语段,各嵌入一个无情感偏向的语句,共 55段。另外,生理信号被认为与情感变化有着更为直接的联系。因此,除语音外,课题组还采集了包括心电、呼吸、指脉、皮电在内的四路生理数据,以辅助声学分析。同时,生理信号变化的显著性,也佐证了采集到的情感的真实性。附图展示了“每一个细胞都仿佛呼吸着一种叫做喜悦的情绪,我不由得说,啊 ! ” 这句话对应的生理信号数据。图左为语音数据,标注了音节边界(上)和基频信息(下)。图右为生理数据,自上而下分别是心电、呼吸、指脉和皮电。特征分析:课题组比较了已标注完成的男生样本中的文本对齐语句的韵律和频谱声学特征参数在不同情感中的差异,还提取了包括心率和呼吸幅度在内的9 个生理参数进行声学、生理学联合分析。根据7 个声学参数和9 个生理参数在各种情感状态下的统计结果,研究人员发现11 种情感状态之间的声学和生理学差异显著,例如 : 惊奇、 兴高采烈等情感的基频有不同程度的升高,并伴随着语速和心跳的加快。基频的一阶差分和能量在愤怒时最高等等。同时生理特征还是声学特征的有效补充,例如惊奇和兴高采烈是在情感语音分类中比较困难的两类情感,但它们的心跳间期一阶差分的均值和与呼吸有关的特征差别则较为显著。不同的特征似乎与情感的不同方面相关联。为了更清楚地观察这一点,研究人员将特征参数的值与相应情感的PAD 坐标求相关系数, 进行声学、 生理学、心理学的联合计算性分析,发现: 大多数特征与激活度(A)明显相关,而频带周期性则是最高的; 而与愉悦度( P)方面只有频谱质心和呼吸的最高点等4 个特征具有超过0.5 的相关系数 ; 没有与优势度(D) 明显相关的特征。为了进一步分析特征之间的关系,对样本利用以上的参数为特征进行信息学联合聚类。意外地发现 16 个参数形成稳定的3组。成组的结果与上文的统计分析结果类似,但不完全一致。经过以上初步分析,可以断定情感语音的量化计算研究是非常有意义和有希望的。其中的发现可以为未来更深一步的研究提供指导: 特征参数与不同情感维度的相关程度的确存在偏向性。 特征参数与情感维度有关但可能不是线性关系或存在特征的耦合作用。 呼吸相关特征可能具有比较特殊的区别能力。课题组研究了愉悦度P 相关的声学特征的选择。前面的语料数据经过正则化等处理,被用来寻找愉悦度变化的细微线索。特征选择采用以下三种方法: 相关系数再次被用来作为声学特征和PAD 坐标之间相关程度的大致度量; 因子分析可以用于发现语音特征中与三个情感维度相关的公共因子 ; 信息学联合聚类将有助于寻找声学特征的成组作用。用上述语料和方法从76 维初始特征出发,经多轮选择,最终得到5 维特征。同时,在因子和聚类分析中,A 和 P都位于不同的因子名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 3 页 - - - - - - - - - 第 3 页 共 3 页或类,也说明了A 和 P 的独立作用。多数频谱特征与P 有相对高的相关性。情感语音变换的实现要实现情感语音转换,还要建立变换模型。课题组的方法是输入原始语音与目标情感状态PAD 坐标,由原始语音分析出特征和情感坐标,经过变换输出目标语音的特征参数。模型选用的数学工具不同于以往的分类算法,而更多地考虑连续型变量的建模工具。语音转换涉及的参数多且包含了不同层次的特征,如何协调、统一修改是算法的关键。修改的语音既要保证准确性又要满足自然度的要求,各种语音修改算法的性能与适用范围不同,要根据具体的需要选择、综合、 优化, 更要注意选择好的语音修改算法。变换的结果要进行感知评价,因此还需要研究感知评价的方法,以及如何利用感知评价结果优化模型。有了模型和变换算法之后就可以进行声音变换,并进行听音测试。由于P和声学特征之间非线性关系,课题组采用P 的 6 个初等函数作为变量,分别与每一个特征进行逐步回归建立特征的预测模型,最后实现语音修改。作者介绍崔丹丹清华大学计算机科学与技术系人机交互与媒体集成研究所博士研究生,研究方向为语料库建设、语音合成、情感语音研究等。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 3 页 - - - - - - - - -

    注意事项

    本文(2022年情感语音的分析与转换 .pdf)为本站会员(H****o)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开