基于机器学习的语音情感识别系统的设计.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《基于机器学习的语音情感识别系统的设计.docx》由会员分享,可在线阅读,更多相关《基于机器学习的语音情感识别系统的设计.docx(53页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、摘 要语音识别在现实中有着极为重要的应用,现在语音内容的识别技术已日趋成熟。当前语音情感识别是研究热点之一,它可以帮助AI和人更好地互动、可以帮助心理医生临床诊断、帮助随时随地高效测谎等。本文采用了中科院自动化所的CASIA语料库作为样本,先进行预处理,之后对语料库进行语音情感特征函数的提取,再结合二叉树进行SVM支持向量机的分类,最后得到识别准确率。预处理是将语音信号提纯的操作,主要分为数字化、预加重、分帧加窗和端点检测4步,之后来到提取语音情感特征参数的阶段。虽然有许多语音情感特征参数,本文中使用的语音情感特征参数为基音频率、短时能量、共振峰和梅尔倒谱系数(MFCC)四种,再对每一种特征参
2、数进行归一化运算。传统的支持向量机识别语音情感信号为“一对一”模型,若有种情感,算法复杂度为。结合语音情感的分类间有较为相似和不相似两种情况,本文采用将二叉树和支持向量机结合的方法,每一层都遵循相似聚类的准则,逐层二分,从根结点的所有情感,最后分类到叶结点只有一个情感,此时完成识别分类。种情感的算法复杂度为,大大提高了效率。本文最后在完成整个系统后端的架构之后,加入了UI界面,原本运行界面简陋的系统,拥有了更加直观的显示,在面板上就可以方便地调节参数,也可以快速得到对比结果和识别结果。关键词:语音情感识别,机器学习,二叉树,支持向量机- I -本页为“6毕业论文Abstract(1页或2页)”
3、,点击菜单“USTB本科论文各部分”中的本部分菜单进行相应操作。本提示信息为非打印信息,可一直保留,不影响打印。(Speech emotion recognition based on Machine LearningAbstractSpeech recognition has extremely important applications in reality, and now the recognition technology of speech content has become increasingly mature. Current speech emotion recogni
4、tion is one of the research hotspots. It can help AI and people interact better, it can help psychologists make clinical diagnosis, and help to effectively detect lie anytime, anywhere. In this paper, the CASIA corpus of the Institute of Automation of the Chinese Academy of Sciences is used as a sam
5、ple, pre-processed first, and then the speech emotion feature function is extracted from the corpus, and then the binary tree is used to classify the SVM support vector machine.Preprocessing is the operation of purifying speech signals. It is mainly divided into 4 steps: digitization, pre-emphasis,
6、framed windowing, and endpoint detection, and then comes to the stage of extracting emotional feature parameters of speech. Although there are many speech emotion feature parameters, the speech emotion feature parameters used in this article are pitch frequency, short-term energy, formant, and Mel c
7、epstrum coefficient (MFCC), and then each feature parameter is normalized. Traditional support vector machines recognize speech emotion signals as a one-to-one model. If there is a kind of emotion, the algorithm complexity is. There are two similarities and dissimilarities between the classification
8、s of speech emotions. In this paper, the method of combining binary trees and support vector machines is adopted. Each layer follows the similar clustering criterion, and the two layers are divided into two layers. Finally, there is only one emotion classified into the leaf node, and the recognition
9、 classification is completed at this time. The sentiment algorithm complexity is, which greatly improves efficiency.In this article, after completing the architecture of the entire system backend, a UI interface was added. The original system with a simple interface has a more intuitive display. You
10、 can easily adjust parameters on the panel, and you can quickly get comparison results and recognition results.Key Words: speech emotion recognition, machine learning, binary tree, support vector machine- IV -本页为“7毕业论文目录(1页或若干页)”,点击菜单“USTB本科论文各部分”中的本部分菜单进行相应操作。本提示信息为非打印信息,可一直保留,不影响打印。(目 录摘 要IAbstrac
11、tIII1 绪 论11.1 课题背景11.2 研究意义11.3 国内外研究综述31.3.1 研究综述31.3.2 现存问题41.4 内容安排52 语音信号预处理及特征参数72.1 预处理72.1.1 数字化72.1.2 预加重72.1.3 加窗分帧82.1.4 端点检测102.2 语音情感特征参数122.2.1 基音频率122.2.2 短时能量152.2.3 共振峰172.2.4 梅尔频率倒谱系数MFCC183 基于SVM支持向量机的语音情感识别203.1 支持向量机SVM203.1.1 线性SVM213.1.2 非线性SVM233.2 核函数的选取243.3 二叉树SVM分类模型的构建254
12、 实验结果和性能分析294.1 系统界面的设计294.2 实验结果与性能分析304.2.1 准确率304.2.2 识别速度375 结 论39参考文献41在学取得成果47致 谢49- VI -本页为“8毕业论文图表清单页(可选,1页或若干页)”,点击菜单“USTB本科论文各部分”中的本部分菜单进行相应操作。本提示信息为非打印信息,可一直保留,不影响打印。(- VII -本页为“9毕业论文注释说明清单页(可选,1页或若干页)”,点击菜单“USTB本科论文各部分”中的本部分菜单进行相应操作。本提示信息为非打印信息,可一直保留,不影响打印。(- IX -本页为“10毕业论文正文页(若干页)”,点击菜单
13、“USTB本科论文各部分”中的本部分菜单进行相应操作。本提示信息为非打印信息,可一直保留,不影响打印。(1 绪 论当今时代发展潮流下,随着大数据的应用,机器学习已经成为未来研究方向的主流趋势之一。现在,更多的研究员和学者,将机器学习的相关知识和方法运用到语音信息识别方面。其中,提取合适而准确的语音情感特征参数是语音信息识别研究中的关键步骤,而语音情感信息识别就是基于此步骤上的重要应用。但是,语音情感特征参数的提取有一些关卡:1.找到和语音情感识别具有密切关系的;2.语音信息复杂多变,过分依赖于环境、说话人、情感等因素1。1.1 课题背景每个人都有情感,有高兴、愤怒、焦虑、紧张等各种各样,或是正
14、面或是负面的情感,而从科学上来说,情感是一种综合了人类的行为、思想和感觉的精神状态。观察一个人的情感一般有迹可循,无论是比较容易发现的外在还是内在,情感信息大多主要表现在内外两个层面:内在的情感信息是指心率、脉搏、血压等通过外表无法直接观察到,需要借助工具才能发掘的信息;外在的情感信息是指面部表情、声音、姿势等通过外表能直接自然观察到的信息。情感识别是指通过各种算法,利用计算机采集并分析各种情感信息,从而提取出可以一定程度描述情感的特征值,再根据训练集表现,建立特征值与情感的映射关系,依靠分类算法,对情感信息分门别类,最终推断出情感状态。1.2 研究意义计算机的广泛应用和大数据时代的到来,都使
15、得信息技术得到迅猛发展,加上各种智能设备如手机、个人电脑的普及,为了提高生活和工作的效率,语音识别逐渐出现在人们的视野内,给我们带来了莫大的便利。语音识别不仅可以用来日常将声音转化为文字,还可以利用个人声音特征信息进行加密和防伪等工作,具有极高的实用价值。随着语音技术基本应用已经取得广泛应用,我们就开始不仅仅满足于对特定说话人语音中的单一音素和单词语句进行简单的识别,而对诸如远程语音、儿童语音、言语障碍者语音以及语言情感进行有效地识别,未来也可能成为语音识别领域一些新的研究热点。语音是很重要的表达素材,其中不仅包含了说话人所要表达的文本内容,也同时包含了说话人所要表达的情感,所以对语音中情感内
16、容的有效准确识别不仅能够提升语音辨别度,更是提高了语音的可懂度,因此,人工智能和机器学习在这方面的应用和优势便显而易见。一些研发人员希望开发的智能设备,不仅要具有理性的人类思维逻辑,情感则是使这些机器更贴近人类的关键。同时具有理性逻辑和情感的设备可最大限度地理解用户意图,为人类提供更好的服务2。(1) 人机交互随着科技的不断发展,语音人机交互已经渗透进社会的各个方面:生活中不仅有使人愉快带来方便的个人智能语音AI,还有语音导航为每一位行路人带去指引;在医学方面,病患可以通过智能语音机器人做到定时吃药,疑问早解答;在教育领域,语音人机交互更是给学生足不出户的学习体验,同时可以丰富课堂的互动。语音
17、情感识别在人机交互方面依然可以有很出色的拓展应用,在机器分析人的语句内容时,有时候发音相近的词语就会混淆,造成识别的精准度不高。但是语音情感识别可以将情感作为其中一个判断依据,根据人说出的词语的备选词汇和当时情绪状态做出精准的选择,提高识别准确率,同时,做出更恰当的回应,比较冷冰冰的合成语音,更亲切也更生动,给人更好的体验。(2) 心理学医学情感在心理学中一直是研究的重点,结合人在不同情绪下脑部和身体的生理反应,各方面激素的分泌水平和神经反应,可以开发出基于语音情感识别的高精确度情感识别机器,帮助临床研究和教学,更可以帮助医生快速判断患者的精神状态,给予更有效精准的治疗方案,给更多人带来慰藉,
18、提高临床治愈率。(3) 测谎技术测谎技术多用于政府机关、法院和军事单位,现有的测谎技术多基于人的心率和肾上腺素分泌水平等,语音情感识别则是给测谎技术上了一个双保险,根据被测谎人的说话情感,就可以判断他目前的心理状态是从容还是焦虑,继而判断究竟是在说实话还是撒谎。而在人多眼杂的场合,往往无法架起现有测谎仪设备进行对测谎人的测试,但是基于语音情感识别系统的测谎仪则仅仅只需要采集语音样本进行分析,就可以为测试带来较高精准度。1.3 国内外研究综述1.3.1 研究综述国内外的研究者很早就嗅到了语音识别的应用价值。20世纪初,科学家们就开始了以临床精神病学和口语中情感影响的经验研究,当时还没有这么现金的
19、计算机设备和算法。但是在研究的过程中,科学家们本着求知的精神,学习人的发声方式并进行模拟人们对于语音情感识别的依据,探索出来很多可精确比较的量化参数,这些参数就是语音情感特征参数。文献3中,Williams和Stevens的研究表明,某些较为激烈的情绪,如生气、害怕和高兴等的产生,将会激励交感神经系,从而导致一系列生理反应,比如有心跳加速,血压上升,嘴唇变干,面部还偶尔会产生肌肉震颤。语调也就是我们说的频率,在说话时也变高,同时语速加快,导致发出的语音信息具有强烈的高频能量。另一方面来说,一些相对来说较为平静的情绪,如害怕、悲伤等的产生将会激励副交感神经系,产生和激烈情绪完全相反的反应,心跳变
20、缓,血压降低,嘴巴中唾液分泌增多,嘴唇变得更加湿润。所以这个时候说话的音量也相应的变低,速度缓慢,具有很少的高频能量,语音信号的频段。这些生理上的变化,说明当人在不同情绪下的时候,其语音相应的能量,会有高低不同的频率,在频谱上出现不同的分布峰4。20世纪60年代开始,越来越多的科学家,在发现了对于语音信号来说,不仅语义具有重要意义,其中包含的情感信息也是含有很多信息量,所以投入到对语音情感的研究上来,而同时日益先进的技术不仅给这些研究带去了更多可以利用的条件,科学家们对语音情感特征参数的充分了解,也给语音情感识别带来了更多演技切入点5。总的来说,情绪对语音的影响主要体现在三个方面:基因曲线,连
21、续声学特征和语音品质6。随着更多人参与到语音识别的研究上来,我们已经基本解决了两个问题:这句话是谁说的?说的是什么?而语音情感识别就是针对第三个问题:怎样说的。自动语音情感识别系统是指通过训练出情感分类器后,输入需要测试的语音信号,自动得到语音信号中所包含的情感种类,这个过程中不包含人为的干涉。但是即使发展了近60年,现存的研究报告基本都表明,自动语音情感识别的性能同人类识别相比的要差。图1-1 情感信息表达方式国际研究方面,文献7的著者Schuller等人利用隐形马尔可夫模型(Hidden Markov Model,HMM)进行识别。文章共阐述了两种方法,第一种的重点放在语音信号的基因和能量
22、曲线的统计上,再通过高斯混合模型得到结果;第二种则是在隐形马尔可夫模型中引入时间复杂度。Schuller等人在文献8中则是采用了不同的分类算法:线性分类器(Linear classifiers),高斯混合模型(Gaussian Mixture Models,GMM),神经网络(Neural Nets ,NN)和支持向量机(Support Vector Machines,SVM)。再加入语音信息之后,识别率高达90%。Ververidis等人在文献9中采用了前向顺序选择法SFFS(sequential floating forward selection)从87个基音和能量相关的特征参数中得到最
23、好的5个特征。再利用主成分分析法降到二维中来做分析,更是在95%的置信度上有51.6%左右的识别率。而在国内研究者研究的中文语音情感识别方面,蒋丹宁等在文献10中主要研究的是两种特征参数在区分情绪识别中的作用,分别是声学参数的统计特征和时序特征。在从一名女性发出的六种不同情绪的语音库中,提取出韵律特征和频谱特征后,先是用HMM和推荐算法PNN(Product Network)对声学参数进行处理,再计算属于每种情感的比例。文献11中,屈玉涛等人采用支持向量机(Support Vector Machine, SVM)的分类算法,通过最大化不同数据之间边缘距离来提高学习及其各种方面的能力,能够构建出
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 机器 学习 语音 情感 识别 系统 设计
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内