《基于移动智能终端的听障儿童言语康复训练系统(28页).docx》由会员分享,可在线阅读,更多相关《基于移动智能终端的听障儿童言语康复训练系统(28页).docx(28页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、-基于移动智能终端的听障儿童言语康复训练系统-第 24 页 2017年“挑战杯”吉林省大学生课外学术科技作品竞赛长春大学作品基于移动智能终端的听障儿童言语康复训练系统说明书团队成员:指导教师:参赛单位:电子信息工程学院、计算机科学技术学院吉林省残疾人康复设备及技术科技创新中心目 录摘 要I第1章 研究背景及意义11.1 研究背景11.2 国内外研究现状21.3 研究意义6第2章 作品介绍72.1 作品简介72.2 作品设计72.3 作品使用说明82.4 作品性能优化10第3章 系统设计及工作原理133.1 系统流程133.2 工作原理143.2.1三维模型驱动143.2.2发音训练模块183.
2、2.3反馈系统21第4章 主要创新点234.1 相对于传统方式的优势234.2 技术的创新点244.3 项目未来优化发展25第5章 市场分析26团队简介28参考文献29附 件31附件目录31附件图片32摘 要听障儿童由于听力障碍造成言语的缺失,严重影响其认知能力、思维能力的发展,最终将影响其情感和智力的发育。听障儿童的发音器官是正常的,只要对其进行听力补偿并进行及时科学的言语康复,就能让他们走出无声世界,进入有声世界,和正常儿童一样认识事物,发展智力,为以后入学、工作打下基础。当前听障儿童言语康复训练主要采用言语康复训练教师一对一的对听障儿童示范发音过程,听障儿童进行模仿的训练方式。这种训练方
3、式存在主要问题是听障儿童数量多,而言语康复训练教师少,导致部分听障儿童错过最佳言语康复期。随着计算机技术的发展,出现了一些听障儿童言语康复的辅助软件和设备,但由于这些软件和设备还需要大量的专业人员参与而没有得到广泛的有效应用。为了解决上述传统言语康复训练存在的问题,本作品将面部捕捉技术与三维可视化技术引入听障儿童言语康复训练领域,将面部捕捉技术与三维可视化相结合,建立真实的三维头像模型,并模拟发音器官做出发音动作,为听障儿童展示真实的发音过程,提高听障儿童言语康复训练效果。尤其在手机等移动设备较为普及的今天,本作品将该技术应用于移动智能终端系统中,建立基于移动终端的听障儿童言语康复训练系统。此
4、系统将在移动智能终端系统实现三维虚拟会话头像模拟汉语发音过程,听障儿童应用本系统可以随时随地的自主进行言语康复训练,解决了听障儿童语言康复训练过程中语训教师不足,不能得到及时的康复训练等问题。关键词:言语康复训练,面部捕捉,三维可视化,移动智能终端第1章 研究背景及意义1.1 研究背景听力障碍是人类残疾类型中的一种,早在左传中就有“耳不听无声之和为聋”的说法。中国是世界上听力障碍(简称“听障”)儿童数量最多的国家之一,听障儿童是指由于疾病、药物、噪声、意外事故等影响,造成听觉系统中传音、感音,以及对声音综合分析的各级神经中枢发生异常,引发听力障碍,听不见或听不清周围声音的儿童1。2017年5月
5、21日是我国第二十七次全国助残日。据中国残联介绍,我国目前有8500万残疾人(如图1-1所示),每年新增近200万人,有40%的残疾人有康复需求。其中听力残疾2780万人,约占24.16%;言语残疾130万人,约占1.53%,其中听力障碍儿童83.5万,6岁以下听障儿童13.7万,每年新生听障儿童约2.3万(如图1-2所示)。图1-1 我国残疾人总数图1-2 我国听障人群现状医学专家指出03岁是儿童大脑发育最快的时期,也是学习语言的最关键时期,7岁以前是语言最佳形成期,712岁是可塑期2。如果错过最佳言语康复训练期,声音信号没有在脑部形成刺激,则严重影响儿童后期的言语发育,且听障儿童在语言发育
6、滞后的同时,还常伴有运动、认知等方面的异常或障碍。在重度和极重度听障儿童中,高达25%的儿童有多重残疾。我国第二次全国残疾人抽样调查显示,在0-6岁听障儿童中,有72%同时伴有其他残疾,直接影响了儿童认知能力、思维能力和记忆能力的发展,这给他们在获取知识上造成一定难度,势必会影响其情感和智力的正常发育。虽然听障儿童听不见或听不清声音,但是他们的发音器官是正常的。听障儿童说出的话一般较难听懂,这主要是因为他们发音方式和发音位置不正确。在听力障碍儿童群体中有残余听力的约占85%以上,只要听力能得到及时的补偿和重建,同时进行科学的言语康复训练,大部分听障儿童是可以掌握有声语言的3。据调查,我国听力语
7、言康复事业仍处于发展的初级阶段,听力语言康复服务普及率低,基础薄弱,服务供给及保障能力不足等问题依然十分突出。据全国聋儿康复机构的调查显示,全国有54%的地市级残联没有自己的聋儿康复机构,有59个地市没有一所聋儿康复机构。从全国范围看,残联所属聋儿康复机构只占全国机构总数的30%。国内适龄听障儿童能够有机会进入康复机构进行言语康复训练的仅占听障儿童群体总数的60%,要实现06岁听障儿童言语训练健康全覆盖,还有一定距离。本研究主要借助技术手段,针对37岁听障儿童,进行言语康复训练,帮助听障儿童学习发音、理解语言,使其提高语言及表达能力,为听障儿童正常的工作、学习、融入社会奠定基础4。1.2 国内
8、外研究现状国内的听障儿童言语康复训练从80年代开始,主要采用传统的康复训练方法,依靠语训教师一对一的进行康复训练。这种训练方式由语训教师发音,听障儿童进行模仿。语训教师在言语训练过程中对听障儿童描述发音的位置,然后示范发音过程中的嘴唇形状及舌部在口腔内的变化过程,听障儿童同步进行模仿,通常此种康复训练的方法称为传统康复训练法。传统康复训练方法主要是让听障儿童通过观察发音过程中的舌、嘴唇等发音器官的位置和动态变化,然后通过不断强化练习发音过程,逐渐感知正确的发音从而完成言语康复训练5。这种方法在听障儿童言语康复训练中发挥了较大的作用,取得了一定效果,但主要存在的问题是人在发音过程中,内部发音器官
9、不可视,听障儿童年龄较小,看不见内部发音器官的情况下,很难根据语训教师的描述来理解和感知内部发音器官,如舌头的状态和变化过程。因此,需要专人指导,高昂的额外开支使听障儿童家庭因聋致贫,未进行听障康复训练的儿童几乎不能与人交流,学习工作很难,成人后更难自主生活。(a)听障儿童模仿语训教师口型发音训练(b)听障儿童感受发音时语训教师的声带震动图1-3 语训教师指导听障儿童进行言语康复训练随着科学技术的发展,我们逐渐将聋儿语言康复训练设备用到聋儿语言功能康复训练中。天津市聋儿语言康复中心开发的聪聪学话多媒体聋儿语训系统,把语音识别技术和多媒体技术结合起来,配以视觉反馈,利用多变的画面,吸引聋儿的兴趣
10、,让聋儿在游戏中进行呼吸训练、发音训练、单音练习(英文),并可对聋儿发音实现实时评价,给出发音的波形图和音强、音长和音调等参数,帮助聋儿找到发音存在的问题。此系统还能提供元音、语谱图和共振峰等视觉反馈信息6。虽然此系统能在聋儿语言康复过程中发挥一定作用,但它的使用需要专业指导人员的配合,如让聋儿自己读懂这些复杂的语音分析结果是很困难的。另外,此系统没有配备正确的发音指导提示信息,聋儿即使知道自己发音错误,却不知如何改进。中国科学院深圳先进技术研究院研究员王岚开发的基于中文的三维说话人头像连续发音运动模拟系统7为言语康复领域提供了信息化的创新工具,改进了传统的依靠听力和图片进行言语康复训练的模式
11、,同步采集说话人的面部视频和音频录像,以及口腔内部X光录像,标注说话人发音器官运动特征控制点,并建立对应每个因素的特征点数据库,实现发音器官不同类型的变形运动,对于解决该领域的发展瓶颈起到了至关重要的作用。随着产业化目标的推进,有听障儿童的家庭将不必再为高昂的培训或治疗费用而担心,低龄患者可以通过客户端,在家人的指导下进行适量适度的持续训练。此系统需要家长的陪同训练。国内主要是基础训练与针对训练相结合的言语康复方式和听觉口语法。前者康复方法中,基础训练包括发声放松训练与声带协调性训练,目的是为听障儿童声调、语调发音奠定良好的生理基础,其中发声放松训练包括颈部放松训练与声带放松训练,声带协调性训
12、练主要是运用重读治疗法的节奏训练完成。针对性训练包括声调巩固训练、语调整句强化训练和边界调强化训练,主要是结合特定的声调和语调进行语调表达的训练,属于超音段音位的训练,由三个相互独立又包含的内容组成:巩固单、双字调的声调巩固训练;逐字增加句长法和句子升降调训练组合的语调整句强化训练;借助言语测量仪完成边界调强化训练。这一言语康复方法将医学解剖生理学基础与言语测量仪等现代技术辅助手段相结合,是医教结合理念在特殊教育领域上的完美呈现,但该类训练方法对干预实施人员的手法要求较高,需要经过专业的言语语言病理学训练才能发挥该康复方法的作用。后者康复方法适合于人工耳蜗术后或佩带助听器后听觉补偿比较理想的聋
13、儿,主要借助助听设备,将听觉、语言、认知依其自然发展之程序结合起来,在有意义的情境中透过会话式的互动,让听障儿童学习、倾听、会说话。因其十分注重残余听力的运用与口语的表达能力,强调“听”对言语的自我反馈、自我监控以及自我调整,所以必须在没有视觉线索的情形下先行训练听觉能力,否则很难建立起听觉习惯或视听并用的技巧。在国外,使用较好的“IBM Speech Viewer”、“Box of Tricks” 、“OLP”治疗器、Micro Video Corporation 的Video Voice8。一个比较有影响的系统是IBM可视语言训练系统(IBM Speech Viewer),其最早源于198
14、3年启动的可视语言计划,现今已适用于12种不同的语言。系统由一个带有彩色显示器的PC机,附带着麦克、放大器和扬声器,能保存和分析用户的语音,然后显示和重放。反馈采用各种图形设计和类似游戏带有选择性回放的功能。程序分为三种不同用途:基本认知,技能培养,语音体系练习以及必要的语音模板模块。这套系统是高性能的实时语音治疗设备,其软件包含13个互动程序,能够帮助听力损伤儿童学会认知和控制浊音发音、定时、音调和响度及发声和韵律。此外,还能协助成人或正常听力者学习语言。这些程序涵盖了繁简、难易各个程度的治疗方法。由于系统没有集成训练词汇库或结构性训练设计方案,它要求使用者具备对语音学和传统临床疗法更深层次
15、的理解,才能更高效地发挥系统潜力。“Box of Tricks”听力损伤儿童教学和训练系统是另一个比较著名的系统,由欧洲“INCO-Copernicus计划”的“SPECO”子计划研发支持。这套训练系统设计适用于四种语言。在能够实时提供语音声学参数反馈的同时,系统还以图形形式显示重要的发音特征。这些被称为“语音图形”的东西可以用清晰娱乐的方式展示。在其帮助下,聋儿很容易区分出不正确发音和参考模板的正确发音。通过观看自己发音的图形并将其与正确发音图形比较,从而学会正确发音。系统包括一个通用的独立于语言的测量工具和数据库编辑器。数据库编辑器可构建针对其它语言不同的模块和词汇库。每种语言都有依赖于语
16、言的语音和图形数据库,一个用于教学和训练元音,另一个用于摩擦音和塞擦音。“Box of Tricks”系统使用户有友好的感觉,非常适用于12岁以下语言和听力损伤儿童。采用预设词汇库、可比较的10岁儿童参照语音、各个音素符号语音图形和针对不识字儿童的提示词汇使用户很方便操纵,但不具备设立特定个体训练练习的治疗内容,训练效果不佳。“OLP”治疗器是由欧洲生命质量和生活资源管理项目支持的。OLP项目针对儿童构音障碍、颚裂和听力损伤三种病理学来实施研究。项目的目标是应用新的技术方法改进发音器官损伤造成的生活质量的下降,以便在发音方面支持传统的语音治疗方法。这个方案基于儿童最佳发音并与自动语音识别相结合
17、,而且根据每个儿童的具体情况设计方案。OLP疗法遵照为各个等级的治疗设置的时间表,实施量身定做的治疗计划。基于Internet的远程学习OLP治疗系统含有训练词汇库和结构性训练方法,但没配备参照讲话者。运用自动语音识别技术,系统很复杂且耗时。综合评价表明此方法不适合听力损伤儿童的使用,但更适合机能性发音失常的成人患者。上述国外的聋儿语言康复训练系统设备(如图1-4所示)虽然取得了一定的发展,但多以二维平面的形式进行反馈,对于确认发音准确性和正确性主要依靠第三方教学人员的参与,并没有真正的实现完全依靠人与机器的言语康复训练。图1-4语言康复训练系统综上所述,辅助训练系统,需要专业人员参与,存在时
18、间和场地的限制,且需要高额的费用,并且主要反馈信息集中在音频比对,并无系统的评估过程。如何通过现代计算机技术、信息科学及控制技术等科学技术帮助聋儿及家庭摆脱这些困扰,在减少人工干预情况下自主的进行言语康复是目前康复科学领域一个重要课题9。1.3 研究意义智能化的人机交互是计算机发展的趋势,也是现在的研究热点。人机交互中因为增加了虚拟人物的设计,给人们带来了全新的感觉。尤其增加了虚拟人物的视听结合的语音教学方式比单独的视觉或听觉教学更有助于听障儿童的语言学习。因此,团队在前期的研究中针对听障儿童在言语康复训练过程中语训教师数量无法满足听障儿童言语康复需求,以及传统言语康复训练过程中内部发音器官不
19、可视等问题,将三维会话头像引入听障儿童言语康复领域,采用三维头像模型模拟人的发音动作,辅助康复训练,取得了较好的效果。随着移动设备的普及,智能手机、ipad等移动智能终端逐渐走入家庭,本作品将三维头像技术移植到移动智能终端,开发出一套适用于移动智能终端的听障儿童言语康复训练的系统软件。用惠及广大听障家庭的方法,解决经过听力补偿之后的听障儿童在减少甚至摆脱人工干预的情况下,能够利用可视模型自主的进行言语康复训练的问题,在低廉的成本下听障儿童可随时随地的进行康复训练,符合我国国情的需要,符合国家科技发展规划的要求。第2章 作品介绍2.1 作品简介针对言语训练师不足,训练条件具有局限性,训练费用昂贵
20、等问题,我们利用三维运动捕捉系统建立相应三维模型,将数据传输,加密,音频解析等技术结合,开发出 “基于移动智能终端的听障儿童言语康复训练系统”。系统可在移动智能终端(安装Andriod、IOS系统的智能手机、ipad等设备),实现三维可视化模拟汉语发音。听障儿童可以通过观察三维头像模拟发音过程,一边模仿一边练习。我们作品应用逼真的三维动画效果可以指导听障儿童进行发音训练,对数据的分析,并对听障儿童发音训练进行评估,评估出听障儿童发音的具体情况,因材施教,提供个性化的训练方案,具有显著的训练效果。这种面向听障儿童言语的训练方式,其特征在于:使听障儿童在家,在一切可利用环境下发音训练,并且通过视觉
21、直观看到显示屏幕上的三维头像模拟发音过程和音频波形,一边模仿一边练习,效果显著。2.2 作品设计为了克服目前语言障碍者学习发音过程中出现的无反馈、单调枯燥等不足。我们提出将三维建模与可视语音技术相结合,建立基于特征坐标点参数驱动的三维头像模型及适合发音学习者康复的三维汉语辅助发音的语音库。并在建立 3D会话头像的基础上, 结合语音识别和图像识别技术对发音进行校正,以达到帮助语言障碍者恢复发音功能即达到语言矫治的目的。发音训练是语言康复的重要环节,听障儿童发音时唇部,舌部以及下颚等面部的动作对于发音的准确性有很大的影响, 根据移动终端操作系统的特点,本作品通过事先捕捉的说话时人的面部表情、唇部动
22、作,舌头的状态等三维数据,建立三维动态驱动数据库,用以建立移动终端三维头像表情真实,动作精准,发音准确,协调一致的语言康复训练系统。2.3 作品使用说明用户首先进入登录界面,可以选择注册或者登录。如选择注册界面,用户可以根据系统提示信息注册为本系统用户(使用者拥有唯一的登录号,全国联网同步训练情况),然后进入登录界面,输入正确的用户名和密码,进入训练单元。用户通过选择系统中的字母、声母、韵母、声调符、字、词等不同训练单元进入相应单元,然后可选择具体训练内容对应发音项。用户根据自身情况选择某一发音训练项,系统自动进入三维头像模拟发音训练模块。用户点击三维头像模拟发音训练模块中三维头像所在区域,系
23、统播放三维头像发音动画。听障儿童通过反复训练,以达到正确发音目的。用户学习结束后可以选择退出系统,终止学习,也可以选择返回键继续学习其他单元或其他发音项的内容。我们系统前期已经研发的基于Android系统的康复训练系统V1.0版本,该系统已授权软件著作权,该系统相对简单,接下来会对初级版本进行升级,建立相应的更为精确的反馈机制与评分奖励,使其更具有生动有趣性,具有真实感,丰富发音模块,建立更全面的发音康复资源,同时开发基于IOS系统的软件系统。下列图片为CCU听障儿童言语康复训练系统实际APP图片(图2-1到图2-6)。图2-1 PC机系统登录界面图2-2 移动设备系统登录界面 图2-3 系统
24、训练库选择界面图2-4 系统训练素材界面 图2-5 系统训练发音界面图2-6系统播放发音过程本项目康复训练过程就是受训者通过观察了解一个词语的发声过程,然后模拟面部动作和发声,最后进行训练检测,并通过信息反馈给受训者,指导其进行正确训练。即观察模拟检测这样一个循环训练过程。其中,结果检测在整个训练系统中是至关重要的,通过音频图像结果的反馈,受训者可以清楚的知道自己的发声和标准发声相比有什么不同。通过语音识别结果的反馈,受训者可以知道自己当前的发声是否正确。通过这样一个训练系统可以帮助听障儿童掌握发音规律,能够为接下来获得言语交流能力打下基础。2.4 作品性能优化针对听障儿童的认知特征与正常儿童
25、的差异性10(主要表现在以下几个方面),听障儿童训练时存在的一些问题,我们对系统进行了优化设计,如图2-7所示。图2-7系统性能优化(1)感知活动不完整。听觉的丧失或减退使听障儿童在感知事物的声音属性方面存在一定障碍,不利于形成视听结合的知觉形象,影响了知觉的完整性。针对听障儿童的知觉特征,在设计学习时采用了补偿声音效果、增强视觉效果的设计策略。 (2)无意注意为主,有意注意稳定性差。听障儿童的注意力以无意注意为主,有意注意发展滞后且稳定性差,注意的分配和转移存在一定程度的困难。所以听障儿童的移动智能终端既要能够吸引其无意注意又不能对其有意注意造成障碍,我们对系统界面布局、主题风格、背景 颜色
26、及资源粒度大小等方面进行合理设计。 (3)思维形象化。通常有“十聋九哑”之说,听觉的障碍造成听障儿童言语发展的滞后或丧失,使其思维较长时间停留在形象思维阶段,更加注重事物的外部特征,表现出很大的具体、形象性。而卡通具有丰富多彩的视觉效果,能够形成强烈的视觉冲击力,切合了听障儿童以形象思维为主的认知特征。(4)词语逻辑记忆薄弱。听障儿童的记忆以视觉记忆为主。由于很难形成言语表象,听障儿童对文字、词语的理解、记忆比较困难,缺乏逻辑性,“记得慢,忘得快”的现象在听障儿童中时常发生。针对听障儿童记忆的这种特性,设计的移动语音数据要能够重复利用,使听障儿童可以随时复习、时时复习;听障儿童主要以视觉获取信
27、息,对信息无障碍需求主要是:他们对获取文本、图形等视觉信息是没有困难的。结合听障儿童的认知特征与记忆流图(如图2-8所示),我们采用交互式的设计方式,有利于听障儿童与训练内容的良好交互,对于训练的发生以及训练的效果都有积极的影响。学习是主动的、个性化的学习方式,移动智能终端康复训练系统与听障儿童的交互应该能够保证听障儿童独立、自主地完成有关内容的训练。我们操作反馈采用可视化的、振动的形式。提高学习过程的可控性,由于听障儿童的认知水平参差不齐,接受训练知识的快慢程度迥异,因而训练过程的可控性对于听障儿童自主学习显得尤为重要,听障儿童可以选择自己要训练的内容与难易程度,全方位提高记忆效果与训练疗效
28、。图2-8 听障儿童记忆流图因此本系统的优势体现在以下几个方面:(1)系统本身具备一对多的教学模式,利用三维模型代替老师,成功的解决康复训练师数量不足的问题。(2)听障儿童可实行自主独立的训练,解决了依靠专业人员训练的难题。最后我们的移动智能终端,创造出随时随地的训练条件,使听障儿童可在一切环境下进行发音训练,训练效果十分有效。第3章 系统设计及工作原理3.1 系统流程听障儿童言语康复训练系统(如图3-1所示)主要分为三个模块,分别是可视化模块,传输模块,标准语义库。可视化模块包括三维头像模拟发音和音频文字转语言音频波形,通过采集不同人的语音信息,利用统计原理筛选出与标准发音度匹配的音频,然后
29、对语音进行分帧处理以提取语音的特征参数,建立语音帧与唇形类别的映射关系,数据加载后驱动三维模型发音,同时将训练者的音频文字转为波形。传输模块不仅对音频进行传输,还将特征点以半结构化的XML文件形式进行传输,音频信息与标准语义库进行对比,从而综合评判并反馈结果信息。图3-1 基于智能移动终端的听障儿童言语康复系统整体流程图3.2 工作原理3.2.1三维模型驱动本实验中使用FBX格式的面部模型,该格式文件是MotionBuilder软件所固有的文件格式,在文件兼容性和对象的材质、灯光等方面均高于其他的类型的文件格式11-12。根据 MPEG-4标准,人脸模型上定义了数据在空间上可参考的特征点,将这
30、些特征点可分为不同的区域进行处理,并定义索引来表示特征点所在的区域,所有符合 MPEG-4人脸动画标准13的人脸模型均定义了上述所有特征点位置。在本文的研究工作中,使用 3Dmax软件对人脸模型进行构建14-15:首先,建立人脸面部模型,定义人脸模型面部骨骼特征点数量;其次,建立骨骼空间结构,在各个特征点之间构建关联,以配置和表达面部骨骼模型运动特性;最后,根据捕获到的面部数据特征点名称建立人脸模型特征点的映射关系,实现对人脸模型骨骼特征点的驱动,从而实现演员面部表情数据驱动虚拟角色面部运动并呈现表演效果。上述过程中的人脸模型在软件默认的工作情况下采用 3DS格式保存,该格式不支持 Motio
31、nBuilder对其直接读入和使用。因此,使用 3DMax软件将面部模型进行转换,将其输出为网格格式,以支持使用 MotionBuilder进行三维数据表达,从而构建了 3DMax和 MotionBuilder之间的兼容渠道。选择带有面部表情节点的三维面部模型,根据重建后特征点的位置关系,将特征点与模型的面部表情节点进行映射。根据特征点的映射区域关系,分别建立眼眉、眉角、鼻翼、嘴角、上唇、下唇、眼睛等模型表情节点与数据源间的映射关系,映射关系建立完成后,触发重定向事件,达成数据源成功驱动三维面部模型。通过不同视图,展现出面部模型的正面与侧面16,如图3-2所示。图3-2 三维头像基本模型采用面
32、部表情捕捉系统对面部表情进行捕捉,该系统由成像模块,标定套件、处理软件、标志套件等组成。通过红外相机完成对面部关键点运动进行捕获与跟踪,追踪精度可达0.1毫米以下,可实时模拟出人脸表情运动。采集前,需要对红外相机进行相机光学标记,对6个相机的坐标系进行统一,确保数据采集的精准性。外参完成对坐标系的统一,相机内参与二维点坐标计算面部特征点进行三维信息确定。相机标定的目的是为了求出相机的内参和外参。其中,内参包括内参矩阵与畸变系数,外参包括平移向量与旋转向量。利用相机参数,建立世界坐标系到图像像素坐标系之间的转换关系,实现了像素点从二维平面到三维空间中的相互转换,如图3-3所示。图3-3 三维运动
33、捕捉系统根据模型与重构后特征点之间的映射关系,触发绑定事件,驱动三维面部模型。在利用面部表情捕捉系统进行面部表情采集时,采集者面部需粘贴23个感光标示点(图3-4所示),头部4个用于固定头部相对位置,23个感光标示点可捕获正常人在发音时的面部表情,如唇部、两腮、嘴角等部位。通过特征点的运动驱动三维面部模型,与此同时利用摄像机进行音频采集。采集的数据文件以XML文件的形式进行保存(如图3-5所示),XML文件具有半结构化的特点,具有便捷快速性,可以通过节点找寻所需文件。将捕获到面部标识点的三维数据保存至XML文件中。上述用于记录和呈现面部表情捕捉数据的 XML文件内容项包括:(a)数据帧采集时间
34、戳节点(数据项的标签名为),其用于保存获取该帧数据的时间信息;(b)头部位置标定数据节点(数据项的标签名为),对应感光表示点的个数标签名分别为、和,其用于表示目标对象的头部空间位置;(c)面部骨骼节点的空间位置坐标(数据项的标签名为),对应 23个采集点的个数,采用与头部位置标定数据节点同样的方式依次定名为,对于每一条面部骨骼节点空间位置坐标数据,有三个字段分别是标注其在三维空间中的 X、Y、Z坐标,其在对应的骨骼节点标签中分别以“X”、“Y”、“Z”命名各字段。图3-4面部特征点标定图3-5 XML数据格式在数据传输过程中,基于OptiTrackOptical数据传输组件,采用UDP协议开发
35、了特征点数据实时传输模块。与 TCP 协议不同的是 UDP 协议不需要建立连接,相比 TCP 协议具有消耗资源少,处理速度较快的优点,在保证大量面部特征点数据传输实时性的同时,提高应用程序的执行效率。特征点数据实时传输模块作为服务端模型只负责发送面部特征点数据,OptiTrackOptical组件则作为客户端模型,只负责接收数据实时传输模块所发送的面部特征点数据。一方面,将转化得到的人脸模型导入 MotionBuilder演示平台,提取人脸模型中各个特征点名称、特征点索引,根据人脸模型的特征点数量,创建临时特征点集合。其次,读取 XML文件中的面部表情数据,逐帧提取面部表情数据,根据人脸模型的
36、特征点名称、特征点索引与 XML格式文件中的特征点名称及索引进行绑定。另一方面,将保存完成的面部表情信息与人脸模型骨骼特征点进行映射,实现数据驱动。虽然人物脸部特征的差异性较大,但是对于表情呈现的效果仍可满足基本的需求,在保证面部数据与模型特征点的同步工作情况下,运用 MotionBuilder能够实现面部表情的有效演示。(如图3-6和3-7所示)。图3-6 OptiTrack系统采集图3-7 带动模型运动发音以上数据采集均用MPEG-4标准。MPEG-4特殊的编码方式和强大的交互能力,使得基于MPEG-4的计算机图形和动画可以从各种来源的多媒体数据库中获取素材,并实时组合出所需要的结果。MP
37、EG-4系统的一般框架是:对自然或合成的视听内容的表示;对视听内容数据流的管理,如多点、同步、缓冲管理等;对灵活性的支持和对系统不同部分的配置。MPEG-4标准不仅针对一定比特率下的视频、音频编码,更加注重多媒体系统的交互性和灵活性。这个标准主要应用于视像电话、视像电子邮件等,且对传输速率要求较低。MPEG-4利用很窄的带宽,通过帧重建技术、数据压缩,以求用最少的数据获得最佳的图像质量。经过这样处理,图像的视频质量下降不大但体积却可缩小几倍,这样就可以为我们节省出很多空间。3.2.2发音训练模块通过对语音音频的采集,保存到对应的音频文件中,生成了自己的语音库,语音库形成了就需要对语音进行驱动。
38、语音驱动的唇形动画属于人脸动画技术范畴,具有真实感的可视化语音合成技术已成为人机接口、虚拟主播与人工智能等领域的研究热点,可广泛用于视频教学、电影动画、虚拟社区等。研究基于三维网格模型的语音于驱动三维动画同步技术17-18我们应用了:(1) 特定人的可视化语音与三维模型同步动画技术。我们采用了数据加载的方式,把存储面部信息点的XML文件的数据和音频的数据全部加载到移动端的缓冲区时,在同步进行驱动展示。这样就解决了语音与唇形动画同步的问题。(2) 三维模型同步动画技术。利用BP神经网络研究语音与驱动唇形动画。该方法运算量较小,可操作性较强,能够达到较理想的语音唇形动画效果。在应用中有如下几个方面
39、:1. 采集不同人的语音资料,建立语音库;研究与分析汉语的发音特征以及发音规律,分析唇形运动状态以将具有相似运动状态的唇形进行归类,建立口型库。2. 基于特定人的语音可视化合成算法的研究,提取唇形的特征参数值,对唇形样本进行分类与聚类处理,形成基本的唇形类别,对语音进行分帧处理以提取语音的特征参数(MFFC)(注:MFCC 语音特征的提取中Mel频率倒谱系数是基于傅立叶变换提取的语音参数19-20。分析研究表明,MFCC 能够充分利用人耳的听觉系统,在语音识别中作用很大。其计算流程如下:(1) 对语音信号进行傅立叶变换、取模,得到频谱;(2) 对频谱取平方,得到功率谱;(3) 使用23个 Me
40、l 滤波器组进行滤波;(4) 对滤波后的结果取自然对数;(5) 对自然对数取离散余弦变换(DCT),得到 MFCC(提取流图如图3-8所示),建立语音帧与唇形类别的映射关系,建立训练模型以训练样本数据,最终合成与语音帧相同步的唇形帧,经平滑处理后达到真实动画效果。系统框架如图3-9所示。3. 非特定人的语音驱动唇形动画的研究,依据汉字音节特征以及声韵母与唇形类别间的映射关系,构建一个三层的BP网络模型进行学习训练。在实时语音驱动唇形动画过程中,首先对语音信号进行端点检测,将噪音段与无音段直接对应闭合的唇形状态,然后提取有效语音的底层特征参数,经过BP网络模型处理,生成与实时语音帧对应的唇形状态
41、帧,以显示唇形动画。此项目恢复系统采用汉语语音驱动人脸唇形动画,首先提取语音的特征参数MFFC,建立语音帧与唇形帧在时间序列上的某种映射关系,以驱动唇形运动。最后,在三维人脸网格模型上实现语音驱动的唇形动画,达到真实自然的动画效果。实验证明,所提算法是有效的,且具有较满意的运行效率。图3-8 MFCC系数提取图3-9系统框架我们系统同时也进行优化处理,利用基于阶层式人工神经网络的发音特征提取(如图3-10所示),在分析发音时发音器官的动作属性后,补充了发音位置、是否送气、舌位高低、舌位前后、嘴唇形状等5种发音特征,从而建立了能够更全面地表征发音器官的动作属性的发音特征集合,并以此提出了改进的发
42、音特征提取方法,并将新的发音特征和韵律特征一起用于声调建模。最后根据随机段模型的模型结构和解码方式提出声调模型集成方式21,从而将声调信息应用于语音识别系统。采用了新的发音特征集合后声调模型的精度有了进一步提高,同时系统性能有了进一步的提高。图3-10基于阶层式人工神经网络的发音特征提取3.2.3反馈系统聋儿康复训练系统主要是将受训者所发语音进行处理后提取出语音的特征,然后再进行语音的识别训练,让受训者将自己的发音和标准音的特征参数进行比较,逐步纠正自己的发音。我们获取的只是从移动端接收到的语音数据。首先建立发音训练练习题库,按照发音学习者发音康复不同阶段分为初级、中级、高级三个等级,分别从语
43、料库中装载各自不同级别的发音单元,形成习题并存储。按照汉语发音学习的难易程度,自动从语料中选取相应级别的语料组成练习单元,对发音者进行发音训练。其次我们通过设备对练习者的语音进行录制、存储与回放操作。数字音频系统需要将声波波形信号(模拟信号)通过AD转换成计算机支持的二进制(如图3-11所示),进而保存成音频文件如图3-12所示。最后将音频提取出来,模拟出他们的波形,与发音训练练习题库中相应的练习波形相匹配来评判22-23。系统工作原理图如图3-13所示。图3-11 PCM转换流程图3-12音频的录制、存储和回放图3-13 系统工作原理图第4章 主要创新点4.1 相对于传统方式的优势(1) 覆
44、盖面广,提高康复机会。2016年第17个“全国爱耳日”,中国聋儿康复研究中心常务副主任龙墨2日在接受新华社记者专访时表示,目前我国适龄听障儿童能够有机会进入康复机构进行言语康复训练的人数不到60%,要实现06岁听障儿童言语训练健康全覆盖,还有一定距离。因此,我们作品具有覆盖面广的特点,提高听障儿童康复的机会。(2) 节省康复训练时间,提高康复训练效果。传统的一对一康复训练方法手段较为单一,训练时间周期较长,内容比较枯燥乏味,训练时听障儿童难以集中注意力。针对这一现象,我们作品采用动画的训练模式,提高听障儿童训练兴趣,从而达到更好的训练效果。(3) 降低康复训练成本。据调查,我国听障儿童70%生
45、活在农村地区,缺乏接受康复治疗和训练的条件。对于这些广大的听障儿童家庭来说,孩子的治疗和康复是一条漫长而又昂贵的道路。一个助听器售价约10万元,一个进口人工耳蜗则高达20多万元,还不算手术和其他治疗;且康复机构每个月学费2000元至3000元不等,所有这些费用,对贫困家庭来说无异于天文数字。而我们的项目作品是免费公益的,完全是为了中国聋儿的言语康复事业,极大程度的降低了听障儿童康复训练成本,减轻了家庭负担。(4) 随时随地的自主训练。目前听障儿童的康复训练都无法摆脱人工辅助。并且言语康复训练师数量不足和相关辅助训练设备系统多数适用于康复机构,无法满足大多数听障儿童的训练需求,而我们作品恰好能够
46、满足这一需求。听障儿童可利用移动智能终端在任何条件下,随时随地的进行康复训练,具有自主训练性。(5) 反馈训练效果。听障儿童使用移动智能终端进行一段时间的康复训练后,可在康复机构的PC端进行详细的评价与反馈训练效果。相关人员可根据训练效果进行相应训练方案的调整,为听障儿童提供更好的康复训练,以便他们早日融入正常人群。综上所述,本项目作品具备特点:想法创新、接受度广、便捷性高、实用性强。所需者只需要下载基于移动智能终端的听障儿童言语康复训练系统软件,注册并登录即开始康复训练。没有时间地点限制,无需支付高昂费用,无需投入大量劳动力,使用者可根据自身情况选择练习时间以及根据评估反馈结果适当地调整训练
47、内容,在便捷重复的训练中康复言语能力。4.2 技术的创新点在这互联网的时代,我们基于移动智能终端的听障儿童言语康复训练这一作品,最大的特点便是“移动终端”。我们建立移动终端三维头像驱动算法,移植现有PC机三维模型及驱动算法于移动智能终端,应用动态三维数据驱动三维模型模拟发音。当前移动智能终端主流系统就是Android和iOS系统。此项目系统现主要针对安卓系统进行移植。基于Adroid端有JNI,android JNI是连接android Java部分和C/C+部分的纽带,并且Adroid系统支持NDK开发。(1)将PC端三维模型训练系统移植到移动智能终端。(2)通过运动捕捉技术建立的三维头像数据应用于听障儿童言语康复训练系统,增加了三维模型的真实感。(3)建立完整的反馈机制,观测听障儿童的言语训练同时与标准语音库进行匹配。(4)为了提高说话人的识别率,结合新的时频分析工具分数傅立叶变换(FRFT)。将MFCC推广到分数形式,得到分数美尔频率倒谱系数(FMFCC),用以表征语音信号的特征。同时结合基于隐马尔科夫模型的连续语音到语音检索算法。算法同时利用了被检索语音和检索语音之间的特征相似度以及语音前后帧之间的出现概率,实现了较全面的语音到语音检索方式。(5)利用半结构化的XML文件保存所采集的面部特征点坐标信息,进行数据传输时,通过节点找寻所需文件,模型开始运动时,手机端时间
限制150内