2022年多通道用户界面设计技术综述 .pdf

资源ID：40161412 资源大小：155.11KB 全文页数：12页
资源格式： PDF 下载积分：4.3金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要4.3金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

2022年多通道用户界面设计技术综述 .pdf

人机交互基础教程实验报告实验题目：多通道用户界面设计技术综述专业计算机科学与技术学生姓名班级学号教师指导单位计算机软件学院日期名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页，共 12 页 -教师评语教师签名：年月日成绩评定备注名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页，共 12 页 -一、实验目的1)了解常见的多通道用户界面2)查找资料，熟悉一种多通道用户界面并写出综述二、预备知识为适应目前和未来的计算机系统要求，人机界面应能支持时变媒体，实现三维、非精确及隐含的人机交互，而多通道人机界面是达到这一目的的重要途径。80 年代后期以来，多通道用户界面成为人机交互技术研究的崭新领域，在国内外受到高度重视。综合采用视线、语音、手势等新的交互通道、设备和交互技术，使用户利用多个通道以自然、并行、协作的方式进行人机对话，通过整合来自多个通道的、精确的和不精确的输入来捕捉用户的交互意图，提高人机交互的自然性和高效性。多通道用户界面主要关注人机界面中用户向计算机输入信息以及计算机对用户意图的理解，所要达到的目标可归纳为如下方面：1)交互的自然性MMI 用户手嘴,眼手,2D/3D 多媒体信息应用例程击键/指点通语音道眼神整,合名师资料总结-精品资料欢迎下载-名师精心整理-第 3 页，共 12 页 -使用户尽可能多地利用已有的日常技能与计算机交互，降低认识负荷。2)交互的高效性使人机通讯信息交换吞吐量更大、形式更丰富，发挥人机彼此不同的认知潜力。3)与传统的用户界面特别是广泛流行的WIMP/GUI 兼容。(1)多通道用户界面的基本特点1)使用多个感觉和效应通道2)允许非精确的交互3)三维和直接操纵4)交互的双向性5)交互的隐含性(2)涉及的主要技术1)多媒体使用多种表示媒体，如文本、图形、图像和声音，使人机交互技术最终要向着更接近于人的自然方式发展，使计算机具有听觉和视觉，以更自然的方式与人交互。多媒体技术引入了动画、音频、视频等动态媒体，大大丰富了计算机表现信息的形式，拓宽了计算机输出的带宽，提高了用户接受信息的效率，使人们可以得到更直观的信息，从而简化了用户的操作，扩展了应用范围。2)虚拟现实名师资料总结-精品资料欢迎下载-名师精心整理-第 4 页，共 12 页 -又称虚拟环境，虚拟现实系统向用户提供沉浸和多感觉通道体验。在虚拟现实中，人是主动参与者，复杂系统中可能有许多参与者共同在以计算机网络系统为基础的虚拟环境中协同工作。虚拟现实系统具有三个重要特点：沉浸感、交互性、构想性。3)眼动跟踪与视觉有关的人机交互自始至终都离不开视线的控制。如果能通过用户的视线盯着感兴趣的目标，计算机便“自动”将光标置于其上，人机交互将更为直接，也省去了上述交互过程中的大部分步骤。4)手势识别一个简单的手势蕴涵着丰富的信息，人与人可以通过手势传达大量的信息，实现高速的通信。将手势运用于计算机能够很好地改善人机交互的效率。在多数情况下我们笼统地认为手势是人的上肢(包括手臂、手和手指)的运动状态。5)三维输入许多应用(如虚拟现实系统)需要三维空间定位技术，三维空间控制器的共同特点是具有六个自由度，分别描述三维对象的宽度、深度、高度、俯仰角、转动角、偏转角。通过控制这六个参数，用户可以在屏幕上平移三维对象或光标，也可沿三个坐标轴转动三维对象。在三维用户交互中必须便于用户在三维空间中观察、比较、操作、改变三维空间的状态。6)语音识别名师资料总结-精品资料欢迎下载-名师精心整理-第 5 页，共 12 页 -语音识别是计算机通过识别和理解过程把语音信号转变为相应的文本文件或命令的技术。语音识别又是一门交叉学科，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。7)表情识别面部表情是人体语言的一部分。人的面部表情不是孤立的，它与情绪之间存在着千丝万缕的联系。人的各种情绪变化以及对冷热的感觉都是非常复杂的高级神经活动，如何感知、记录、识别这些变化过程是表情识别的关键。8)手写识别发展手写识别技术并嵌入到各种设备中，将是手写识别技术未来发展的重要方向之一。联机手写识别技术的优点是不需专门学习与训练、不必记忆编码规则、安装后即可手写输入汉字，是最简单方便的输入方式。同时符合人的书写习惯，可以一面思考、一面书写，不会打断思维的连续性，是最自然的输入方式。9)数字墨水数字墨水是一种新的人机界面技术，它借鉴手写识别技术的同时，克服了它的许多局限性。数字墨水在数学上是通过三阶贝塞尔曲线来描述笔输入的笔迹，它的记录格式与图像和文本格式都不同。这种存储方式使得数字墨水文件的大小很小，从而可以更有效地进行存储。三、实验内容与步骤(1)实验内容名师资料总结-精品资料欢迎下载-名师精心整理-第 6 页，共 12 页 -要求上网查找资料，熟悉一种多通道用户界面并写出综述，可以是眼动跟踪、手势识别、三维输入、语音识别、表情识别、手写识别等。(2)实验步骤1)借助图书馆的中英文参考文献资料以及网络，确定出一种多通道用户界面；2)完成对该多通道用户界面的综述(包括定义、发展历史、当前的应用、主要的研究方法分类、以及发展前景以及中英文参考文献（至少各 5 篇）)噪音环境下的语音识别1.引言随着社会的不断进步和科技的飞速发展，计算机对人们的帮助越来越大，成为了人们不可缺少的好助手，但是一直以来人们都是通过键盘、鼠标等和它进行通信，这限制了人与计算机之间的交流，更限制了消费人群。为了能让多数人甚至是残疾人都能使用计算机，让计算机能听懂人的语言，理解人们的意图，人们开始了对语音识别的研究语音识别是语音学与数字信号处理技术相结合的一门交叉学科，它和认知学、心理学、语言学、计算机科学、模式识别和人工智能等学科都有密切关系。2.语音识别的发展历史和研究现状2.1 国外语音识别的发展状况国外的语音识别是从1952 年贝尔实验室的Davis 等人研制的特定说话人孤立数字识别系统开始的。20 世纪 60 年代，日本的很多研究者开发了相关的特殊硬件来进行语音识别 RCA实验室的Martin等人为解决语音信号时间尺度不统一的问题，开发了一系列的时问归正方法，明显地改善了识别性能。与此同时，苏联的 Vmtsyuk 提出了采用动态规划方法解决两个语音的时闻对准问题，这是动态时间弯折算法DTW(dymmic time warping)的基础，也是其连续词识别算法的初级版。20 世纪 70 年代，人工智能技术走入语音识别的研究中来人们对语音识别的研究也取得了突破性进展线性预测编码技术也被扩展应用到语音识别中，DTw也基本成熟。20 世纪 80 年代，语音识别研究的一个重要进展，就是识别算法从模式匹配技术转向基于统计模型的技术，更多地追求从整体统计的角度来建立最佳的语音识别系统。隐马尔可夫模型(hidden Markov model，名师资料总结-精品资料欢迎下载-名师精心整理-第 7 页，共 12 页 -删)技术就是其中一个典型技术。删的研究使大词汇量连续语音识别系统的开发成为可能。20 世纪 90 年代，人工神经网络(artificial neural network，ANN)也被应用到语音识别的研究中，并使相应的研究工作在模型的细化、参数的提取和优化以及系统的自适应技术等方面取得了一些关键性的进展，此时，语音识别技术进一步成熟，并走向实用。许多发达国家，如美国、日本、韩国，已经IBM、Microsoft、Apple、AT&T、Nrr 等著名公司都为语音识别系统的实用化开发研究投以巨资。当今，基于 HMM 和 ANN相结合的方法得到了广泛的重视。而一些模式识别、机器学习方面的新技术也被应用到语音识别过程中，如支持向量机(support vector machine，SVM)技术、进化算法(evolutionary computation)技术等。2.2 国内语音识别的发展状况20 世纪 50 年代我国就有人尝试用电子管电路进行元音识别，到 70 年代才由中科院声学所开始进行计算机语音识别的研究80 年代开始，很多学者和单位参与到语音识别的研究中来，也开展了从最初的特定人、小词汇量孤立词识别，到非特定人、大词汇量连续语音识别的研究工作80 年代末，以汉语全音节识别作为主攻方向的研究已经取得了相当大的进展，一些汉语语音输入系统已经向实用化迈进。90 年代 j 四达技术开发中心和哈尔滨工业大学合作推出了具有自然语言理解能力的新产品在国家“863”计划的支持下，清华大学和中科院自动化所等单位在汉语听写机原理样机的研制方面开展了卓有成效的研究经过60 多年的发展，语音识别技术已经得到了很大发展，对于语音识别的研究也达到了相当高的水平，并在实验室环境下能达到很好的识别效果。但是，在实际应用中，噪声以及各种因素的影响，使语音识别系统的性能大幅度下降，很难达到让人满意的效果。因此，对噪声环境下的语音识别的研究有着异常重要的理论价值和现实意义为解决噪声环境下，识别语音的特征参数和模叛库中的特征不匹配的问题我们必须想办法消除噪声对语音特征参数的影响，根据语音识别过程可知，有以下三种方法：(1)假定语音模板和背景噪声无关，即无论是清晰语音还是带噪语音，都用同一套模板来识别在这种情况下，重点在识别阶段，从带噪语音中提取出抗噪的特征参数或者采取抗噪声的失真测度(2)在语音的识别阶段，语音识别系统加一个前端处理，从带噪语音中提取出纯净语音，然后再提取语音的特征参数这种方法被称为语音增强。(3)在语音识别阶段，根据识别现场的环境噪声对语音模板进行变换，使之接近根据现场带噪语音训练而成的语音模板这种方法称为语音模板的噪声补偿无论使用哪种方法消除噪声，我们首先要了解噪声。根据噪声对语音频谱的干扰方式不同可以把噪声分为加性噪声和乘性噪声两类2.3 语音增强方法名师资料总结-精品资料欢迎下载-名师精心整理-第 8 页，共 12 页 -由于噪声的种类很多,特性并不完全相同,因此针对各类噪声必须采取不同的语音增强方法。一直以来,人们都在加性噪声的模型上进行研究,提出了各种语音增强算法,总的来说可分为三类:第一类是时域方法,例如基于参数和模型的方法 3 4 、子空间的方法 56 等;第二类是频域方法,例如减谱法 79 、自适应滤波法 11 ,以及基于马尔可夫模型滤波方法 12 等;第三类是其它方法,例如小波变换法、听觉掩蔽法等。2.4 时域方法1.基于参数和模型的方法。基于参数和模型的方法通常有两大类 10 :分析合成法和利用滤波器进行滤波处理的方法。前者是把声道模型看作一个全极点滤波器,采用线性预测分析得到滤波器的参数。通过从带噪语音中准确估计模型的参数来合成干净的语音,这种方法关键在于如何从带噪语音中准确地估计语音模型的参数(包括激励参数和声道参数)。后者则是考虑到激励参数难以准确估计,采用只利用声道参数构造滤波器进行滤波处理。而在低信噪比下,很难对模型参数进行准确估计,并且此类方法往往因需要迭代而增加算法的复杂度。在实际应用中有时也会把两者合并在一起相互补充。具体来说主要有以下几种方法。(1)最大后验概率估计法最大后验概率估计法是把语音看作一个全极点的模型,首先依据最大后验概率准则估计LPC线性预测参数,然后根据LPC参数的功率谱来构造一个非因果的维纳滤波器对带噪语音信号进行滤波,通过多次迭代直到满足预先设定的阈值为止。此种算法适用于高斯白噪声。它在一定程度上能消除噪声,提高信噪比。但是由于维纳滤波器只能在平稳条件下才能保证最小均方误差意义下的最优估计,而语音和背景噪音的非平稳性,会导致最优估计的误差。而且采用维纳滤波也没有完全利用语音的生成模型,增强后的语音带有不悦耳的声音。(2)卡尔曼滤波法 1,3 卡尔曼滤波在一定程度上可以弥补维纳滤波引起的误差。因为它是基于语音生成模型的,且在非平稳条件下也可以保证最小均方误差意义下的最优,适用于非平稳噪声干扰下的语音增强。卡尔曼滤波通过引入卡尔曼信息,将要解决的滤波与预测的混合问题转化为纯滤波和纯预测两个独立的问题来考虑进行语音增强。卡尔曼滤波的优点是噪声在平稳和非平稳情况下都能使用,能在不同程度上消除噪声,提高信噪比,其缺点是计算量大,需要假设LPC生成模型的激励源为白噪声源并且只在清音段才成立,主观试听发现该方法对语音造成了一定的损伤。(3)梳状滤波器法 1 语音信号浊音段有明显周期性的特点,可采用梳状滤波器来提取语音分量,抑制噪声。梳状滤波器的输出信号是输入信号的延时加权和的平均值,当延时与信号的基音周期一致名师资料总结-精品资料欢迎下载-名师精心整理-第 9 页，共 12 页 -时,这个平均过程使周期性分量加强,而非周期分量或周期不同于信号的其他周期分量被抑制或消除。这种方法的关键是要准确估计出语音信号的基音周期。在基音变化的过渡段和强噪声背景干扰下无法精确估计时,方法的应用受到限制。这种方法一般也只适用于平稳的非白噪声。2.5 子空间的方法在子空间法中,大量实验表明,语音矢量的协方差阵有很多零特征值,这说明干净语音信号矢量的能量只分布在它对应空间的某个子集中。而噪声的方差通常都假设已知且严格正定,这说明噪声矢量存在于整个带噪语音信号张成的空间中。因此,带噪语音信号的矢量空间可以认为由一个信号与加噪声的子空间和一个纯噪声子空间构成。子空间法就是将带噪声语音信号分解为正交的信号加噪声子空间和噪声子空间,对纯净语音信号的估计可以将噪声子空间中的信号舍弃,只保留信号子空间中的信号,来预测干净的语音以达到降噪的目的。子空间法的优点是有效地去除带噪语音中的背景噪声,使语音的质量和可懂度都有较大的提高,但是计算量较大,因此在快速计算中该方法需要进一步研究。2.6 频域方法语音信号的短时谱具有较强的相关性,而噪声的前后相关性很弱,因此可以利用短时谱估计的方法从带噪语音中估计原始语音。同时人耳对语音相位感受不敏感,可将估计的对象放在短时谱的幅度上。典型的方法有谱减法 7 、维纳滤波法 8 、短时谱幅度的 MMSE 估计 9 、自适应滤波法等。1.谱减法谱减法是在假定加性噪声与短时平稳的语音信号相互独立的条件下,从带噪语音的功率谱中减去噪声功率谱,从而得到较为“纯净”的语音频谱。它的优点是运算量小,容易实时实现,增强效果也较好。但是也存在一定的缺陷,谱减法是一种最大似然估计,没有对语音频谱的分布进行假设,而语音频谱分量的幅度对人耳的听觉是最重要的。因此谱减法进行增强处理后,会带来音乐噪声,不仅使听者在听觉效果上产生一定的干扰影响,还影响后续处理,如语音编码等。谱减法通常包括有线性谱减法、非线性谱减法和概率谱减法。2.维纳滤波法维纳滤波法是在最小均方准则下实现对语音信号估计的一种滤波器。对于带噪语音信号,确定滤波器的冲击响应,使得带噪语音信号经过该滤波器后得到最接近于“纯净”的语音信号。采用维纳滤波的好处是增强后的残留噪声类似于白噪声,而不是有节奏起伏的音乐噪声。维纳滤波是平稳条件下时域波形的最小均方误差准则估计。由于没有考虑到语音频谱分量的幅度对人的听觉最重要,因此采用维纳滤波来增强语音存在一定的缺陷。3.短时谱幅度的最小均方误差(MMSE)估计法针对特定的失真准则和后验概率不敏感的特性,利用已知的噪声功率谱信息,从带噪语音短时谱中估计出“纯净”语音短时谱,达到语音增强的目的。对于语音短时谱幅度的分布,通常通过两种途径解决:一是假设一名师资料总结-精品资料欢迎下载-名师精心整理-第 10 页，共 12 页 -个合理的概率分布模型;另一个则是通过实际统计的方法去获得。为此,假设语音频谱分布为高斯分布,并在此假设下推导MMSE 估计公式,然后讨论实际分布情况。另外,可以利用相邻帧间频率点信息的相关性,对当前帧频率点的频谱幅度值进行估计,这就是基于帧间频谱分布约束的MMSE 估计方法。又因为人耳对声音强度的感受是与谱幅度的对数成正比的,因此在处理语音谱幅度时,采用对数失真准则更为适合一些,将上述MMSE 估计式进行推广,得到频域分布约束下的短时对数谱的MMSE 估计。短时谱幅度的MMSE 估计在降噪和提高语音可懂度方面进行了折衷,适用信噪比的范围较广,但是计算量较大,而且语音频谱的先验分布获得在很大程度上要取决于统计结果的代表性、重现性等。4.自适应滤波法以均方误差或方差最小为准则,对噪声信号进行最优估计,然后从带噪语音中减去噪声达到降噪,提高信噪比,增强语音的目的。当输入信号的统计特性未知,或者输入信号的统计特性变化时,自适应滤波器能够自动地迭代调节自身的滤波器参数,以满足某种准则的要求,从而实现最优滤波。因此,自适应滤波器具有“自我调节”和“跟踪”能力。此方法的关键是如何得到带噪语音中的噪声。在多声道采集系统中,两个话筒间要有一定的距离,因而实时采集的两路信号的噪声不同,而且还受到回声及其他可变衰减特性的影响。在用单声道系统来采集带噪语音时,必须在语音间歇期间利用采集到的噪声进行估值,如果噪声是非平稳的,会严重影响语音的增强效果,另一个缺点是增强后的语音中含有明显的“音乐噪声”。5.隐马尔可夫模型法可以采用基于状态空间的变换方法,对不同类别的语音和噪声信号建立不同的模型。HMM 的各个状态可以对带噪信号、噪声信号所有不同的区域进行充分的建模,将带噪信号中的噪声信号部分去除就可得到语音的增强,甚至于在只有带噪信号的情况下,利用 HMM对状态转移概率进行建模,将可能为噪声的信号部分滤除就可以做到语音增强。但是这种方法,在只有带噪信号的情况下要正确分类,准确估计噪声会有一定的误差。2.7 其它方法随着信号处理的理论和技术不断发展完善,涌现出许多的新方法,如小波变换 13 14 、神经网络 15 、听觉掩蔽 16 、分形理论 17 等。参考文献:1 杨行峻,迟惠生,等.语音信号数字处理M.北京:电子工业出版社,1995.2 赵力.语音信号处理 M.北京:机械工业出版社,2003.3 Gannot S,Burshtein D,Weinstein E.Iterative and se2quential Kalman filter2based speech enhancement algo2 rithms J.IEEE Trans Speech and Audio Process,1998,6(4):3732385.4 Kin J B,Lee K Y,Lee CW.On the app lications of theinteracting multip le model algorithm for enhancing noisy speech J.IEEE Trans Speech and Audio Process,名师资料总结-精品资料欢迎下载-名师精心整理-第 11 页，共 12 页 -2000,8(3):3492352.5 Y Ephraim,H L V Trees.A signal subspace app roach forspeech enhancement J.IEEE Trans.Speech and AudioProcessing,1995,3(7):2512266.6 F Jabloun,B Champagne.A multi-microphone signalsubspace app roach for speech enhancementA.In Proc.IEEE ICASSP01 C.2001.2052208.7 Boll S.Supp ression of acoustic noise in speech using spec2tral subtraction J.IEEE Trans on Acoustic Speech andSignal Processing,1979,27(2):1132120.8 Ningp ing Fan.Low distortion speech denoising using an a2dap tive parametric Wiener filter A.IEEE InternationalConference on Acoustics,Speech and Signal Processing(ICASSP)C.2004,1:122309.9 Ephraim Y,Malah D.Speech enhancement using a mini2mum2mean square error short2time spectral amp litude esti2mator J.IEEE Transactions on Acoustics,Speech andSignal Processing,1984,32(60):110921121.10 韩纪庆,张磊,郑铁然.语音信号处理 M.北京:清华大学出版社,2004年.11 高鹰,谢胜利.一种变步长LMS自适应滤波算法及分析 J.电子学报,2001,29(8):109421097.12 Jax P Vary P.Artificial bandwidth extension of speechsignals usingMMSE estimation based on a hidden Markov model A.IEEE International Conference on Acoustics,Speech,and Signal Processing(ICASSP)C.2003.6802683 13 SMallat and W L Hwang.Singularity detection and p ro2cessing with wavelets J.IEEE Trans on Information The2ory,1992,38(2):6172643.14 D L Donoho and IM Johnstone.Adap ting to unknownsmoothness via wavelet shrinkage J.Journal of the A2 merican StatisticalAssociation,1995,90:120021224.四、实验总结通过此次实验，我很好地熟悉了图形用户界面的设计原则，也通过网上查资料了解了语音识别的多通道用户界面。名师资料总结-精品资料欢迎下载-名师精心整理-第 12 页，共 12 页 -

注意事项

本文（2022年多通道用户界面设计技术综述 .pdf）为本站会员（C****o）主动上传，淘文阁 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知淘文阁 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。