语音信号处理第10章-声源定位课件.ppt
《语音信号处理第10章-声源定位课件.ppt》由会员分享,可在线阅读,更多相关《语音信号处理第10章-声源定位课件.ppt(28页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第10章章 声源定位声源定位麦克风阵列模型麦克风阵列模型房间回响模型房间回响模型概述概述双耳听觉定位原理及方法双耳听觉定位原理及方法麦克风阵列的声源定位方法麦克风阵列的声源定位方法总结与展望总结与展望10.1概述概述声源定位技术主要是研究系统接收到的语音信号相对于接声源定位技术主要是研究系统接收到的语音信号相对于接收传感器是来自什么方向和什么距离,即方向估计和距离收传感器是来自什么方向和什么距离,即方向估计和距离估计。声源定位是一个有广泛应用背景的研究课题,其在估计。声源定位是一个有广泛应用背景的研究课题,其在军用、民用、工业上都有广泛应用。军用、民用、工业上都有广泛应用。声源定位技术的内容
2、涉及了信号处理、语言科学、模式识声源定位技术的内容涉及了信号处理、语言科学、模式识别、计算机视觉技术、生理学、心理学、神经网络以及人别、计算机视觉技术、生理学、心理学、神经网络以及人工智能技术等多种学科。一个完整的声源定位系统包括声工智能技术等多种学科。一个完整的声源定位系统包括声源数目估计、声源定位和声源增强(波束形成)。目前的源数目估计、声源定位和声源增强(波束形成)。目前的声源定位研究主要分为两类:基于仿生的双耳声源定位算声源定位研究主要分为两类:基于仿生的双耳声源定位算法和基于麦克风阵列的声源定位算法。法和基于麦克风阵列的声源定位算法。应用应用被动声定位器被动声定位器 应用应用Huma
3、noid Robot HRP-2 ICRA 2004Humanoid Robot HRP-2 ICRA 2004应用应用助听器方向性麦克风技术助听器方向性麦克风技术应用应用声相仪声相仪10.2双耳听觉定位原理及方法双耳听觉定位原理及方法人类听觉系统对声源的定位机理主要是由于人的头部以及人类听觉系统对声源的定位机理主要是由于人的头部以及躯体等对入射的声波具有一定的散射作用,以致到达人双躯体等对入射的声波具有一定的散射作用,以致到达人双耳时,两耳采集的信号存在着时间差(相位差)和强度差耳时,两耳采集的信号存在着时间差(相位差)和强度差(声级差)。对于频率较高的声音,还要考虑声波的绕射(声级差)。对
4、于频率较高的声音,还要考虑声波的绕射性能。由于到达两耳处的声波状态的不同,造成了听觉的性能。由于到达两耳处的声波状态的不同,造成了听觉的方位感和深度感,这就是常说的方位感和深度感,这就是常说的“双耳效应双耳效应”。不同方向上的声源会使两耳处产生不同的(但是特定的)不同方向上的声源会使两耳处产生不同的(但是特定的)声波状态,从而使人能由此判断声源的方向位置。总的来声波状态,从而使人能由此判断声源的方向位置。总的来说,利用双耳听觉在水平面内的声源定位要比垂直面内的说,利用双耳听觉在水平面内的声源定位要比垂直面内的声源定位精确得多,后者存在较大的个体差异。声源定位精确得多,后者存在较大的个体差异。1
5、0.2.1 10.2.1 人耳听觉定位原理人耳听觉定位原理人耳可以听到频率在人耳可以听到频率在20Hz-20kHz范围内的声音。人耳听觉范围内的声音。人耳听觉系统有两个重要的特性,一个是耳蜗对于声信号的分频特系统有两个重要的特性,一个是耳蜗对于声信号的分频特性;另一个是人耳听觉掩蔽效应。人耳对声源目标的水平性;另一个是人耳听觉掩蔽效应。人耳对声源目标的水平方位评估相比其垂直仰角而言,则要精确的多。方位评估相比其垂直仰角而言,则要精确的多。在混响环境中,优先效应起到重要作用,它是心理声学的在混响环境中,优先效应起到重要作用,它是心理声学的特性之一。所谓的优先效应,当同一声源的直达声和反射特性之一
6、。所谓的优先效应,当同一声源的直达声和反射声被人耳听到时,听音者会将声源定位在直达声传来的方声被人耳听到时,听音者会将声源定位在直达声传来的方向上,因为直达声首先到达人耳处,即使反射声的密度比向上,因为直达声首先到达人耳处,即使反射声的密度比直达声高直达声高10dB。当将优先效应用在混响环境中识别语音时,。当将优先效应用在混响环境中识别语音时,就产生了哈斯效应。哈斯观察早期反射声时,发现早期反就产生了哈斯效应。哈斯观察早期反射声时,发现早期反射声只要到达人耳足够的早将不会影响语音的识别,相反射声只要到达人耳足够的早将不会影响语音的识别,相反的由于增加了语音的强度而有利于语音的识别。的由于增加了
7、语音的强度而有利于语音的识别。10.2.2 10.2.2 人耳声源定位线索人耳声源定位线索(1)双耳定位线索)双耳定位线索不同方向上的声源会使两耳处产生不同的(但是特定的)不同方向上的声源会使两耳处产生不同的(但是特定的)声波状态,从而使人能由此判断声源的方向位置。在实际声波状态,从而使人能由此判断声源的方向位置。在实际应用中涉及到的定位线索主要有:应用中涉及到的定位线索主要有:ITD、ILD、双耳相位差、双耳相位差(IPD)、双耳音色差()、双耳音色差(Interaural Timbre Difference)以)以及直达声和环境反射群所产生的差别。及直达声和环境反射群所产生的差别。在低中频
8、(在低中频(f5.0kHz时,时,双耳声级差是定位的主要因素,与时间差形成互补。总的双耳声级差是定位的主要因素,与时间差形成互补。总的来说,双耳时间差和声级差涵盖了整个声音频率范围。来说,双耳时间差和声级差涵盖了整个声音频率范围。10.2.2 10.2.2 人耳声源定位线索人耳声源定位线索(2)耳廓效应)耳廓效应耳廓效应的本质就是改变不同空间方向声音的频谱特性,耳廓效应的本质就是改变不同空间方向声音的频谱特性,也就是说人类听觉系统功能上相当于梳状滤波器,将不同也就是说人类听觉系统功能上相当于梳状滤波器,将不同空间方向的声音进行不同的滤波。耳廓具有不规则的形状,空间方向的声音进行不同的滤波。耳廓
9、具有不规则的形状,形成一个共振腔。当声波到达耳廓时,一部分声波直接进形成一个共振腔。当声波到达耳廓时,一部分声波直接进入耳道,另一部分则经过耳廓反射后才进入耳道。由于声入耳道,另一部分则经过耳廓反射后才进入耳道。由于声音到达的方向不同,不仅反射声和直达声之间强度比发生音到达的方向不同,不仅反射声和直达声之间强度比发生变化,而且反射声与直达声之间在不同频率上产生不同的变化,而且反射声与直达声之间在不同频率上产生不同的时间差和相位差,使反射声与直达声在鼓膜处形成一种与时间差和相位差,使反射声与直达声在鼓膜处形成一种与声源方向位置有关的频谱特性,听觉神经据此判断声音的声源方向位置有关的频谱特性,听觉
10、神经据此判断声音的空间方向。空间方向。10.2.2 10.2.2 人耳声源定位线索人耳声源定位线索(3)头相关传输函数)头相关传输函数从某一个方位的声源发出的声信号在到达听者的耳膜之前从某一个方位的声源发出的声信号在到达听者的耳膜之前必然与听者的头部、肩部以及躯干、耳廓发生了反射、折必然与听者的头部、肩部以及躯干、耳廓发生了反射、折射、散射以及衍射等声学作用,其既与声源相对于听者的射、散射以及衍射等声学作用,其既与声源相对于听者的方向有关,也因人体部位形状及大小的不同而存在个体差方向有关,也因人体部位形状及大小的不同而存在个体差异。人体的这些部位对声信号的影响可以统一用一个函数异。人体的这些部
11、位对声信号的影响可以统一用一个函数来表示,即头部相关传输函数来表示,即头部相关传输函数 HRTF。HRTF描述了声波描述了声波从声源到双耳的传输过程,它是综合了从声源到双耳的传输过程,它是综合了 ITD、ILD 和频谱和频谱结构特性的声源定位模型。在自由场情况下,结构特性的声源定位模型。在自由场情况下,HRTF定义定义为:为:10.2.3 10.2.3 声源估计方法声源估计方法对于不同的信号频率,双耳时间差对于不同的信号频率,双耳时间差模型有一定的变化规律,可以用参模型有一定的变化规律,可以用参数化形式表示:数化形式表示:其中,其中,f是与频率相关的尺度因子。是与频率相关的尺度因子。反转模型就
12、可以得到水平角度反转模型就可以得到水平角度,如下式所示:如下式所示:上式不能通过普通方法求解方程,上式不能通过普通方法求解方程,可使用切比雪夫序列获得的多项式可使用切比雪夫序列获得的多项式近似,进而获得近似,进而获得g-1的近似表示:的近似表示:10.3麦克风阵列模型麦克风阵列模型麦克风阵列结构就是一定数量的麦克风按照一定空间放置麦克风阵列结构就是一定数量的麦克风按照一定空间放置而构成的麦克风组,也称为麦克风阵列的拓扑结构。麦克而构成的麦克风组,也称为麦克风阵列的拓扑结构。麦克风近场和远场模型的判断公式为:风近场和远场模型的判断公式为:r2L2/。近场和远场模型下不同的拓扑结构所构成的导向向量
13、也不近场和远场模型下不同的拓扑结构所构成的导向向量也不相同。不同的导向向量携带的信息也不同,声源近场模型相同。不同的导向向量携带的信息也不同,声源近场模型中所携带的信息不仅有距离、时延,还有声源空间位置;中所携带的信息不仅有距离、时延,还有声源空间位置;而声源远场模型中携带的仅仅是声源的空间位置信息,即而声源远场模型中携带的仅仅是声源的空间位置信息,即方位和俯仰。此外,阵元间距也直接影响声源定位的结果,方位和俯仰。此外,阵元间距也直接影响声源定位的结果,而阵元个数可以适当的提高定位精度。而阵元个数可以适当的提高定位精度。10.3.1 10.3.1 窄带阵列信号处理模型窄带阵列信号处理模型10.
14、3.1 10.3.1 窄带阵列信号处理模型窄带阵列信号处理模型假设麦克风阵由假设麦克风阵由M个全向麦克风组成,信号源的个数为个全向麦克风组成,信号源的个数为P,所有到达阵列的波可近似为平面波。将第一个阵元设为参所有到达阵列的波可近似为平面波。将第一个阵元设为参考阵元,则到达参考阵元的第考阵元,则到达参考阵元的第j个信号为:个信号为:由于信号满足窄带假设条件,则由于信号满足窄带假设条件,则zj(t-)zj(t),此时理想情,此时理想情况下第况下第i个阵元接收到的信号可以表示为:个阵元接收到的信号可以表示为:此时,整个麦克风阵接收到得信号为:此时,整个麦克风阵接收到得信号为:10.3.2 10.3
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 信号 处理 10 声源 定位 课件
限制150内