汽车噪声背景下孤立词语音信号的去噪处理与识别_姜璐璐.docx
《汽车噪声背景下孤立词语音信号的去噪处理与识别_姜璐璐.docx》由会员分享,可在线阅读,更多相关《汽车噪声背景下孤立词语音信号的去噪处理与识别_姜璐璐.docx(64页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 语音识别技术的研究是当今时代的一大热点,语音识别系统已经广泛的进入到 人们的生活之中,例如车载仪器仪表的语音识别系统,给人们带来了极大的便捷。 实现人机用语音进行交流一直是人们迫切想要实现的愿望。 语音识别系统分为前端处理,模式匹配和识别三大部分。本文从语音识别系统 的构成出发,首先大致介绍了信号的预处理过程,利用传统的汉明窗对信号进行分 帧以及描述最常用的 Mel倒谱系数的提取流程。然后介绍模型匹配技术中常用的四 个模型,重点是动态时间归整模型和隐马尔可夫模型的基本原理和结构,对隐马尔 可夫模型的三个问题及解决方法做了详细的介绍。随后针对在汽车噪声下的传统双 门限端点检测法的弊端提出了改进
2、措施,在抗噪语音识别技术中有五个方法,对功率 谱相减法做了一 个修正。最后通过实验室实验在特定的汽车噪声下取样,利用 matlab 仿真给出了一个满意的结果,为车载语音识别系统打下一个理论基础。 关键词:汽车噪声;语音识别 ; HMM;双门限端点检测;谱相减法 Abstract The research on speech recognition technology is a hot topic in todays era. Speech recognition systems such as a car voice recognition systems have been widely
3、used in peoples life.They make peoples life become convenient.People are eager to achieve the aspiration that we can communicate with the machines by voice. Speech recognition system is divided into three parts:front-end processing, pattern matching and recognition. This paper commence the constitut
4、es of speech recognition system, first, give a general introduction of the signals7 pretreatment processing. Use the traditional Hamming window function to fram the signals and describe the most commonly used extraction process of Mel Frequency Cepatral Coefficients. Then introduce the four commonly
5、 used models in model-matching techniques,focuse on the basic principles and structure of the Dynamic Time Warping and Hidden Markov Model.Give a detailed introduction of the HMMs three problems and the the solutions of them.Then improve the drawbacks of the traditional dual-threshold endpoint detec
6、tion method under the vehicle noise. There are five ways in anti-noise speech recognition technology, the paper make a correction on the power spectral subtraction. Finally, we make a sampling under the specific vehicle noise in laboratory and give a satisfactory result by the simulation of matlab.l
7、t lay a theoretical foundation for the vehicle speech recognition system. Keywords : car noise ; speech recognition ; HMM ; Dual-threshold endpoint detection ; Spectral subtractio 目录 第一章绪论 . 1 1.1 引言 . 1 1.2 选题的背景及意义 . 1 1.3 国内外语音识别的发展与现状 . 2 1.4 论文的主要结构与安排 . 5 第二章语音识别系统的概述与指标 . 7 2.1语音识别系统的主要组成部分 .
8、 7 2.2语音信号的预处理 . 8 2.2.1语音信号的滤波、采样和量化 . 8 2.2.2预加重 . 8 2.2.3分帧加窗 . 9 2.2.4端点检测 . 11 2.2.5特征参数的提取 . 12 2.3模型匹配技术 . 13 2.3.1动态时间归整算法模型 . 13 2.3.2隐马尔可夫算法模型 . 15 2.3.3矢量量化算法模型 . 20 2.3.4人工神经网络算法模型 . 21 2.4语音识别系统的指标 . 21 第三章车载环境下语音识别方法实现 . 23 3.1车载环境噪声简介 . 23 3.2端点检测法的修正改进 . 23 3.2.1常规双门限端点检测法 . 23 3.2.2
9、双门限检测法的修正 . 26 3.3抗噪声语音识别技术的研究 . 27 3.3.1语音增强技术 . 27 3.3.2模型补偿技术 . 35 3.3.3抗噪声语音特征参数提取技术 . 36 第四章汽车噪声环境下孤立词语音识别的实验设计与分析 . 39 4.1 Volvo噪声坏境下的实验设计 . . 39 4.1.1 Noisex92 噪声库 . 39 4.2.2实验信号源采集 . 39 4.2端点检测 . 39 4.3特征参数提取 . 41 4.4模式匹配 . 43 4.5谱相减法 . 44 第五章总结与展望 . 51 5.1 雜 . 51 5.2展望 . 51 参考文献 . 53 攻读学位期间
10、的研究成果 . 55 mM . 57 学位论文独创性声明、学位论文知识产权权属声明 . 59 第一章绪论 第一章绪论 1.1引言 随着计算机技术的 R渐成熟,人们踏入了信息时代,开始了信息化智能化的生 活。语言是人类最直观简洁也是最常用的交流方式,直接通过语言与计算机进行信 息传递代表了人类智慧的巨大飞跃,有着其他方式不可替代的优越性,是人们长期 以来迫切想要实现的,因此该研究的发展是当今时代的一大挑战。 想要计算机理解人类发出的语言信号,首先要计算机建立一个特有的模型,通 过这个模型,计算机可以像人类一样分析理解接收到的人类语言,并做出相应的回 应操作,这就是目前炙手可热的语音识别问题,它是
11、集多学科于一身的综合性科学。 近几十年来,它不仅在民用为人们带来了巨大的便捷,在军事、交通和工业现代化 等方面也有 着广泛的应用。在西方发达国家,已经有大量的有关语音识别的产品投 放到市场,备受人们青睐。因此,我国语音识别技术的发展不仅仅能推动相关产业 链的共同进步,也是我国综 国力提高和科技实力雄厚的象征。 1.2 选题的背景及意义 上世纪九十年代,我国的经济进入稳步阶段,人们的出行大都以自行车为主。 进入二十一世纪,人们的生活 R渐富足,越来越多的家庭过上了小康生活, .人们出 行多以汽车代步,并且越来越多的人拥有了私家车,到近几年,我国汽车的数量又 达到了一个新的高峰。汽车数量的猛增,随
12、之而来的是交通秩序与交通安全的问题, 据了解,我国的交通事故发生率高于发达国家,多年来中国每年因交通事故死亡人 数均超过十万人,居世界第一。如何有效的降低交通事故的发生率,除了驾驶员本 身的安全意识和驾驶熟练度的提高之外,汽车仪器仪表系统的便利操作也是一个要 点。驾驶员在驾驶汽车时,除了经常用到的打转向灯,操作 GPS,听音乐等等之外, 在天气不好的情况下,比如遇大雾还需要开雾灯和近光灯,遇下雨天开启雨刷等等, 驾驶员需要分散一定的注意力到汽车的仪器仪表上,从而有可能忽略了外部环境, 为驾驶带来了极大的安全隐患,威胁到司机和乘客的人身安全 m。如果 能够设计一 个系统,使驾驶员无需分散注意力,
13、只需通过耳机或者麦克风利用语音向汽车发出 指令,汽车就能完成相应的动作并且给驾驶员一个反馈。这种非常便捷的人机对话 方式,会给驾驶员带来了极大的便利,使得驾驶变得非常人性化、智能化。但是, 在实际生活中,我们的语音掺杂着来自各方面的噪声,例如机器的轰鸣声,热电噪 声,物体撞击发声,其他语音干扰等等,因此系统接受到的语音信号是带噪声的语 音,如果一个识别系统没有抗噪性能,那么它所得出的结果与我们的指令就相差甚 靑岛人学硕士 学位论文 远 2。因此,抗噪声语音识别系统的研发是应用到现实生活中的一个必须解决的首 要问题。 随着私家车越来越多的融入到人们的生活,汽车市场变得强大,汽车行业的竞 争也越来
14、越激烈,各个汽车生产厂家不断推出创新点来吸引顾客的眼球,各种车载 电子设备花样繁多层出不穷,这就大大的增加了驾驶员操作的复杂性,这就与安全 驾驶形成了一定的矛盾性。如果能设计一个系统能将所有的操作集成起来,驾驶员 仅仅通过语言就能简单的控制车载的电子设备,不仅大大的增加了可控性,也能有 效的降低交通事故的发生率。但是目前市面上的语音识 別系统还没有一款能很好的 适应的汽车噪声,此项技术不仅有着重要的研究价值和广泛的市场需求,也是汽车 制造商抓住商机,占领市场,创造巨大经济效益的一个契机。车载语音识别系统的 研究在信号处理、模式识别等领域具有深远的意义,它的前景是非常美好的。 1.3 国内外语音
15、识别的发展与现状 大半个世纪以前,人们就在实验室中对语音识别开始了研究。五十年代初,美 国的 AT&TBell实验室创造了 Audry系统,这是历史上第一个语音识别系统,它可 以识别十个英文数字。五十年代末,英国科学家 Fry创造出音素识别器,利用了当 时先进的频谱识别技术,仅识别几个元音和辅音。六十年代,计算机理论的发展带 动语音识别到一个新的高度。初期 F1本的 NEC公司掌握了滤波器频谱分析仪技术, 研发了硬件数字识别器。后期位于美国新泽西州普林斯顿的 RCA实验室的科学家研 究出一种端点检测方法克服了语音信号的时变性,同时苏联科学家提出了线性预测 分析技术 (LP)和动态规化 (DP)
16、, 这对后期语音识别研究问题起了助力作用。到了 七十年代,语音识别有了一些突破性进展。这一时期基于线性预测倒谱的孤立词识 别发展日渐纯熟,另外引入了线性预测编码技术 (LinearPredictionCoding, LPC), 矢 量量化 (VectorQuantization, VQ)和隐马尔可夫模型 (HiddenMarkov Model, HMM)理 论,这些基础在现在仍被广泛应用 3。此时期 IBM和 Bell的科学家都取得了骄人的 成绩,奠定了 F1后他们在此领域的领先地位。八十年代是语音识别的巅峰时期,国 际上掀起一股语音识别的研究热潮,西方科学界 DARPA计划鼓舞了一大批学者,
17、 Bell实验室的科学家们将 HMM模型成功应用到了实践中,这是具有跨时代意义的 重大突破,此后该 方法风靡所有实验室。此时期亚洲地区的研究也紧跟步伐,也取 得了非常可喜的成果。进入九十年代,语音识别技术的发展非常平缓,虽然语音识 别界曾产生了许多质疑的声音,但仍有一批学者在孜孜不倦的寻找突破口,在模型 的工程设计和特征参数的提取上都有了一定的进展。卡内基梅隆大学 (CMU)推出了 SPHINX系统,此系统针对连续语音的识别率将近 %,剑桥大学的 HTK工具包和 IBM的 ViaVioce软件 4,为后世的研究提供了极大的便利。还有人提出将神经网络 第一章绪论 应用 到语音识别上,也成为一个热
18、点问题,具有一定历史意义。随着数字化信息化 生活渐渐的融入人们的 R常生活,语音识别技术不能仅仅是一项实验室研究,它要 走进人们生活,因此许多欧美和亚洲发达国家的著名公司都开始着手投资将语音识 别系统投入市场。 我国的语音识别研究尽管起步比较晚,但是发展速度很迅猛,己经达到国际水 准。国家对语音识别的研究工作给予高度的重视和支持,自 1987年提出 863计划以 来,由中科院和国内高水平学府组成的研究团队,已经攻克了许多难题。 98年经过 专家组的测评,我国清华大学与 IBM公司的技术水平已 经在同一台阶上。而中科院 自动化所的研究水平也居于高位,系统精准率达到 90%以上,说明中国的语音识别
19、 研究水平在国际上也有非常深远的影响力。由于中国的综合国力与国际地位在国际 上不断上升,以及中国人口数量众多,又是经济大国,国外也开始研究汉语语音识 别系统。 APPLE公司上世纪九十年代推出了第一款针对汉语的语音识别产品,用来 识别连接词,随后又有了 IBM的 ViaVoice系统 ,一 直沿用到现在,具有较好的识别 度。近几年来中国的市场上出现了许多应用在手机、玩具和生活用品上的语音识别 系统,一些公司研发出了语 音识别芯片,他们用简单的识别算法结合了 DSP技术, 为系统提供了内核。从大方面上来看,军事、医疗、商业和工业等系统都离不开语 音识别系统。由此可见,实用语音识别技术有巨大的市场
20、潜力,带来的效益不可小 觑。但是,目前人类掌握的语音识别技术远没有达到预期的目标,还有很多问题没 有得到良好的解决。比如语音识别系统的鲁棒性不是很好,也就是环境的改变对系 统的影响非常大,系统不稳定。再比如像中国这种多民族地域辽阔的泱泱大国,有 着上百种方言,并不是所有的人都会讲普通话,并且说话人的语气还有声调不同所 要表达的意思也不一样,还有许多同音的字和词有着不同的意思,这些人类通过大 脑获取并且判断的信息现在需要计算机来完成,因此需要做的工作还很多。 随着生活质量的提高,人们渴望过上安全、便捷又智能化的生活,车载语音识 别系统的研发被科学家们密切关注,已经陆续有相关产品问世。 IBM,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 汽车 噪声 背景 孤立 词语 音信 处理 识别 姜璐璐
限制150内