毕业论文《语音识别系统的设计与实现》.pdf
《毕业论文《语音识别系统的设计与实现》.pdf》由会员分享,可在线阅读,更多相关《毕业论文《语音识别系统的设计与实现》.pdf(44页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、摘要摘要.IIIAbstractAbstract .I前言前言.I第一章绪论.11.11.1 研究的目的和意义研究的目的和意义.11.21.2 国内外研究历史与现状国内外研究历史与现状.11.31.3 语音识别存在的问题语音识别存在的问题.41.41.4 论文主要研究内容及结构安排论文主要研究内容及结构安排.5第二章语音识别系统.62.12.1 语音识别系统简介语音识别系统简介.62.1.12.1.1 语音识别系统的结构语音识别系统的结构.62.1.22.1.2 语音识别的系统类型语音识别的系统类型.72.1.32.1.3 语音识别的基元选择语音识别的基元选择.92.22.2 语音识别系统的应
2、用语音识别系统的应用.92.2.12.2.1 语音识别系统的应用分类语音识别系统的应用分类.92.2.22.2.2语音识别系统应用的特点语音识别系统应用的特点.102.2.32.2.3 语音识别系统的应用所面临的问题语音识别系统的应用所面临的问题.112.32.3 语音识别的算法简介语音识别的算法简介.122.3.12.3.1 基于语音学和声学的方法基于语音学和声学的方法.122.3.22.3.2 模板匹配的方法模板匹配的方法.132.3.32.3.3 神经网络的方法神经网络的方法.15第三章语音识别系统的理论基础.163.13.1 语音识别系统的基本组成语音识别系统的基本组成.163.23.
3、2 语音预处理语音预处理.173.2.13.2.1 预加重预加重.173.2.23.2.2 加窗分帧加窗分帧.173.2.33.2.3 端点检测端点检测.183.2.43.2.4 语音特征参数提取语音特征参数提取.183.2.53.2.5 语音训练和识别语音训练和识别.22第四章第四章特定人孤立词语音识别系统的设计方案特定人孤立词语音识别系统的设计方案.264.14.1 基于基于 VQVQ 语音识别系统的模型设计语音识别系统的模型设计.264.24.2 语音识别系统特征参数提取提取语音识别系统特征参数提取提取.274.2.14.2.1 特征参数提取过程特征参数提取过程.274.2.24.2.2
4、 特征提取特征提取 matlabmatlab 实现实现.284.3 VQ4.3 VQ 训练与识别训练与识别.304.3.14.3.1 用矢量量化生成码本用矢量量化生成码本.304.3.24.3.2 基于基于 VQVQ 的说话人识别的说话人识别.314.44.4 设计结果分析设计结果分析.33总结与体会总结与体会.36谢辞谢辞.38参考文献参考文献.39第 I 页第 II 页摘摘 要要本文主要介绍了语音识别系统的基础知识,包括语音识别系统的应用、结构以及算法。重点阐述了语音识别系统的原理以及相关算法,通过参考查阅资料,借助MATLAB 工具,设计基于 VQ 码本训练程序和识别程序,识别特定人的语
5、音。系统主要包括训练和识别两个阶段。实现过程包括对原始语音进行预加重、分帧、加窗等处理,提取语音对应的特征参数。在得到了特征参数的基础上,采用模式识别理论的模板匹配技术进行相似度度量,来进行训练和识别。在进行相似度度量时,采用 VQ 算法对特征参数序列重新进行时间的对准。VQ 在孤立词语音识别系统中得到很好的应用,特别是有限状态矢量量化技术,对于语音识别更为有效。基于 VQ 的孤立词语音识别系统具有分类准确,存储数据少,实时响应速度快等综合性能好的特点。关键字关键字语音识别MFCC 参数矢量量化第 III 页AbstractAbstractWith the appearances of inf
6、ormation era based on digital techniques,peopleofteninteract with kinds of machines more and more in order to receive,transactand transferinformation.Today since computers are widely used,so that it is becoming true that thenatural communication between people and machines without using keyboard orm
7、ouse,which is the goal pursued by people for a long time.As people have understoodphysiological mechanics and features of human speech signals,they expect and hope moreand more to communicate with computers by speech instead of clicking mouse or typingkeyboard.This man-machine communication is an im
8、portant research problem.Multimediaera intensively requests speech recognition system to put into practice from laboratory.Isolated word speech recognition system will bring some advantage for people in daily life.This paper chooses MFCC as feature parameters,and designsthe speech recognitionsystem
9、by VQ,and achieves the isolated word recognition of 09.The experiments showthat the method has a very high recognition rate.Key wordsKey words:speech recognitionMFCCVQ第 I 页前言前言语音识别是人机接口设计的一项重要内容,也是语音信号处理中非常重要的应用技术。人们一直期待着机器的智能化,而能听懂人类的语音是其一个重要方面。目前,语音识别技术已经在声控电话交换、语音拨号系统、信息网络查询、家庭服务、声控智能玩具等诸多领域得到应用。
10、随着信息产业的迅速发展,包括计算机、办公自动化、通信、国防、机器人在内的各个领域,都迫切需要采用语音识别技术来改变其极其不方便的人机接口方式。语音识别的目的,就是让机器听懂人类口述的语音。机器听懂人类语音有语音层的理解和语义层的理解两个层次,它们分别要求机器将声学信息转换成对应的书面语言及在识别出声学信息的基础上对语音进行理解的功能。本次设计实验为基于 VQ 的特定人孤立词语音识别研究,借助 MATLAB 工具,设计基于 VQ 码本训练程序和识别程序,能识别特定人的语音,并分析所设计系统的特性。第 I 页第一章第一章绪论绪论1.11.1 研究的目的和意义研究的目的和意义语音信号处理技术的进步促
11、进了与其关联的相关学科的发展,尤其是在认知科学和人工智能等研究领域。例如:近年来,人工神经网络的研究,其重要动力之一就是数字语音信号处理各项课题的快速发展;同时它的一些研究成果也应用于语音信号的研究中。技术必须与应用紧密结合,现在语音识别己经在许多领域崭露头角,语音识别听写器、声控拨号、银行信用卡查询等。这是因为,一方面语音识别技术在某些方面已经达到了实用化的程度;另方面用户的需求也越来越迫切。在手机、PDA 等设备中可加入嵌入式语音识别系统。目前的趋势是手持终端体积越来越小,操作要求更加简单,而利用语音进行控制和输入则是十分理想的人机接口方式,其应用前景十分广阔。本课题从上述研究和实用的关系
12、出发,建立了一个非特定人孤立数字语音识别系统。从应用角度看,该系统可以应用到移动电话上实现语音声控拨号功能,也可以应用到掌上电脑等手持终端设备实现电话号码查询或语音控制等功能。从研究角度来看,语音识别技术涉及多学科而且技术实现十分复杂,选择人名语音识别系统作为开展语音识别研究的入手点是比较合理的。因为该系统结构完整、功能简洁,涵盖了语音识别技术的主要内容有利于掌握基础理论和基本方法,为深入研究奠定了基础。1.21.2 国内外研究历史与现状国内外研究历史与现状语音识别的研究工作大约开始于 20 世纪 50 年代,当时 AT&T Bell 实验室实现了第一个可识别十个英文数字的语音识别系统一 Au
13、d 巧系统。60 年代,计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动态规划(DP)和线性预测分析技术(LP),其中后者较好地解决了语音信号产生模裂的问题,对语音识别的发展产生了深远影响。70 年代,语音识别领域取得了突破。在理论上,LP 技术得到进一步发展,动态时间规整技术(DTW)基本成熟,特别是提出了矢量量化(VQ)和隐马尔可夫(HMM)理论。在实践上,实现了基于线性预测倒谱和 DTW 技术的特定人孤立词语音识别系统。第 1 页80 年代,语音识别研究进一步走向深入,其显著特征是 HMM 模型和人工神经元网络(AN)在语音识别中的成功应用。HMM 模型的广泛应用应归功于 A
14、T Bell 实验室Rabiner 等科学家的努力,他们把原本艰涩的HMM 纯数学模型 C 程序化,从而为更多研究者了解和认识。ANN 和 HMM 模型建立的语音识别系统,其性能相当。进入 90 年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实用。许多发达国家如美国、日本、韩国以及IBM,Apple,AT&T,NTT 等著名公司都为语音识别系统的实用化开发研究投入巨资。早期的语音识别系统大多是按照简单的模板匹配原理工作的特定人、小词汇表、孤立词识别系统 151,这种语音识别系统的原理框图如图 1.1 所示。在训练阶段,用户将词汇表中的每一个词依次说几遍,并且将其特征矢量序列作为模
15、板进行相似度比较,将相似度最高者作为识别结果输出。为了得到好的识别效果,说话者在训练和识别阶段的说话速度应当一致,但是这很难做到。因此,一旦用 DTW 算法克服了说话速度不均匀造成的时间变化这一困难后,这种系统的性能有显著提高。但是,对于要求更高的语音识别系统,如非特定人、大词汇表、连续语音识别系统,DTW 方法则效果较差。测试模式帧 特 征 矢量序列逐征进行特征提取相似度比较(模式匹配)参考模式调试模板库图 1.1早期的特定人、小词汇表、孤立词识别系统原理框图第 2 页20 世纪 70 年代以来语音识别研究取得了一系列重大进展,尤其是 HMM(隐马尔可夫模型)的提出,使得非特定人、大词汇表、
16、连续语音识别这一个课题的研究取得了重大突破。目前语音识别研究的主流便是采用 HMM 的方法。概言之,就是从语音层直到句法层,将全部语音的统计知识容纳在一个统一的 HMM 框架之内。虽然这一方法还有不少缺陷有待改进,但是其成果是过去的研究无法比拟的。基于HMM的孤立词识别系统的原理框图如图1.2所耐引。这种系统的基本思想为,在训练阶段,用 HMM 的训练算法(例如 BaumWelch 算法),建立系统词汇表中每个词臃对应的 HMM 参数,记为 Ai;在识别阶段,用 Viterbi 算法求出概率 P(O2i)值,其中 D 为待识别词的观测序列;后处理就是选取最大尸(0办)值所对应的词聊,为D 的识
17、别结果识 别 输出结果计算概率参考训练HMM模式后处理预处理逐帧特征提取图 1.2基于 HMM 的孤立词识别系统原理框图以前,只有 IBM,CMU 等少数研究机构使用 HMM 方法,而 20 世纪 80 年代以后,HMM 开始广泛使用。尤其美国的 1000 单词规模的 DARPA 项目在很大程度上推动了语音识别的研究进度。以此为契机,SRI,MIT,CMU,BBN 等展开激烈竞争,并且取得许多非常重要的研究成果。在 20 世纪 80 年代末期由 CMU 推出的 SPHINX 系统,率先突破了语音识别中非特定人、连续语音、大词汇量三大难题,公认为语音识别技术发展中的一个里程碑。汉语语音识别技术起
18、步较晚,但发展很快。目前,国内从事语音识别研究的单位超过了几十个,如清华大学、中科院自动化所、中科院声学所、中国科技大学等。他们结合非特定人孤立词语音识别系统若干关键技术的研究合汉语第 3 页语音学和语言学的特点,在基础理论、模型和实用系统等方面作了大量的工作,并取得了重要的成果。在我国的“八五”计划和“863”计划中,汉语语音识别的研究得到了大力支持,强有力的推动了汉语语音识别技术的发展。作为一个专门的研究领域,语音识别又是一门交叉学科,它与声学、语音学、人工智能、数字信号处理、信息论、模式识别理论、最优化理论、计算机科学等众多学科紧密相连。语音识别经过四十多年的发展,己经显示出巨大的应用前
19、景,高性能的语音识别系统相继问世。语音识别技术的市场前景无量,它的应用领域非常广泛,有声控电话交换、语音拨号系统、信息网络查询、家庭服务、宾馆服务、旅行社服务系统、订票系统声控智能玩具、医疗服务、银行服务、股票查询服务、听写机、计算机控制、工业控制、语音通信系统等等,几乎涉及到同常生活的每一个领域。它在一些领域中正在迅速成为一个关键的、而且具有竞争力的技术,并且必将改变人们的同常生活。1.31.3 语音识别存在的问题语音识别存在的问题语音技术掀起的第一次浪潮始于 20 世纪 90 年代前期,许多著名的大公司如 IBM、苹果、AT&T 和 NTT 等都对语音识别系统的实用化研究投以巨资。在 19
20、97 年有人提出,“语音时代”己经来临商家也都对此充满了信心,希望语音识别能力能跟人一样。然而,事实并非如此。在实验室中“成功”的语音识别系统在鲁棒性(Robusmess)、灵活性和自适应能力上还远不能满足实际的需要,技术上也显得力不从心。目前,在市场上较少有语音识别系统的成熟应用。厂商并没有 人、连续语音、大词汇量的语音识别,而是把当前已经成熟的那部分技术应用到实际的产品中。例如以中小词表为主的命令式语音识别,包括呼叫中心、语音拨号,移动设备中的嵌入式命令控制等,并且对于普通话能达到相当高的识别率。尽管在实验室中语音识别系统达到了很高的识别率,但在实际应用中尚有许多问题。主要问题如下:(1)
21、方言或口音会降低语音识别率。对于捐 j 有八大方言区的中文来说,应用的难度会更大。它既涉及到自然语言理解,又与声学有关。语音识别技术的最终目的是要让用户在“人机对话”时,能够像进行“人与人对话”一样自然。而一旦用户以跟人交谈的方式来进行语音输入时,口语的语法不规范和语序不正常的特点会给语义的分析和理解带来困难。第 4 页(2)背景噪音。公共场所大的噪音对语音识别影响很大,即使在实验室环境下,敲击键盘、挪动麦克风都会成为背景噪音。实际应用中,噪音研究的问题就是如何把原始语音从背景噪音中提取出来,这将会使识别系统具有很强的适应性。(3)连续语音问题。汉语连接数字语音的连续程度要高于英语连接数字发音
22、,这是由于纯元音语音(即只含元音的语音)在汉语中出现较多,如“1”“2”等,而在英语中却很少见。两个纯元音语音的连续程度要远高于两个普通(包含元音和辅音)语音的连续程度。例如,汉语数码串“1221yao elcr yao】”的连续发音几乎很难在波形上看出其中每个字的分界点。汉语的这种特点明显加大了汉语数码连续语音的识别难度。1.41.4 论文主要研究内容及结构安排论文主要研究内容及结构安排本课题的主要研究内容包括以下几个方面:首先,深入研究了语音信号的特点和语音识别的相关理论与算法,并就各个算法之间的优缺点进行了比较和论述。分析语音信号的时域及频域的特征,对语音信号的特征提取和建模进行了详细的
23、探讨,为进一步分析语音识别算法奠定了基础。其次,研究了语音识别中应用较广的 HMM 模型,对 HMM 模型的 3 个基本问题(评估问题、训练问题和解码问题)进行了详细的介绍。同时,详细分析了系统的实现过程,给出了语音识别系统算法的实现流程。本文分为三章,具体安排如下:第一章,概述了本文的研究意义,语音识别系统的历史、现状以及存在的问题,并简单介绍了本文的研究内容及结构安排。第二章,简要介绍了语音识别系统的基本组成以及语音识别的基元选择,概述语音识别的应用分类以及其应用特点。介绍了语音识别的几种算法简介。第三章,简要介绍了语音识别系统的基本组成以及相关算法,包括预处理、特征参数的分类及其特点和识
24、别模型的分类和特点。第四章,本次设计的具体流程及其步骤。第 5 页第二章第二章语音识别系统语音识别系统2.12.1 语音识别系统简介语音识别系统简介2.1.12.1.1 语音识别系统的结构语音识别系统的结构语音识别本质上是一种模式识别的过程,其基本结构原理框图如图 2.1 所示,主要包括语音信号处理、特征提取、特征建模(简历参考模式库)、相似性度量和后处理等几个功能模块,其中后处理模块为可选部分。第 6 页预处理特征提取相似性度量(模式匹配)后处理参考模式库图 2.1语音识别基本结构原理框图一个语音识别系统主要包括训练和识别两个阶段。无论是训练还是识别,都需要首先对输入的原始语音进行预处理,并
25、进行特征提取。下面具体说明各个模块的基本功能。(1)预处理模块,对输入的原始语音信号进行处理,滤除掉其中的不重要得信息以及北京噪声等,并进行语音信号的端点检测,即判定语音有效范围的开始和结束位置,并进行语音分帧以及预加重等处理工作。(2)特征提取模块,负责计算语音的升学参考,并进行特征的计算,以便提取出反映信号特征的关键特征参数,以降低维数并便于后续处理。语音识别系统常用的特征参数有幅度、能量、过零率、线性预测系数(LPC)、LPC 倒谱系数(LPCC)、线谱对参数(LSP)、短时频谱、共振峰频率、反映人耳听觉特征的 Mel 频率倒谱系数(MFCC)等。特征的选择和提取是系统构建的关键。(3)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音识别系统的设计与实现 毕业论文 语音 识别 系统 设计 实现
限制150内