孤立词语音识别中期报告(共12页).doc





《孤立词语音识别中期报告(共12页).doc》由会员分享,可在线阅读,更多相关《孤立词语音识别中期报告(共12页).doc(12页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上1课题研究的背景及意义国外的语音识别研究工作可以追溯到20世纪50年代AT&T贝尔实验室开发的第一个能实现十个英文数字的语音识别系统。我国的语音识别研究起始于1958年,由中国科学院声学所利用电子管电路识别十个元音。直至1973年才由中国科学院声学所开始计算机语音识别。1986年3月我国高科技发展计划(863计划)启动,国家863智能计算机专家组为语音识别技术研究专门立项,每两年举行一次专题会议。现在我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势。国内有不少语音识别系统已研制成功。在孤立字大词汇量语音识别方面,最具代表性的要数
2、92年清华大学电子工程系与中国电子器件公司合作研制成功的THED-919特定人语音识别与理解实时系统。在连续语音识别方面,91年12月四川大学计算机中心在微机上实现了一个主题受限的特定人连续英语-汉语语音翻译演示系统。在非特定人语音识别方面,有清华大学计算机科学与技术系在87年研制的声控电话查号系统并投入实际使用。随着信息产业的迅速发展,人们倾向于使用高效,快捷,方便的电子产品。语音识别作为人机交互的一项关键领域,具备了实时,方便,快速等特点,在当今科学技术的发展上也有着日益重要的地位。在一些特定的环境或是对于一些特定的人,语音识别可以带来很大的方便。例如,驾驶员在高速行驶的汽车内电话拨号,飞
3、行员在飞行过程中发出必要的命令等,都需要语音识别系统,另外语音识别也给失明者带来很大的帮助。课题任务探讨基于MATLAB的多个特定人孤立词语音识别的方法,期望在进行端点检测时,能进一步提高识别率。该设计要求采用TW算法。主要任务:1、 理论分析,提出设计方案;2、 语音采集;3、 特征提取,形成训练集;4、 特定人孤立词语音识别算法的程序实现。基本原理3.1语音识别的基本原理语音识别系统本质上是一种模式识别系统,因此它的基本结构与常规模式识别系统一样,包含有特征提取、模式匹配、参考模式库等三个基本单元。图1为语音识别系统的原理框图。失真测度识别识别结果训练模式匹配模型库逐帧特征提取预处理语音信
4、号图1 语音识别系统的原理框图根据对说话人发音方式的不同,语音识别研究的内容可以分为孤立词识别系统、连续字语音识别系统及连续语音识别系统。本次毕设研究的是孤立词语音识别。3.2孤立词语音识别系统的设计孤立词语音识别系统指人在发音时,以单字的发音方式向语音识别系统输入语音,词语词之间要有足够的时间间隙,以便系统能够检测到始末点。采用这种方式的语音识别系统可以做到很高的识别率。图2为孤立词有语音识别系统的原理框图:预处理特征提取超音段特征提取参考模式库模式识别 训练后处理器识别结果 输入语音图2 孤立词语音识别系统3.2.1语音信号的采集Windows 自带了一个录音机程序(简称录音机),通过它可
5、以驱动声卡采集、播放和简单处理语音信号。语音信号的采集可以用麦克风直接录制人的语音,也可以通过音频线或者MIDI 线将收音机、电视机或磁带录机中的语音信号采集到计算机中。在录音机中可以进行简单的声音处理,如加大或降低音量,加速或减速,声音的反转或添加回音效果等。加速或减速的改变可以完成变音功能,反转可以达到对声音文件保密的功能。通过windows自带的录音器,分别由我和同学录入了2组数据(1人1组),每组10个音频文件,分别为从“零”到“九”的汉语发音。其中一组为参考模板,另外一组为测试模板。3.2.2端点检测语音信号录制进来后,不论是识别孤立词还是识别连续词都必须做语音分段,即语音端点检测,
6、找出语音段的开始和结尾,这可借助于语音信号的短时能量和过零率。有声音段的能量值较大,无声音段的过零率较高,因此可以通过计算短时能量大致判断语音的端点,然后使用过零率找到语音端点的相对精确位置,分解出每一个语音段。整个语音信号的端点检测可以分为四段:静音、过渡段、语音段、结束。系统中使用一个变量来表示当前所处的状态,在静音段,如能量或过零率超过了低门限,则开始标记起始点,进入过渡段。在过渡段,由于参数的数值比较小,不能确信是否处于真正的语音段,因此只要两个参数的数值都回落到低门限以下,就将当前状态恢复到静音状态。如果在过渡段中两个参数的任意一个超过了高门限,就可以确信进入语音段了。端点检测时,首
7、先根据短时能量进行初步判断,此时对终点的检测已比较准确,但由于大多数声母是清声母,它的能量相当弱,依靠能量无法将其与无声段区分开,所以在进行起点检测时,很难仅仅通过短时能量进行判断,但对于清辅音而言,它的过零率明显高于无声段,所以可以根据短时过零率进一步准确检测。图3为端点检测的流程图:否否是是否发现终点?是否发现起点?开始自适应能量预加重、加窗、计算每帧能量能量状态跳转是结束图3 端点检测的流程图图3 端点检测程序流程图3.2.3特征提取由于直接采集得到的语音信号的数据量巨大,同时原始语音信号包含了许多随机因素,所以原始信号不能直接用来进行语音识别。因此需要从语音信号中提取合适的、有代表性的
8、特征参数。特征提取就是通过对语音信号的分析,去除其中的冗余信息,得到影响语音识别的有用信息,语音信号的时域参数有短时平均能量、短时平均过零率、短时自相关函数和短时平均幅度差函数等。这是语音信号的一组最基本的短时参数,在各种语音信号数字处理技术中都要应用,下面分别讨论:短时平均能量清音段的幅度一般比浊音段的幅度小的很多。语音信号的短时能量给出了反映这些幅度变化的一个合适的描述方法。图4为短时平均能量的方框图如下表示: 图4 短时平均能量的方框图表示短时过零率过零率分析是语音时域分析中最基本的一种。对于连续信号,过零率意味着时域波形通过时间轴。在离散时间信号情况下,当相邻的两次抽样具有不同的代数符
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 孤立 词语 识别 中期 报告 12

限制150内