基于BP神经网络的语音识别技术ppt课件.ppt
《基于BP神经网络的语音识别技术ppt课件.ppt》由会员分享,可在线阅读,更多相关《基于BP神经网络的语音识别技术ppt课件.ppt(19页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、基于基于BPBP神经网络的语音识别技术神经网络的语音识别技术汇报人:目录一.语音识别概述二.语音识别流程三.语音信号预处理四.语音识别特征提取五.BP神经网络原理六.语音识别程序设计一.语音识别概述 语音识别以语音为研究对象,涉及到生理学、心理学、语言学、计算机科学,以及信号处理等诸多领域,最终目的是实现人与机器进行自然语言通信,用语言操纵计算机。 语音识别系统可以分为孤立字(词)语音识别系统、连接字语音识别系统以及连续语音识别系统。 语音识别系统分为两个方向:一是根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统;二是根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量,以及无限词
2、汇量语音识别系统。二.语音识别流程 从图的系统整体架构可以看到,建立基于BP神经网络的语音识别系统可分为两个阶段,即训练阶段和识别阶段。首先由用户通过麦克风输入语音形成原始语音,然后系统对其进行预处理。预处理包括预加重,加窗分帧和端点检测三个过程。系统的前端采用了端点检测,目的是在一段语音信号中确定起点和终点。在特征提取部分,本系统采用了MFCC作为特征参数,用于有效地区分数字1-5.三.语音信号预处理1.预加重语音从嘴唇辐射会有6dB/oct的衰减,因此在对语音信号进行处理之前,希望能按6dB/oct的比例对信号加以提升(或加重),以使得输出信号的电平相近似。可采用以下差分方程定义的数字滤波
3、器:( )( )(1)y nx nax n式中,系数常在式中,系数常在0.9至至1之间选取。之间选取。2.语音信号的分帧 语音信号是一种典型的非平稳信号,它的均值函数u(x)和自相关函数R(xl,x2)都随时间而发生较大的变化。但研究发现,语音信号在短时间内频谱特性保持平稳,即具有短时平稳特性。因此,在实际处理时可以将语音信号分成很小的时间段(约1030ms),称之为“帧”。 在语音信号数字处理中常用的窗函数是矩形窗、汉明窗等,它们的表达式如下(其中N为帧长):矩形窗:汉明窗:3端点检测基于短时能量和短时过零率的在该算法中,短时能量检测可以较好地区分出浊音和静音。对于清音,由于其能量较小,在短
4、时能量检测中会因为低于能量门限而被误判为静音,短时过零率则可以从语音中区分出静音和清音。将两种检测结合起来,就可以检测出语音段及静音段。 下图是我本科课程设计中一个关于端点检测的程序GUI界面,其中语音是教材中的示例语音“他去无锡市”,我通过cooledit在示例语音中加入了白噪音,可以看出清音段混杂在噪音中,如果短时能量的门限值选取过高可能会屏蔽掉清音段,所以加入过零率能更好的识别出清音段。由此图可以看出门限值选取的合不合理很大程度上影响到端点识别的效果四.语音识别特征提取特征提取:即对不同的语音寻找其内在特征,由此来判别出未知语音,所以每个语音识别系统都必须进行特征提取。语音信号的特征主要
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 BP 神经网络 语音 识别 技术 ppt 课件
限制150内