模式识别理论和技术在语音识别研究中的应用.pdf
《模式识别理论和技术在语音识别研究中的应用.pdf》由会员分享,可在线阅读,更多相关《模式识别理论和技术在语音识别研究中的应用.pdf(4页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、企 肥学院 学报(自 然科学版)2 0 0 9年 2月第 1 9卷 第 1期 J o u rna l o f H e i U n i v e r s i t y(N a t u r a l S c i e n c e s)F e b 2 0 0 9 V o 1 1 9 No 1 模式识别理论和技术在 语音识别研 究 中的应用 杨海峰,张德祥(安徽大学 a 教务处 b 电子科学与技术学院,合肥2 3 0 0 3 9)摘要:语音识别是让机器 听懂人 的说话,并准确地 识别 出语 音的 内容和 执行 相应操作的技 术 该 文介 绍 了语音 识别发展的过程,语音识别系统的结构和识别过程,模式识别理论和
2、技术在语音识别研究中的应用以及语音识 别 中的关键技术和面临的问题 最后讨论 了语音识别技术存在的优点和不足,并展望了其应用研究的前景 关键词:语音识别;模 式识别;特征提取;模式 匹配 中图分 类号:T P 3 9 1 4 2 文献标识码:A 文章 编号 1 6 7 31 6 2 X(2 0 0 9)0 1 0 0 2 0 0 4 语音识别是 以语音为研究对象,通过语音信号处理和模式识别让机器 自动识别和理解人类 口述的语 言 语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术 语音识 别是一 门涉及面很广 的交叉学科,它与声学、语音学、语言学、信息理论、模式识
3、别理论、以及神经生物学等 学科都有非常密切的关系 语音识别技术正逐步成为计算机信息处理技术中的关键技术,语音技术的应用 已经成为一个具有竞争性的新兴高技术产业 语音识别的研究从 2 0世纪 5 0年代 A T&T贝尔实验室开发的 1 0个英文数字的语音识别系统开始,到 6 O _7 0年代,由于动态规划和线性预测分析技术的提出,有效地解决 了语 音信号的特征提取和不等长匹 配问题,实现了特定人小词汇量 的孤立词的识别,语音识别研究得到快速发展,特别是提出了矢量量化和 隐马尔可夫模型(H i d d e n Ma r k o v Mo d e l s,H MM)理论,使得语音识别研究取得突破性进
4、展 进入 8 0年代,以 H MM模型和人工神经元网络(A N N)在语音识别技术上应用为代表 的新技术不断出现,统计 的语言模 型开始取代基于规则 的语言模型而成为主流,使得语音识别朝着大词汇量、连续语音和非特定人的语音识 别方向深入,有效地解决了语音信号短时稳定、长时时变的非平稳特性,使语音序列建模方法、统计建模方 法、词语之间关系的统计模 型建立方法和语法规则机制建立方法在连续语音识别中得到深度应用 _ 2 进 入 2 0世纪 9 0年代后,语音识别在细化模型的设计、参数提取和优化 以及系统的 自适应等方面取得一系列 关键性 的进展,特别是现代信号处理技术如时频分析、小波分析、模糊理论、
5、混沌与分形理论、遗传算法和 支持 向量机等 都正在应 用于说话 人识别技术 上,使 得语音识 别技术进 一步成熟,并开始 向市场提 供 产 品 。1 语音识别 系统的结构 一个完整的基于统计 的语音识别系统一般由语音信号预处理与特征提取,声学模型与模式识别,语言 模型与语音处理 3部分组成 4 总体上说,语音识别就是一个模式识别和匹配 的过程,首先计算机必须根 据人的语音特点来建立语音特征模型或字典库;然后对获取的语音输入信号经过噪声去除和端点检测等 预处理后进行特征分析和提取,建立所需识别 的语音信号模板;再采用模式识别理论和技术,将计算机 中 已经存在的语音模板特征与输入的语音信号特征进行
6、 比较,并根据一定的搜索和模式匹配的策略从语音 特征库 中找出最优的语音模版与输入语音进行匹配处理;最后通过查表或判别算法来给出识别结果 目前 语音识别主要集 中在特定人和非特定人语音识别、孤立词和连续语音识别、小词汇量和大词汇量的语音识 别方面 其语音识别系统结构如图 1 所示 收稿 日期:2 0 0 81 01 3 基金项目:安徽省教育厅 自然科学基金项 目(K J 2 0 0 8 B 0 9 4)资助 作者简介:杨海峰(1 9 7 9 一),男,安徽界首人,安徽大学教务处助理研究员;张德祥(1 9 6 8 一),男,安徽六安人,安徽大学电子 科学与技术学院副教授 第 1 期 杨海峰,等:
7、模式识别理论和技术在语音识别研究中的应用 2 l 2 模式识别技术在语音识别中应用 模式匹配是指根据一定准则,使未知模式与模 型库 中某一模型获得最佳匹配 模 型训练是指按照 一定准则,从大量已知模式 中提取表示该模式特征 的模型参数 语音识别所应用的模式匹配和模型训 练技术有:动态 时间规 整技术(D T W)、隐马尔可夫 模型(HM M)、矢 量 量 化(V Q)、人 工 神 经 网 络(A N N)、支持向量机(S V M)、独立分量分 析(I C A)等方法 2 1 动态 时间规 整(DT W)动态时 间规整算法 图1 语音识别系统结构(D y n a m i c T i m e Wa
8、 r p i n g,D T W)是在非特定人语音识别 中一种简单有效的方法,该算法基于动态规划的思 想,解决了发音长短不一 的模 板匹配 问题,是语音识别技术 中 出现较早、较常用 的一种算法 在应用 D T W算法进行语音识别时,就是将 已经预处理和分帧过 的语音测试信号去和参考语音模板进行比较 以获 取他们之间的相似度,按照某种距离测度得出两模板间的相似程度并选择最佳路径 2 2 隐马尔可夫模型法(H MM)隐马尔可夫模型是语音信号处理中的一种统计模型,是2 0 世纪 7 0 年 代引入语音识别理论 中的,6 目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于 H MM模 型的
9、H MM是对语音信号 的时间序列结构具有学习能力的统计模型,它是一个数学上双重随机过程:一个 是马尔科夫链,这是基本的随机过程,它是通过隐含的状态转移来描述发音 的变化;一个是 引入 了概率统 计模型,不再用动态时间对齐的方法求匹配距离,而是用概率密度函数计算语音参数对 H MM模型的输 出 概率,通过搜索最佳状态序列,以最大后验概率为准则找到识别结果 H MM很好地描述了语音信号的整体 非平稳性和局部平稳性,是较为理想 的一种语音模型 HMM不需要时间规整,可节约判决时的计算时间和 存储量,在 目前被广泛应用 H MM 的性能在很多应用中都可以和 D T W 相 比,而计算代价只有后者的几分
10、之一 由于允许 随机转 移和随机输 出,所 以 HMM能适应发音的各种微妙变化 在识别词表中,用识别器来决定每一个单词由哪 一个模型提供输出 因为模型本身对识别器来说是看不见的,它只能根据获得的数据推导出来,故称为隐 马尔可夫模型 同时 H M M理论还和其他理论结合起来,如 H M M和神经网络结合、H M M和支持向量机结 合、H MM和小波结合等综合方法应用于语音识别 2 3 矢量量化(VQ)矢量量化(V e c t o r Q u a n t i z a t i o n)是一种重要 的信号压缩方法 与 HMM相 比,矢量量 化主要适用于小词汇量、孤立词的语音识别 中 _ 8 其过程是将
11、若干个语音信号波形或特征参数 的标量数 据组成一个矢量在多维空间进行整体量化 把矢量空 间分成若干个小区域,每个小区域寻找一个代表矢 量,量化时落入小区域的矢量就用这个代表矢量代替 矢量量化器的设计就是从大量信号样本中训练出好 的码书,从实际效果 出发寻找到好的失真测度定义公式,设计 出最佳 的矢量量化 系统,用最少的搜索和计 算失真的运算量实现最大可能的平均信噪比 在实际的应用过程 中,人们还研究 了多种降低复杂度的方法,包括元记忆 的矢量量化、有记忆 的矢量 量化和模糊矢量量化方法 2 4 神经网络的方法利用人工神经 网络的方法是 2 0世纪 8 0年代末期提出的一种新的语音识别方法 人工
12、神经网络(A N N)本质上是一个 自适应非线性动力学系统,模拟 了人类神经活动 的原理,具有 自适应 性、并行性、鲁棒性、容错性和学习特性,其强大的分类能力和输入一输出映射能力在语音识别 中都很有吸 引力 其方法是模拟人脑思维机制的工程模型,它与 H M M正好相反,其分类决策能力和对不确定信息的 描述能力得到举世公认,但它对动态时间信号的描述能力 尚不尽如人意,通常 ML P分类器只能解决静态 模式分类问题,并不涉及时间序列的处理 尽管学者们提出了许多含反馈的结构,但它们仍不足以刻画诸 如语音信号这种时间序列的动态特性 1】由于 A N N不能很好地描述语音信号的时间动态特性,所以常把 A
13、 N N与传统识别方法结合,分别利用各自 优点来进行语音识别而克服 H M M和 A N N各自的缺点 近年来 结合神经网络和隐含马尔可夫模型的识别算法研究取得 了显著进展,其识别率已经接近隐含马尔可夫模 2 2 合肥学院学报(自然科学版)第 1 9卷 型的识别系统,进一步提高 了语音识别 的鲁棒性和准确率 2 5 支持向量机方法支持向量机(S u p p o r t V e c t o r Ma c h i n e,S V M)是数据挖掘 中的一项新技术,它最初 于 2 0世纪 9 0年代 由 V a p n i k提 出,近年来在其理论研究和算法实现方面都取得了突破性的进展,开始成 为克服
14、“维数灾难”和“过学习”等传统困难的有力手段 _ l 支持向量机 同其他模式识别方法相比主要有两个不 同点:一是它采用一个非线性核函数来表示特征 空间的内积,另外一方面它采用分类间隔最大的最优分类超平面实现结构风险最小化原则 由于它具有 良 好的理论基础,所 以在各个领域 中得到广泛应用,使用支持 向量机对说话人进行建模也在最近几年得到许 多研究 说话人识别 中采用支持向量机对说话人进行建模的方法大致可分两类:一类是基于帧的方法,另外一 类是基于语句的方法 由于支持 向量机核函数的使用,使得这种变换操作可以采用隐式方式进行,即不需 要知道 固定大小 向量的维数,或者根本不能映射到固定大小向量上
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别 理论 技术 语音 识别 研究 中的 应用
限制150内