欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    模式识别理论和技术在语音识别研究中的应用.pdf

    • 资源ID:69697648       资源大小:286.45KB        全文页数:4页
    • 资源格式: PDF        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    模式识别理论和技术在语音识别研究中的应用.pdf

    企 肥学院 学报(自 然科学版)2 0 0 9年 2月第 1 9卷 第 1期 J o u rna l o f H e i U n i v e r s i t y(N a t u r a l S c i e n c e s)F e b 2 0 0 9 V o 1 1 9 No 1 模式识别理论和技术在 语音识别研 究 中的应用 杨海峰,张德祥(安徽大学 a 教务处 b 电子科学与技术学院,合肥2 3 0 0 3 9)摘要:语音识别是让机器 听懂人 的说话,并准确地 识别 出语 音的 内容和 执行 相应操作的技 术 该 文介 绍 了语音 识别发展的过程,语音识别系统的结构和识别过程,模式识别理论和技术在语音识别研究中的应用以及语音识 别 中的关键技术和面临的问题 最后讨论 了语音识别技术存在的优点和不足,并展望了其应用研究的前景 关键词:语音识别;模 式识别;特征提取;模式 匹配 中图分 类号:T P 3 9 1 4 2 文献标识码:A 文章 编号 1 6 7 31 6 2 X(2 0 0 9)0 1 0 0 2 0 0 4 语音识别是 以语音为研究对象,通过语音信号处理和模式识别让机器 自动识别和理解人类 口述的语 言 语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术 语音识 别是一 门涉及面很广 的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论、以及神经生物学等 学科都有非常密切的关系 语音识别技术正逐步成为计算机信息处理技术中的关键技术,语音技术的应用 已经成为一个具有竞争性的新兴高技术产业 语音识别的研究从 2 0世纪 5 0年代 A T&T贝尔实验室开发的 1 0个英文数字的语音识别系统开始,到 6 O _7 0年代,由于动态规划和线性预测分析技术的提出,有效地解决 了语 音信号的特征提取和不等长匹 配问题,实现了特定人小词汇量 的孤立词的识别,语音识别研究得到快速发展,特别是提出了矢量量化和 隐马尔可夫模型(H i d d e n Ma r k o v Mo d e l s,H MM)理论,使得语音识别研究取得突破性进展 进入 8 0年代,以 H MM模型和人工神经元网络(A N N)在语音识别技术上应用为代表 的新技术不断出现,统计 的语言模 型开始取代基于规则 的语言模型而成为主流,使得语音识别朝着大词汇量、连续语音和非特定人的语音识 别方向深入,有效地解决了语音信号短时稳定、长时时变的非平稳特性,使语音序列建模方法、统计建模方 法、词语之间关系的统计模 型建立方法和语法规则机制建立方法在连续语音识别中得到深度应用 _ 2 进 入 2 0世纪 9 0年代后,语音识别在细化模型的设计、参数提取和优化 以及系统的 自适应等方面取得一系列 关键性 的进展,特别是现代信号处理技术如时频分析、小波分析、模糊理论、混沌与分形理论、遗传算法和 支持 向量机等 都正在应 用于说话 人识别技术 上,使 得语音识 别技术进 一步成熟,并开始 向市场提 供 产 品 。1 语音识别 系统的结构 一个完整的基于统计 的语音识别系统一般由语音信号预处理与特征提取,声学模型与模式识别,语言 模型与语音处理 3部分组成 4 总体上说,语音识别就是一个模式识别和匹配 的过程,首先计算机必须根 据人的语音特点来建立语音特征模型或字典库;然后对获取的语音输入信号经过噪声去除和端点检测等 预处理后进行特征分析和提取,建立所需识别 的语音信号模板;再采用模式识别理论和技术,将计算机 中 已经存在的语音模板特征与输入的语音信号特征进行 比较,并根据一定的搜索和模式匹配的策略从语音 特征库 中找出最优的语音模版与输入语音进行匹配处理;最后通过查表或判别算法来给出识别结果 目前 语音识别主要集 中在特定人和非特定人语音识别、孤立词和连续语音识别、小词汇量和大词汇量的语音识 别方面 其语音识别系统结构如图 1 所示 收稿 日期:2 0 0 81 01 3 基金项目:安徽省教育厅 自然科学基金项 目(K J 2 0 0 8 B 0 9 4)资助 作者简介:杨海峰(1 9 7 9 一),男,安徽界首人,安徽大学教务处助理研究员;张德祥(1 9 6 8 一),男,安徽六安人,安徽大学电子 科学与技术学院副教授 第 1 期 杨海峰,等:模式识别理论和技术在语音识别研究中的应用 2 l 2 模式识别技术在语音识别中应用 模式匹配是指根据一定准则,使未知模式与模 型库 中某一模型获得最佳匹配 模 型训练是指按照 一定准则,从大量已知模式 中提取表示该模式特征 的模型参数 语音识别所应用的模式匹配和模型训 练技术有:动态 时间规 整技术(D T W)、隐马尔可夫 模型(HM M)、矢 量 量 化(V Q)、人 工 神 经 网 络(A N N)、支持向量机(S V M)、独立分量分 析(I C A)等方法 2 1 动态 时间规 整(DT W)动态时 间规整算法 图1 语音识别系统结构(D y n a m i c T i m e Wa r p i n g,D T W)是在非特定人语音识别 中一种简单有效的方法,该算法基于动态规划的思 想,解决了发音长短不一 的模 板匹配 问题,是语音识别技术 中 出现较早、较常用 的一种算法 在应用 D T W算法进行语音识别时,就是将 已经预处理和分帧过 的语音测试信号去和参考语音模板进行比较 以获 取他们之间的相似度,按照某种距离测度得出两模板间的相似程度并选择最佳路径 2 2 隐马尔可夫模型法(H MM)隐马尔可夫模型是语音信号处理中的一种统计模型,是2 0 世纪 7 0 年 代引入语音识别理论 中的,6 目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于 H MM模 型的 H MM是对语音信号 的时间序列结构具有学习能力的统计模型,它是一个数学上双重随机过程:一个 是马尔科夫链,这是基本的随机过程,它是通过隐含的状态转移来描述发音 的变化;一个是 引入 了概率统 计模型,不再用动态时间对齐的方法求匹配距离,而是用概率密度函数计算语音参数对 H MM模型的输 出 概率,通过搜索最佳状态序列,以最大后验概率为准则找到识别结果 H MM很好地描述了语音信号的整体 非平稳性和局部平稳性,是较为理想 的一种语音模型 HMM不需要时间规整,可节约判决时的计算时间和 存储量,在 目前被广泛应用 H MM 的性能在很多应用中都可以和 D T W 相 比,而计算代价只有后者的几分之一 由于允许 随机转 移和随机输 出,所 以 HMM能适应发音的各种微妙变化 在识别词表中,用识别器来决定每一个单词由哪 一个模型提供输出 因为模型本身对识别器来说是看不见的,它只能根据获得的数据推导出来,故称为隐 马尔可夫模型 同时 H M M理论还和其他理论结合起来,如 H M M和神经网络结合、H M M和支持向量机结 合、H MM和小波结合等综合方法应用于语音识别 2 3 矢量量化(VQ)矢量量化(V e c t o r Q u a n t i z a t i o n)是一种重要 的信号压缩方法 与 HMM相 比,矢量量 化主要适用于小词汇量、孤立词的语音识别 中 _ 8 其过程是将若干个语音信号波形或特征参数 的标量数 据组成一个矢量在多维空间进行整体量化 把矢量空 间分成若干个小区域,每个小区域寻找一个代表矢 量,量化时落入小区域的矢量就用这个代表矢量代替 矢量量化器的设计就是从大量信号样本中训练出好 的码书,从实际效果 出发寻找到好的失真测度定义公式,设计 出最佳 的矢量量化 系统,用最少的搜索和计 算失真的运算量实现最大可能的平均信噪比 在实际的应用过程 中,人们还研究 了多种降低复杂度的方法,包括元记忆 的矢量量化、有记忆 的矢量 量化和模糊矢量量化方法 2 4 神经网络的方法利用人工神经 网络的方法是 2 0世纪 8 0年代末期提出的一种新的语音识别方法 人工神经网络(A N N)本质上是一个 自适应非线性动力学系统,模拟 了人类神经活动 的原理,具有 自适应 性、并行性、鲁棒性、容错性和学习特性,其强大的分类能力和输入一输出映射能力在语音识别 中都很有吸 引力 其方法是模拟人脑思维机制的工程模型,它与 H M M正好相反,其分类决策能力和对不确定信息的 描述能力得到举世公认,但它对动态时间信号的描述能力 尚不尽如人意,通常 ML P分类器只能解决静态 模式分类问题,并不涉及时间序列的处理 尽管学者们提出了许多含反馈的结构,但它们仍不足以刻画诸 如语音信号这种时间序列的动态特性 1】由于 A N N不能很好地描述语音信号的时间动态特性,所以常把 A N N与传统识别方法结合,分别利用各自 优点来进行语音识别而克服 H M M和 A N N各自的缺点 近年来 结合神经网络和隐含马尔可夫模型的识别算法研究取得 了显著进展,其识别率已经接近隐含马尔可夫模 2 2 合肥学院学报(自然科学版)第 1 9卷 型的识别系统,进一步提高 了语音识别 的鲁棒性和准确率 2 5 支持向量机方法支持向量机(S u p p o r t V e c t o r Ma c h i n e,S V M)是数据挖掘 中的一项新技术,它最初 于 2 0世纪 9 0年代 由 V a p n i k提 出,近年来在其理论研究和算法实现方面都取得了突破性的进展,开始成 为克服“维数灾难”和“过学习”等传统困难的有力手段 _ l 支持向量机 同其他模式识别方法相比主要有两个不 同点:一是它采用一个非线性核函数来表示特征 空间的内积,另外一方面它采用分类间隔最大的最优分类超平面实现结构风险最小化原则 由于它具有 良 好的理论基础,所 以在各个领域 中得到广泛应用,使用支持 向量机对说话人进行建模也在最近几年得到许 多研究 说话人识别 中采用支持向量机对说话人进行建模的方法大致可分两类:一类是基于帧的方法,另外一 类是基于语句的方法 由于支持 向量机核函数的使用,使得这种变换操作可以采用隐式方式进行,即不需 要知道 固定大小 向量的维数,或者根本不能映射到固定大小向量上,只需要知道两条长度不一样的语句之 间的距离,所有语句之间的距离构成核距离矩阵,便可以用来训练支持向量机并实现语音识别 说话人识别属于连续输入信号的分类问题,S V M是一个很好的分类器,但不适合处理连续输人样本 H MM适合处理连续信号且结果反映了同类样本的相似度,而 S V M的输 出结果体现 了异类样本间的分类 问题,所以在实际中常将 S V M和 HMM集合起来建立模型 引 2 6 独立分量分析方法独立分量分析(I C A)是一种高阶统计量信号处理方法,是模式识别与信号处理 等相关领域的一个重要的研究热点 基于独立分量分析的盲信号处理(B S P)理论及其在语音识别预处理 中语音信号盲源分离(B S S)和语音增强等方面得到广泛的应用 研究对混合语音信号的盲分离虽然不能实现识别的目标,但通过该技术却能够使得原本混叠的语音 信号相互剥离,使得噪声环境下和多说话人情况下的语音识别的实现成为可能 通过 F a s t I C A算法、信息 最大化方法、最大似然估计算法以及基于统计学的四阶累积量方法,可以实现语音信号的盲分离而探讨语 音的分离与消噪,使 I C A的语音盲分离、语音增强、语音识别三个阶段是一个不可分割的整体,分离是增 强的基础,识别为预处理的 目的 同时 I C A在语音编码,特别是在混叠语音信号编码方面优势更好 总之,不论从混叠语音的盲分离,还是从语音增强效果,乃至系统识别率的提高等不同角度来看,独立 分量分析都不失为一种有效的语音识别预处理方法 3 语音识别的关键技术和面临的问题 语音识别 的关键技术包括特征参数提取技术、模式匹配准则及模型训练技术、语音识别单元选取 尽管语音识别 的研究己有半个世纪了,但现有 的语音识别系统仍存在如下问题(1)语音识别 系统的 适应性差,主要体现在对环境依赖性强,因此要提高系统鲁棒性和自适应能力(2)噪声环境下语音识别 进展困难,因此必须寻找新的信号分析处理方法,包括语音特征提取、声学模型、语言模型等诸多方面理论 的突破(3)语言模型和声学模型的建立要有进一步 的突破 需把语音知识和语言知识结合起来,以高层 知识作为建模和识别的引导,以适应不同人在不 同时刻的语音识别(4)对人类 的听觉理解、知识积累和 学习机制以及大脑神经系统的控制机理等方面的认识还很不清楚(5)多语言混合识别 以及无 限词汇识 别方面还存在很多问题没有技术细节需要解决,缺乏海量语音库 和语料库,汉语的字词不分、灵活 自由的 语言表述、大量的同音字词都给汉语语言理解与处理 以及语音识别带来了困难 4 结 论 语音识别技术发展到今天,特别是中小词汇量非特定人语音识别 系统识别精度 已经大于 9 8 ,对特 定人语音识别系统的识别精度就更高,这些技术已经能够满足通常应用的要求 虽然目前出现的语音识别技术都是基于言语产生的模型,各种模板匹配、多模板聚类、隐含马尔可夫 链、神经网络模型等被广泛应用,但由于模型本身的缺陷,使得语音识别技术的发展缓慢 目前在语音识别领域非常活跃的课题为稳健语音识别、说话人 自适 应技术、大词汇量关键词识别算 法、语音识别 的可信度评测算法、基于类的语言模型和 自适应语言模型,以及深层次的 自然语言的理解 随 着科技的发展,语音识别必将成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使 第 1 期 杨海峰,等:模式识别理论和技术在语音识别研究中的应用 2 3 人们能够甩掉键盘,通过语音命令进行操作 语音技术的应用已经成为一个具有竞争性的新兴高技术 产业 参考文献:1 赵力 语音信号处理 M 北京:机械工业出版社,2 0 0 3:1 0 1 5 2 顾良,刘润生 汉语数码语音识别:困难分析与方法比较 J 电路与系统学报,1 9 9 7,2(4):3 2 3 9 3 杜利民,侯 自强 汉语语音识别研究面临的一些科学问题 J 电子学报,1 9 9 5,2 3(1 0):1 1 0-1 1 5 4 张雄伟,陈亮,杨吉斌 现代语音处理技术及应用 M 北京:机械工业出版社,2 0 0 3:3 1 1 5 张军,韦岗基于相对 自相关序列 MF C C特征的模型补偿技术 J 信号处理,2 0 0 3,1 9(3):2 8 4-2 8 6 6 J u a n g B H P a l i w a l K K Hi d d e n Ma r k o v Mo d e l s w i t h F i r s t O r d e r E q u a l i z a t i o n f o r N o i s y S p e e c h R e c o g n i t i o n J I E E E T r a n s S P,1 9 9 2,4 0(9):2 1 3 6-2 1 4 3 7 林坤辉,息晓静,周昌乐 基于 HM M与神经网络的声学模型研究 J 厦门大学学报:自然科学版,2 0 0 6,4 5(1):4 4-4 6 8 S o o n g F KA V e c t o r Q u a n t i z a t i o n A p p r o a c h t o S p e a k e r R e c o g n i t i o n C P r o c o f I C A S S P 一 8 5,T a m p a:I E E E,1 9 8 5:3 8 7-3 9 0 9 张云雁 基于改进的矢量量化算法的说话人识别 D 上海:上海大学理学院,2 0 0 5:2 3-3 1 1 0 S c h l i e p A,S c h n h u t h A,S t e i n h o ff C U s i n g H i d d e n M a r k o v M o d e l s t o A n al y z e G e n e E x p r e s s i o n T i me C o u r s e D a t a J B i o i n f o r m a t i c s,2 0 0 3,1 9(1):2 5 5 2 6 3 1 1 张学工 关于统计学习理论与支持向量机 J 自动化学报,2 0 0 0,2 6(1):3 2-4 1 1 2 C a m p b e l l W M,S t u r i m D E,R e y n o l d s D A S u p p o V e t o r Ma c h i n e s U s i n g G MM S u p e r v e c t o r fo r S p e a k e r V e ri fi c a t i o n J I E E E S i gna l P r o c e s s i n g L e t t e rs,2 0 0 6,1 3(5):3 0 8-3 1 1 1 3 彭煊,刘金福,王炳锡 基于独立分量分析的语音增强 J 信号处理,2 0 0 2,1 8(5):4 7 7-4 7 9 1 4 屈微等,刘贺平 拓扑独立分量分析在方言特征提取中的应用研究 J 语音技术,2 0 0 5,(5):3 9-4 3 责任编校:张永军 Ap p l i c a t i o n o f Pa t t e r n Re c o g n i t i o n Th e o r y a nd Te c h ni q u e s i n t h e S t u d y o f Pho ne t i c Re c o g ni t i o n YANG Ha i f e n g ,ZHANG De x i a n g (a T e a c h i n g A f f a i r s O ff i c e;b C o l l e g e o f E l e c t r o n i c S c i e n c e a n d T e c h n o l o g y,A n h u i U n i v e r s i t y,He f e i 2 3 0 0 3 9,C h i n a)A b s t r a c t:T h e g o a l o f p h o n e t i c r e c o g n i t i o n i s d e v e l o p i n g a k i n d o f ma c h i n e w i t h p h o n e t i c r e c o g n i t i o n f un c t i o n wh i c h i s a b l e t o i d e n t i f y p h o n e t i c me s s a g e s a n d pe r f o r m h uma n i n t e n t i o ns i n a n y c o nd i t i o n Th e d e v e l o p i n g p r o g r e s s,s y s t e m f r a me wo r k a n d r e c o g n i z i n g p r o c e s s o f p h o n e t i c r e c o g n i t i o n we r e i n t r o d u c e d Ap p l i c a t i o n o f p a t t e r n r e c o g n i t i o n t h e o r y a nd t e c h n i q ue s i n t he s t u d y o f p h o n e t i c r e c o g n i t i o n a s we l l a s k e y t e c h n o l o g i e s a n d p r o b l e m o f p ho n e t i c r e c o g ni t i o n we r e a l s o p r o p o s e d Th e a d v a n t a g e s a n d s ho r t c o mi n g s o f p h o n e t i c r e c o g n i t i o n we r e d i s c u s s e d Th e a p pl i c a t i o n r e s e a r c h o f p h o n e t i c r e c o g ni t i o n wa s p r o s pe c t e d Ke y wo r d s:p h o n e t i c r e c o g ni t i o n;p a t t e rn r e c o g n i t i o n;f e a t ur e e x t r a c t i o n;pa t t e rn ma t c h

    注意事项

    本文(模式识别理论和技术在语音识别研究中的应用.pdf)为本站会员(asd****56)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开