欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    毕业论文《语音识别系统的设计与实现》.pdf

    • 资源ID:90994803       资源大小:2.11MB        全文页数:44页
    • 资源格式: PDF        下载积分:8.8金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要8.8金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    毕业论文《语音识别系统的设计与实现》.pdf

    摘要摘要.IIIAbstractAbstract .I前言前言.I第一章绪论.11.11.1 研究的目的和意义研究的目的和意义.11.21.2 国内外研究历史与现状国内外研究历史与现状.11.31.3 语音识别存在的问题语音识别存在的问题.41.41.4 论文主要研究内容及结构安排论文主要研究内容及结构安排.5第二章语音识别系统.62.12.1 语音识别系统简介语音识别系统简介.62.1.12.1.1 语音识别系统的结构语音识别系统的结构.62.1.22.1.2 语音识别的系统类型语音识别的系统类型.72.1.32.1.3 语音识别的基元选择语音识别的基元选择.92.22.2 语音识别系统的应用语音识别系统的应用.92.2.12.2.1 语音识别系统的应用分类语音识别系统的应用分类.92.2.22.2.2语音识别系统应用的特点语音识别系统应用的特点.102.2.32.2.3 语音识别系统的应用所面临的问题语音识别系统的应用所面临的问题.112.32.3 语音识别的算法简介语音识别的算法简介.122.3.12.3.1 基于语音学和声学的方法基于语音学和声学的方法.122.3.22.3.2 模板匹配的方法模板匹配的方法.132.3.32.3.3 神经网络的方法神经网络的方法.15第三章语音识别系统的理论基础.163.13.1 语音识别系统的基本组成语音识别系统的基本组成.163.23.2 语音预处理语音预处理.173.2.13.2.1 预加重预加重.173.2.23.2.2 加窗分帧加窗分帧.173.2.33.2.3 端点检测端点检测.183.2.43.2.4 语音特征参数提取语音特征参数提取.183.2.53.2.5 语音训练和识别语音训练和识别.22第四章第四章特定人孤立词语音识别系统的设计方案特定人孤立词语音识别系统的设计方案.264.14.1 基于基于 VQVQ 语音识别系统的模型设计语音识别系统的模型设计.264.24.2 语音识别系统特征参数提取提取语音识别系统特征参数提取提取.274.2.14.2.1 特征参数提取过程特征参数提取过程.274.2.24.2.2 特征提取特征提取 matlabmatlab 实现实现.284.3 VQ4.3 VQ 训练与识别训练与识别.304.3.14.3.1 用矢量量化生成码本用矢量量化生成码本.304.3.24.3.2 基于基于 VQVQ 的说话人识别的说话人识别.314.44.4 设计结果分析设计结果分析.33总结与体会总结与体会.36谢辞谢辞.38参考文献参考文献.39第 I 页第 II 页摘摘 要要本文主要介绍了语音识别系统的基础知识,包括语音识别系统的应用、结构以及算法。重点阐述了语音识别系统的原理以及相关算法,通过参考查阅资料,借助MATLAB 工具,设计基于 VQ 码本训练程序和识别程序,识别特定人的语音。系统主要包括训练和识别两个阶段。实现过程包括对原始语音进行预加重、分帧、加窗等处理,提取语音对应的特征参数。在得到了特征参数的基础上,采用模式识别理论的模板匹配技术进行相似度度量,来进行训练和识别。在进行相似度度量时,采用 VQ 算法对特征参数序列重新进行时间的对准。VQ 在孤立词语音识别系统中得到很好的应用,特别是有限状态矢量量化技术,对于语音识别更为有效。基于 VQ 的孤立词语音识别系统具有分类准确,存储数据少,实时响应速度快等综合性能好的特点。关键字关键字语音识别MFCC 参数矢量量化第 III 页AbstractAbstractWith the appearances of information era based on digital techniques,peopleofteninteract with kinds of machines more and more in order to receive,transactand transferinformation.Today since computers are widely used,so that it is becoming true that thenatural communication between people and machines without using keyboard ormouse,which is the goal pursued by people for a long time.As people have understoodphysiological mechanics and features of human speech signals,they expect and hope moreand more to communicate with computers by speech instead of clicking mouse or typingkeyboard.This man-machine communication is an important research problem.Multimediaera intensively requests speech recognition system to put into practice from laboratory.Isolated word speech recognition system will bring some advantage for people in daily life.This paper chooses MFCC as feature parameters,and designsthe speech recognitionsystem by VQ,and achieves the isolated word recognition of 09.The experiments showthat the method has a very high recognition rate.Key wordsKey words:speech recognitionMFCCVQ第 I 页前言前言语音识别是人机接口设计的一项重要内容,也是语音信号处理中非常重要的应用技术。人们一直期待着机器的智能化,而能听懂人类的语音是其一个重要方面。目前,语音识别技术已经在声控电话交换、语音拨号系统、信息网络查询、家庭服务、声控智能玩具等诸多领域得到应用。随着信息产业的迅速发展,包括计算机、办公自动化、通信、国防、机器人在内的各个领域,都迫切需要采用语音识别技术来改变其极其不方便的人机接口方式。语音识别的目的,就是让机器听懂人类口述的语音。机器听懂人类语音有语音层的理解和语义层的理解两个层次,它们分别要求机器将声学信息转换成对应的书面语言及在识别出声学信息的基础上对语音进行理解的功能。本次设计实验为基于 VQ 的特定人孤立词语音识别研究,借助 MATLAB 工具,设计基于 VQ 码本训练程序和识别程序,能识别特定人的语音,并分析所设计系统的特性。第 I 页第一章第一章绪论绪论1.11.1 研究的目的和意义研究的目的和意义语音信号处理技术的进步促进了与其关联的相关学科的发展,尤其是在认知科学和人工智能等研究领域。例如:近年来,人工神经网络的研究,其重要动力之一就是数字语音信号处理各项课题的快速发展;同时它的一些研究成果也应用于语音信号的研究中。技术必须与应用紧密结合,现在语音识别己经在许多领域崭露头角,语音识别听写器、声控拨号、银行信用卡查询等。这是因为,一方面语音识别技术在某些方面已经达到了实用化的程度;另方面用户的需求也越来越迫切。在手机、PDA 等设备中可加入嵌入式语音识别系统。目前的趋势是手持终端体积越来越小,操作要求更加简单,而利用语音进行控制和输入则是十分理想的人机接口方式,其应用前景十分广阔。本课题从上述研究和实用的关系出发,建立了一个非特定人孤立数字语音识别系统。从应用角度看,该系统可以应用到移动电话上实现语音声控拨号功能,也可以应用到掌上电脑等手持终端设备实现电话号码查询或语音控制等功能。从研究角度来看,语音识别技术涉及多学科而且技术实现十分复杂,选择人名语音识别系统作为开展语音识别研究的入手点是比较合理的。因为该系统结构完整、功能简洁,涵盖了语音识别技术的主要内容有利于掌握基础理论和基本方法,为深入研究奠定了基础。1.21.2 国内外研究历史与现状国内外研究历史与现状语音识别的研究工作大约开始于 20 世纪 50 年代,当时 AT&T Bell 实验室实现了第一个可识别十个英文数字的语音识别系统一 Aud 巧系统。60 年代,计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动态规划(DP)和线性预测分析技术(LP),其中后者较好地解决了语音信号产生模裂的问题,对语音识别的发展产生了深远影响。70 年代,语音识别领域取得了突破。在理论上,LP 技术得到进一步发展,动态时间规整技术(DTW)基本成熟,特别是提出了矢量量化(VQ)和隐马尔可夫(HMM)理论。在实践上,实现了基于线性预测倒谱和 DTW 技术的特定人孤立词语音识别系统。第 1 页80 年代,语音识别研究进一步走向深入,其显著特征是 HMM 模型和人工神经元网络(AN)在语音识别中的成功应用。HMM 模型的广泛应用应归功于 AT Bell 实验室Rabiner 等科学家的努力,他们把原本艰涩的HMM 纯数学模型 C 程序化,从而为更多研究者了解和认识。ANN 和 HMM 模型建立的语音识别系统,其性能相当。进入 90 年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实用。许多发达国家如美国、日本、韩国以及IBM,Apple,AT&T,NTT 等著名公司都为语音识别系统的实用化开发研究投入巨资。早期的语音识别系统大多是按照简单的模板匹配原理工作的特定人、小词汇表、孤立词识别系统 151,这种语音识别系统的原理框图如图 1.1 所示。在训练阶段,用户将词汇表中的每一个词依次说几遍,并且将其特征矢量序列作为模板进行相似度比较,将相似度最高者作为识别结果输出。为了得到好的识别效果,说话者在训练和识别阶段的说话速度应当一致,但是这很难做到。因此,一旦用 DTW 算法克服了说话速度不均匀造成的时间变化这一困难后,这种系统的性能有显著提高。但是,对于要求更高的语音识别系统,如非特定人、大词汇表、连续语音识别系统,DTW 方法则效果较差。测试模式帧 特 征 矢量序列逐征进行特征提取相似度比较(模式匹配)参考模式调试模板库图 1.1早期的特定人、小词汇表、孤立词识别系统原理框图第 2 页20 世纪 70 年代以来语音识别研究取得了一系列重大进展,尤其是 HMM(隐马尔可夫模型)的提出,使得非特定人、大词汇表、连续语音识别这一个课题的研究取得了重大突破。目前语音识别研究的主流便是采用 HMM 的方法。概言之,就是从语音层直到句法层,将全部语音的统计知识容纳在一个统一的 HMM 框架之内。虽然这一方法还有不少缺陷有待改进,但是其成果是过去的研究无法比拟的。基于HMM的孤立词识别系统的原理框图如图1.2所耐引。这种系统的基本思想为,在训练阶段,用 HMM 的训练算法(例如 BaumWelch 算法),建立系统词汇表中每个词臃对应的 HMM 参数,记为 Ai;在识别阶段,用 Viterbi 算法求出概率 P(O2i)值,其中 D 为待识别词的观测序列;后处理就是选取最大尸(0办)值所对应的词聊,为D 的识别结果识 别 输出结果计算概率参考训练HMM模式后处理预处理逐帧特征提取图 1.2基于 HMM 的孤立词识别系统原理框图以前,只有 IBM,CMU 等少数研究机构使用 HMM 方法,而 20 世纪 80 年代以后,HMM 开始广泛使用。尤其美国的 1000 单词规模的 DARPA 项目在很大程度上推动了语音识别的研究进度。以此为契机,SRI,MIT,CMU,BBN 等展开激烈竞争,并且取得许多非常重要的研究成果。在 20 世纪 80 年代末期由 CMU 推出的 SPHINX 系统,率先突破了语音识别中非特定人、连续语音、大词汇量三大难题,公认为语音识别技术发展中的一个里程碑。汉语语音识别技术起步较晚,但发展很快。目前,国内从事语音识别研究的单位超过了几十个,如清华大学、中科院自动化所、中科院声学所、中国科技大学等。他们结合非特定人孤立词语音识别系统若干关键技术的研究合汉语第 3 页语音学和语言学的特点,在基础理论、模型和实用系统等方面作了大量的工作,并取得了重要的成果。在我国的“八五”计划和“863”计划中,汉语语音识别的研究得到了大力支持,强有力的推动了汉语语音识别技术的发展。作为一个专门的研究领域,语音识别又是一门交叉学科,它与声学、语音学、人工智能、数字信号处理、信息论、模式识别理论、最优化理论、计算机科学等众多学科紧密相连。语音识别经过四十多年的发展,己经显示出巨大的应用前景,高性能的语音识别系统相继问世。语音识别技术的市场前景无量,它的应用领域非常广泛,有声控电话交换、语音拨号系统、信息网络查询、家庭服务、宾馆服务、旅行社服务系统、订票系统声控智能玩具、医疗服务、银行服务、股票查询服务、听写机、计算机控制、工业控制、语音通信系统等等,几乎涉及到同常生活的每一个领域。它在一些领域中正在迅速成为一个关键的、而且具有竞争力的技术,并且必将改变人们的同常生活。1.31.3 语音识别存在的问题语音识别存在的问题语音技术掀起的第一次浪潮始于 20 世纪 90 年代前期,许多著名的大公司如 IBM、苹果、AT&T 和 NTT 等都对语音识别系统的实用化研究投以巨资。在 1997 年有人提出,“语音时代”己经来临商家也都对此充满了信心,希望语音识别能力能跟人一样。然而,事实并非如此。在实验室中“成功”的语音识别系统在鲁棒性(Robusmess)、灵活性和自适应能力上还远不能满足实际的需要,技术上也显得力不从心。目前,在市场上较少有语音识别系统的成熟应用。厂商并没有 人、连续语音、大词汇量的语音识别,而是把当前已经成熟的那部分技术应用到实际的产品中。例如以中小词表为主的命令式语音识别,包括呼叫中心、语音拨号,移动设备中的嵌入式命令控制等,并且对于普通话能达到相当高的识别率。尽管在实验室中语音识别系统达到了很高的识别率,但在实际应用中尚有许多问题。主要问题如下:(1)方言或口音会降低语音识别率。对于捐 j 有八大方言区的中文来说,应用的难度会更大。它既涉及到自然语言理解,又与声学有关。语音识别技术的最终目的是要让用户在“人机对话”时,能够像进行“人与人对话”一样自然。而一旦用户以跟人交谈的方式来进行语音输入时,口语的语法不规范和语序不正常的特点会给语义的分析和理解带来困难。第 4 页(2)背景噪音。公共场所大的噪音对语音识别影响很大,即使在实验室环境下,敲击键盘、挪动麦克风都会成为背景噪音。实际应用中,噪音研究的问题就是如何把原始语音从背景噪音中提取出来,这将会使识别系统具有很强的适应性。(3)连续语音问题。汉语连接数字语音的连续程度要高于英语连接数字发音,这是由于纯元音语音(即只含元音的语音)在汉语中出现较多,如“1”“2”等,而在英语中却很少见。两个纯元音语音的连续程度要远高于两个普通(包含元音和辅音)语音的连续程度。例如,汉语数码串“1221yao elcr yao】”的连续发音几乎很难在波形上看出其中每个字的分界点。汉语的这种特点明显加大了汉语数码连续语音的识别难度。1.41.4 论文主要研究内容及结构安排论文主要研究内容及结构安排本课题的主要研究内容包括以下几个方面:首先,深入研究了语音信号的特点和语音识别的相关理论与算法,并就各个算法之间的优缺点进行了比较和论述。分析语音信号的时域及频域的特征,对语音信号的特征提取和建模进行了详细的探讨,为进一步分析语音识别算法奠定了基础。其次,研究了语音识别中应用较广的 HMM 模型,对 HMM 模型的 3 个基本问题(评估问题、训练问题和解码问题)进行了详细的介绍。同时,详细分析了系统的实现过程,给出了语音识别系统算法的实现流程。本文分为三章,具体安排如下:第一章,概述了本文的研究意义,语音识别系统的历史、现状以及存在的问题,并简单介绍了本文的研究内容及结构安排。第二章,简要介绍了语音识别系统的基本组成以及语音识别的基元选择,概述语音识别的应用分类以及其应用特点。介绍了语音识别的几种算法简介。第三章,简要介绍了语音识别系统的基本组成以及相关算法,包括预处理、特征参数的分类及其特点和识别模型的分类和特点。第四章,本次设计的具体流程及其步骤。第 5 页第二章第二章语音识别系统语音识别系统2.12.1 语音识别系统简介语音识别系统简介2.1.12.1.1 语音识别系统的结构语音识别系统的结构语音识别本质上是一种模式识别的过程,其基本结构原理框图如图 2.1 所示,主要包括语音信号处理、特征提取、特征建模(简历参考模式库)、相似性度量和后处理等几个功能模块,其中后处理模块为可选部分。第 6 页预处理特征提取相似性度量(模式匹配)后处理参考模式库图 2.1语音识别基本结构原理框图一个语音识别系统主要包括训练和识别两个阶段。无论是训练还是识别,都需要首先对输入的原始语音进行预处理,并进行特征提取。下面具体说明各个模块的基本功能。(1)预处理模块,对输入的原始语音信号进行处理,滤除掉其中的不重要得信息以及北京噪声等,并进行语音信号的端点检测,即判定语音有效范围的开始和结束位置,并进行语音分帧以及预加重等处理工作。(2)特征提取模块,负责计算语音的升学参考,并进行特征的计算,以便提取出反映信号特征的关键特征参数,以降低维数并便于后续处理。语音识别系统常用的特征参数有幅度、能量、过零率、线性预测系数(LPC)、LPC 倒谱系数(LPCC)、线谱对参数(LSP)、短时频谱、共振峰频率、反映人耳听觉特征的 Mel 频率倒谱系数(MFCC)等。特征的选择和提取是系统构建的关键。(3)训练阶段,用户输入若干次训练语音,系统经过上述预处理和特征提取后得到特征矢量参数(序列),然后通过特征建模模块建立语音训练的参考模式库(可能为参考模板或者模型等),或者对已在模式库中的参考模式作适应性修正。(4)识别阶段,将输入语音的特征矢量参数(序列)和参考模式库中的模式进行相似性度量比较,将相似度较高的模式所属的类别作为识别的中间候选结果输出。(5)后处理模块,则对上述得到的候选识别结果继续处理,通过更多的知识(比如:语言学的语言模型、词法、句法和语义信息等)的约束,得到最终的识别结果。2.1.22.1.2 语音识别的系统类型语音识别的系统类型语音识别技术常常根据各种使用限制建构成为不同类型的系统。第 7 页1.限制用户的说话方式按照语音识别系统对用户说话方式的限制,可以分为孤立词语音识别系统、连续语音识别系统、即兴口语语音识别系统。(1)孤立词语音识别系统(isolate-word speech recognition system)是指用户在对系统说话时,相邻的词汇之间的发音要有明显停顿,在这种发音方式下,词汇之间语音信号的声学特征基本不受下文的影响,词汇在语音信号中的起始点和结束点的检测比较容易,系统实现难度较低。(2)连接词语音识别(connected-words speech recognition)是指中小规模词汇但用词汇本身作为识别基本单元的连续语音识别系统。(3)连续语音识别系统(continue speech recognition system)是指中大规模词汇但用子词作为识别基本单元的连续语音识别系统。连接词语音识别系统和连续语音识别系统的共同点是,人在说话时,音流中相邻的词汇之间的发音没有停顿,词汇之间语音信号的声学特征、语调和韵律都受到强烈的下文影响,词汇在语音信号中的起始点和结束点的检测非常困难,系统实现难度较大。(4)即兴口语语音识别系统(spontaneous speech recognition system)是指用户使用随意的、至少没有在讲话方式上经过特殊准备的语言与系统对话。“即兴口语语音”是相对“朗读式语音”而言的,朗读式语音指符合语法规则的、流畅的,在讲话方式和讲话内容都经过特殊准备的语言,这种语音是以往大多数连续语音识别系统所假设的用户输入方式。即兴口语语音同连续朗读式语音相比有许多不同的特性,它通常是不流畅的,包含许多随机事件,如语音重入、语音更正、语音插入、犹豫、停顿、咳嗽、咂嘴声等,这些特性使得自然口语语音的识别要比朗读式语音识别困难得多。2.限制用户的用词范围根据系统所拥有的词汇量大小,可以分为:小词汇量、中等词汇量(电话拨号、命令控制);大词汇量以及无限词汇量语音识别系统(听说场合);小词汇量、中等词汇量的识别系统主要用于语音控制系统,例如电话拨号,命令控制等。大词汇量以及无限词汇量语音识别系统可以用在更一般化的场合,如听写等。3.限制系统的用户对象第 8 页根据系统对用户的依赖程度可以分为特定人和非特定人语音识别系统。特定人系统可以是个人专用系统或特定群体系统,如特定性别、特定年龄、特定口音等。2.1.32.1.3 语音识别的基元选择语音识别的基元选择语音识别的基元的主要任务是在不考虑说话人试图传达的信息内容的情况下,将声学信号表示为若干个具有区别性的离散符号。可以充当语音识别基元的单位可以是词句、音节、音素或更小的单位,具体选择什么样的基元,经常受识别任务的具体要求和设计者的知识背景影响。一般来说,词句基元广泛应用于中小词汇量语音识别系统,但不适合大词汇量系统,原因在于词句做基元时,大词汇量系统的模型库太庞大,要求庞大的训练数据,识别匹配计算复杂度高,难以满足实时性要求。音节基元在其它语种,例如英语中也有应用,但多见于汉语语音识别,主要因为汉语是单音节结构的语言,音节数目比较有限,大约 1300 个带调音节,但若不考虑声调,约有 408 个无调音节。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。音素基元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22 个)和韵母(共有28 个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。关于基元颗粒度的确定,主要需要权衡基元的数目和基元声学特性的稳定性。基元的颗粒度大,基元声学稳定性高,但需要的数据量大,匹配的计算复杂度也大。相反,颗粒度小,计算复杂度和训练数据量要求相对较小,但基元声学稳定性受协同发音的影响很大,不利于提高识别性能。选取颗粒度合适的基元,也是有待深入研究的课题。(基元颗粒度越小,计算度底当不稳定,识别准确率低)。2.22.2 语音识别系统的应用语音识别系统的应用2.2.12.2.1 语音识别系统的应用分类语音识别系统的应用分类语音识别可以应用的领域大致分为大五类:(1)办公室或商务系统典型的应用包括:填写数据表格、数据库管理和控制、键盘功能增强等等。(2)制造业第 9 页在质量控制中,语音识别系统可以为制造过程提供一种“不用手”、“不用眼”的检控(部件检查)。(3)电信相当广泛的一类应用在拨号电话系统上都是可行的,包括话务员协助服务的自动化、国际国内远程电子商务、语音呼叫分配、语音拨号、分类订货。(4)医疗这方面的主要应用是由声音来生成和编辑专业的医疗报告。(5)其它包括由语音控制和操作的游戏和玩具、帮助残疾人的语音识别系统、车辆行驶中一些非关键功能的语音控制,如车载交通路况控制系统、音响系统。2.2.22.2.2语音识别系统应用的特点语音识别系统应用的特点如果要在所提出的任务中使用语音识别系统,下面几个要求是最基本的:(1)语音识别系统要对用户有益(希望它是能检测到的)例如提高生产率,容易使用,更好的人机界面,或更自然的信息交流模式。现已提出了语音识别在很多方面的应用(但一般不成功),多数是利用语音识别的新奇特性来引起用户注意,从而达到增加商业上的销售额的目的。但是,如果对用户没有实在的益处的话,语音识别的这些应用是不会持续长久的。(2)语音识别系统要对用户“友好”。这种“友好”的含义是:用户在和系统进行语音对话时感到舒适;系统的语音提示既有帮助,又很亲近;当识别系统没有恰当地理解人说出的指令时,系统还得提供一种有效地与人交流的方式,例如某种回退模式。对用户“友好”这个概念是我们坚持人机对话技术的精髓。(3)语音识别系统必须有足够的精度识别系统必须(或至少)达到某种特定的性能要求。有趣的是,由于人在实际生活中对识别系统错误率的感知能力似乎是非线性的,因此只要识别系统的精度超过一定水准,绝对的系统识别能力便显得不太重要了。例如,人们在实际使用一个孤立词识别系统时,很难区分系统的识别精度是 95,还是 99。这是因为,如果识别系统的精度是 95,那么系统识别语音时,平均20 次有一次错误;如果识别系统的精度是 99,平均每 100 次发生一次错误。从用户使用的角度来看,这两种系统都有第 10 页很高精度,都很少有错误。因此即使偶尔有错误发生,用户也会将其归咎于自己的使用失误,而不会认为是识别系统的问题。但是,当系统的精度低于某一个更低的阈值(例如 90)时,用户就会感觉到识别系统出现了过多的错误,并会认为它不太可靠。实际中,单词错误的发生是不相干的,因此在较高精度下,人觉察到系统出现错误是极少的。(4)语音识别系统要有实时处理能力系统对用户询问的响应时间要很短,一般要在人说话后 250 毫秒之内作出响应。这是非常重要的。只有如此,才能保证人和系统之间的对话持续进行。上面的每一个要求对语音识别系统来说都是很基本的,也是强制性的。只有如此,才能使我们在利用语音识别系统完成一个实际任务时取得成功。2.2.32.2.3 语音识别系统的应用所面临的问题语音识别系统的应用所面临的问题凭心而论,语音识别是一项复杂的技术,特别对于汉语语音识别尤其如此。因此,尽管多年前就有众多公司和研究机构开始了语音技术,包括语音识别和语音合成技术的研究,但直到最近一两年,在国内应该说是今年,才开始有规模的商用。国外已经有了不少较大规模的语音识别 IVR 系统或者呼叫中心的应用,然而在国内,虽然有将语音识别和呼叫中心结合起来的趋势,但仍没有多少应用。这其中虽然有诸多影响因素,但重要的一点就是汉语语音识别技术还不够完善。那么,语音识别技术要进入大规模商用,还要跨越哪些障碍呢?1.用户的独立性所谓用户的独立性,就是语音识别软件能够识别有不同嗓音和口音的用户,而无需通过训练软件来使其识别一个特殊用户的声音。目前的许多语音识别软件,是基于标准的发音来进行识别的。而实际上,人们说话千差万别,发音也各不相同,特别对于有口音的语音来说,更是对语音识别软件提出了严峻的挑战。目前的语音识别软件大部分是通过自学习功能,不断的训练来达到软件对于特定用户语音的识别。将来,语音识别软件的一个发展趋势就是加强处理性,可以识别在一定范围内的各种发音。而实际上,现在有许多语音软件公司在从事这方面的工作,尽量将所有可能的方言发音收入语音库。这样,无需经过专门的特殊训练,软件就能识别用户的发音。2.然的语言能力第 11 页许多语音识别系统还具有自然的语言能力,这就是软件理解讲话者的能力。这种能力不仅表现在特定的单词上,甚至还表现在短语和完整的句子上。自然的语言意味着两点:第一,它可让用户用句子来表达意思。例如,为表达 checking account,用户可使用有更多单词的自然句子,如 Id like my checking account balance。第二指用户可使用包含多义词的句子。例如,我们可说 I want to transfer$500 dollarsfrom my savings account to my checking account。这是自然语言的一个主要准则,用户可在一个单句中使用多个多义词。有少数复杂的语音识别系统使用提示性对话。在这里,语音识别系统提示用户用一个单词或记号来回答。根据专门机构的调查,多数人更喜欢用约定俗成的自然语言,而不喜欢使用提示性对话。人们讨厌的是不完善的自然语言,当能使用完善的自然语言时,人们当然不可抗拒地选择了它。3.插入的能力新增的插入的能力是语音识别软件的另一个主要进步。插入的能力允许用户在系统提示时中断系统,但系统依然能知道用户的请求。这点对于实际的应用来说是有相当意义的。因为人们在说话时,总是在自觉不自觉地思考,经常会在打断语言的连续性,而插入一些补充性的语言。这样的语言,在语法上来说经常不正确的,常规的语音识别系统会很难处理这些语音。4.身份验证的能力语音识别销售商最近还介绍了软件身份验证的能力,即根据用户的嗓音和语言特点,来达到识别用户的能力。这在实际中是一个非常有价值的特点,如可用于人事管理上。2.32.3 语音识别的算法简介语音识别的算法简介一般来说,语音识别的方法有三种:基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。2.3.12.3.1 基于语音学和声学的方法基于语音学和声学的方法该方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但由于其模型及语音知识过于复杂,现阶段没有达到实用的阶段。通常认为常用语言中有有限个不同的语音基元,而且可以通过其语音信号的频域第 12 页或时域特性来区分。这样该方法分为两步实现:第一步:分段和标号把语音信号按时间分成离散的段,每段对应一个或几个语音基元的声学特性。然后根据相应声学特性对每个分段给出相近的语音标号。第二步:得到词序列根据第一步所得语音标号序列得到一个语音基元网格,从词典得到有效的词序列,也可结合句子的文法和语义同时进行。2.3.22.3.2 模板匹配的方法模板匹配的方法模板匹配的方法发展比较成熟,目前已达到了实用阶段。在模板匹配方法中,要经过四个步骤:特征提取、模板训练、模板分类、判决。常用的技术有三种:动态时间规整(DTW)、隐马尔可夫(HMM)理论、矢量量化(VQ)技术。1.动态时间规整(DTW)语音信号的端点检测是进行语音识别中的一个基本步骤,它是特征训练和识别的基础。所谓端点检测就是在语音信号中的各种段落(如音素、音节、词素)的始点和终点的位置,从语音信号中排除无声段。在早期,进行端点检测的主要依据是能量、振幅和过零率,但效果往往不明显。60 年代日本学者 Itakura 提出了动态时间规整算法(DTW:Dynamic Time Warping)。算法的思想就是把未知量均匀的升长或缩短,直到与参考模式的长度一致。在这一过程中,未知单词的时间轴要不均匀地扭曲或弯折,以使其特征与模型特征对正。动态时间规整是将时间规整和距离测度结合起来的一种非线性规整技术。设测试语音参数共有 N 帧矢量,而参考模板共有 M 帧矢量,且 N M。要找时间规整函数 j=w(i),使测试矢量的时间轴 i 非线性地映射到模板的时间轴 j 上,并满足:MD mi nw(i)d T(i),R(w(i)i 1(2-1)式中 dT(i),R(i)是第 i 帧测试矢量 T(i)和第 j 帧模板矢量 R(j)之间的距离测度。D 则是在最优情况下的两矢量之间的匹配路径。一般情况下,DTW采用逆向思路,从过程的最后阶段开始,逆推到起始点,寻找其中的最优路径。2.隐马尔可夫法(HMM)第 13 页隐马尔可夫法(HMM)是 70 年代引入语音识别理论的,它的出现使得自然语音识别系统取得了实质性的突破。HMM 方法现已成为语音识别的主流技术,目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM 模型的。HMM 是对语音信号的时间序列结构建立统计模型,将之看作一个数学上的双重随机过程:一个是用具有有限状态数的 Markov 链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与 Markov 链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来,但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程,语音信号本身是一个可观测的时变序列,是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流。可见 HMM 合理地模仿了这一过程,很好地描述了语音信号的整体非平稳性和局部平稳性,是较为理想的一种语音模型。HMM 语音模型(,A,B)由起始状态概率()、状态转移概率(A)和观测序列概率(B)三个参数决定。揭示了 HMM 的拓扑结构,A 描述了语音信号随时间的变化情况,B 给出了观测序列的统计特性。经典 HMM 语音识别的一般过程是:用前向后向算法(Forward-Backward)通过递推方法计算已知模型输出O 及模型=f(,A,B)时的产生输出序列的概率P(O|),然后用 Baum-Welch 算法,基于最大似然准则(ML)对模型参数(,A,B)进行修正,最优参数*的求解可表示为*=argmaxP(O|)。最后用 Viterbi 算法解出产生输出序列的最佳状态转移序列 X。所谓最佳是以 X 的最大条件后验概率为准则,即 X=arg maxP(X|O,)。3.矢量量化(VQ)矢量量化(Vector Quantization)是一种重要的信号压缩方法。与 HMM 相比,矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是:将语音信号波形的 k个样点的每一帧,或有 k 个参数的每一参数帧,构成 k 维空间中的一个矢量,然后对矢量进行量化。量化时,将 k 维无限空间划分为 M 个区域边界,然后将输入矢量与这些边界进行比较,并被量化为“距离”最小的区域边界的中心矢量值。矢量量化器的设计就是从大量信号样本中训练出好的码书,从实际效果出发寻找到好的失真测度定义公式,设计出最佳的矢量量化系统,用最少的搜索和计算失真的运算量,实现最大可能的平均信噪比。失真测度主要有均方误差(即欧氏距离)、加权的均方误差、Itakura2Saito 距离、似然比失真测度等。初始码书的生成可以是随机选取、第 14 页分裂生成法、乘积码书法。在选定了失真测度和初始码书后,就用 LBG 算法,对初始码书进行迭代优化,一直到系统性能满足要求或不再有明显的改进为止。核心思想可以这样理解:如果一个码书是为某一特定的信源而优化设计的,那么由这一信息源产生的信号与该码书的平均量化失真就应小于其他信息的信号与该码书的平均量化失真,也就是说编码器本身存在区分能力。在实际的应用过程中,人们还研究了多种降低复杂度的方法,这些方法大致可以分为两类:无记忆的矢量量化和有记忆的矢量量化。无记忆的矢量量化包括树形搜索的矢量量化和多级矢量量化。2.3.32.3.3 神经网络的方法神经网络的方法利用人工神经网络的方法是 80 年代末期提出的一种新的语音识别方法。人工神经网络(ANN)本质上是一个自适应非线性动力学系统,模拟了人类神经活动的原理,具有自适应性、并行性、鲁棒性、容错性和学习特性,其强的分类能力和输入-输出映射能力在语音识别中都很有吸引力。但由于存在训练、识别时间太长的缺点,目前仍处于实验探索阶段。由于 ANN 不能很好的描述语音信号的时间动态特性,所以常把 ANN 与传统识别方法结合,分别利用各自优点来进行语音识别。ANN 与 DTW:ANN 纳入 DTW 框架中的最简单方法就是利用多层感知器模型(MLP)计算 DTW 搜索中的局部路径得分。ANN 与 HMM:(1)多层感知器网络来估计隐马尔可夫模型的状态概率输出的方法。(2)BP 算法实现 HMM 模型参数的重估。(3)利用自组织神经网络 Kohonen 的学习矢量量化算法训练产生矢量量化码本。第 15 页第三章第三章语音识别系统的理论基础语音识别系统的理论基础3.13.1 语音识别系统的基本组成语音识别系统的基本组成不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本流程相似,包括预处理、特征提取、模型训练和识别几个部分。一个典型语音识别系统的实现过程如图3.1所示。第 16 页不同口音背景噪声端点检测、语音增强语音训

    注意事项

    本文(毕业论文《语音识别系统的设计与实现》.pdf)为本站会员(蓝****)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开