语音识别技术介绍优秀PPT.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《语音识别技术介绍优秀PPT.ppt》由会员分享,可在线阅读,更多相关《语音识别技术介绍优秀PPT.ppt(33页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、语音识别概述语音识别概述 让机器听懂人类的语音,这是人们长期以来梦寐以求的事情。伴随计算机技术发展,语音识别己成为信息产业领域的标记性技术,在人机交互应用中渐渐进入我们日常的生活,并快速发展成为“变更将来人类生活方式厅的关键技术之一。语音识别技术以语音信号为探讨对象,是语音信号处理的一个重要探讨方向。其最终目标是实现人与机器进行自然语言通信。发展和现状:20世纪50年头,AT&T Bell(贝尔)探讨所成功研制了世界上第一个能识别10个英文数字的语音识别系统一Audry系统,这标记着语音识别探讨的起先。60年头计算机的应用推动了语音识别的发展。这一时期的重要成果是动态规划(Dynamic Pr
2、ogramming,DP)和线性预料分析(Linear Predictive)技术。其中后者较好的解决了语音信号产生的模型问题,对语音识别产生了深远的影响。语音识别概述语音识别概述 70年头语音识别领域取得了突破。在理论上,LP 技术得到进一步发展,动态时间规整技术(DTW)的基本成熟,特殊是提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在实践上,小词汇量孤立词的识别方面取得了实质性的进展,实现了基于线性预料倒谱和DTW技术的特定人孤立语音识别系统。这一时期的语音识别方法基本上是接受传统的模式识别策略。80年头语音识别探讨进一步走向深化,其显著特征是HMM模型和人工神经元网络(ANN)
3、在语音识别中的成功应用。HMM模型的广泛应用应归功于AT&T Bel试验室的Rabiner等科学家的努力,他们把HMM纯数学模型工程化,从而为更多探讨者了解和相识。探讨的重点渐渐转向大词汇量、非特定人连续语音识别。90年头,随着多媒体时代的来临,在语音识别技术的应用及产品化方面出现了很大的进展。很多发达国家如美国、日本、韩国以及IBM,Apple,AT&T,NTT等著名公司都为语音识别系统的好用化开发投以巨资。语音识别技术好用化进程大大加速,并出现了很多好用化产品。IBM公司领先推出的汉语ViaVoice语音识别系统,带有一个32,000词的基本词汇表,可以扩展到65,000词,平均识别率可以
4、达到95%,可以识别上海话、广东话和四川话等地方腔调,是目前具有代表性的汉语连续语音识别系统。语音识别概述语音识别概述 21世纪语音识别技术的应用及产品化方面进一步发展。在语音识别产品方面,各大公司纷纷推出自己产品。目前世界上最先进的语音识别软件,既不是微软生产的,也非IBM制造,它的名字叫做Naturally Speaking,出自于Nuance Communications公司。Naturally Speaking己经得到了大多数用户的认可。用户对着麦克风说话,屏幕上就显示出说话的内容,很简洁识别和订正错误.久而久之,该软件就会适应用户的说话风格。我国语音识别探讨工作起步于五十年头,但近年
5、来发展很快,探讨水平也从试验室逐步走向好用。从1987年起先执行国家863支配后,国家863智能计算机专家组为语音识别技术探讨特地立项,每两年滚动一次。我国语音识别技术的探讨水平己经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。其中,具有代表性的探讨单位是清华高校电子工程系与中科院自动化探讨所模式识别国家重点试验室。由清华高校电子工程系语音技术与专用芯片设计课题组研发的非特定人汉语数码串连续语音识别系统,识别精度达到了94.8%(不定长数字串)和96.8%(定长数字串).语音识别概述语音识别概述语音识别系统分类:语音识别系统分类:从说话者与识别系统的相关性分从
6、说话者与识别系统的相关性分:(1)(1)特定人语音识别系统:仅考虑对于专人的话音进行识别,与说话的语特定人语音识别系统:仅考虑对于专人的话音进行识别,与说话的语种没有关系;种没有关系;(2)(2)非特定人语音识别系统:识别的语音与人无关,通常要用大量不同人非特定人语音识别系统:识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行学习,识别的语言取决于接受的训练语音库;的语音数据库对识别系统进行学习,识别的语言取决于接受的训练语音库;(3)(3)多人的识别系统:通常能识别一组人的语音该系统通常要求对该组人多人的识别系统:通常能识别一组人的语音该系统通常要求对该组人的语音进行学习,通常
7、可以识别三到五个人的语音。的语音进行学习,通常可以识别三到五个人的语音。从说话的方式分从说话的方式分:(1)(1)孤立词语音识别系统孤立词语音识别系统:其输入系统要求输入每个词后要停顿其输入系统要求输入每个词后要停顿;(2)(2)连接词语音识别系统连接词语音识别系统:其输入系统要求对每个词都清晰发音其输入系统要求对每个词都清晰发音,起先出现起先出现一些连音现象一些连音现象;(3)(3)连续语音识别系统连续语音识别系统:连续语音输入自然流利的语音,会出现大量的连连续语音输入自然流利的语音,会出现大量的连音和变音。音和变音。另外从识别系统的词汇量大小分另外从识别系统的词汇量大小分:小词汇量语音识别
8、系统(几十个词);中小词汇量语音识别系统(几十个词);中等词汇量语音识别系统(几百到上千个词);大词汇量语音识别系统(几千到几等词汇量语音识别系统(几百到上千个词);大词汇量语音识别系统(几千到几万个词)。万个词)。语音识别概述语音识别概述语音识别的基本方法语音识别的基本方法:一般来说,语音识别的方法有三种:基于声道模型和语音学问的方法、一般来说,语音识别的方法有三种:基于声道模型和语音学问的方法、模模板匹配的方法以及利用人工神经网络的方法。板匹配的方法以及利用人工神经网络的方法。(1)(1)语音学和声学的方法语音学和声学的方法 该方法起步较早,在语音识别技术提出的起先,就有了这方面的探讨,但
9、该方法起步较早,在语音识别技术提出的起先,就有了这方面的探讨,但由由于其模型及语音学问过于困难,现阶段没有达到好用的阶段于其模型及语音学问过于困难,现阶段没有达到好用的阶段.(2)(2)模板匹配的方法模板匹配的方法 模板匹配的方法发展比较成熟,目前己达到了好用阶段。常用的技术有模板匹配的方法发展比较成熟,目前己达到了好用阶段。常用的技术有三种三种:动态时间规整动态时间规整(DTW)(DTW)、隐马尔可夫、隐马尔可夫(HMM)(HMM)理论、矢量量化理论、矢量量化(VQ)(VQ)技术。技术。(3)(3)神经网络的方法神经网络的方法 基于基于ANNANN的语音识别系统通常由神经元、训练算法及网络结
10、构等三大要素构的语音识别系统通常由神经元、训练算法及网络结构等三大要素构成。由于基于神经网络的训练识别算法由于实现起来较困难,目前仍只是处成。由于基于神经网络的训练识别算法由于实现起来较困难,目前仍只是处于试验室探讨阶段。于试验室探讨阶段。语音识别概述语音识别概述 目前语音识别的探讨主流是大词汇量的非特定人的连续语音系统,但是事实上,对于很多应用来说,一个语音识别系统只要一组词汇或吩咐,它就可能为用户供应一个有效的工具,简洁有效的孤立词特定人语音识别系统就能满足要求。正是孤立词特定人语音识别系统广袤的应用前景以及优越性促使我们接着对它进行探讨 目前市场上出现的语音识别器大多数是特定人孤立单词语
11、音识别系统。孤立词语音识别系统中的难点问题:(1)语音信号的多变性 语音信号是非平稳随机信号,不但不同发音者发音之间存在重大的差异,即使同一人同一语音的不同次发音,也存在很大差异。(2)噪声影响 当实际环境中有噪声存在时,简洁造成训练与测试环境不匹配导致语音识别系统性能急剧下降。(3)端点检测 统计表明语音识别系统一半以上的识别错误来自端点检测错误。在安静环境下有声段和无声段时能量存在很大差异,由此推断语音的起点。但是当噪声的能量和语音信号的能量接近时就可能造成端点检测的误差从而导致识别结果错误。语音识别概述语音识别概述 (4)词与词的特征空间混叠 语音识别的常规方法是利用语音信号的短时周期特
12、性将语音时域采样信号分为若干段,计算出每一段的特征矢量序列作为识别参数。但是很多不同的词语的矢量序列在特征空间中存在混叠现象,甚至有些不同词语的混叠程度会超过同一词语的不同次发音,从而降低识别率。语音识别系统基本原理语音识别系统基本原理语音信号产生模型语音信号产生模型 语音是由空气流激励声道产生的。对于浊音、清音和爆破音三种不同类型的音来说,激励源是不同的。浊音激励源是位于声门处的准周期脉冲序列,清音的激励源是位于声道的某个收缩区的空气湍流(类似于噪声),而爆破音的激励源是位于声道某个闭合点处建立起来的气压及其突然释放。语音生成系统分为三个部分,在声门(声带)以下,称为声门子系统,它产生激励振
13、动,是激励系统:从声门到嘴唇的呼气通道是声道系统:语音从嘴唇辐射出去,所以嘴唇以外是辐射系统。因此,完整的语音信号的数学模型可以用三个子模型:激励模型、声道模型和辐射模型的串联表示。语音信号产生的时域模型语音信号产生的时域模型语音识别系统基本原理语音识别系统基本原理语音识别系统基本原理语音识别系统基本原理语音信号分析基础语音信号分析基础 语音信号的分析主要有时域分析和频域分析两种,其他还有倒谱域、语谱分语音信号的分析主要有时域分析和频域分析两种,其他还有倒谱域、语谱分析等。析等。语音信号是一种典型的非平稳信号。语音的形成过程与发音器官的运动亲密语音信号是一种典型的非平稳信号。语音的形成过程与发
14、音器官的运动亲密相关,这种物理运动比起声音振动速度来讲要缓慢得多,因此语音信号可假定为相关,这种物理运动比起声音振动速度来讲要缓慢得多,因此语音信号可假定为短时平稳的,其频谱特性和某些物理参数在短时平稳的,其频谱特性和某些物理参数在10-30ms10-30ms时间段内是近似不变的,对时间段内是近似不变的,对语音信号进行处理都是基于这个假设语音信号进行处理都是基于这个假设 语音信号的时域分析参数主要有短时能量、短时平均幅度、短时过零率等,语音信号的时域分析参数主要有短时能量、短时平均幅度、短时过零率等,这些参数主要用在语音端点检测中。频域分析参数主要有基音频率、滤波器组参这些参数主要用在语音端点
15、检测中。频域分析参数主要有基音频率、滤波器组参数、线性预料系数数、线性预料系数(LPC)(LPC)、线性预料倒谱系数、线性预料倒谱系数(Linear Prediction Cepstrum(Linear Prediction Cepstrum Coefficient,LPCC)Coefficient,LPCC)、线谱对参数、线谱对参数(Linear Spectrum Pair,LSP),MEL(Linear Spectrum Pair,LSP),MEL频率倒谱频率倒谱系数系数(Mel-Frequency Cepstrum Coefficient,MFCC)(Mel-Frequency Ceps
16、trum Coefficient,MFCC)等等.语音识别系统基本构成语音识别系统基本构成语音识别系统基本原理语音识别系统基本原理语音识别系统基本原理语音识别系统基本原理预处理预处理 预处理部分包括语音信号的采样、反混叠滤波、语音增加,去除声门激励和预处理部分包括语音信号的采样、反混叠滤波、语音增加,去除声门激励和口唇辐射的影响以及噪声影响等,预处理最重要的步骤是端点检测。口唇辐射的影响以及噪声影响等,预处理最重要的步骤是端点检测。特征提取特征提取 特征提取部分的作用是从语音信号波形中提取一组或几组能够描述语音信号特征提取部分的作用是从语音信号波形中提取一组或几组能够描述语音信号特征的参数,如
17、平均能量、过零数、共振峰、倒谱、线性预料系数等,以便训练特征的参数,如平均能量、过零数、共振峰、倒谱、线性预料系数等,以便训练和识别。参数的选择干脆关系着语音识别系统识别率的凹凸。和识别。参数的选择干脆关系着语音识别系统识别率的凹凸。训练训练 训练是建立模式库的必备过程,词表中每个词对应一个参考模式,它由这个训练是建立模式库的必备过程,词表中每个词对应一个参考模式,它由这个词重复发音多遍,再经特征提取和某种训练中得到。词重复发音多遍,再经特征提取和某种训练中得到。模式匹配模式匹配 模式匹配部分是整个系统的核心,其作用是依据确定的准则求取待测语音特模式匹配部分是整个系统的核心,其作用是依据确定的
18、准则求取待测语音特征参数和语音信息与模式库中相应模板之间的失真测度,最匹配的就是识别结果。征参数和语音信息与模式库中相应模板之间的失真测度,最匹配的就是识别结果。预处理及特征参数提取预处理及特征参数提取语音信号的数字化和预处理语音信号的数字化和预处理 1、语音信号数字化、语音信号数字化 要了分析说话人的语音,就要将话筒中传来的语音信号转换成计算机所能处要了分析说话人的语音,就要将话筒中传来的语音信号转换成计算机所能处理的数字信号。通过对语音信号特性的分析表明,浊音语音的频谱一般在理的数字信号。通过对语音信号特性的分析表明,浊音语音的频谱一般在4KHz以上便快速下降。而清音语音信号的频谱在以上便
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 识别 技术 介绍 优秀 PPT
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内