欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    基于VQ的大学生语音识别算法研究毕业论文(45页).doc

    • 资源ID:37057301       资源大小:1.07MB        全文页数:45页
    • 资源格式: DOC        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    基于VQ的大学生语音识别算法研究毕业论文(45页).doc

    -基于VQ的大学生语音识别算法研究毕业论文-第 40 页LANZHOU UNIVERSITY OF TECHNOLOGY毕业论文题 目: 基于VQ的大学生语音识别算法研究 College Students Speech Recognition based on VQ Algorithm 摘 要语音识别主要研究的是使机器能够准确的听出说话人语音内容的问题,即语音识别的最终目的是使计算机能够准确的识别任何人、任何内容的讲话。语音识别技术是一项集声学、语言学、计算机、信息处理、人工智能等领域的综合技术,在计算机、信息处理、通信与电子系统、自动控制等领域中,以及工业、军事、交通、医学、民用等诸多方面有着广泛的应用。语音识别系统从本质上说是一种模式识别系统,其基本结构与常规模式识别系统一样,包含有特征提取、模式匹配、参考模式库等基本单元。矢量量化技术在语音识别中占有很重要的地位,其包括码书设计、码字搜索和码字索引分配,前两者尤为重要。本文主要讲了矢量量化过程中最佳码书设计算法-LBG算法的设计和实现,利用MATLAB工具进行仿真的实现。比对实验数据结果可看出LBG算法是一种下降算法,在仿真过程中,每次迭代的平均失真具有单调不增特性(或者大小至少保持不变),可用来改进训练序列的初始码书从而生成最佳码书,同时通过仿真过程还可看出LBG存在运算量和存储空间大,易得到局部最优码书的特点;最后运用仿真工具,通过改变数据量、码书维数、量化压缩比、最小失真门限等参数进行了大量仿真实验,比对仿真数据结果,对LBG算法的实现过程和参数性能特点进行了分析。关键词:语音识别;矢量量化(VQ);LBG算法AbstractThe main speech recognition is to accurately machine can hear the speaker's voice content problem that speech recognition is the ultimate goal enables a computer to accurately identify the person, any speech content. Speech recognition technology is a set of acoustics, linguistics, computer, information processing, artificial intelligence and other areas of integrated technology, computer, information processing, communications and electronic systems, automatic control and other areas, as well as industrial, military, transportation, medical , has a wide range of civilian and many other applications.Speech recognition system is essentially a pattern recognition system, the basic structure and the conventional pattern recognition system, including feature extraction, pattern matching reference model library and other basic units.Vector Quantization in speech recognition technology plays a very important role, which includes codebook design, code word search and codeword index distribution, the first two particularly important. This article is mainly about the best course of vector quantization codebook design LBG algorithm and implementation using MATLAB simulation tool implementations. The results of the experimental data than can be seen LBG algorithm is a descent algorithm, the simulation process, with each iteration the average distortion does not increase monotonically characteristics (size, or at least remain unchanged), can be used to improve initial codebook training sequence to generate optimal code book, but can also be seen through the simulation process LBG presence of large amount of computation and storage space, easy to get the characteristics of the local optimal codebook. Finally, the use of simulation tools, by varying the amount of data, the codebook dimension, quantization compression ratio, the minimum distortion threshold and other parameters of a large number of simulation experiments, compared to the simulation result, the data for the implementation process and the parameters of performance characteristics of the LBG algorithm is analyzed.Key words: speech recognition; Vector Quantization (VQ); LBG algorithm目 录第一章 绪论11.1概述11.2研究语音识别的目的及意义11.3矢量量化技术的发展历程2第二章 基本原理42.1语音识别42.2矢量量化62.2.1矢量量化的基本概念72.2.2矢量量化步骤92.3矢量量化器92.4失真测度10第三章 矢量量化器的设计算法123.1最佳码本的设计123.2 LBG算法的实现133.2.1 LBG算法实现流程设计133.2.2 LBG算法初始码书的选取143.2.3 LBG算法常见的问题16第四章 仿真结果及性能分析174.1 MATLAB开发平台简介174.2 LBG算法的设计仿真及结果分析174.2.1矢量量化器的LBG算法仿真及结果分析174.2.2修改参数后矢量量化器的LBG算法仿真及结果分析20结 论26参考文献27附录一 外文翻译28外文原文28外文译文44附录二 程序61致 谢65第一章 绪论1.1概述语言是人和动物最基本,同时也是最重要的信息交换形式,语音信号是构成其思想疏通和情感交流的最主要途径。通信系统中最常见的数据形式就是语音数据。人类目前已经进入信息化时代,用现代化手段研究语音处理技术,能使我们更加有效地产生、传输、存储、获取和应用语音信息,这对于促进社会的发展具有十分重要的意义。社会进入21世纪,信息在各个领域发生了大爆炸的态势,同时伴随着数字信号的数据量迅速暴增,对存储器的存储容量、通信信道的带宽以及计算机的处理速度带来很大的压力,因此,在这种情况下需要对数据进行量化压缩以达到紧缩数据存储容量的目的 ,该方法能够较快地传输各种信号 ,并使发信机功率降低。数字语音通信的两个关键技术是语音质量和传输码率,同时这两者之间又是矛盾的:要获得较高的语音质量,就必须使用较高的传输码率;相反,为了实现高效地压缩传输码率,就很难得到良好的语音质量。然而采用矢量量化技术是一种既能得到高效压缩的传输码率 ,又能保证较好的语音质量的方法。矢量量化(VQ, Vector Quantization)技术是Steinhaus在1956年首次提出的,并于20世纪70年代后期发展起来的一种数据压缩和编码技术,现已广泛应用于语音编码、语音合成、语音识别和说话人识别等领域。在许多领域的课题研究中,矢量量化技术都起着非常重要的作用。采用矢量量化技术对信号波形或参数进行压缩处理,可以获得很好的效果。矢量量化技术不仅可以压缩表示语音参数所需的数码率,而且在减少运算量方面也是非常高效的,它还能直接用于构成语音识别和说话人识别系统。量化一般可以分为两大类,一类是把抽样后的信号值逐个进行量化的标量量化;另一类量化是先将k个抽样值组成k维空间中的一个矢量,然后将此矢量进行量化,称之为矢量量化(VQ),它可以极大的降低数码率,优于标量量化。各种数据都可以用矢量表示,直接对矢量进行量化,可以方便的对数据进行压缩。矢量量化属于不可逆压缩方法,具备比特率低,解码简单,失真较小的优点。1.2研究语音识别的目的及意义语音识别在语音链中是很重要的的一环,其研究的最终目的是使计算机能够准确的识别任何人、任何内容的讲话。语音识别属于多维模式识别以及智能计算机接口的范畴,是一项集声学、语言学、计算机工程、信息处理、人工智能等领域的综合技术,在计算机技术、信息处理、通信与电子系统、自控制等领域,以及交通、医学、工业、军事、民用等诸多方面有着广泛的应用。语音识别是一门新兴科学,是近来国内外竞相研究的热点,信息产业迅速发展的要求促使着科技、工业及国防部门投入大量人力和财力来对其进行重点研究,其中包括计算机、通信、国防、机器人等关乎于国计民生的科技领域。语音识别主要具有如下优点:(1) 语音是人类最自然、最方便的交互工具,不需要作专门训练。(2) 如果能输入专门的声音,这与使用打字机和按钮等方法比较,操作简单,使用方便。计算机语音输入系统,使用口述代替键盘操作,实现向计算机输入文字,这对于办公自动化将带来革命性的变化。由于汉字输入的特殊性,汉语语音输入系统的重要性尤其突出。(3) 语音的反应速度特别快,可以达到毫秒量级。语音信息输入速度比打字机大约快3-4倍,比人工抄写文字大约快8-10倍。(4) 同时使用手、脚、耳、眼睛等器官,可以在进行其他工作的同时兼顾周围动作来输入信息。(5) 因在输入终端可使用麦克风、电话机等,所以非常经济,还可直接利用现有的电话网,并能遥控输入信息。因此语音识别系统具有重要的应用价值,它是人机通信的自然媒介。语音识别和语音合成相结合,可以构成“人-机通信系统”。由于语音识别技术的逐步成熟,随之产生的各类语音识别产品在人机交互应用中,已经占到越来越大的比例。语音是通信系统中最自然的通信媒介,语音识别技术的应用前景是无限的。1.3矢量量化技术的发展历程矢量量化技术在其发展到目前为止的过程中大致经历了两个阶段。第一阶段:1956年Steinhaus首次系统的阐述了关于最佳矢量量化的问题。随之,1957年Loyd在“PCM中的最小平方化”一文中给出了如何划分量化区间和如何求量化值问题的结论。几乎与此同时,Max也得出了同样的结论,虽然他们的结论基本上都是关于标量量化问题的,但他们的算法对后来矢量量化的发展有着深刻的影响。1964年Newman研究了正六边形原理。1977年Berger出版了率失真理论一书。总之,该阶段的工作多以理论性的研究为主,但它奠定了其后来发展的基础。第二阶段:1978年Buzo第一个提出矢量量化器的概念,他提出的量化系统组成分为两步,首先是将语音信号做线性预测分析,求出预测系数;其次对这些系数做矢量量化,得到了压缩数据的语音编码器。1980年,Linde、Buzo和Gray将Loyd-max算法推广,发表了第一个矢量量化器的设计算法,通常称之为LBG算法,将矢量量化的研究向前推进了一大步。这一阶段,人们对各种矢量量化系统展开了全面的研究,其中主要是对失真测度的探讨,码书的设计,快速搜索算法的寻找等等。矢量量化技术的研究进展是迅速的,1980年,美国加州公司在原来编码速度为2.4kb/s的线性预测声编码器的基础上,仅将滤波系数从标量量化改为矢量量化,就可以使编码速率降低到800b/s,同时声音质量基本未下降。1983年,美国BBN公司研制出了一种采用矢量量化技术的分段式声编码器,可以用150b/s的速率来传送可懂的话音。近年来在已经提出的各种矢量量化方法和系数的基础上,更多优秀的矢量量化方法逐渐凸显出来,在图像数据压缩和语音识别的应用方面,矢量量化的研究得到了很快的发展,提出了各种各样的矢量量化系统,用硬件实现矢量量化系统的方法也越来越多。第二章 基本原理2.1语音识别模式识别是指计算机对事物的认知,包活语音、文字、图像、机器的运行状态等。语音识别是一种特殊的模式识别。模式识别的基本原理是将一个输入模式与保存在系统中的多个标准模式进行比较,找出最近似的标准模式,然后将该标准模式所代表的类名作为输入模式的类名输出。根据比较的方法不同,模式识别可分为模式匹配法、统计模式识别和句法模式识别。其中,模式匹配法是将两个模式直接进行比较的方法,是最基本、最原理性的模式识别方法,在实际应用中是最广泛的。 目前,绝大多数语音识别系统都采用了模式匹配法。根据该原理,未知语音的模式要与已知语音的参考模式逐一进行比较,最佳匹配的参考模式将被作为识别结果输出。语音识别的步骤大致可分为两步进行:第一步,根据识别系统的类型,选择能够满足要求的一种识别方法,采用语音分析方法分析出该识别方法所要求的语音特征参数,这些参数将作为标准模式由机器存储起来,形成标准模式库,该语音参数库称为模式或样本,这一过程称为学习或训练;第二步,识别过程。输入语音 参考模式库距离测度 测度估计 特征提取预处理判决 专家知识库识别结果训练,聚类图2-1 语音识别的原理框图图2-1所示为语音识别系统的模式匹配原理构成图,它是一种统计模式识别,这里采用的是模板匹配法。语音识别系统从本质上说是一种模式识别系统,其基本结构与常规模式识别系统一样,包含有特征提取、模式匹配、参考模式库等三个基本单元。图2-1中测度估计、判决和专家知识库三部分的功能是完成模式匹配。由于语音识别系统所处理的人类语言信息结构非常复杂、内容及其丰富,因此,其系统结构比通常情况下的模式识别系统要复杂得多。 1、预处理预处理包括反混叠滤波、模数变换、自动增益控制、去除声门激励及口唇辐射影响,以及去除个体发音的差异和设备、环境引起的噪声影响等,涉及语音识别基元的选取和端点检测问题。 2、特征提取对经过预处理的语音信号要进行特征提取。特征提取即参数分析,是指从语音信号波形中获取一组能够描述该语音信号特征的参数的过程。其基本思想是将信号通过一次变换,去掉冗余部分,而将代表语音本质的特征参数抽取出来。与特征提取相关的内容是特征间的距离测度。在语音识别中,特征参数的提取是构成整个模式识别系统的重要一环。特征参数的好坏对语音识别的精度有很大影响,特征参数应尽可能多的反映出用于识别的信息,之后系统中所有的处理都是建立在特征参数之上,一旦特征参数不能很好地反映语音信号的本质,识别就不能成功。特征的选择标准应体现出异音字特征间的距离应尽可能大,而同音字间的距离应尽可能小的原则。同时,还需要考虑到特征参数的计算量,在保持高识别率的情况下,应尽可能减少特征维数,以利于减少存储的要求和实时实现。特征参数的选择应注重于能得到高的识别率,如选用那些能较好地表征语音特征、携带语音信息多、较稳定的参数,并且最好的几种参数并用。由于某些参数的提取较复杂,因而要折衷考虑选用哪些参数并确定采用哪种识别方法。 3、距离测度用于语音识别的距离测度有多种,如欧式距离及其变形的距离、似然比测度、加权了超音段信息的识别测度,此外,人们比较关注的测度还有HMM之间的距离测度、主管感知的距离测度等。 4、参考模式库用训练与聚类的方法,由单讲话或多讲话者的多次重复的语音参数,从原始语音样本中去除冗余信息,保留关键数据,经过长时间的训练,再按照一定的规则对数据加以聚类得到的。 5、训练与识别方法语音训练与识别的方法有很多种,如DTW、VQ、FSVQ、LVQ2、HMM、TDNN、模糊逻辑算法等,也可以混合使用上述各种算法。测度估计是语音识别的核心。目前,在已经研究过的多种求取测试语音参数与模板之间的测度的方法中,比较经典的有:(1)DTW法:用输入的待识别语音模式和预存的参考模式匹配;(2)HMM法:以统计方法为依据进行识别;(3)VQ方法:基于信息论中信源编码技术的识别。此外还有一些混合派生出来的方法,如VQ/DTW法、FSVQ/HMM法等。在语音训练和识别方法中,DTW方法适合于识别特定人的基元较小的场合,多用于孤立词的识别。DTW算法的匹配过程比较细,计算量比较大。其主要缺点是太依赖于发音人的原来发音,发音人身体不好或发音时情绪紧张都会影响识别率。它不能对样本作动态的训练,不适合于非特定人的语音识别。HMM方法不仅解决了短时模型描述平稳段的信号问题,而且解决了每个短时平稳段是如何转变到下一个短时平稳段的问题。它使用Markov链来模拟信号的统计特性变化。HMM以大量训练作为基础,语音识别过程中需要测算待识别语音的概率大小。其算法适合于语音本身易变的特点,适用于非特定人的语音识别,同时也适用于特定人的语音识别。基于VQ的语音识别技术是在20世纪80年代发展起来的,它可替代DTW完成动态匹配,其存储量和计算量都比较小。VQ主要适用于小词汇量、孤立词的语音识别中,其过程是将对欲处理的大量语音K维帧矢量通过统计实验进行统计划分,即将K维无限空间聚类划分为M个区域边界,每个区域边界对应一个码字,所有M个码字构成码本。识别时,将输入语音的K维帧矢量与已有码本中的M个区域边界比较,按失真测度最小准则找到与该输入矢量距离最小的码字标号来代替此输入的K维矢量,这个对应的码字即为识别的结果,再对它进行K维重建就得到被识别的信号。 6、专家知识库用来存储各种语言学知识。知识库中一般包含词汇、语法、句法、语义和常用搭配等知识,如汉语的声调变调规则、音长分布规则、同音字判别规则、构词规则、语法规则、语义规则等。知识库中的知识需要具有便于修改和扩充的特点。对于不同的语言需要有不同的语言学专家知识库,同样,汉语也有其特有的专家知识库。 7、判决对于输入信号通过计算而得的测度,根据若干准则及专家知识库,判决选出可能的结果中最好的那个,由识别系统输出,这一过程便称之为判决。因此,选择适当的各种距离测度的门限值是最主要的问题。这些门限值与语种有着密切的关系。判决的结果-识别率是检验门限值选择正确与否的唯一标准,通常情况下需要调整这些门限值才能得到满意的识别结果。2.2矢量量化矢量量化的研究涉及到许多学科的技术和理论知识,应用范围非常广泛。由于采用矢量量化技术的数据压缩具有编码简单、效率高、压缩比大等诸多优点,因而,矢量量化最先在语音、图像、视频这些媒体信息的压缩中得到了广泛的应用。由于矢量量化高压缩比的特性,使得它可以应用在国防军事的遥感卫星、雷达监测等方面,可以应用在高清电视、网络视频等民用设施的实时传输上。矢量量化技术在其他方面的应用也发展十分迅速,如语音识别,说话人识别,文件检索,移动通信等众多科学领域中矢量量化技术已得到了广泛地应用。矢量量化的三大关键步骤和技术是:码书设计、码字搜索和码字索引分配,其中码书设计和码字搜索是矢量量化过程中的关键。码书设计在一方面可以看成是一个统计聚类的过程,但从另一个角度来看,码书设计也是一个迭代过程。码书设计可以视其为一个类似于函数优化的问题,所以设计时要搜索最优化的全局码书,需要一种全局算法。从以上分析可以看出,码书的优化是一个很重要的环节。人们试图努力找到各种新的码书优化的算法和策略,多种理论研究都应用到了码书算法,例如神经网络,模糊集合论,遗传算法等。此外,先进的预测技术也是提高压缩比的一种方法。2.2.1矢量量化的基本概念 量化的实质是把一个模拟信号值的连续范围分为若干个相邻并且具有唯一量值的区间,凡落在某区间的抽样信号样值都指定为该区间量值的过程。量化可分为标量量化和矢量量化两大类。 1、标量量化整个信号的动态范围被分成若干个小区间,每个小区间有一个代表值。当输入的标量信号落入这个小区间时,其量化值就用这个代表值代替,或者称之为被量化为这个代表值。因为此时的信号量是一维的标量,所以称之为标量量化。 2、矢量量化用线性空间的观点把标量量化看成是一维矢量量化。矢量量化是对矢量进行量化,它把矢量空间分成若干个小区域,每个小区域寻找一个代表矢量,量化时落入小区域的矢量就用这个代表矢量代替,或者称之为被量化为这个代表矢量。矢量量化是标量量化的发展,同时,矢量量化总是优于标量量化。矢量维数越大,矢量量化的性能就越优越。 在输入信号序列中,每K个连续样点可以组成一组K维欧式空间中的一个矢量,矢量量化就是把这个K维输入矢量X映射成另一个K维量化矢量Y。其中,量化矢量构成的集合称为码书或码本,码书中的每个矢量称为码字或码矢。例如,当K=2时所构成的是一个二维矢量,所有可能的二维矢量就构成了一个平面,记二维矢量,所有可能的就是一个二维空间。如图2-2(a)所示,矢量量化就是将平面分成M个如的小区域,从每个小区域中找出代表向量,这些代表向量的集合就是有M个区间的二维矢量量化器。图2-2(b)所示的是一个的二维矢量量化器,共有7个代表值,这些代表值值通常被称为量化矢量。 若要对一个落在二维矢量空间中的模拟矢量X进行量化,首先要选择一个合适的失真测度,而后利用最小失真原则,分别计算用量化矢量替代X所带来的失真。其中最小失真值所对应的那个量化矢量,就是模拟矢量X的重构矢量(或称恢复矢量)。通常把所有M个量化矢量(重构矢量或恢复矢量)构成的集合称之为码书或码本。码书中的量化矢量称为码字或码矢。不同的划分或不同的量化矢量的选取就可以构成不同的矢量量化器。 (a) (b) 图2-2 矢量量化示意图根据上面对矢量量化的描述,可以给矢量量化进行如下下的定义:矢量量化是把一个K维模拟矢量映射成为另一个K维量化矢量,其数学表达式为: (2-1) (2-2) 式中,X表示输入矢量;表示信源空间;表示K维欧氏空间;Y表示量化矢量(码字或码矢);表示量化符号;表示输出空间(即码书);N表示码书的大小(即码字的数目)。矢量量化系统一般情况下可以分解为两个集合的映射,即 (2-3) 式中,是编码器,它是将输入矢量映射为信道符号中的一个元;是译码器,它是将信道符号映射为码书中的一个码字,即 (2-4) (2-5) 2.2.2矢量量化步骤码书设计、码字搜索和码字索引分配是矢量量化的三个关键技术,其中码书设计和码字搜索尤为重要。 1、码书设计对于矢量量化,首先要设计出一个性能良好的码书,一个好的码书是实现编码的基础。如果用平方误差测度作为失真测度,且训练矢量数为N,想要生成含有M(M<N)个码字的码书,那么设计码书的过程就要找到一种最佳方案,把N个训练矢量分成M类,而把这M类的质心矢量作为码书的码字。因而,寻求一种高效的算法,使尽可能找到全局最优或接近全局最优的码书来提高码书的性能,从而减少计算的复杂程度才是研究码书设计算法的目的。 2、码字搜索矢量量化码字搜索算法是当码书已经设计好的时候,输入给定矢量,在码书中搜索与输入码字间失真最小的码字。 3、码字索引分配在矢量量化参与的编码和解码系统中,如果信道有噪声,则在信道左端的索引i经过信道传输输出索引j ,这样就会导致在解码端引入额外的失真。码字索引进行重新分配可以有效的减少这种失真对于矢量量化来说,设计性能好的码书是矢量量化最为关键的问题。好的码书能最大程度的提高矢量量化的效果,使得恢复后的矢量、语音、图像和原来的矢量、语音、图像尽可能的相似。2.3矢量量化器矢量量化反映在实际中的应用就是矢量量化器,矢量量化器在实际生产生活中应用非常广泛,特别是在多媒体信息中更加突出。矢量量化技术的核心是矢量量化器的设计。第一个实际的矢量量化器1978年发明至今,随着发展矢量量化技术被不断的推出新的设计。矢量量化器根据其原理可以分解为编码器和解码器两部分,如图2-3。在编码端,输入矢量X与码书(a)中的每一个或部分码字进行比较,分别计算它们的失真,检索到失真最小码字的序号(或码书中此码字所在的地址),并将的编码信号通过信道传输到译码端;在译码端,先把信道传来的编码信号译成序号,再根据序号 (或码字所在地址),从码书(b)中查出相应的码字。由于码书(a)与码书(b)是一样的,此时失真最小,所以就是输入矢量X的重构矢量(恢复矢量)。由于信道中传输的并非矢量本身,而是其序列号的编码信号,所以理论上传输速率还可以进一步提高。 失真测度码书(a)计算 置信道/存储器码书(b)寻找输入矢量X编码器译码器ii图2-3 矢量量化器原理框图 2.4失真测度矢量量化器的设计关键是编码器的设计,而译码器仅是一个简单的查表过程。编码的过程中,需要引入失真测度的概念。失真是将输入信号矢量用码书的重构矢量来表征时的误差或付出的代价,用这种误差的统计平均值(平均失真)来表征矢量量化器的工作特性。在矢量量化器的设计过程中,失真测度的选择是很重要的,选用的是否得当直接影响着系统的性能。常用的失真测度主要有均方误差失真测度(即欧氏距离)、加权的均方误差失真测度、板仓-斋藤似然比距离、似然比失真测度等,在语音信号处理中常被应用于语音波形的矢量量化、线性预测参数矢量量化和孤立词识别的矢量量化中。在本毕业论文设计中,各种算法中涉及到计算失真的部分均采用的是欧氏距离-均方误差。 (1)欧氏距离-均方误差设输入信号的某个K维矢量X,与码书中某个K维矢量Y进行比较,、分别表示X和Y中的各元素,则定义均方误差为欧氏距离,即有 (2-6) 这里,的下标2表示平方误差。 (2)线性预测失真测度用全极点模型表示语音信号的线性预测方法广泛应用于语音信号处理中。在分析语音信号时,它按照预测误差能量(方均值)最小准则,得到模型的预测系数。为了比较用这种参数表征的矢量,如果直接使用Euclid失真,显然意义不大。因为仅由预测系数的差值不能完全表征这两个语音信息的差别。此时,直接用由这些系数所描述的信号模型的功率谱进行比较是适宜的。日本学者板仓等人提出了这种失真测度。设x(n)(n=0,1,.,N-1)是一帧N长信号,是其p阶最佳线性预测系数,并组成特征矢量,再设码书中的某特征矢量为。信号x(n)(功率谱为)和码书特征矢量决定的信号(功率谱为)之间的Itakura-Saito失真测度,定义为 (2-7) -信号x(n)的p+1阶自相关矩阵-信号x(n)的自相关函数,-信号x(n)的预测误差功率;-p阶码书重构矢量的预测误差功率 (3)识别失真测度将矢量量化技术应用于语音识别时,对失真测度还应该有其他一些考虑。研究表明,频谱与能量均携带有语音信号的信息,如果仅以功率谱作为失真比较的参数,则语音识别的性能不够理想。为此,可以采用如下定义的失真测度: (2-8)式中,、-输入信号矢量和码书重构矢量的归一化能量; g(x)-专用函数,定义为 g(x)作用:当两矢量的能量接近时,忽略能量差异引起的影响;当两矢量的能量相差较大时,进行线性加权;当能量差超过门限时,则为某固定值。其中为加权因子,、和要进过实验确定。 第三章 矢量量化器的设计算法目前,对基于矢量量化(VQ)算法的研究已取得了不少的成果,包括LBG算法,K-均值算法(K-Means),K均值修正算法(MKM),最邻近算法,预测矢量量化法(PreVQ),乘积矢量量化法等等。本设计主要选取LBG算法进行矢量量化器的算法设计。3.1最佳码本的设计所谓矢量量化器的最佳设计就是从大量的输入信号样本中训练出一个较好的码本,基于一定的条件下使失真最小。由于码书的设计也是在这一过程中产生的,所以同时也是最佳码书的设计过程。矢量量化器的最佳设计可以由标量量化器的最佳设计原理而来,由于这一过程使用了Lloyd提出的两个条件,而后又将该条件推广到矢量量化器的最佳设计上。在矢量量化器的最佳设计中,对如何划分量化区间和确定量化矢量是其存在的最主要的问题,即要达到最佳划分和最佳码书这两个条件。 1、最佳划分类似于标量量化中量化区间的划分过程,对给定的码书,找出所有码书矢量的最佳区域边界,寻找最佳划分以使其平均失真最小。对于给定的码书可以采用最邻近准则-NNR(Nearest Neighbor Rule),即对于信源空间的任一矢量X,如果它与矢量的失真小于它和其它码子之间的失真,则X应属于某区域边界: (3-1)为最佳划分,即为一个胞腔。因为给定的码书中共有N个码字,所以可以把信源空间划分为N个区间。 2、最佳码书对于给定的区域边界,找出最佳码书矢量,为了使码书的平均失真最小,码字必须为相应给定的形心,即满足 centroid质心条件: (3-2)其中,为集合中矢量的个数。形心就是该区域空间的几何中心,这些形心就组成了最佳码书中的码字。3.2 LBG算法的实现LBG算法在矢量量化中是一个基本算法,它是由标量量化器中的Lloyd算法推广而来,1980年由Linde ,Buzo和 Gray首次提出。LBG算法实际上就是寻找最佳码书的反复迭代过程,从一个最初选定的初始码本开始迭代,将训练序列进行分组,找到每一个组的初始码书,计算该初始码本与训练序列的失真度,根据计算所得的最小失真度来确定新的码本,产生的新码本将作为第二次迭代时的初始码本。从对初始码书进行迭代优化时开始,直到该系统的性能满足要求或不再有明显的改进截止。LBG算法因其严密的理论、简便的应用和良好的设计效果,从而得到了广泛的应用,常被作为许多新型码书设计算法改进的基础算法。3.2.1 LBG算法实现流程设计LBG算法根据最佳矢量量化器设计的最佳划分和最佳码书这两个必要条件提出,它的特点是算法理论严密,物理概念清晰和算法实现容易。LBG算法是目前比较常用和流行的一种码书建立方法,该方法可以用于两种情况:一是已知信源概率分布,二是未知信源概率分布,但是已知一个信号序列的情况。由于实际情况中信源确定多维的概率分布很难,所以利用训练序列建立码本的LBG算法用得比较多一些。利用训练序列建立码书的LBG算法的步骤如下。第一步 初始化:给定初始码书,即给定码书的大小N和码字,并设置n=0,设起始平均失真 ,以及给定计算停止门限。第二步 迭代:用初始码书为形心,根据最邻近准则将训练序列分成N个胞腔,即 (3-3)其中,。 第三步 计算平均失真与相对失真:平均失真为 , (3-4) 相对失真为 (3-5)若 ,则停止计算,当前的码书就是设计好的 ,否则进行第四步。 第四步 利用公式(3-2)计算这时划分的各个胞腔的形心,由这N个新形构成新的码书,并置n=n+1,返回第二步再进行计算,直到得到所要求的码书为止。 LBG算法流程如图3-1所示:用给定码书划分成N个胞腔 开 始给定码书大小N,初始码书训练序列TS置n=0,起始平均失真 以及给定计算停止门限 计算平均失真和相对失真 ; 求出新码书结 束 NY图3-1 LBG算法流程图3.2.2 LBG算法初始码书的选取对于初始码书的选取在最佳码书的设计中有很大的影响,要求码书在开始时对要编码的数据来说要具有一定的代表性,直接取输入信号矢量作为码子就是方法之一。因为相邻的语音信号具有高度的相关性,在语音波形量化过程中应使样本之间具有足够大的间隔才能使样本之间的互相关性得以忽略。 1、随机选取法 随机选取法最初是运用在聚类算法中,它是从训练序列中随机选取N个矢量作为初始码字从而构成初始码书。其优点是无需初始化计算,

    注意事项

    本文(基于VQ的大学生语音识别算法研究毕业论文(45页).doc)为本站会员(1595****071)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开