基于VQ的大学生语音识别算法研究毕业论文(45页).doc
《基于VQ的大学生语音识别算法研究毕业论文(45页).doc》由会员分享,可在线阅读,更多相关《基于VQ的大学生语音识别算法研究毕业论文(45页).doc(45页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、-基于VQ的大学生语音识别算法研究毕业论文-第 40 页LANZHOU UNIVERSITY OF TECHNOLOGY毕业论文题 目: 基于VQ的大学生语音识别算法研究 College Students Speech Recognition based on VQ Algorithm 摘 要语音识别主要研究的是使机器能够准确的听出说话人语音内容的问题,即语音识别的最终目的是使计算机能够准确的识别任何人、任何内容的讲话。语音识别技术是一项集声学、语言学、计算机、信息处理、人工智能等领域的综合技术,在计算机、信息处理、通信与电子系统、自动控制等领域中,以及工业、军事、交通、医学、民用等诸多方面有
2、着广泛的应用。语音识别系统从本质上说是一种模式识别系统,其基本结构与常规模式识别系统一样,包含有特征提取、模式匹配、参考模式库等基本单元。矢量量化技术在语音识别中占有很重要的地位,其包括码书设计、码字搜索和码字索引分配,前两者尤为重要。本文主要讲了矢量量化过程中最佳码书设计算法-LBG算法的设计和实现,利用MATLAB工具进行仿真的实现。比对实验数据结果可看出LBG算法是一种下降算法,在仿真过程中,每次迭代的平均失真具有单调不增特性(或者大小至少保持不变),可用来改进训练序列的初始码书从而生成最佳码书,同时通过仿真过程还可看出LBG存在运算量和存储空间大,易得到局部最优码书的特点;最后运用仿真
3、工具,通过改变数据量、码书维数、量化压缩比、最小失真门限等参数进行了大量仿真实验,比对仿真数据结果,对LBG算法的实现过程和参数性能特点进行了分析。关键词:语音识别;矢量量化(VQ);LBG算法AbstractThe main speech recognition is to accurately machine can hear the speakers voice content problem that speech recognition is the ultimate goal enables a computer to accurately identify the person,
4、 any speech content. Speech recognition technology is a set of acoustics, linguistics, computer, information processing, artificial intelligence and other areas of integrated technology, computer, information processing, communications and electronic systems, automatic control and other areas, as we
5、ll as industrial, military, transportation, medical , has a wide range of civilian and many other applications.Speech recognition systemis essentially apattern recognition system,the basic structureand the conventionalpattern recognitionsystem,includingfeature extraction,pattern matching reference m
6、odellibraryand other basicunits.Vector Quantization in speech recognition technology plays a very important role, which includes codebook design, code word search and codeword index distribution, the first two particularly important. This article is mainly about the best course of vector quantizatio
7、n codebook design LBG algorithm and implementation using MATLAB simulation tool implementations. The results of the experimental data than can be seen LBG algorithm is a descent algorithm, the simulation process, with each iteration the average distortion does not increase monotonically characterist
8、ics (size, or at least remain unchanged), can be used to improve initial codebook training sequence to generate optimal code book, but can also be seen through the simulation process LBG presence of large amount of computation and storage space, easy to get the characteristics of the local optimal c
9、odebook. Finally, the use of simulation tools, by varying the amount of data, the codebook dimension, quantization compression ratio, the minimum distortion threshold and other parameters of a large number of simulation experiments, compared to the simulation result, the data for the implementation
10、process and the parameters of performance characteristics of the LBG algorithm is analyzed.Key words: speech recognition; Vector Quantization (VQ); LBG algorithm目 录第一章 绪论11.1概述11.2研究语音识别的目的及意义11.3矢量量化技术的发展历程2第二章 基本原理42.1语音识别42.2矢量量化62.2.1矢量量化的基本概念72.2.2矢量量化步骤92.3矢量量化器92.4失真测度10第三章 矢量量化器的设计算法123.1最佳码
11、本的设计123.2 LBG算法的实现133.2.1 LBG算法实现流程设计133.2.2 LBG算法初始码书的选取143.2.3 LBG算法常见的问题16第四章 仿真结果及性能分析174.1 MATLAB开发平台简介174.2 LBG算法的设计仿真及结果分析174.2.1矢量量化器的LBG算法仿真及结果分析174.2.2修改参数后矢量量化器的LBG算法仿真及结果分析20结 论26参考文献27附录一 外文翻译28外文原文28外文译文44附录二 程序61致 谢65第一章 绪论1.1概述语言是人和动物最基本,同时也是最重要的信息交换形式,语音信号是构成其思想疏通和情感交流的最主要途径。通信系统中最常
12、见的数据形式就是语音数据。人类目前已经进入信息化时代,用现代化手段研究语音处理技术,能使我们更加有效地产生、传输、存储、获取和应用语音信息,这对于促进社会的发展具有十分重要的意义。社会进入21世纪,信息在各个领域发生了大爆炸的态势,同时伴随着数字信号的数据量迅速暴增,对存储器的存储容量、通信信道的带宽以及计算机的处理速度带来很大的压力,因此,在这种情况下需要对数据进行量化压缩以达到紧缩数据存储容量的目的 ,该方法能够较快地传输各种信号 ,并使发信机功率降低。数字语音通信的两个关键技术是语音质量和传输码率,同时这两者之间又是矛盾的:要获得较高的语音质量,就必须使用较高的传输码率;相反,为了实现高
13、效地压缩传输码率,就很难得到良好的语音质量。然而采用矢量量化技术是一种既能得到高效压缩的传输码率 ,又能保证较好的语音质量的方法。矢量量化(VQ, Vector Quantization)技术是Steinhaus在1956年首次提出的,并于20世纪70年代后期发展起来的一种数据压缩和编码技术,现已广泛应用于语音编码、语音合成、语音识别和说话人识别等领域。在许多领域的课题研究中,矢量量化技术都起着非常重要的作用。采用矢量量化技术对信号波形或参数进行压缩处理,可以获得很好的效果。矢量量化技术不仅可以压缩表示语音参数所需的数码率,而且在减少运算量方面也是非常高效的,它还能直接用于构成语音识别和说话人
14、识别系统。量化一般可以分为两大类,一类是把抽样后的信号值逐个进行量化的标量量化;另一类量化是先将k个抽样值组成k维空间中的一个矢量,然后将此矢量进行量化,称之为矢量量化(VQ),它可以极大的降低数码率,优于标量量化。各种数据都可以用矢量表示,直接对矢量进行量化,可以方便的对数据进行压缩。矢量量化属于不可逆压缩方法,具备比特率低,解码简单,失真较小的优点。1.2研究语音识别的目的及意义语音识别在语音链中是很重要的的一环,其研究的最终目的是使计算机能够准确的识别任何人、任何内容的讲话。语音识别属于多维模式识别以及智能计算机接口的范畴,是一项集声学、语言学、计算机工程、信息处理、人工智能等领域的综合
15、技术,在计算机技术、信息处理、通信与电子系统、自控制等领域,以及交通、医学、工业、军事、民用等诸多方面有着广泛的应用。语音识别是一门新兴科学,是近来国内外竞相研究的热点,信息产业迅速发展的要求促使着科技、工业及国防部门投入大量人力和财力来对其进行重点研究,其中包括计算机、通信、国防、机器人等关乎于国计民生的科技领域。语音识别主要具有如下优点:(1) 语音是人类最自然、最方便的交互工具,不需要作专门训练。(2) 如果能输入专门的声音,这与使用打字机和按钮等方法比较,操作简单,使用方便。计算机语音输入系统,使用口述代替键盘操作,实现向计算机输入文字,这对于办公自动化将带来革命性的变化。由于汉字输入
16、的特殊性,汉语语音输入系统的重要性尤其突出。(3) 语音的反应速度特别快,可以达到毫秒量级。语音信息输入速度比打字机大约快3-4倍,比人工抄写文字大约快8-10倍。(4) 同时使用手、脚、耳、眼睛等器官,可以在进行其他工作的同时兼顾周围动作来输入信息。(5) 因在输入终端可使用麦克风、电话机等,所以非常经济,还可直接利用现有的电话网,并能遥控输入信息。因此语音识别系统具有重要的应用价值,它是人机通信的自然媒介。语音识别和语音合成相结合,可以构成“人-机通信系统”。由于语音识别技术的逐步成熟,随之产生的各类语音识别产品在人机交互应用中,已经占到越来越大的比例。语音是通信系统中最自然的通信媒介,语
17、音识别技术的应用前景是无限的。1.3矢量量化技术的发展历程矢量量化技术在其发展到目前为止的过程中大致经历了两个阶段。第一阶段:1956年Steinhaus首次系统的阐述了关于最佳矢量量化的问题。随之,1957年Loyd在“PCM中的最小平方化”一文中给出了如何划分量化区间和如何求量化值问题的结论。几乎与此同时,Max也得出了同样的结论,虽然他们的结论基本上都是关于标量量化问题的,但他们的算法对后来矢量量化的发展有着深刻的影响。1964年Newman研究了正六边形原理。1977年Berger出版了率失真理论一书。总之,该阶段的工作多以理论性的研究为主,但它奠定了其后来发展的基础。第二阶段:197
18、8年Buzo第一个提出矢量量化器的概念,他提出的量化系统组成分为两步,首先是将语音信号做线性预测分析,求出预测系数;其次对这些系数做矢量量化,得到了压缩数据的语音编码器。1980年,Linde、Buzo和Gray将Loyd-max算法推广,发表了第一个矢量量化器的设计算法,通常称之为LBG算法,将矢量量化的研究向前推进了一大步。这一阶段,人们对各种矢量量化系统展开了全面的研究,其中主要是对失真测度的探讨,码书的设计,快速搜索算法的寻找等等。矢量量化技术的研究进展是迅速的,1980年,美国加州公司在原来编码速度为2.4kb/s的线性预测声编码器的基础上,仅将滤波系数从标量量化改为矢量量化,就可以
19、使编码速率降低到800b/s,同时声音质量基本未下降。1983年,美国BBN公司研制出了一种采用矢量量化技术的分段式声编码器,可以用150b/s的速率来传送可懂的话音。近年来在已经提出的各种矢量量化方法和系数的基础上,更多优秀的矢量量化方法逐渐凸显出来,在图像数据压缩和语音识别的应用方面,矢量量化的研究得到了很快的发展,提出了各种各样的矢量量化系统,用硬件实现矢量量化系统的方法也越来越多。第二章 基本原理2.1语音识别模式识别是指计算机对事物的认知,包活语音、文字、图像、机器的运行状态等。语音识别是一种特殊的模式识别。模式识别的基本原理是将一个输入模式与保存在系统中的多个标准模式进行比较,找出
20、最近似的标准模式,然后将该标准模式所代表的类名作为输入模式的类名输出。根据比较的方法不同,模式识别可分为模式匹配法、统计模式识别和句法模式识别。其中,模式匹配法是将两个模式直接进行比较的方法,是最基本、最原理性的模式识别方法,在实际应用中是最广泛的。 目前,绝大多数语音识别系统都采用了模式匹配法。根据该原理,未知语音的模式要与已知语音的参考模式逐一进行比较,最佳匹配的参考模式将被作为识别结果输出。语音识别的步骤大致可分为两步进行:第一步,根据识别系统的类型,选择能够满足要求的一种识别方法,采用语音分析方法分析出该识别方法所要求的语音特征参数,这些参数将作为标准模式由机器存储起来,形成标准模式库
21、,该语音参数库称为模式或样本,这一过程称为学习或训练;第二步,识别过程。输入语音 参考模式库距离测度 测度估计 特征提取预处理判决 专家知识库识别结果训练,聚类图2-1 语音识别的原理框图图2-1所示为语音识别系统的模式匹配原理构成图,它是一种统计模式识别,这里采用的是模板匹配法。语音识别系统从本质上说是一种模式识别系统,其基本结构与常规模式识别系统一样,包含有特征提取、模式匹配、参考模式库等三个基本单元。图2-1中测度估计、判决和专家知识库三部分的功能是完成模式匹配。由于语音识别系统所处理的人类语言信息结构非常复杂、内容及其丰富,因此,其系统结构比通常情况下的模式识别系统要复杂得多。 1、预
22、处理预处理包括反混叠滤波、模数变换、自动增益控制、去除声门激励及口唇辐射影响,以及去除个体发音的差异和设备、环境引起的噪声影响等,涉及语音识别基元的选取和端点检测问题。 2、特征提取对经过预处理的语音信号要进行特征提取。特征提取即参数分析,是指从语音信号波形中获取一组能够描述该语音信号特征的参数的过程。其基本思想是将信号通过一次变换,去掉冗余部分,而将代表语音本质的特征参数抽取出来。与特征提取相关的内容是特征间的距离测度。在语音识别中,特征参数的提取是构成整个模式识别系统的重要一环。特征参数的好坏对语音识别的精度有很大影响,特征参数应尽可能多的反映出用于识别的信息,之后系统中所有的处理都是建立
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 VQ 大学生 语音 识别 算法 研究 毕业论文 45
限制150内