《2022年毕业设计方案DSP的语音信处理系统设计方案.docx》由会员分享,可在线阅读,更多相关《2022年毕业设计方案DSP的语音信处理系统设计方案.docx(35页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、毕 业 设 计 论 文题目:基于 DSP的语音信号处理设计系别:电气与电子工程系专业:电子信息工程姓名:张作伟学号: 123408151指导老师:陈英河南城建学院2021年 5 月 23 日/ 31摘要语音信号处理是讨论用数字信号处理技术和语音学学问对语音信号进行处理的新兴的学科,是目前进展最为快速的信息科学讨论领域的核心技术之一;通过语音传递信息是人类最重要、最有效、最常用和最便利的交换信息形式;数字信号处理 is the use of computer or special processing equipment, to digital form of signal acquisitio
2、n, transformation, filtering, estimation, enhancement, compression, recognition processing, in order to get the needs of the people of the signal form.Matlab language is a data analysis and processing functions are very powerful computer application software, sound files which can be transformed int
3、o discrete data files, then use its powerful ability to process the data matrix operations, such as digital filtering,Fourier transform, when domain and frequency domain analysis, sound playback and a variety of map rendering, and so on.Its signal processing and analysis toolkitfor voice signal anal
4、ysis provides a very rich feature function, use of these functions can be quick and convenient features complete voice signal processing and analysis and visualization of signals, makes computer interaction more convenient . Matlab Signal Processing is one of the important areas of application.The d
5、esign of voice-processing software for most of the content are numerous,easy to maneuver and so on, using MATLAB7.0 comprehensive use GUI interface design, various function calls to voice signals such as frequency, amplitude, Fourier transform and filtering, the program interface concise, simple, ha
6、s some significance in practice.Keywords: Matlab , Voice Signa,l Fourier transform, Signal Processin1绪论1.1 课题的背景与意义通过语音传递信息是人类最重要、最有效、最常用和最便利的交换信息的形式;语言是人类持有的功能;声音是人类常用的工具,是相互传递信息的最主要的手段;因此,语音信号是人们构成思想疏通和感情沟通的最主要的途径;并 且,由于语言和语音与人的智力活动亲密相关,与社会文化和进步紧密相连,所以它具有最大的信息容量和最高的智能水平;现在,人类已开头进入了信息化时代,用现代手段讨论语音信
7、号,使人们能更加有效地产生、传输、储备、猎取和应用语音信息,这对于促进社会的进展具有特别重要的意义;让运算机能听懂人类的语言,是人类自运算机产生以来梦寐以求的想法;随着运算机越来越向便携化方向进展,随着运算环境的日趋复杂化,人们越来越迫切要求摆脱键盘的束缚而代之以语音输人这样便于使用的、自然的、人性化的输人方式;作为高科技应用领域的讨论热点,语音信号采集与分析从理论的讨论到产品的开发已经走过了几十个春秋并且取得了长远的进步;它正在直接与办公、交通、金融、公安、商业、旅行等行业的语音询问与治理;工业生产部门的语声掌握,电话、电信系统的自动拨号、帮助掌握与查询以及医疗卫生和福利事业的生活支援系统等
8、各种实际应用领域相接轨,并且有望成为下一代操作系统和应用程序的用户界面;可见,语音信号采集与分析的讨论将是一项极具市场价值和挑战性的工作;我们今日进行这一领域的讨论与开拓就是要让语音信号处理技术走入人们的日常生活当中,并不断朝更高目标而努力;语音信号采集与分析之所以能够那样长期地、深深地吸引广大科学工作者去不断地对其进行讨论和探讨,除了它的有用性之外,另一个重要缘由是,它始终与当时信息科学中最活跃的前沿学科保持亲密的联系,并且一起进展;语音信号采集与分析是以语音语言学和数字信号处理为基础而形成的一门涉及面很广的综合性学科,与心理、生理学、运算机科学、通信与信息科学以及模式识别和人工智能等学科都
9、有着特别亲密的关系;对语音信号采集与分析的讨论始终是数字信号处理技术进展的重要推动力气;由于很多处理的新方法的提出,第一是在语音信号处理中获得胜利,然后再推广到其他领域;1.2 国内外讨论现状0 / 31语音信号的采集与分析作为一个重要的讨论领域,已经有很长的讨论历史;但是它的快速进展可以说是从1940 年前后 Dudley 的声码器 vocoder 和 potter 等人的可见语音 开头的; 1952 年贝尔 Bell 试验室的 Davis 等人首次研制胜利能识别十个英语数字的试验装置;1956 年 Olson 和 Belar 等人采纳 8 个带通滤波器组提取频谱参数作为语音的特点,研制胜利
10、一台简洁的语音打字机; 20 世纪 60 岁月初由于 Faut 和 Steven 的努力,奠定了语音生成理论的基础,在此基础上语音合成的讨论得到了扎实的进展;20 世纪 60 岁月中期形成的一系列数字信号处理方法和技术,如数字滤波器、快速博里叶变换FFT等成为语音信号数字处理的理论和技术基础;在方法上,随着电子运算机的进展,以往的以硬件为中心的讨论逐步转化为以软件为主的处理讨论;然而,在语音识别领域内,初期有几种语音打字机的讨论也很活跃,但后来已全部停了下来,这说明了当时人们对话音识别难度的熟识得到了加深;所以1969 年美国贝尔讨论所的Pierce 感叹地说“语音识别向何处去 .”;到了 1
11、970 年,好像反对 Pierce的批判,单词识别装置开头了有用化阶段, 其后有用化的进程进一步高涨,有用机的生产销售也上了轨道;此外社会上所宣 传的声纹 Voice Print识别,即说话人识别的讨论也扎扎实实地开展起来,并很快达到了有用化的阶段;到了1971 年,以美国ARPAAmerican Research Projects Agency为主导的“语音懂得系统”的讨论方案也开头起步;这个讨论方案不仅在美国园内,而且对世界各国都产生了很大的影响,它促进了连续语音 识别讨论的兴起;历时五年的巨大的ARPA讨论方案,虽然在语音懂得、语言统计模型等方面的讨论积存了一些体会,取得了很多成果,但没
12、能达到巨大投资应得的成果,在 1976 年停了下来,进入了深刻的反省阶段;但是,在整个20 世纪70 岁月仍是有几项讨论成果对语音信号处理技术的进步和进展产生了重大的影响;这就是 20 世纪 70 岁月初由板仓 Itakura提出的动态时间规整 DTW技术,使语音识别讨论在匹配算法方面开创了新思路;20 世纪 70 岁月中期线性猜测技术LPC被用于语音信号处理,此后隐马尔可夫模型法HNMM也 获得初步胜利, 该技术后来在语音信号处理的多个方面获得巨大胜利;20 世纪 70 岁月未, Linda 、Buzo、Gray 和 Markel 等人首次解决了矢量量化 VQ码书生成的方法,并第一将矢量量化
13、技术用于语音编码获得胜利;从今矢量量化技术不仅在语音识别、语音编码和说话人识别等方面发挥了重要作用,而且很快推广到其他很多领域;因此, 20 世纪 80 岁月开头显现的语音信号处理技术产品化的热潮,与上述语音信号处理新技术的推动作用是分不开的;20 世纪 80 岁月,由于矢量量化、隐马尔可夫模型和人工神经网络ANN等相31 / 31继被应用于语音信号处理,并经过不断改进与完善,使得语音信号处理技术产生了突破性的进展;其中,隐马尔可夫模型作为语音信号的一种统计模型,在语音信号处理的各个领域中获得了广泛的应用;其理论基础是1970 年前后,由 Baum等人建立起来的,随后,由美国卡内基梅隆高校 C
14、MU的 Baker 和美国 IBM 公司的 Jelinek 等人将其应用到语音识别中;由于美国贝尔试验室的 Babiner 等人在20 世纪 80 岁月中期,对隐马尔可夫模型深人浅出的介绍,才使世界各国从事语音信号处理的讨论人员明白和熟识,进而成为一个公认的讨论热点,也是目前语音识别等的主流讨论途径;进入 20 世纪 90 岁月以来,语音信号采集与分析在有用化方面取得了很多实质性的讨论进展;其中,语音识别逐步由试验室走向有用化;一方面,对声学语 音学统计模型的讨论逐步深化,鲁棒的语音识别、基于语音段的建模方法及隐马 尔可夫模型与人工神经网络的结合成为讨论的热点;另一方面,为了语音识别实 用化的
15、需要,讲者自适应、听觉模型、快速搜寻识别算法以及进一步的语言模型 的讨论等课题倍受关注;1.3 数字信号处理 DSP)简介数字信号处理 和频域图 图 2-2 ,由这两个图可以看出语音信号的两个特点;0.60.450.40.40.350.20.300.25-0.20.2-0.4-0.60.150.10.05-0.800.511.522.533.544.55000.511.522.5TimesFrequencyHz4x 10图 2-1 语音信号时域波形图图 2-2 语音信号频域波形图2.2 语音信号的采集在将语音信号进行数字化前,必需先进行防混叠预滤波,预滤波的目的有两个: 错误 .抑制输入信导各
16、领域重量中频率超出fs/2 的全部重量 fs 为采样频率 , 以防止混叠干扰; 错误.抑制 50Hz 的电源工频干扰;这样,预滤波器必需是一个带通滤波器,设其上、下截止频率分别是fH 和 f L,就对于绝大多数语音编译码器, fH=3400Hz、f L 60100Hz、采样率为 f s 8kHz;而对丁语音识别而言,当用 于电话用户时,指标与语音编译码器相同;当使用要求较高或很高的场合时f H 4500Hz或 8000Hz、fL 60Hz、fs10kHz 或 20kHz;为了将原始模拟语音信号变为数字信号,必需经过采样和量化两个步骤,从而得到时间和幅度上均为离散的数字语音信号;采样也称抽样,是
17、信号在时间上的离散化,即依据肯定时间间隔 t在模拟信号 t 上逐点实行其瞬时值;采样时必需要留意满意奈奎斯特定理,即采样频率fs 必需以高于受测信号的最高频率两倍以上的速度进行取样,才能正确地重建波形,它是通过采样脉冲和模拟信号 相乘来实现的;下图时一段语音信号在采样频率44.1KHz 情形下的频谱图;原 始 信 号012345x 10640.40.20-0.2-0.420015010050000.511.522.54x 10图 2-3 原始信号时域波形图和频域波形图由图可知,这段语音信号的频率主要集中在1KHz 左右,当采样频率为44.1KHz 时,由于采样频率比较大,所以采样点数就越密,所
18、得离散信号就越靠近于原信号,频谱也没有发生混叠;抽 取 后 的 信 号01234564x 100.60.40.20-0.232.521.51050001000015000图 2-4 抽取后的信号时域波形图和频域波形图对上述信号进行 1/80采样频率抽取,即采样频率变为将近500Hz 时,由于采样频率比较小,所以采样点数就稀疏,所得离散信号就越偏离于原信号,频谱也发生了混叠;在采样的过程中应留意采样间隔的挑选和信号混淆:对模拟信号采样第一要 确定采样间隔;如何合理挑选 t涉及到很多需要考虑的技术因素;一般而言, 采样频率越高,采样点数就越密,所得离散信号就越靠近于原信号;但过高的采样频率并不行取
19、,对固定长度 T)的信号,采集到过大的数据量N=T/ t ),给运算机增加不必要的运算工作量和储备空间;如数据量,其特性基本保持不变即相对稳固,因而可以将其看作是一个准稳态过程,即语音信 号具有短时平稳性;所以任何语音信号的分析和处理必需建立在“短时”的基础 上即进行“短时分析”,将语音信号分为一段一段来分析其特点参数,其中每 一段称为一“帧”,帧长一般取为1030ms;这样,对于整体的语音信号来讲, 分析出的是由每一帧特点参数组成的特点参数时间序列;依据所分析出的参数的性质的不同,可将语音信号分析分为时域分析、频域分析、倒频域分析等;时域分析方法具有简洁、运算量小、物理意义明确等优 点,但由
20、于语音信号最重要的感知特性反映在功率谱中,而相位变化只起着很小的作用,所以相对于时域分析来说频域分析更为重要;本文将简要介绍时域分 析、频域分析以及语谱图分析;3.2 语音信号的时域分析语音信号的时域分析就是分析和提取语音信号的时域参数;进行语音分析时,最先接触到并且也是最直观的是它的时域波形;语音信号本身就是时域信 号,因而时域分析是最早使用,也是应用最广泛的一种分析方法,这种方法直接利用语音信号的时域波形;时域分析通常用于最基本的参数分析及应用,如语音的分割、预处理、大分类等;这种分析方法的特点是:错误 .表示语音信号比较直观、物理意义明确; 错误 .实现起来比较简洁、运算且少; 错误 .
21、可以得到语音的一些重要的参数; 错误 .只使用示波器等通用设备,使用较为简洁等;语音信号的时域参数有短时能量、短时过零率、短时自相关函数和短时平均幅度差函数等,这是语音信号的一组最基本的短时参数,在各种语音信号数字处理技术中都要应用;在运算这些参数时使用的一般是矩形窗或汉明窗;3.2.1 短时能量及短时平均幅度分析设语音波形时域信号为 xl 、加密分帧处理后得到的第 n 帧语音信号为Xnm,就 Xnm满意下式:其中, n0,1T,2T,并且 N为帧长, T 为帧移长度;设第 n 帧语音信号 Xnm的短时能量用 En表示,就其运算公式如下:En 是一个度量语音信号幅度值变化的函数,但它有一个缺陷
22、,即它对高电平特别敏锐 由于它运算时用的是信号的平方 ;为此可采纳另一个度量语音信号幅度值变化的函数即短时平均幅度函数Mn,它定义为:Mn 也是一帧语音信号能量大小的表征,它与En 的区分在于运算时小取样值和大取样值不会因取平方而造成较大差异,在某些应用领域也会带来一些好处;短时能量和短时平均幅度函数的主要用途有:可以区分浊音段与清音段, 由于浊音时 En 值比清音时大的多;可以用来区分声母与韵母的分界,无声与有声的分界,连字 指字之间无间隙 的分界等;作为一种超音段信息,用于语音识别中;3.2.2 短时过零率分析短时过零率表示一帧语音中语音信号波形穿过横轴零电平)的次数;过零分析是语音时域分
23、析中最简洁的一种;对于连续语音信号,过零即意味着时域波 形通过时间轴;而对于离散信号,假如相邻的取样值转变符号就称为过零;过零 率就是样本转变符号的次数;定义语音信号Xn,往往会使运算的过零率参数很不精确;为明白决前一个问题,A/D 变换器前的防混叠带通滤波器的低端截频应高于50Hz,以有效地抑制电源干扰;对于后一个问题除了可以采纳低直流漂移器件外,也可以在软件上加以解决,这就是算出每一帧的直流重量并予以滤除;对语音信号进行分析,发觉发浊音时,尽管声道有如干个共振峰,但由于声门波引起功率谱的高频跌落,所以其话音能量约集中在3kHz以下;而发清音时,多数能量显现在较高频率上;高频就意味着高的平均
24、过零率,低频意味着低的平均过零率,所以可以认为浊音时具有较低的过零率,而清音时具有较高的过零率;当然,这种高低仅是相对而言,并没有精确的数值关系;利用短时平均过零率仍可以从背景噪声中找出语音信号,可用于判定安静无声段和有声段的起点和终点位置;在孤立词的语音识别中,必需要在一连串连续的语音信号中进行适当分割,用以确定一个一个单词的语音信号,即找出每一个单词的开头和终止位置,这在语音处理中是一个基本问题;此时,在背景噪声较小时用平均能量识别较为有效,而在背景噪声较大时用平均过零率识别较为有效;但是讨论说明,在以某些音为开头或结尾时;如当弱摩擦音 如f、h 等音素,弱爆破音 如p 、t、k 等音素为
25、语音的开头或结尾;以鼻音 如n 、m 等音素为语音的结尾时;只用其中一个参量来判别语音的起点和终点是有困难的,必需同时使用这两个参数;图3-1 是用 Mtalab 仿真一段语音信号时域波形的短时能量和短时平均过零率;10.5che0sp-0.5-1500100015002000250030003500400040ygr 30nee 201005101520253035404530cr 20z10051015202530354045图 3-1 语音信号的短时能量和短时平均过零率3.3 语音信号的频域分析语音信号的频域分析就是分析语音信号的频域持征;从广义上讲,语音信号的频域分析包括语音信号的频谱
26、、功率谱、倒频谱、频谱包络分析等,而常用的频域分析方法有带通滤波器组法、傅里叶变换法、线性猜测法等几种;本文介绍的是语音信号的傅里叶分析法;由于语音波是一个非平稳过程,因此适用于周 期、瞬变或平稳随机信号的标准傅里叶变换不能用来直接表示语音信号,而应当用短时傅里叶变换对语音信号的频谱进行分析,相应的频谱称为“短时谱”;3.3.1 利用短时博里叶变换求语音的短时谱对第 n 帧语音信号 Xnm 进行傅里叶变换 离散时域傅里叶变换, DTFT,可得到短时傅里叶变换,其定义如下:3-1由定义可知,短时傅里叶变换实际就是窗选语音信号的标准傅里叶变换;这 里,窗 wn-m是一个“滑动的”窗口,它随 n 的
27、变化而沿着序列 Xn 滑动;由于窗口是有限长度的,满意肯定可和条件,所以这个变换是存在的;当然窗口函数不同,博里叶变换的结果也将不同;我们仍可以将式 3 1写成另一种形式;设语音信号序列和窗口序列的标准傅里立叶变换均存在;当 n取固定值时, wn-m的傅里叶变换为:3-2依据卷积定理,有:3-3由于上式右边两个卷积项均为关于角频率w 的以 2为周期的连续函数,所以也可将其写成以下的卷积积分形式:的 DTFT是,且的 DTFT是,那么是和的周期卷积;依据信号的时宽带宽积为一常数这一基本性质,可知主瓣宽度与窗口宽度成反比, N越大,的主瓣越窄;由式 3-4 可知,为了使忠实再现的特性;相对于来说必
28、需是个冲激函数;所以为了 使,需;但是 N值太大时,信号的分帧又失去了意义;特别是 N大于语音的音素长度时,已不能反映该语音音素的频谱了;因 此,应折衷挑选窗的宽度 N;另外,窗的外形也对短时傅氏频谱有影响,如矩形窗,虽然频率辨论率很高 即主辩狭窄尖锐 ,但由于第一旁瓣的衰减很小,有较大的上下冲,采纳矩形窗时求得的与的偏差较大,这就是 Gibbs 效应,所以不适合用于频谱成分很宽的语音分析中;而汉明窗在频率范畴中的辨论率较高,而且旁辩的衰减大,具有频谱泄漏少的优点;所以在求短时频谱时一般采纳具有较小上下冲的汉明窗;与离散傅里叶变换和连续博里叶变换的关系一样,如令角频率 w=2kN,就得离散的短
29、时傅里叶变换 DFT;它实际上是 在频域的取样,如下所示:3-5在语音信号数字处理中,都是采纳的离散博里叶变换 DFT来替代并且可以用高效的快速傅里叶变换 FFT算法完成由至的转换;当然,这时窗长 N必需是 2 的倍数 L 是整数;依据傅里叶变换的性质, 实数序列的傅里叶变换的频谱具有对称性,因此,全部频谱信息包含在长度为 N/2+1 个里;另外,为了使具有较高的频率辨论率,所取的DFT以及相应的 FFT点数应当足够多,但有时的长度 N要受到采样率和短时性的限制,例如,在通常采样率为 8kHz 且帧长为 20ms时, N=160;而一般取256、512 或 1024,为了将的点数从 N扩大力,
30、可以采纳补 0 的方法,在扩大的部分添如干个 0 取样值,然后再对添 0 后的序列进行 FFT;例如、在10kHz 的范畴内采样求频谱,并要求频率辨论率在30Hz 以下;由 10k/30,得 333,所以要取比 333 大的值,这时可取=512 点,不足的部分采纳补 0 的方法解决,此时频率辨论率 即频率间隔 为 10Hz 512 19.53Hz,采样后的该帧信号频率处在0之间,因此,原连续信号频率就处在 0之间 即,所以我们要在 0频率范畴内求其频谱; FFT的运算可以在通用运算机上由相应的算法软件来完成,这种方式一般只能实现非实时运算;为了完成实时运算可以采纳先进的数字信号处理芯片、阵列处
31、理芯片或专用 FFT芯片;为了完成 1024 点的 FFT,这些专用芯片所需的运算时间是几十毫秒至几毫秒,甚至可以降至1ms以下;在语音信号数字处理中,功率谱具有重要意义,在一些语音应用系统中;往往都是利用语音信号的功率谱;依据功率谱定义,可以写出短时功率谱与短时傅里叶变换之间的关系:或者:式中表示复共轭运算;并且功率谱是短时自相关函数的傅里叶变换;图 3-2 是用 Matlab 中的 psdplot命令绘得的同一人两次说同一词的功率谱比较 窗函数取窗长度为 256 的 Hamming窗;图 3-2 同一人两次说同一词的功率谱比较可以看出功率谱图比较好地反映出声音的个人特点:在低频部分可以认为
32、其频谱是固定不变的,这种频谱又称为短时谱;短时谱只能反映语音信号的静态频率特性,不能反 映语音信号的动态频率特性;因此,人们致力于讨论语音的时频分析特性;把和时序相关的傅里叶分析的显示图形称为语谱图Sonogram,或者Spectrogram ;语谱图是一种三维频谱,它是表示语音频谱随时间变化的图形, 其纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示;用语谱图分析语音又称为语谱分析;语谱图中显示了大量的与语音的语句特性有关的信息,它综合了频谱图和时域波形的特点,明显地显示出语音频谱随时间的变化情形,或者说是一种动态的频谱;记录这种频谱的仪器就是语谱仪;
33、语谱仪实际上是一个带通滤波器组的输出随时间发生连续变化,连续重复进行语音信号频率分析的仪器;带通滤波器有两种带宽可供挑选:窄带为45Hz,宽带为 300Hz;窄带语谱图有良好的频率辨论率,有利于显示基音频率及其各次谐波,但它的时间辨论率较差,不利于观看共振峰 声道谐振 的变化;而宽带语谱图正相反,具有良好的时间辨论率及较差的频率辨论率;宽带语谱图能给出语音 的共振峰频率及清辅音的能量聚集区,在语谱图里共振峰出现为黑色的条纹;可以利用语谱仪测量语谱图的方法来确定语音参数,例如共振峰频率及基音频率;语语图的实际应用是用于确定出讲话人的本性;语谱图上因其不同的黑白程度,形成了个同的纹路,称之为“声纹”,它因人而异,即不同讲话者语谱图的声纹是不同的;因而可以利用声纹鉴别不同的讲话人;这与不同的人有不同的指纹,依据指纹可以区分不同的人是一个道理;虽然对采纳语谱图的讲活人识别技术的牢靠性存在相当的怀疑,但目前这一技术已在司法法庭得到某些认可及采纳;河南城建学院0.050-0.052.22.42.62.833.23.43.6x 10450100150200250050100150200250300350400图 3-3 “河南城建学院”语谱图图 3-3 是用 Mtalab 绘制的一个宽带
限制150内