语音信号的时域特征分析.doc
《语音信号的时域特征分析.doc》由会员分享,可在线阅读,更多相关《语音信号的时域特征分析.doc(22页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、中北大学课 程 设 计 说 明 书学生姓名: 蒋宝哲 学 号: 24 学生姓名: 瓮泽勇 学 号: 42 学生姓名: 侯战祎 学 号: 47 学 院: 信息商务学院 专 业: 电子信息工程 题 目:信息处理实践:语音信号的时域特征分析 指导教师:徐美芳 职称: 讲师 2013 年 6 月 28 日 中北大学课程设计任务书 2021-2021 学年第 二 学期学 院: 信息商务学院 专 业: 电子信息工程 学生姓名: 蒋宝哲 学 号: 24 学生姓名: 瓮泽勇 学 号: 42 学生姓名: 侯战祎 学 号: 47 课程设计题目:信息处理实践:语音信号的时域特征分析 起 迄 日 期: 2021年6
2、月7日2021年6月 28 日 课程设计地点: 学院楼201实验室、510实验室、608实验室 指 导 教 师: 徐美芳 系 主 任: 王浩全 下达任务书日期: 2021 年 6 月 7 日课 程 设 计 任 务 书1设计目的:通过设计,掌握USB总线或PCI总线的根本结构,了解基于USB总线或PCI总线A/D卡的通用结构。较全面地掌握语音信号的时域特征的根本理论、原理和实现手段,较系统地分析语音信号的时域特征,使学生具有一定综合分析问题和解决问题的能力。2设计内容和要求包括原始数据、技术参数、条件、设计要求等:原始数据:仿真信号或实验采集语音信号。技术要求:1完成基于USB总线或PCI总线A
3、/D卡通用结构报告;2通过A/D卡,利用高级语言编写信号的采集、存储和显示程序。3完成题目所要求技术:直接对语音信号的时域波形进行分析,提取的特征参数主要有:语音的短时能量,短时平均过零率,短时自相关函数等;通过仿真实验验证,编程实现各时域特征参数提取的处理和实现手段,并进行结果分析。设计要求:课程设计的目的在于培养学生的综合素质,要求学生做到:1根据题目要求查阅有关资料,确定方案,写出设计方案;2根据对选题的理解,消化查阅资料,给出相关的实现算法和理论根据;(3) 在Matlab或VC环境下,实现算法,并给出仿真结果;(4) 对结果进行分析总结3设计工作任务及工作量的要求包括课程设计计算说明
4、书(论文)、图纸、实物样品等:设计工作任务:(1) 了解选题背景,掌握根本技术,制定设计思路,写出设计方案。(2) 完成设计内容:包括算法和程序设计;实验验证及技术改良,写出设计说明书。(3) 设计辩论。工作量的要求:(1) 通过查阅资料了解选题相关的根本理论、原理以及技术背景,理解选题意义;(2) 掌握USB总线或PCI总线的根本结构,了解基于USB总线或PCI总线A/D卡的通用结构;(3) 完成语音信号特征提取;(4) 通过实验仿真验证算法的可行性;(5) 给出技术总结。课 程 设 计 任 务 书4主要参考文献:1 L.R. Rabiner, B.H. Juang. Fundamental
5、s of Speech Recognition. Prentice Hall, Englewood Cliffs,1993. 清华大学出版社影印,2002年.2胡航. 语音信号处理修订版,哈尔滨工业大学出版社,2002年.3 吴家安等. 语音编码技术及应用,机械工业出版社,2006年.4 韩继庆等. 语音信号处理,清华大学出版社,2004年.5 D.G.Childers. Matlab之语音处理与合成工具箱影印版,清华大学出版社,2004年.6 Thomas F. Quatieri著,赵胜辉等译,?离散时间语音信号处理原理与应用?,电子工业出版社,2004.5设计成果形式及要求:仿真结果;课程
6、设计说明书。6工作方案及进度:2021年6月7日 6月15日:理解选题,查资料,掌握USB总线或PCI总线的根本结构,基于USB总线或PCI总线A/D卡的通用结构;6月16日 6月19日:在教师指导下给出设计方案;6月20日 6月28日:在指导教师辅导下完成实验;撰写课程设计说明书; 6月28日:辩论系主任审查意见: 签字: 年 月 日语音信号的采集与分析摘 要 语音信号的采集与分析技术是一门涉及面很广的交叉科学,它的应用和开展与语音学、声音测量学、电子测量技术以及数字信号处理等学科紧密联系。其中语音采集和分析仪器的小型化、智能化、数字化以及多功能化的开展越来越快,分析速度较以往也有了大幅度的
7、高。本文简要介绍了语音信号采集与分析的开展史以及语音信号的特征、采集与分析方法,并通过PC机录制自己的一段声音,运用Matlab进行仿真分析,最后参加噪声进行滤波处理,比拟滤波前后的变化。关键词:语音信号,采集与分析, Matlab0 引言通过语音传递倍息是人类最重要、最有效、最常用和最方便的交换信息的形式。语言是人类持有的功能声音是人类常用的工具,是相互传递信息的最主要的手段。因此,语音信号是人们构成思想疏通和感情交流的最主要的途径。并且,由于语言和语音与人的智力活动密切相关,与社会文化和进步紧密相连,所以它具有最大的信息容量和最高的智能水平。现在,人类已开始进入了信息化时代,用现代手段研究
8、语音信号,使人们能更加有效地产生、传输、存储、获取和应用语音信息,这对于促进社会的开展具有十分重要的意义。 让计算机能听懂人类的语言,是人类自计算机诞生以来梦寐以求的想法。随着计算机越来越向便携化方向开展,随着计算环境的日趋复杂化,人们越来越迫切要求摆脱键盘的束缚而代之以语音输人这样便于使用的、自然的、人性化的输人方式。作为高科鼓应用领域的研究热点,语音信号采集与分析从理论的研究到产品的开发已经走过了几十个春秋并且取得了长足的进步。它正在直接与办公、交通、金融、公安、商业、旅游等行业的语音咨询与管理工业生产部门的语声控制, 、电信系统的自动拨号、辅助控制与查询以及医疗卫生和福利事业的生活支援系
9、统等各种实际应用领域相接轨,并且有望成为下一代操作系统和应用程序的用户界面。可见,语音信号采集与分析的研究将是一项极具市场价值和挑战性的工作。我们今天进行这一领域的研究与开拓就是要让语音信号处理技术走人人们的日常生活当中,并不断朝更高目标而努力。语音信号采集与分析之所以能够那样长期地、深深地吸引广阔科学工作者去不断地对其进行研究和探讨,除了它的实用性之外,另一个重要原因是,它始终与当时信息科学中最活泼的前沿学科保持密切的联系并且一起开展。语音信号采集与分析是以语音语言学和数字信号处理为根底而形成的一门涉及面很广的综合性学科,与心理、生理学、计算机科学、通信与信息科学以及模式识别和人工智能等学科
10、都有着非常密切的关系。对语音信号采集与分析的研究一直是数字信号处理技术开展的重要推动力量。因为许多处理的新方法的提出,首先是在语音信号处理中获得成功,然后再推广到其他领域。1.1 语音信号的特点通过对大量语音信号的观察和分析发现,语音信号主要有下面两个特点: 在频域内,语音信号的频谱分量主要集中在3003400Hz的范围内。利用这个特点,可以用一个防混迭的带通滤波器将此范围内的语音信号频率分量取出,然后按8kHz的采样率对语音信号进行采样,就可以得到离散的语音信号。 在时域内,语音信号具有“短时性的特点,即在总体上,语音信号的特征是随着时间而变化的,但在一段较短的时间间隔内,语音信号保持平稳。
11、在浊音段表现出周期信号的特征,在清音段表现出随机噪声的特征。下面是一段语音信号的时域波形图(图2-1)和频域图(图2-2),由这两个图可以看出语音信号的两个特点。 图2-1语音信号时域波形图 图2-2语音信号频域波形图Figure 2-1Speech signal time-domain waveform Figure 2-2 Frequency-domain speech signal waveform在将语音信号进行数字化前,必须先进行防混叠预滤波,预滤波的目的有两个:抑制输入信导各领域分量中频率超出fs/2的所有分量(fs为采样频率),以防止混叠干扰。抑制50Hz的电源工频干扰。这样,预
12、滤波器必须是一个带通滤波器,设其上、下截止颜率分别是fH和fL,那么对于绝人多数语音编译码器,fH=3400Hz、fL60100Hz、采样率为fs8kHz;而对丁语音识别而言,当用于 用户时,指标与语音编译码器相同。当使用要求较高或很高的场合时fH4500Hz或8000Hz、fL60Hz、fs10kHz或20kHz。为了将原始模拟语音信号变为数字信号,必须经过采样和量化两个步骤,从而得到时间和幅度上均为离散的数字语音信号。采样也称抽样,是信号在时间上的离散化,即按照一定时间间隔t在模拟信号x(t)上逐点采取其瞬时值。采样时必须要注意满足奈奎斯特定理,即采样频率fs必须以高于受测信号的最高频率两
13、倍以上的速度进行取样,才能正确地重建波它是通过采样脉冲和模拟信号相乘来实现的。下列图时一段语音信号在采样频率44.1KHz情况下的频谱图。由图可知,这段语音信号的频率主要集中在1KHz左右,当采样频率为44.1KHz时,由于采样频率比拟大,所以采样点数就越密,所得离散信号就越逼近于原信号,频谱也没有发生混叠。对上述信号进行1/80采样频率抽取,即采样频率变为将近500Hz时,由于采样频率比拟小,所以采样点数就稀疏,所得离散信号就越偏离于原信号,频谱也发生了混叠。在采样的过程中应注意采样间隔的选择和信号混淆:对模拟信号采样首先要确定采样间隔。如何合理选择t涉及到许多需要考虑的技术因素。一般而言,
14、采样频率越高,采样点数就越密,所得离散信号就越逼近于原信号。但过高的采样频率并不可取,对固定长度T的信号,采集到过大的数据量N=T/t,给计算机增加不必要的计算工作量和存储空间;假设数据量N限定,那么采样时间过短,会导致一些数据信息被排斥在外。采样频率过低,采样点间隔过远,那么离散信号缺乏以反映原有信号波形特征,无法使信号复原,造成信号混淆。根据采样定理,当采样频率大于信号的两倍带宽时,采样过程不会丧失信息,利用理想滤波器可从采样信号中不失真地重构原始信号波形。量化是对幅值进行离散化,即将振动幅值用二进制量化电平来表示。量化电平按级数变化,实际的振动值是连续的物理量。具体振值用舍入法归到靠近的
15、量化电平上。 语音信号经过预滤波和采样后,由AD变换器变换为二址制数字码。这种防混叠滤波通常与模数转换器做在一个集成块内,因此目前来说,语音信号的数字化的质量还是有保证的。市面上购置到的普通声卡在这方面做的都很好,语音声波通过话筒输入到声卡后直接获得的是经过防混叠滤波、A/D变换、量化处理的离散的数字信号。在实际工作中,我们可以利用windows自带的录音机录制语音文件,图2-3是基于PC机的语音信号采集过程,声卡可以完成语音波形的A/D转换,获得WAVE文件,为后续的处理储藏原材料。调节录音机保存界面的“更改选项,可以存储各种格式的WAVE文件。Windows自带的录音机声音麦克风声卡滤波采
16、样A/D转换 Wav图2-3 基于PC机的语音信号采集过程Figure 2-3 Voice PC-based signal acquisition process采集到语音信号之后,需要对语音信号进行分析,如语音信号的时域分析、频谱分析、语谱图分析以及加噪滤波等处理。2 语音信号的分析语音信号分析技术语音信号分析是语音信号处理的前提和根底,只有分析出可表示语音信号本质特征的参数,才有可能利用这些参数进行高效的语音通信、语音合成和语音识别等处理8。而且,语音合成的音质好坏,语音识别率的上下,也都取决于对语音信号分桥的准确性和精确性。因此语音信号分析在语音信号处理应用中具有举足轻重的地位。贯穿于语
17、音分析全过程的是“短时分析技术。因为,语音信号从整体来看其特性及表征其本质特征的参数均是随时间而变化的,所以它是一个非乎稳态过程,不能用处理乎稳信号的数字信号处理技术对其进行分析处理。但是,由于不同的语音是由人的口腔肌肉运动构成声道某种形状而产生的响应,而这种口腔肌肉运动相对于语音频率来说是非常缓慢的,所以从另一方面看,虽然语音倍号具有时变特性,但是在一个短时间范围内(一般认为在1030ms的短时间内),其特性根本保持不变即相对稳定,因面可以将其看作是一个准稳态过程,即语音信号具有短时平稳性。所以任何语音信号的分析和处理必须建立在“短时的根底上即进行“短时分析,将语音信号分为一段一段来分析其特
18、征参数,其中每一段称为一“帧,帧长一般取为1030ms。这样,对于整体的语音信号来讲,分析出的是由每一帧特征参数组成的特征参数时间序列。根据所分析出的参数的性质的不同,可将语音信号分析分为时域分析、频域分析、倒领域分析等;时域分析方法具有简单、计算量小、物理意义明确等优点,但由于语音信号最重要的感知特性反映在功率谱中,而相位变化只起着很小的作用,所以相对于时域分析来说频域分析更为重要。本文将简要介绍时域分析、频域分析以及语谱图分析。2.2 语音信号的时域分析语音信号的时域分析就是分析和提取语音信号的时域参数。进行语音分析时,最先接触到并且也是最直观的是它的时域波形。语音信号本身就是时域信号,因
19、而时域分析是最早使用,也是应用最广泛的一种分析方法,这种方法直接利用语音信号的时域波形。时域分析通常用于最根本的参数分析及应用,如语音的分割、预处理、大分类等。这种分析方法的特点是:表示语音信号比拟直观、物理意义明确。实现起来比拟简单、运算且少。可以得到语音的一些重要的参数。只使用示波器等通用设备,使用较为简单等。语音信号的时域参数有短时能量、短时过零率、短时白相关函数和短时平均幅度差函数等,这是语音信号的一组最根本的短时参数,在各种语音信号数字处理技术中都要应用6。在计算这些参数时使用的一般是方窗或汉明窗。 短时能量及短时平均幅度分析设语音波形时域信号为x(l)、加密分帧处理后得到的第n帧语
20、音信号为 Xn(m),那么Xn(m)满足下式: (3-1) (3-2)其中,n0,1T,2T,并且N为帧长,T为帧移长度。设第n帧语音信号Xn(m)的短时能量用En表示,那么其计算公式如下: (3-3)En是一个度量语音信号幅度值变化的函数,但它有一个缺陷,即它对高电平非常敏感(因为它计算时用的是信号的平方)。为此可采用另一个度量语音信号幅度值变化的函数即短时平均幅度函数Mn,它定义为: (3-4)Mn也是一帕语音信号能量大小的表征,它与En的区别在于计算时小取样值和大取样值不会因取平方而造成较大差异,在某些应用领域呻会带来一些好处。 短时能量和短时平均幅度函数的主要用途有:可以区分浊音段与清
21、音段,因为浊音时En值比清音时大的多。可以用来区分声母与韵母的分界,无声与有卢的分界,连字(指字之间无间隙)的分界等。作为一种超音段信息,用于语音识别中。短时过零率分析短时过零率表示一帧语音中语音信号波形穿过横轴零电平的次数。过零分析是语音时域分析中最简单的一种。对于连续语音信号,过零即意味着时域波形通过时间轴;而对于离散信号,如果相邻的取样值改变符号那么称为过零。过零率就是样本改变符号的次数。定义语音信号Xnm的短时过零率Zn为: 3-5式中,sgn 是符号函数,即: 3-6在实际中求过零率参数时,需要十分注意的一个问题是如果输入信号中包含有50Hz的工频干扰或者A/D变换器的工作点有偏移(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 信号 时域 特征 分析
限制150内