语音处理的基本知识.ppt
《语音处理的基本知识.ppt》由会员分享,可在线阅读,更多相关《语音处理的基本知识.ppt(92页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于语音处理的基本知识现在学习的是第1页,共92页音频处理技术的研究意义音频处理技术的研究意义声音声音(音频音频)是信息交流的一种主要手段,是数字媒是信息交流的一种主要手段,是数字媒体信息的重要组成部分;体信息的重要组成部分;信息技术、计算机技术和网络技术的迅猛发展,使音信息技术、计算机技术和网络技术的迅猛发展,使音频处理技术受到重视并得到广泛应用,需求也日益多样。频处理技术受到重视并得到广泛应用,需求也日益多样。现在学习的是第2页,共92页2.1 2.1 数字音频基础数字音频基础n声音的物理描述声音的物理描述n产生原理产生原理n物理特性物理特性n听觉特性听觉特性n声音信号数字化声音信号数字化
2、n声音质量评价声音质量评价现在学习的是第3页,共92页(1 1)声音简介)声音简介音频信号音频信号n声音是听觉器官对声波的感知,人们之所以能声音是听觉器官对声波的感知,人们之所以能听到各种声音,是因为不同频率的声波通过空气听到各种声音,是因为不同频率的声波通过空气产生振动,对人耳刺激的结果。产生振动,对人耳刺激的结果。n声波是声源产生的,通过空气或其他媒体传播的连续声波是声源产生的,通过空气或其他媒体传播的连续振动的波。振动的波。n因声波是在时间和幅度上都连续变化的量,声波是因声波是在时间和幅度上都连续变化的量,声波是一种连续变化的模拟信号,可用一条连续的曲线来一种连续变化的模拟信号,可用一条
3、连续的曲线来表示,称为表示,称为声波声波,或者叫做,或者叫做音频信号音频信号。现在学习的是第4页,共92页(1 1)声音简介)声音简介n用函数关系表示模拟声波时,它是在时间和幅度上用函数关系表示模拟声波时,它是在时间和幅度上都是连续的一维模拟信号,如图都是连续的一维模拟信号,如图1所示所示 图图1 1 声音是一种连续的波声音是一种连续的波现在学习的是第5页,共92页(1 1)声音简介)声音简介模拟音频信号基本参数:频率和幅度。模拟音频信号基本参数:频率和幅度。音频信号的幅度是从信号的基线到当前波峰的距离。幅度决音频信号的幅度是从信号的基线到当前波峰的距离。幅度决定了信号音量的强弱程度。幅度越大
4、,声音越强。一般用声定了信号音量的强弱程度。幅度越大,声音越强。一般用声压(达因平方厘米)或声强(瓦特平方厘米)。压(达因平方厘米)或声强(瓦特平方厘米)。声源每秒钟可产生成百上千个波峰,每秒钟波峰所发生的声源每秒钟可产生成百上千个波峰,每秒钟波峰所发生的数目就是音频信号的频率,声音的频率体现音调的高低。数目就是音频信号的频率,声音的频率体现音调的高低。声音的强弱体现在声波压力的大小上,音调的声音的强弱体现在声波压力的大小上,音调的高低体现在声音的频率上。高低体现在声音的频率上。现在学习的是第6页,共92页(1 1)声音简介)声音简介声音的量化参数:声音的量化参数:强度:强度:dB 动物的呼吸
5、声大约为动物的呼吸声大约为20dB,人们正常谈话的声音约为,人们正常谈话的声音约为60dB,汽车,汽车鸣笛的声音约为鸣笛的声音约为100dB,飞机起飞的声音约为,飞机起飞的声音约为120dB,超过,超过120dB会使人感到痛苦。会使人感到痛苦。频率:频率:Hz 高保真声音高保真声音(high-fidelity audio):10 20 000 Hz 声音声音(audio):20 20 000Hz 话音话音(speech):3003000/3400 Hz 亚音亚音/次音次音(subsonic):20 000 Hz相位相位:波的位置。波的位置。复杂的声音是由多个不同振幅、频率、相位的正弦波组成复杂
6、的声音是由多个不同振幅、频率、相位的正弦波组成现在学习的是第7页,共92页(1 1)声音简介)声音简介n声音的听觉特性:声音的听觉特性:n目前主要研究人的心理声学和语言声学特目前主要研究人的心理声学和语言声学特性。性。n听觉心理的主观感受包括:响度、音高、听觉心理的主观感受包括:响度、音高、音色、音量、噪声、听觉掩蔽、定位等。音色、音量、噪声、听觉掩蔽、定位等。现在学习的是第8页,共92页(1 1)声音简介)声音简介n对响度的感知对响度的感知声音的响度就是声音的强弱声音的响度就是声音的强弱在物理上,用在物理上,用dyn/cm2(达因达因/平方厘米平方厘米)(声压声压)或或W/cm2(瓦特瓦特/
7、平方厘米平方厘米)(声强声强)度量度量在心理上,主观感觉的声音强弱使用响度级在心理上,主观感觉的声音强弱使用响度级“方方(phon)”或或“宋宋(sone)”来度量来度量这两种计量单位完全不同,但它们之间有一定的这两种计量单位完全不同,但它们之间有一定的联系联系人耳的听觉范围人耳的听觉范围n听阈:当声音弱到人耳朵刚可听见时的声音强度听阈:当声音弱到人耳朵刚可听见时的声音强度n痛域:声音强到使人耳感到疼痛时的声音强度痛域:声音强到使人耳感到疼痛时的声音强度n听觉范围:位于听阈和痛域之间,见图听觉范围:位于听阈和痛域之间,见图2 现在学习的是第9页,共92页(1 1)声音简介)声音简介图图2 2“
8、听阈听阈频率频率”曲线和曲线和“痛阈痛阈频率频率”曲线曲线现在学习的是第10页,共92页(1 1)声音简介声音简介n对音高对音高(频率频率)的感知的感知n客观上用频率表示声音的音高,其单位是客观上用频率表示声音的音高,其单位是Hz。而主观感觉的音高单位则是而主观感觉的音高单位则是“美美(Mel)”。Hz和和Mel不同但有联系不同但有联系n主观音高与客观音高的关系为主观音高与客观音高的关系为其中,其中,f 的单位为的单位为HzHz,人耳对频率的感知范围,可以听到人耳对频率的感知范围,可以听到最低频率约最低频率约20 Hz最高频率约最高频率约20000 Hz 现在学习的是第11页,共92页(1 1
9、)声音简介声音简介n测量主观音高时,让实验者听两个声强级为测量主观音高时,让实验者听两个声强级为40dB的纯音,的纯音,固定其中一个纯音的频率,调节另一个纯音的频率,直到他感固定其中一个纯音的频率,调节另一个纯音的频率,直到他感到后者的音高为前者的两倍,就标定这两个声音的音高差为两到后者的音高为前者的两倍,就标定这两个声音的音高差为两倍。测出的倍。测出的“音高音高频率频率”曲线见图曲线见图3 图图3 3“音高音高频率频率”曲线曲线现在学习的是第12页,共92页(1 1)声音简介)声音简介n掩蔽效应掩蔽效应n一种频率的声音阻碍听觉系统感受另一种频率的一种频率的声音阻碍听觉系统感受另一种频率的声音
10、的现象声音的现象n前者称为掩蔽声音前者称为掩蔽声音(masking tone)n后者称为被掩蔽声音后者称为被掩蔽声音(masked tone)n掩蔽可分成频域掩蔽和时域掩蔽掩蔽可分成频域掩蔽和时域掩蔽现在学习的是第13页,共92页(1 1)声音简介声音简介图图4 4 频域掩蔽频域掩蔽频域掩蔽频域掩蔽一个强纯音掩蔽在其附近同时发声的弱纯音的特性,一个强纯音掩蔽在其附近同时发声的弱纯音的特性,也称同时掩蔽也称同时掩蔽(simultaneous masking),如图如图4所所示示 现在学习的是第14页,共92页(1 1)声音简介)声音简介n图图5中的一组曲线表示为中的一组曲线表示为250 Hz,1
11、 kHz和和4 kHz纯音纯音的掩蔽效应,它们的声强均为的掩蔽效应,它们的声强均为60 dBn250 Hz,1 kHz和和4 kHz附近,对其他纯音的掩蔽效果最明显附近,对其他纯音的掩蔽效果最明显n低频纯音可有效地掩蔽高频纯音,相反则不明显低频纯音可有效地掩蔽高频纯音,相反则不明显 图图5 5 不同纯音的掩蔽效应曲线不同纯音的掩蔽效应曲线现在学习的是第15页,共92页(1 1)声音简介)声音简介n时域掩蔽时域掩蔽n在时间上相邻的声音之间的掩蔽现象在时间上相邻的声音之间的掩蔽现象n一个强掩蔽音出现前、同时存在时或消失后的掩蔽一个强掩蔽音出现前、同时存在时或消失后的掩蔽效果产生时域掩蔽的主要原因效
12、果产生时域掩蔽的主要原因n人的大脑处理信息需要花费一定的时间人的大脑处理信息需要花费一定的时间现在学习的是第16页,共92页(1 1)声音简介)声音简介n同时掩蔽同时掩蔽(simultaneous masking):信号和掩蔽音同时产生的现:信号和掩蔽音同时产生的现象象n滞后掩蔽滞后掩蔽(post-masking):信号出现在掩蔽音消失后出现的现:信号出现在掩蔽音消失后出现的现象,可以持续象,可以持续50200 ms n超前掩蔽超前掩蔽(pre-masking):信号出现在掩蔽音出现之前产生的现:信号出现在掩蔽音出现之前产生的现象。虽然对超前掩蔽有许多研究报告,但这种现象依然令人费解。象。虽然
13、对超前掩蔽有许多研究报告,但这种现象依然令人费解。超前掩蔽很短,通常只有大约超前掩蔽很短,通常只有大约220 ms,现在学习的是第17页,共92页(1 1)声音简介)声音简介n临界频带临界频带(critical band)n当噪声掩蔽纯音时,起作用的是以纯音频率为中心频率的一定频带宽度内的噪声频率。如这频带内的噪声功率等于在噪声中刚能听到的该纯音的功率,则这频带就称为听觉听觉临界频带临界频带。n临界频带表征了人类最主要的听觉特性,它是在研究纯音对窄带噪声掩蔽量的规律时被发现的,在加宽噪声带宽时,最初是掩蔽量增大,但带宽超过某一定值后,掩蔽量就不再增加,这一带宽就称为临界频带临界频带。n通常认为
14、声音(audio)有25个临界频带,见表n临界频带的宽度随声音频率的变化而变化现在学习的是第18页,共92页(1 1)声音简介)声音简介现在学习的是第19页,共92页(2 2)模拟音频的数字化模拟音频的数字化数字化的概念数字化的概念n如果要用计算机对音频信息进行处理,则首先要通过如果要用计算机对音频信息进行处理,则首先要通过A/D(模(模/数)转换将模拟音频信号变成数字信号,实现音频信数)转换将模拟音频信号变成数字信号,实现音频信号的数字化。号的数字化。n数字化的声音易于用计算机软件处理,现在几乎所有数字化的声音易于用计算机软件处理,现在几乎所有的专业化声音录制器、编辑器都是数字的。的专业化声
15、音录制器、编辑器都是数字的。n对模拟音频的数字化过程涉及到音频的对模拟音频的数字化过程涉及到音频的采样、量化和编码采样、量化和编码。n当需要播放数字音频时,按照相反过程还原回模拟音当需要播放数字音频时,按照相反过程还原回模拟音频频现在学习的是第20页,共92页声音信号的数字化过程声音信号的数字化过程模拟模拟声音声音信号信号采样采样量量 化化编编 码码数字数字声音声音011010011101现在学习的是第21页,共92页(a)采样和量化采样和量化连续时间的离散化通过采样来实现,就是每隔相等的一段时连续时间的离散化通过采样来实现,就是每隔相等的一段时间采样一次,这种采样称为均匀采样间采样一次,这种
16、采样称为均匀采样连续幅度的离散化通过量化连续幅度的离散化通过量化(quantization)来实现,就是把来实现,就是把信号的强度划分成一小段一小段,如果幅度的划分是等间隔的,信号的强度划分成一小段一小段,如果幅度的划分是等间隔的,就称为线性量化,否则就称为非线性量化。就称为线性量化,否则就称为非线性量化。现在学习的是第22页,共92页图图7 7 声音的采样、量化、编码声音的采样、量化、编码现在学习的是第23页,共92页(2 2)模拟音频的数字化模拟音频的数字化n影响数字音频质量的因素:影响数字音频质量的因素:n采样精度采样精度n采样频率采样频率n声道个数声道个数现在学习的是第24页,共92页
17、(2 2)模拟音频的数字化模拟音频的数字化采样频率采样频率采样频率由根据奈奎斯特理论采样频率由根据奈奎斯特理论(Nyquist theory)确确定定奈奎斯特理论指出,采样频率不应低于声音信号最高频率的两倍,奈奎斯特理论指出,采样频率不应低于声音信号最高频率的两倍,这样就能把以数字表达的声音还原成原来的声音,这叫做无损数这样就能把以数字表达的声音还原成原来的声音,这叫做无损数字化字化(lossless digitization)假设被采样信号的最高频率为假设被采样信号的最高频率为fmax,则采样定律可用公,则采样定律可用公式表示为式表示为现在学习的是第25页,共92页(2 2)模拟音频的数字化
18、模拟音频的数字化n采样精度采样精度n度量声音波形幅度的精确程度,用每个声音样本的位度量声音波形幅度的精确程度,用每个声音样本的位数表示数表示n例如每个声音样本用例如每个声音样本用16位表示,测得的声音样本值是在位表示,测得的声音样本值是在065535范围里的数,它的精度是范围里的数,它的精度是1/65536n精度是在模拟信号数字化过程中度量模拟信号的最小单位,精度是在模拟信号数字化过程中度量模拟信号的最小单位,因此也称量化阶因此也称量化阶(quantization step size)n01 V的电压用的电压用256个数表示时,量化阶等于个数表示时,量化阶等于1/256 Vn样本位数的大小影响
19、到声音的质量,位数越多,声音质量越样本位数的大小影响到声音的质量,位数越多,声音质量越高,所需存储空间也越多;位数越少,声音质量就越低,所高,所需存储空间也越多;位数越少,声音质量就越低,所需存储空间也越少需存储空间也越少 现在学习的是第26页,共92页(2 2)模拟音频的数字化模拟音频的数字化n声音质量和数据率声音质量和数据率质量度量质量度量质量质量采样频率采样频率(kHz)样本精度样本精度(bit/s)单道声单道声/立立体声体声(未压缩的未压缩的)数据率数据率(kb/s)频率范围频率范围(Hz)电话电话*88单道声单道声64.0 2003 400AM11.0258单道声单道声88.2201
20、5000FM22.05016立体声立体声705.6507000CD44.116立体声立体声1411.22020000DAT4816立体声立体声1536.02020000现在学习的是第27页,共92页(b b)编码)编码 所谓编码,就是按照一定的格式把经过采样和量化得到所谓编码,就是按照一定的格式把经过采样和量化得到的离散数据记录下来,用二进制数据表示,以后续达到可以的离散数据记录下来,用二进制数据表示,以后续达到可以形成数据文件进行存储的目的。并在有效的数据中加入一些形成数据文件进行存储的目的。并在有效的数据中加入一些用于纠错同步和控制的数据。在数据回放时,可以根据所记用于纠错同步和控制的数据
21、。在数据回放时,可以根据所记录的纠错数据判别读出的声音数据是否有错,如果有错,可录的纠错数据判别读出的声音数据是否有错,如果有错,可加以纠正。加以纠正。音频信号编码常用的是音频信号编码常用的是波形编码波形编码方法,它是直接对波方法,它是直接对波形采样、量化和编码,算法简单,易于实现。而且,声音恢形采样、量化和编码,算法简单,易于实现。而且,声音恢复时能保持原有的特点,因此被广泛应用。复时能保持原有的特点,因此被广泛应用。此外还有此外还有参数编码、混合编码参数编码、混合编码等。等。(2 2)模拟音频的数字化模拟音频的数字化现在学习的是第28页,共92页编码方法编码方法(1)PCM(Pulse C
22、ode Modulation)脉冲编码调制)脉冲编码调制nPCM简称脉码调制,可以直接对声音信号做简称脉码调制,可以直接对声音信号做A/D转换,用一组二转换,用一组二进制数字编码表示,得到的是未经压缩的音频数据。这是一种进制数字编码表示,得到的是未经压缩的音频数据。这是一种最常用、最简单的编码方法。最常用、最简单的编码方法。nPCM编码方法不需要复杂的信号处理技术就能实现瞬时的数据的量编码方法不需要复杂的信号处理技术就能实现瞬时的数据的量化和还原,而且信噪比高。化和还原,而且信噪比高。n在解码后恢复的声音,只要采样频率足够高,量化位数足在解码后恢复的声音,只要采样频率足够高,量化位数足够多,就
23、会有很好的质量。但是,这种对声音信号直接量化够多,就会有很好的质量。但是,这种对声音信号直接量化的方法编码数据量很大,需要很高的传输速率。的方法编码数据量很大,需要很高的传输速率。现在学习的是第29页,共92页编码方法编码方法PCM是概念上最简单、理论上最完善、最早研制成功、使是概念上最简单、理论上最完善、最早研制成功、使用最为广泛、数据量最大的编码系统。用最为广泛、数据量最大的编码系统。目前的声卡一般都具有目前的声卡一般都具有PCM编码和解码的功能。激光唱盘编码和解码的功能。激光唱盘(CD-DA)记录声音时就采用这种方法,存储未经压缩)记录声音时就采用这种方法,存储未经压缩的数字音频信号。的
24、数字音频信号。现在学习的是第30页,共92页编码方法编码方法算法思想:首先对音频信号进行算法思想:首先对音频信号进行律或律或A律压扩,也就是放律压扩,也就是放大小信号,抑制大信号,然后进行均匀量化,等效于对大小信号,抑制大信号,然后进行均匀量化,等效于对小信号进行小量化级量化,对大信号进行大量化级量化,小信号进行小量化级量化,对大信号进行大量化级量化,使大小信号的量化信噪比趋于接近,从而避免了小信号使大小信号的量化信噪比趋于接近,从而避免了小信号产生较大的量化噪声误差,而大信号却有不必要的高量产生较大的量化噪声误差,而大信号却有不必要的高量化信噪比。化信噪比。现在学习的是第31页,共92页编码
25、方法编码方法脉冲编码调制(PCM)n输入是模拟信号,输出是输入是模拟信号,输出是PCM样本。样本。n防失真滤波器:低通滤波器,用来滤除声音频带以外的信号防失真滤波器:低通滤波器,用来滤除声音频带以外的信号n波形编码器:可理解为采样器波形编码器:可理解为采样器n量化器:可理解为量化器:可理解为“量化阶大小量化阶大小(step-size)”生成器或者称为生成器或者称为“量化间隔量化间隔”生成器。生成器。nPCM实际上是模拟信号数字化。实际上是模拟信号数字化。现在学习的是第32页,共92页量化的方法量化的方法:均匀量化、非均匀量化均匀量化、非均匀量化n均匀量化均匀量化n采用相等的量化间隔采用相等的量
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 处理 基本知识
限制150内