语音处理的基本知识精选课件.ppt
《语音处理的基本知识精选课件.ppt》由会员分享,可在线阅读,更多相关《语音处理的基本知识精选课件.ppt(92页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于语音处理的基本知识第一页,本课件共有92页音频处理技术的研究意义音频处理技术的研究意义声音声音(音频音频)是信息交流的一种主要手段,是数字媒体是信息交流的一种主要手段,是数字媒体信息的重要组成部分;信息的重要组成部分;信息技术、计算机技术和网络技术的迅猛发展,使音信息技术、计算机技术和网络技术的迅猛发展,使音频处理技术受到重视并得到广泛应用,需求也日益多频处理技术受到重视并得到广泛应用,需求也日益多样。样。第二页,本课件共有92页2.1 2.1 数字音频基础数字音频基础n声音的物理描述声音的物理描述n产生原理产生原理n物理特性物理特性n听觉特性听觉特性n声音信号数字化声音信号数字化n声音质
2、量评价声音质量评价第三页,本课件共有92页(1 1)声音简介)声音简介音频信号音频信号n声音是听觉器官对声波的感知,人们之所以能听声音是听觉器官对声波的感知,人们之所以能听到各种声音,是因为不同频率的声波通过空气产到各种声音,是因为不同频率的声波通过空气产生振动,对人耳刺激的结果。生振动,对人耳刺激的结果。n声波是声源产生的,通过空气或其他媒体传播的声波是声源产生的,通过空气或其他媒体传播的连续振动的波。连续振动的波。n因声波是在时间和幅度上都连续变化的量,声波因声波是在时间和幅度上都连续变化的量,声波是一种连续变化的模拟信号,可用一条连续的曲线是一种连续变化的模拟信号,可用一条连续的曲线来表
3、示,称为来表示,称为声波声波,或者叫做,或者叫做音频信号音频信号。第四页,本课件共有92页(1 1)声音简介)声音简介n用函数关系表示模拟声波时,它是在时间和幅度用函数关系表示模拟声波时,它是在时间和幅度上都是连续的一维模拟信号,如图上都是连续的一维模拟信号,如图1所示所示 图图1 1 声音是一种连续的波声音是一种连续的波第五页,本课件共有92页(1 1)声音简介)声音简介模拟音频信号基本参数:频率和幅度。模拟音频信号基本参数:频率和幅度。音频信号的幅度是从信号的基线到当前波峰的距离。幅度决定音频信号的幅度是从信号的基线到当前波峰的距离。幅度决定了信号音量的强弱程度。幅度越大,声音越强。一般用
4、声压了信号音量的强弱程度。幅度越大,声音越强。一般用声压(达因平方厘米)或声强(瓦特平方厘米)。(达因平方厘米)或声强(瓦特平方厘米)。声源每秒钟可产生成百上千个波峰,每秒钟波峰所发生的数目声源每秒钟可产生成百上千个波峰,每秒钟波峰所发生的数目就是音频信号的频率,声音的频率体现音调的高低。就是音频信号的频率,声音的频率体现音调的高低。声音的强弱体现在声波压力的大小上,音调声音的强弱体现在声波压力的大小上,音调的高低体现在声音的频率上。的高低体现在声音的频率上。第六页,本课件共有92页(1 1)声音简介)声音简介声音的量化参数:声音的量化参数:强度:强度:dB 动物的呼吸声大约为动物的呼吸声大约
5、为20dB,人们正常谈话的声音约为,人们正常谈话的声音约为60dB,汽车鸣笛的声音约为,汽车鸣笛的声音约为100dB,飞机起飞的声音约为,飞机起飞的声音约为120dB,超过,超过120dB会使人感到痛苦。会使人感到痛苦。频率:频率:Hz 高保真声音高保真声音(high-fidelity audio):10 20 000 Hz 声音声音(audio):20 20 000Hz 话音话音(speech):3003000/3400 Hz 亚音亚音/次音次音(subsonic):20 000 Hz相位相位:波的位置。波的位置。复杂的声音是由多个不同振幅、频率、相位的正弦波复杂的声音是由多个不同振幅、频率
6、、相位的正弦波组成组成第七页,本课件共有92页(1 1)声音简介)声音简介n声音的听觉特性:声音的听觉特性:n目前主要研究人的心理声学和语言声学特性。目前主要研究人的心理声学和语言声学特性。n听觉心理的主观感受包括:响度、音高、听觉心理的主观感受包括:响度、音高、音色、音量、噪声、听觉掩蔽、定位等。音色、音量、噪声、听觉掩蔽、定位等。第八页,本课件共有92页(1 1)声音简介)声音简介n对响度的感知对响度的感知声音的响度就是声音的强弱声音的响度就是声音的强弱在物理上,用在物理上,用dyn/cm2(达因达因/平方厘米平方厘米)(声压声压)或或W/cm2(瓦特瓦特/平方厘米平方厘米)(声强声强)度
7、量度量在心理上,主观感觉的声音强弱使用响度级在心理上,主观感觉的声音强弱使用响度级“方方(phon)”或或“宋宋(sone)”来度量来度量这两种计量单位完全不同,但它们之间有一定的联系这两种计量单位完全不同,但它们之间有一定的联系人耳的听觉范围人耳的听觉范围n听阈:当声音弱到人耳朵刚可听见时的声音强度听阈:当声音弱到人耳朵刚可听见时的声音强度n痛域:声音强到使人耳感到疼痛时的声音强度痛域:声音强到使人耳感到疼痛时的声音强度n听觉范围:位于听阈和痛域之间,见图听觉范围:位于听阈和痛域之间,见图2 第九页,本课件共有92页(1 1)声音简介)声音简介图图2 2“听阈听阈频率频率”曲线和曲线和“痛阈
8、痛阈频率频率”曲线曲线第十页,本课件共有92页(1 1)声音简介声音简介n对音高对音高(频率频率)的感知的感知n客观上用频率表示声音的音高,其单位是客观上用频率表示声音的音高,其单位是Hz。而主观感觉的音高单位则是而主观感觉的音高单位则是“美美(Mel)”。Hz和和Mel不同但有联系不同但有联系n主观音高与客观音高的关系为主观音高与客观音高的关系为其中,其中,f 的单位为的单位为HzHz,人耳对频率的感知范围,可以听到人耳对频率的感知范围,可以听到最低频率约最低频率约20 Hz最高频率约最高频率约20000 Hz 第十一页,本课件共有92页(1 1)声音简介声音简介n测量主观音高时,让实验者听
9、两个声强级为测量主观音高时,让实验者听两个声强级为40dB的纯音,的纯音,固定其中一个纯音的频率,调节另一个纯音的频率,直到他感到固定其中一个纯音的频率,调节另一个纯音的频率,直到他感到后者的音高为前者的两倍,就标定这两个声音的音高差为两倍。后者的音高为前者的两倍,就标定这两个声音的音高差为两倍。测出的测出的“音高音高频率频率”曲线见图曲线见图3 图图3 3“音高音高频率频率”曲线曲线第十二页,本课件共有92页(1 1)声音简介)声音简介n掩蔽效应掩蔽效应n一种频率的声音阻碍听觉系统感受另一种频率一种频率的声音阻碍听觉系统感受另一种频率的声音的现象的声音的现象n前者称为掩蔽声音前者称为掩蔽声音
10、(masking tone)n后者称为被掩蔽声音后者称为被掩蔽声音(masked tone)n掩蔽可分成频域掩蔽和时域掩蔽掩蔽可分成频域掩蔽和时域掩蔽第十三页,本课件共有92页(1 1)声音简介声音简介图图4 4 频域掩蔽频域掩蔽频域掩蔽频域掩蔽一个强纯音掩蔽在其附近同时发声的弱纯音的特性,也一个强纯音掩蔽在其附近同时发声的弱纯音的特性,也称同时掩蔽称同时掩蔽(simultaneous masking),如图如图4所示所示 第十四页,本课件共有92页(1 1)声音简介)声音简介n图图5中的一组曲线表示为中的一组曲线表示为250 Hz,1 kHz和和4 kHz纯纯音的掩蔽效应,它们的声强均为音的
11、掩蔽效应,它们的声强均为60 dBn250 Hz,1 kHz和和4 kHz附近,对其他纯音的掩蔽效果最明显附近,对其他纯音的掩蔽效果最明显n低频纯音可有效地掩蔽高频纯音,相反则不明显低频纯音可有效地掩蔽高频纯音,相反则不明显 图图5 5 不同纯音的掩蔽效应曲线不同纯音的掩蔽效应曲线第十五页,本课件共有92页(1 1)声音简介)声音简介n时域掩蔽时域掩蔽n在时间上相邻的声音之间的掩蔽现象在时间上相邻的声音之间的掩蔽现象n一个强掩蔽音出现前、同时存在时或消失后的掩蔽效一个强掩蔽音出现前、同时存在时或消失后的掩蔽效果产生时域掩蔽的主要原因果产生时域掩蔽的主要原因n人的大脑处理信息需要花费一定的时间人
12、的大脑处理信息需要花费一定的时间第十六页,本课件共有92页(1 1)声音简介)声音简介n同时掩蔽同时掩蔽(simultaneous masking):信号和掩蔽音同时产生:信号和掩蔽音同时产生的现象的现象n滞后掩蔽滞后掩蔽(post-masking):信号出现在掩蔽音消失后出现的:信号出现在掩蔽音消失后出现的现象,可以持续现象,可以持续50200 ms n超前掩蔽超前掩蔽(pre-masking):信号出现在掩蔽音出现之前产生的:信号出现在掩蔽音出现之前产生的现象。虽然对超前掩蔽有许多研究报告,但这种现象依然令人费现象。虽然对超前掩蔽有许多研究报告,但这种现象依然令人费解。超前掩蔽很短,通常只
13、有大约解。超前掩蔽很短,通常只有大约220 ms,第十七页,本课件共有92页(1 1)声音简介)声音简介n临界频带临界频带(critical band)n当噪声掩蔽纯音时,起作用的是以纯音频率为中心频率的一定频带宽度内的噪声频率。如这频带内的噪声功率等于在噪声中刚能听到的该纯音的功率,则这频带就称为听觉临界频带听觉临界频带。n临界频带表征了人类最主要的听觉特性,它是在研究纯音对窄带噪声掩蔽量的规律时被发现的,在加宽噪声带宽时,最初是掩蔽量增大,但带宽超过某一定值后,掩蔽量就不再增加,这一带宽就称为临界频带临界频带。n通常认为声音(audio)有25个临界频带,见表n临界频带的宽度随声音频率的变
14、化而变化第十八页,本课件共有92页(1 1)声音简介)声音简介第十九页,本课件共有92页(2 2)模拟音频的数字化模拟音频的数字化数字化的概念数字化的概念n如果要用计算机对音频信息进行处理,则首先要通过如果要用计算机对音频信息进行处理,则首先要通过A/D(模(模/数)转换将模拟音频信号变成数字信号,实数)转换将模拟音频信号变成数字信号,实现音频信号的数字化。现音频信号的数字化。n数字化的声音易于用计算机软件处理,现在几乎所数字化的声音易于用计算机软件处理,现在几乎所有的专业化声音录制器、编辑器都是数字的。有的专业化声音录制器、编辑器都是数字的。n对模拟音频的数字化过程涉及到音频的对模拟音频的数
15、字化过程涉及到音频的采样、量化采样、量化和编码和编码。n当需要播放数字音频时,按照相反过程还原回模拟当需要播放数字音频时,按照相反过程还原回模拟音频音频第二十页,本课件共有92页声音信号的数字化过程声音信号的数字化过程模拟模拟声音声音信号信号采样采样量量 化化编编 码码数字数字声音声音011010011101第二十一页,本课件共有92页(a)采样和量化采样和量化连续时间的离散化通过采样来实现,就是每隔相等的连续时间的离散化通过采样来实现,就是每隔相等的一段时间采样一次,这种采样称为均匀采样一段时间采样一次,这种采样称为均匀采样连续幅度的离散化通过量化连续幅度的离散化通过量化(quantizat
16、ion)来实现,就是把来实现,就是把信号的强度划分成一小段一小段,如果幅度的划分是等间信号的强度划分成一小段一小段,如果幅度的划分是等间隔的,就称为线性量化,否则就称为非线性量化。隔的,就称为线性量化,否则就称为非线性量化。第二十二页,本课件共有92页图图7 7 声音的采样、量化、编码声音的采样、量化、编码第二十三页,本课件共有92页(2 2)模拟音频的数字化模拟音频的数字化n影响数字音频质量的因素:影响数字音频质量的因素:n采样精度采样精度n采样频率采样频率n声道个数声道个数第二十四页,本课件共有92页(2 2)模拟音频的数字化模拟音频的数字化采样频率采样频率采样频率由根据奈奎斯特理论采样频
17、率由根据奈奎斯特理论(Nyquist theory)确确定定奈奎斯特理论指出,采样频率不应低于声音信号最高频率奈奎斯特理论指出,采样频率不应低于声音信号最高频率的两倍,这样就能把以数字表达的声音还原成原来的声的两倍,这样就能把以数字表达的声音还原成原来的声音,这叫做无损数字化音,这叫做无损数字化(lossless digitization)假设被采样信号的最高频率为假设被采样信号的最高频率为fmax,则采样定律可,则采样定律可用公式表示为用公式表示为第二十五页,本课件共有92页(2 2)模拟音频的数字化模拟音频的数字化n采样精度采样精度n度量声音波形幅度的精确程度,用每个声音样本的位度量声音波
18、形幅度的精确程度,用每个声音样本的位数表示数表示n例如每个声音样本用例如每个声音样本用16位表示,测得的声音样本值是在位表示,测得的声音样本值是在065535范围里的数,它的精度是范围里的数,它的精度是1/65536n精度是在模拟信号数字化过程中度量模拟信号的最小单位,精度是在模拟信号数字化过程中度量模拟信号的最小单位,因此也称量化阶因此也称量化阶(quantization step size)n01 V的电压用的电压用256个数表示时,量化阶等于个数表示时,量化阶等于1/256 Vn样本位数的大小影响到声音的质量,位数越多,样本位数的大小影响到声音的质量,位数越多,声音质量越高,所需存储空间
19、也越多;位数越少,声音质量越高,所需存储空间也越多;位数越少,声音质量就越低,所需存储空间也越少声音质量就越低,所需存储空间也越少 第二十六页,本课件共有92页(2 2)模拟音频的数字化模拟音频的数字化n声音质量和数据率声音质量和数据率质量度量质量度量质量质量采样频率采样频率(kHz)样本精度样本精度(bit/s)单道声单道声/立立体声体声(未压缩的未压缩的)数据率数据率(kb/s)频率范围频率范围(Hz)电话电话*88单道声单道声64.0 2003 400AM11.0258单道声单道声88.22015000FM22.05016立体声立体声705.6507000CD44.116立体声立体声14
20、11.22020000DAT4816立体声立体声1536.02020000第二十七页,本课件共有92页(b b)编码)编码 所谓编码,就是按照一定的格式把经过采样和量化得到所谓编码,就是按照一定的格式把经过采样和量化得到的离散数据记录下来,用二进制数据表示,以后续达到可以形的离散数据记录下来,用二进制数据表示,以后续达到可以形成数据文件进行存储的目的。并在有效的数据中加入一些用于成数据文件进行存储的目的。并在有效的数据中加入一些用于纠错同步和控制的数据。在数据回放时,可以根据所记录的纠纠错同步和控制的数据。在数据回放时,可以根据所记录的纠错数据判别读出的声音数据是否有错,如果有错,可加以纠正。
21、错数据判别读出的声音数据是否有错,如果有错,可加以纠正。音频信号编码常用的是音频信号编码常用的是波形编码波形编码方法,它是直接对波方法,它是直接对波形采样、量化和编码,算法简单,易于实现。而且,声音形采样、量化和编码,算法简单,易于实现。而且,声音恢复时能保持原有的特点,因此被广泛应用。恢复时能保持原有的特点,因此被广泛应用。此外还有此外还有参数编码、混合编码参数编码、混合编码等。等。(2 2)模拟音频的数字化模拟音频的数字化第二十八页,本课件共有92页编码方法编码方法(1)PCM(Pulse Code Modulation)脉冲编码调制)脉冲编码调制nPCM简称脉码调制,可以直接对声音信号做
22、简称脉码调制,可以直接对声音信号做A/D转换,用转换,用一组二进制数字编码表示,得到的是未经压缩的音频数据。一组二进制数字编码表示,得到的是未经压缩的音频数据。这是一种最常用、最简单的编码方法。这是一种最常用、最简单的编码方法。nPCM编码方法不需要复杂的信号处理技术就能实现瞬时的数据编码方法不需要复杂的信号处理技术就能实现瞬时的数据的量化和还原,而且信噪比高。的量化和还原,而且信噪比高。n在解码后恢复的声音,只要采样频率足够高,量化位数足够在解码后恢复的声音,只要采样频率足够高,量化位数足够多,就会有很好的质量。但是,这种对声音信号直接量化的方多,就会有很好的质量。但是,这种对声音信号直接量
23、化的方法编码数据量很大,需要很高的传输速率。法编码数据量很大,需要很高的传输速率。第二十九页,本课件共有92页编码方法编码方法PCM是概念上最简单、理论上最完善、最早研制成功、使是概念上最简单、理论上最完善、最早研制成功、使用最为广泛、数据量最大的编码系统。用最为广泛、数据量最大的编码系统。目前的声卡一般都具有目前的声卡一般都具有PCM编码和解码的功能。激光唱盘编码和解码的功能。激光唱盘(CD-DA)记录声音时就采用这种方法,存储未经压缩的)记录声音时就采用这种方法,存储未经压缩的数字音频信号。数字音频信号。第三十页,本课件共有92页编码方法编码方法算法思想:首先对音频信号进行算法思想:首先对
24、音频信号进行律或律或A律压扩,也就是放律压扩,也就是放大小信号,抑制大信号,然后进行均匀量化,等效于对小信大小信号,抑制大信号,然后进行均匀量化,等效于对小信号进行小量化级量化,对大信号进行大量化级量化,使大小号进行小量化级量化,对大信号进行大量化级量化,使大小信号的量化信噪比趋于接近,从而避免了小信号产生较大的信号的量化信噪比趋于接近,从而避免了小信号产生较大的量化噪声误差,而大信号却有不必要的高量化信噪比。量化噪声误差,而大信号却有不必要的高量化信噪比。第三十一页,本课件共有92页编码方法编码方法脉冲编码调制(PCM)n输入是模拟信号,输出是输入是模拟信号,输出是PCM样本。样本。n防失真
25、滤波器:低通滤波器,用来滤除声音频带以外的信号防失真滤波器:低通滤波器,用来滤除声音频带以外的信号n波形编码器:可理解为采样器波形编码器:可理解为采样器n量化器:可理解为量化器:可理解为“量化阶大小量化阶大小(step-size)”生成器或者称为生成器或者称为“量化量化间隔间隔”生成器。生成器。nPCM实际上是模拟信号数字化。实际上是模拟信号数字化。第三十二页,本课件共有92页量化的方法量化的方法:均匀量化、非均匀量化均匀量化、非均匀量化n均匀量化均匀量化n采用相等的量化间隔采用相等的量化间隔/等分尺度量采样得到的信号等分尺度量采样得到的信号幅度,也称为线性量化。量化后的样本值幅度,也称为线性
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 处理 基本知识 精选 课件
限制150内