多媒体技术应用2音频处理技术(陈永强).ppt
《多媒体技术应用2音频处理技术(陈永强).ppt》由会员分享,可在线阅读,更多相关《多媒体技术应用2音频处理技术(陈永强).ppt(77页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、多媒体技术应用2音频处理技术(陈永强) Four short words sum up what has lifted most successful Four short words sum up what has lifted most successful individuals above the crowd: a little bit more. individuals above the crowd: a little bit more. -author -author -date-date第二章第二章 音频处理技术音频处理技术n2.1 音频基本原理音频基本原理 2.1.1 人类听
2、觉特性人类听觉特性 2.1.2 数字音频数字音频 2.1.3 声音声音 2.1.4 语音语音n2.2常用音频压缩标准常用音频压缩标准2.2.1音频压缩基础音频压缩基础2.2.2常用音频压缩标准常用音频压缩标准2.2.3音频文件格式音频文件格式n2.3音频处理软件音频处理软件Audition2.3.1功能介绍功能介绍2.3.2编辑环境编辑环境2.3.3基本操作基本操作第二章第二章 音频处理技术音频处理技术n2.1 音频基本原理音频基本原理2.1.1 人类听觉特性人类听觉特性2.1.2 数字音频数字音频2.1.3 声音声音2.1.4 语音语音近十年来,随着计算机技术的高速发展,以及能同近十年来,随
3、着计算机技术的高速发展,以及能同时满足数字信号的高压缩率和数字信号的高保真时满足数字信号的高压缩率和数字信号的高保真透明重放质量的压缩算法及标准得到大量开发与透明重放质量的压缩算法及标准得到大量开发与使用,数字音频已经广泛应用于因特网、多媒体使用,数字音频已经广泛应用于因特网、多媒体及无线通信系统,及无线通信系统,CDCD品质的数字音频品质的数字音频已经从根本已经从根本上替代了模拟音频。因此,人们对音频信号数字上替代了模拟音频。因此,人们对音频信号数字化处理提出了越来越高的要求,相应软硬件实现化处理提出了越来越高的要求,相应软硬件实现手段的效率也在不断提高。手段的效率也在不断提高。2.1.1
4、人类听觉特性人类听觉特性音频信号的感知过程与人耳的听觉系统密不可分。音频信号的感知过程与人耳的听觉系统密不可分。对于对于人类听力感知人类听力感知的研究,其范围从人耳的生理的研究,其范围从人耳的生理设计到大脑对听觉信息的解释。当前,大部分感设计到大脑对听觉信息的解释。当前,大部分感知音频的编码算法都是基于心理声学模型的。知音频的编码算法都是基于心理声学模型的。2.1.1 人类听觉特性人类听觉特性1 1听阈与听域听阈与听域2 2音调音调3 3响度和响度级响度和响度级4 4绝对听觉门限绝对听觉门限5 5临界频带临界频带6 6同时掩蔽同时掩蔽7 7异时掩蔽异时掩蔽8 8感知熵感知熵2.1.1 人类听觉
5、特性人类听觉特性1 1听阈与听域听阈与听域听阈(听阈(Auditory ThresholdAuditory Threshold)就是指人能听到的)就是指人能听到的最低最低声压级声压级(Sound Power LevelSound Power Level,SPLSPL)。)。听域(听域(Audible AreaAudible Area)是指)是指人能感知的声音的范围人能感知的声音的范围,正常人耳能够感知的频率范围大致是,正常人耳能够感知的频率范围大致是20Hz20Hz20kHz20kHz;正常人能感知声音的声压级范围是;正常人能感知声音的声压级范围是0 0128dB128dB。图图2-1 2-1
6、 听阈听阈- -频率曲线频率曲线2.1.1 人类听觉特性人类听觉特性2 2音调音调音调(音调(PitchPitch)在物理学中是指)在物理学中是指声音的高低声音的高低,实际上,实际上就是指人耳对不同频率声音的一种主观感受。就是指人耳对不同频率声音的一种主观感受。音音调主要由声音的频率决定调主要由声音的频率决定,同时也与声音强度有,同时也与声音强度有关。频率高的声音,人感觉其音调也较高,反之关。频率高的声音,人感觉其音调也较高,反之,人感知音调低的声音其频率也低。,人感知音调低的声音其频率也低。对音调可以进行定量的判断,其度量单位为对音调可以进行定量的判断,其度量单位为美(美(MelMel),)
7、,定义一个声压级为定义一个声压级为40dB40dB,频率为,频率为1kHz1kHz的的纯音的音调为纯音的音调为1000Mel1000Mel。2.1.1 人类听觉特性人类听觉特性3 3响度和响度级响度和响度级响度(响度(LoudnessLoudness)是)是人耳感受声音强弱人耳感受声音强弱的主观感觉的主观感觉程度,这种感觉与音强、频率和波形都有关系,程度,这种感觉与音强、频率和波形都有关系,其度量单位为宋(其度量单位为宋(SoneSone),定义一个声压级为),定义一个声压级为40dB40dB,频率为,频率为1kHz1kHz的纯音的响度为的纯音的响度为1Sone1Sone。响度级(响度级(Lo
8、udness LevelLoudness Level)是)是指某响度与基准响度相指某响度与基准响度相比的等级比的等级,其度量单位为方(,其度量单位为方(PhonPhon),定义),定义1kHz1kHz纯音的响度级为纯音的响度级为1Phon1Phon。图图2-2 2-2 人耳可听最小响度曲线人耳可听最小响度曲线2.1.1 人类听觉特性人类听觉特性4 4绝对听觉门限绝对听觉门限绝对听觉门限(绝对听觉门限(Absolute Threshold of HearingAbsolute Threshold of Hearing,ATHATH)指一个人在没有噪声的环境下,能够产生)指一个人在没有噪声的环境下
9、,能够产生听觉,感知到一个纯音信号(某频率点)的最小听觉,感知到一个纯音信号(某频率点)的最小能量幅度。能量幅度。 绝对听觉门限用声压级表示,静音为绝对听觉门限用声压级表示,静音为0dB0dB,痛阈为,痛阈为140dB140dB。 图图2-3 2-3 绝对听觉门限曲线绝对听觉门限曲线2.1.1 人类听觉特性人类听觉特性5 5临界频带临界频带指一个纯音可以被以它为中心频率,并且具有一定指一个纯音可以被以它为中心频率,并且具有一定频带宽度的连续噪声所掩蔽,在这一频带内噪声频带宽度的连续噪声所掩蔽,在这一频带内噪声功率等于该纯音的功率。使该纯音处于刚能被听功率等于该纯音的功率。使该纯音处于刚能被听到
10、的临界状态,即称这一带宽为临界频带宽度。到的临界状态,即称这一带宽为临界频带宽度。临界频带的单位为巴克(临界频带的单位为巴克(BarkBark)。)。 2.1.1 人类听觉特性人类听觉特性6 6同时掩蔽同时掩蔽掩蔽效应是指当两个响度不等的声音作用于掩蔽效应是指当两个响度不等的声音作用于人耳时,响度较高的频率成分的存在会影人耳时,响度较高的频率成分的存在会影响到对响度较低的频率成分的感知。响到对响度较低的频率成分的感知。 当两个或更多的音频信号到达人内耳时,掩当两个或更多的音频信号到达人内耳时,掩蔽声与被掩蔽声同时作用发生掩蔽效应,蔽声与被掩蔽声同时作用发生掩蔽效应,就称同时掩蔽。就称同时掩蔽。
11、 2.1.1 人类听觉特性人类听觉特性7 7异时掩蔽异时掩蔽指掩蔽效应发生在掩蔽声与被掩蔽声不同时出现的指掩蔽效应发生在掩蔽声与被掩蔽声不同时出现的情况下。情况下。若掩蔽声音出现之前的一段时间内发生掩蔽效应,若掩蔽声音出现之前的一段时间内发生掩蔽效应,则称为超前掩蔽,否则称为滞后掩蔽。则称为超前掩蔽,否则称为滞后掩蔽。 2.1.1 人类听觉特性人类听觉特性8 8感知熵感知熵感知熵(感知熵(Perceptual EntropyPerceptual Entropy)指利用心理声学的掩)指利用心理声学的掩蔽现象和信号能量化原理来测量音频信号中感知蔽现象和信号能量化原理来测量音频信号中感知相关的信息。
12、一般以位(相关的信息。一般以位(bitbit)作为单位,实际上)作为单位,实际上表示了音频信号压缩的理论极限。表示了音频信号压缩的理论极限。 2.1.2 数字音频数字音频音频信号是音频信号是时间和幅度都连续变化的一维模拟信号时间和幅度都连续变化的一维模拟信号,要想在计算机中对它进行处理,就要将它变成时要想在计算机中对它进行处理,就要将它变成时间和幅度都是离散的数字信号,所以间和幅度都是离散的数字信号,所以数字音频是数字音频是指音频信号经过离散化处理后再用一系列的数字指音频信号经过离散化处理后再用一系列的数字来表示的信号来表示的信号,其特点是保真度好,动态范围大。,其特点是保真度好,动态范围大。
13、数字音频可分为数字音频可分为波形声音波形声音、语音语音和和音乐音乐。波形声音。波形声音实际上包含了所有的声音形式,因此数字音频有实际上包含了所有的声音形式,因此数字音频有时也泛称为声音。时也泛称为声音。n2.1.2 数字音频数字音频用计算机来处理音频信号必须将模拟音频信号转换用计算机来处理音频信号必须将模拟音频信号转换成有限个数字表示的离散序列,过程为:成有限个数字表示的离散序列,过程为:选择采选择采样频率,即进行采样样频率,即进行采样;选择分辨率,即进行量化选择分辨率,即进行量化;最后编码形成声音文件。声音的采样与量化如;最后编码形成声音文件。声音的采样与量化如图所示。图所示。2.1.2 数
14、字音频数字音频1.采样采样采样(采样(SamplingSampling)指把模拟信号在时域上以)指把模拟信号在时域上以固定的时间间隔固定的时间间隔对波形的值进行抽取,再用若干位二进制数表示。对波形的值进行抽取,再用若干位二进制数表示。对声音波形对声音波形采样的频率直接影响声音的质量采样的频率直接影响声音的质量,采样频率越高,采样频率越高,声音保真度越好,但所要求的数据存储量也越大。声音保真度越好,但所要求的数据存储量也越大。根据采样定理,当根据采样定理,当采样频率大于信号最高频率的两倍时采样频率大于信号最高频率的两倍时,在,在采样过程中就不会丢失信息,并且可以用采样后的信号重采样过程中就不会丢
15、失信息,并且可以用采样后的信号重构原始信号,从而不失真地还原出原始的声音信号。构原始信号,从而不失真地还原出原始的声音信号。对于音频,最常用的采样频率有三种:对于音频,最常用的采样频率有三种:44.1kHz44.1kHz、22.05 kHz22.05 kHz和和11.025 kHz11.025 kHz,其中,其中44.1kHz44.1kHz采样频率是最常用的。采样频率是最常用的。声道数是声音通道的个数,指一次采样的声道数是声音通道的个数,指一次采样的声音波形个数声音波形个数。 2.1.2 数字音频数字音频2.量化量化量化(量化(QuantityQuantity)的目的是将采样后的信号波形的)的
16、目的是将采样后的信号波形的幅度值(样本)进行离散化处理,样本从模拟量幅度值(样本)进行离散化处理,样本从模拟量转化成了数字量。转化成了数字量。量化位数越多,所得到的量化值越接近原始波形的量化位数越多,所得到的量化值越接近原始波形的采样值。采样值。量化方式有三种:量化方式有三种:零记忆量化零记忆量化、分组量化分组量化和和序列量序列量化化。2.1.3 声音声音声学是研究声音的学科,包括声波的产生、传播和声学是研究声音的学科,包括声波的产生、传播和接收。物体振动在弹性体里的传播称为接收。物体振动在弹性体里的传播称为波波,而在,而在空气中传播的波就称为空气中传播的波就称为声波声波,能被人的听觉器官,能
17、被人的听觉器官所感觉到的声波叫所感觉到的声波叫声音声音,其频率一般在,其频率一般在20Hz20Hz20kHz20kHz之间。之间。 2.1.3 声音声音声音的三要素是声音的三要素是音调音调、音色音色和和音强音强。 音调是指声音的高低,音调与频率有关。音调是指声音的高低,音调与频率有关。音色是指具有特色的声音。音色是指具有特色的声音。 音强是指声音的强度,也称为声音的响度,音强与音强是指声音的强度,也称为声音的响度,音强与声波的振幅成正比声波的振幅成正比 。2.1.3 声音声音声音的质量简称音质。声音的质量简称音质。1 1)与采样频率有关与采样频率有关。对于数字音频信号,。对于数字音频信号,音质
18、的好音质的好坏与数据采样频率和数据位数有关坏与数据采样频率和数据位数有关。采样频率越。采样频率越低,位数越少,音质越差。低,位数越少,音质越差。2 2)与音频处理设备有关与音频处理设备有关。音响放大器和扬声器的质。音响放大器和扬声器的质量能够直接影响重放的质量。量能够直接影响重放的质量。3 3)与信号噪声比有关与信号噪声比有关。在录音时,音频信号幅度与。在录音时,音频信号幅度与噪声幅度的比值越大越好,否则声音被噪声干扰,噪声幅度的比值越大越好,否则声音被噪声干扰,会影响音质。会影响音质。2.1.3 语音语音图图2-8 2-8 计算机处理语音过程计算机处理语音过程 第二章第二章 音频处理技术音频
19、处理技术n2.2常用音频压缩标准常用音频压缩标准2.2.1音频压缩基础音频压缩基础2.2.2常用音频压缩标准常用音频压缩标准2.2.3音频文件格式音频文件格式2.2.1音频压缩基础音频压缩基础1 1数据压缩条件数据压缩条件2 2数据冗余数据冗余3 3数据压缩算法分类数据压缩算法分类2.2.1音频压缩基础音频压缩基础1 1数据压缩条件数据压缩条件信号之所以能被压缩和编码,其原因主要是:信号之所以能被压缩和编码,其原因主要是:1 1)数据冗余度)数据冗余度2 2)人类不敏感因素)人类不敏感因素3 3)信息传输与存储)信息传输与存储 2.2.1音频压缩基础音频压缩基础2 2数据冗余数据冗余冗余是指信
20、息所具有的各种性质中多余的无用空间冗余是指信息所具有的各种性质中多余的无用空间,其多余的程度称为冗余度。,其多余的程度称为冗余度。 信息量、数据量和冗余量之间的关系如下:信息量、数据量和冗余量之间的关系如下:式中,式中,I I表示信息量,表示信息量,D D表示数据量,表示数据量,dudu表示冗余量表示冗余量,冗余量应在数据存储和传输之前去掉。,冗余量应在数据存储和传输之前去掉。 IDdu2.2.1音频压缩基础音频压缩基础2 2数据冗余数据冗余空间冗余空间冗余时间冗余时间冗余统计冗余统计冗余结构冗余结构冗余信息熵冗余信息熵冗余知识冗余等。知识冗余等。2.2.1音频压缩基础音频压缩基础2 2数据冗
21、余数据冗余空间冗余:空间冗余:一幅图像表面上各采样点的颜色之间往往存在着空一幅图像表面上各采样点的颜色之间往往存在着空间连贯性。间连贯性。图像数据中经常存在的一种冗余,如规则物体和规图像数据中经常存在的一种冗余,如规则物体和规则背景(像素相关性强)。则背景(像素相关性强)。2.2.1音频压缩基础音频压缩基础2数据冗余数据冗余时间冗余:时间冗余:视频和音频中存在的、在时间尺度上相关的一种冗视频和音频中存在的、在时间尺度上相关的一种冗余,如相邻帧之间像素的相关性;语音的连续和余,如相邻帧之间像素的相关性;语音的连续和渐变过程。渐变过程。空间冗余和时间冗余,存在大量的统计特征重复,空间冗余和时间冗余
22、,存在大量的统计特征重复,因此称为统计冗余。因此称为统计冗余。2.2.1音频压缩基础音频压缩基础2数据冗余数据冗余结构冗余:结构冗余:有些图像存在着非常强的纹理结有些图像存在着非常强的纹理结构,我们称它们在结构上存在构,我们称它们在结构上存在冗余。冗余。例如,布纹图像和草席图像。例如,布纹图像和草席图像。2.2.1音频压缩基础音频压缩基础2数据冗余数据冗余信息熵冗余:信息熵冗余:也称为编码冗余,是指数据所携带的信息量少于数也称为编码冗余,是指数据所携带的信息量少于数据本身而反映出来的数据冗余。据本身而反映出来的数据冗余。例如例如: :自然界的很多状态不可能正好用自然界的很多状态不可能正好用2
23、2的整数次幂的整数次幂来表示来表示, ,这样就会造成编码冗余。这样就会造成编码冗余。2.2.1音频压缩基础音频压缩基础2数据冗余数据冗余知识冗余:知识冗余:举例:成语、人脸的图像有固定的结构。举例:成语、人脸的图像有固定的结构。这类规律性的结构可由先验知识和背景知识得到,这类规律性的结构可由先验知识和背景知识得到,我们称此类冗余为知识冗余。我们称此类冗余为知识冗余。2.2.1音频压缩基础音频压缩基础3 3数据压缩算法分类数据压缩算法分类图图2-10 2-10 数据压缩数据压缩算法分类算法分类2.2.1音频压缩基础音频压缩基础3 3数据压缩算法分类数据压缩算法分类无损压缩无损压缩(冗余压缩、熵编
24、码)法:无损压缩法去(冗余压缩、熵编码)法:无损压缩法去掉或减少了数据中的冗余量,但这些冗余量是可掉或减少了数据中的冗余量,但这些冗余量是可以重新恢复的,因此,无损压缩是可逆的过程。以重新恢复的,因此,无损压缩是可逆的过程。例如:压缩软件例如:压缩软件WinRARWinRAR应用。应用。注意:无损压缩特点是压缩比小。注意:无损压缩特点是压缩比小。无损压缩法不会产生失真,在多媒体技术中一般用无损压缩法不会产生失真,在多媒体技术中一般用于文本数据的压缩。常见的例子是磁盘压缩。于文本数据的压缩。常见的例子是磁盘压缩。2.2.1音频压缩基础音频压缩基础3 3数据压缩算法分类数据压缩算法分类有损压缩有损
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多媒体技术 应用 音频 处理 技术 陈永强
限制150内