多媒体技术基础与实验教程3.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《多媒体技术基础与实验教程3.ppt》由会员分享,可在线阅读,更多相关《多媒体技术基础与实验教程3.ppt(43页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、多媒体技术基础与实验教程多媒体技术基础与实验教程第三章第三章 音频处理技术音频处理技术 第三章第三章 目录目录3.1 3.1 数字音频基本原理数字音频基本原理 3.1.1 人类听觉特性人类听觉特性 3.1.2 数字音频数字音频 3.1.3 声音声音 3.1.4 语音语音3.2 常用音频编码算法和标准常用音频编码算法和标准 3.2.1 音频信号编码基础音频信号编码基础 3.2.2 常用音频编码标准常用音频编码标准 3.2.3 国际音频标准化组织简介国际音频标准化组织简介3.3 音频文件格式音频文件格式 3.3.1 波形格式波形格式 3.3.2 MIDI格式格式 3.3.3 MP3压缩格式压缩格式
2、 3.3.4 流式音频格式流式音频格式3.4 音频处理工具音频处理工具Audition 3.4.1 功能概述功能概述 3.4.2 编辑环境编辑环境 3.4.3 基本操作基本操作3.1 3.1 数字音频基本原理数字音频基本原理 3.1.1 人类听觉特性人类听觉特性 u 听阈与听域听阈与听域l 声压声压是声音在空气中传播而改变了空气原来的恒定静压力,导致了原有静压力的微是声音在空气中传播而改变了空气原来的恒定静压力,导致了原有静压力的微小增加小增加。l 声压级声压级为某一点的声压与参考声压的比值取常用对数后再乘以为某一点的声压与参考声压的比值取常用对数后再乘以20的值,单位是分贝,的值,单位是分贝
3、,即即dB,是反映声音大小、强弱的最基本参量,是反映声音大小、强弱的最基本参量。l 听阈(听阈(Auditory Threshold)就是指人能听到的最低声压级(就是指人能听到的最低声压级(Sound Power Level,SPL)。纯音的听阈与频率有关:)。纯音的听阈与频率有关:1kHz纯音的听阈约为纯音的听阈约为4dB,10kHz时听阈约为时听阈约为15dB,到,到40kHz时达到时达到50dB左右。左右。l 听域(听域(Audible Area)是指人能感知的声音的范围,正常人耳能够感知的频率范围是指人能感知的声音的范围,正常人耳能够感知的频率范围大致是大致是20Hz20kHz;正常人
4、能感知声音的声压级范围是;正常人能感知声音的声压级范围是0128dB,这里基准声压,这里基准声压级(级(0 dB SPL)的定义是)的定义是10-16W/cm2。l 声强声强是指单位时间(是指单位时间(1秒钟)内声音通过垂直于声音传播方向单位面积(秒钟)内声音通过垂直于声音传播方向单位面积(cm2)的声)的声能量。能量。听域频率曲线 在“听阈-频率”曲线和“痛阈-频率”曲线之间的区域就是人耳的听觉范围。u 音调音调 音调(音调(Pitch)是指人耳对不同频率声音的一种主观感受。人们定义是指人耳对不同频率声音的一种主观感受。人们定义一个高于听阈一个高于听阈40dB、频率为、频率为1kHz的纯音的
5、音调为的纯音的音调为1000Mel,这里,这里Mel是是音调的度量单位。音调的度量单位。u 响度和响度级响度和响度级 响度(响度(Loudness)是人耳感受声音强弱的主观感觉程度,这种感觉与音强、是人耳感受声音强弱的主观感觉程度,这种感觉与音强、频率和波形都有关系,其度量单位为频率和波形都有关系,其度量单位为Sone,定义一个高于听阈,定义一个高于听阈40dB、频率为、频率为1kHz的纯音的响度为的纯音的响度为1Sone。响度级(响度级(Loudness Level)是指某响度与基准响度相比的等级,其度量单位为是指某响度与基准响度相比的等级,其度量单位为Phon,定义,定义1kHz纯音的声强
6、级为纯音的声强级为1Phon。响度和响度级响度和响度级L之间满足以下转换关系:之间满足以下转换关系:u 绝对听觉门限绝对听觉门限 绝对听觉门限(绝对听觉门限(Absolute Threshold of Hearing,ATH)指一个人在没有噪声指一个人在没有噪声的环境下,能够产生听觉,感知到一个纯音信号(某各频率点)的最小能量幅的环境下,能够产生听觉,感知到一个纯音信号(某各频率点)的最小能量幅度。通常绝对听觉门限用声压级表示(度。通常绝对听觉门限用声压级表示(dB),静音为),静音为0dB,痛阈为,痛阈为140dB。绝对听觉门限曲线 横坐标是频率,表示人所能听到横坐标是频率,表示人所能听到的
7、声音的频率范围的声音的频率范围 纵坐标是声压级,表示所有低于纵坐标是声压级,表示所有低于门限的声音信号人类一般听不到门限的声音信号人类一般听不到 u 临界频带临界频带 临界频带(临界频带(Critical BandCritical Band)是指一个纯音可以被以它是指一个纯音可以被以它为中心频率,并且具有一定频带宽度的连续噪声所掩蔽,在为中心频率,并且具有一定频带宽度的连续噪声所掩蔽,在这一频带内噪声功率等于该纯音的功率。这使该纯音处于刚这一频带内噪声功率等于该纯音的功率。这使该纯音处于刚能被听到的临界状态,即称这一带宽为临界频带宽度。临界能被听到的临界状态,即称这一带宽为临界频带宽度。临界频
8、带的单位叫频带的单位叫Bark(Bark(巴克巴克)。频率 500Hz的情况下,临临 界界频频 带带频频 率率 (Hz)(Hz)临临 界界频频 带带频频 率率 (Hz)(Hz)低端高端宽度低端高端宽度00100100132000232032011002001001423202700380220030010015270031504503300400100163150370055044005101101737004400700551063012018440053009006630770140195300640011007770920150206400770013008920108016021770
9、0950018009108012701902295001200025001012701480210231200015500350011148017202402415500220506550121720200028025个临界频带 u 同时掩蔽同时掩蔽 同时掩蔽(同时掩蔽(Simultaneous MaskingSimultaneous Masking)又称频域掩蔽,分为又称频域掩蔽,分为噪声掩蔽音调(噪声掩蔽音调(NMTNMT)、音调掩蔽噪声()、音调掩蔽噪声(TMNTMN)和噪声掩蔽噪)和噪声掩蔽噪声(声(NMNNMN)。)。掩蔽效应是指当两个响度不等的声音作用于人耳时,响掩蔽效应是指当两个
10、响度不等的声音作用于人耳时,响度较高的频率成分的存在会影响到对响度较低的频率成分的度较高的频率成分的存在会影响到对响度较低的频率成分的感知。感知。当两个或更多的音频信号到达人内耳时,掩蔽声与被掩当两个或更多的音频信号到达人内耳时,掩蔽声与被掩蔽声同时作用发生掩蔽效应,就称同时掩蔽。即在一个临界蔽声同时作用发生掩蔽效应,就称同时掩蔽。即在一个临界频带内,一个大的信号可以掩蔽掉若干小的信号,无论这个频带内,一个大的信号可以掩蔽掉若干小的信号,无论这个信号是音调还是噪音。信号是音调还是噪音。声强为60dB、频率为1000Hz纯音的掩蔽效应 声强为60dB、频率不同的纯音的掩蔽效应 u 异时掩蔽异时掩
11、蔽 异时掩蔽(异时掩蔽(Nonsimultaneous MaskingNonsimultaneous Masking)又称时域掩蔽,是指掩蔽效应发生又称时域掩蔽,是指掩蔽效应发生在掩蔽声与被掩蔽声不同时出现的情况下。此时出现的一个强音频信号可以在掩蔽声与被掩蔽声不同时出现的情况下。此时出现的一个强音频信号可以掩蔽到之前若干时间和之后若干时间的音频信号的感知,即导前掩蔽或滞后掩蔽到之前若干时间和之后若干时间的音频信号的感知,即导前掩蔽或滞后掩蔽。而对之前音频信号的掩蔽效应衰减的很快,大概只能掩蔽到几毫秒,掩蔽。而对之前音频信号的掩蔽效应衰减的很快,大概只能掩蔽到几毫秒,而对之后音频信号的掩蔽可以
12、持续到最长而对之后音频信号的掩蔽可以持续到最长200ms200ms的时间。的时间。时域掩蔽 u 感知熵感知熵 感知熵(感知熵(Perceptual EntropyPerceptual Entropy)是指利用心理声学的掩蔽现象和是指利用心理声学的掩蔽现象和信号能量化原理来测量音频信号中感知相关的信息。一般以位(信号能量化原理来测量音频信号中感知相关的信息。一般以位(bitbit)作为单位,实际上表示了音频信号压缩的理论极限。作为单位,实际上表示了音频信号压缩的理论极限。感知熵的计算原理是:感知熵的计算原理是:1 1)对原始信号加)对原始信号加20482048点汉明窗,然后进行点汉明窗,然后进行
13、20482048点的快速傅立叶变换,点的快速傅立叶变换,将时域音频信号转换成频域信号。将时域音频信号转换成频域信号。2 2)通过临界频带分析得到掩蔽阈值,然后对信号进行噪音类和纯音类)通过临界频带分析得到掩蔽阈值,然后对信号进行噪音类和纯音类判决,最后将绝对听阈考虑进来。判决,最后将绝对听阈考虑进来。3.1.2 3.1.2 数字音频数字音频n音频信号是时间和幅度都连续变化的一维模拟信号,要想在计算机音频信号是时间和幅度都连续变化的一维模拟信号,要想在计算机中对它进行处理,就要将它变成时间和幅度都是离散的数字信号,中对它进行处理,就要将它变成时间和幅度都是离散的数字信号,所以数字音频是指音频信号
14、经过离散化处理后再用一系列的数字来所以数字音频是指音频信号经过离散化处理后再用一系列的数字来表示的信号,其特点是保真度好,动态范围大。数字音频可分为波表示的信号,其特点是保真度好,动态范围大。数字音频可分为波形声音、语音和音乐。波形声音实际上包含了所有的声音形式,因形声音、语音和音乐。波形声音实际上包含了所有的声音形式,因此数字音频有时也泛称为声音。此数字音频有时也泛称为声音。n用计算机来处理音频信号必须将模拟音频信号转换成有限个数字表用计算机来处理音频信号必须将模拟音频信号转换成有限个数字表示的离散序列,其间要经历:选择采样频率,即进行采样;选择分示的离散序列,其间要经历:选择采样频率,即进
15、行采样;选择分辨率,即进行量化;最后编码形成声音文件。辨率,即进行量化;最后编码形成声音文件。声音的采样与量化 u 采样采样 l 采样(采样(SamplingSampling)是把模拟信号在时间域上以固定的时间间隔对波是把模拟信号在时间域上以固定的时间间隔对波形的值进行抽取,再用若干位二进制数表示。形的值进行抽取,再用若干位二进制数表示。l 两个取样点之间的间隔称为两个取样点之间的间隔称为采样周期采样周期,它的倒数称为采样频率。,它的倒数称为采样频率。l 根据采样定理,当采样频率大于信号最高频率的两倍时,在采样过根据采样定理,当采样频率大于信号最高频率的两倍时,在采样过程中就不会丢失信息,并且
16、可以用采样后的信号重构原始信号,就能程中就不会丢失信息,并且可以用采样后的信号重构原始信号,就能不失真地还原出原始的声音信号。若超过此取样频率,就会包含冗余不失真地还原出原始的声音信号。若超过此取样频率,就会包含冗余的信息;若低于此频率,则将产生不同程度的失真。的信息;若低于此频率,则将产生不同程度的失真。l 对于音频,最常用的采样频率有三种:对于音频,最常用的采样频率有三种:44.1KHz44.1KHz、22.05 KHz22.05 KHz、11.025 KHz11.025 KHz,其中,其中44.1KHz44.1KHz采样频率是最常用的频率。采样频率是最常用的频率。l 声道数声道数是声音通
17、道的个数,指一次采样的声音波形个数。单声道一是声音通道的个数,指一次采样的声音波形个数。单声道一次采样一个声音波形,双声道一次采样两个声音波形,又称为次采样一个声音波形,双声道一次采样两个声音波形,又称为“立体立体声声”。u 量化量化 l 量化(量化(QuantityQuantity)的目的是将采样后的信号波形的幅度值(样本)的目的是将采样后的信号波形的幅度值(样本)进行离散化处理,样本从模拟量转化成了数字量。量化位数越多,所进行离散化处理,样本从模拟量转化成了数字量。量化位数越多,所得到的量化值越接近原始波形的采样值。得到的量化值越接近原始波形的采样值。l 一个量化器就是将整个信号的幅度值分
18、成若干个有限的区间,并且一个量化器就是将整个信号的幅度值分成若干个有限的区间,并且把落入同一个区间的样本点都用同一个幅度值来表示,这个幅度值称把落入同一个区间的样本点都用同一个幅度值来表示,这个幅度值称为量化值。为量化值。l 量化方式有三种:零记忆量化、分组量化和序列量化。量化方式有三种:零记忆量化、分组量化和序列量化。零记忆量化是每次量化一个模拟采样值,并对所有采样点都使用相零记忆量化是每次量化一个模拟采样值,并对所有采样点都使用相同的量化器特性;同的量化器特性;分组量化是从可能输出组的离散集合中选出一组输出值,代表一组分组量化是从可能输出组的离散集合中选出一组输出值,代表一组输入的模拟采样
19、值;输入的模拟采样值;序列量化是在分组或非分组的基础上,用一些邻近采样点的信息对序列量化是在分组或非分组的基础上,用一些邻近采样点的信息对采样序列进行量化。采样序列进行量化。3.1.3 3.1.3 声音声音n声学是研究声音的学科,包括声波的产生、传播和接收。物体振动在弹声学是研究声音的学科,包括声波的产生、传播和接收。物体振动在弹性体里的传播叫做波,而在空气中传播的波就叫做声波,能被人的听觉性体里的传播叫做波,而在空气中传播的波就叫做声波,能被人的听觉器官所感觉到的声波叫声音,其频率一般在器官所感觉到的声波叫声音,其频率一般在20Hz20Hz20KHz20KHz之间。之间。n声音的传播是将本地
20、振动向一个接一个的区域传播的过程,因此声音是声音的传播是将本地振动向一个接一个的区域传播的过程,因此声音是纵向传播的。声音振动所产生压力的改变可以是周期性的,也可以是非纵向传播的。声音振动所产生压力的改变可以是周期性的,也可以是非周期性的。一系列周期性的振动是一个周期,每秒经过一个固定点的振周期性的。一系列周期性的振动是一个周期,每秒经过一个固定点的振动周期的次数就是声波的频率,用动周期的次数就是声波的频率,用HzHz表示,人类听力的大致范围是表示,人类听力的大致范围是20Hz20Hz20KHz20KHz,因此音频设备的响应设计也是在这个频率范围内。,因此音频设备的响应设计也是在这个频率范围内
21、。n声音的三要素是音调、音色和音强。就听觉特性而言,声音质量的高低声音的三要素是音调、音色和音强。就听觉特性而言,声音质量的高低主要取决于这三要素。主要取决于这三要素。n音强是指声音的强度,也称为声音的响度。音强与声波的振幅成正比,音强是指声音的强度,也称为声音的响度。音强与声波的振幅成正比,振幅越大,强度越大。振幅越大,强度越大。n声音的质量简称音质。音质的好坏与音色和频率范围有关。另外影响音声音的质量简称音质。音质的好坏与音色和频率范围有关。另外影响音质的因素还有:质的因素还有:1 1)与采样频率有关。)与采样频率有关。2 2)与音频处理设备有关。)与音频处理设备有关。3 3)与信号噪声比
22、有关。)与信号噪声比有关。3.1.4 3.1.4 语音语音n语音是一种特殊的媒体,但也是一种波形,在计算机中表示方式与波语音是一种特殊的媒体,但也是一种波形,在计算机中表示方式与波形声音的文件格式相同。语音处理的研究已经有一百多年的历史。其形声音的文件格式相同。语音处理的研究已经有一百多年的历史。其研究范围主要涉及:语音编码、语音合成、语音识别的基本算法和应研究范围主要涉及:语音编码、语音合成、语音识别的基本算法和应用。用。说话的意向及概念语言语音知觉语义情感压 缩、存储读 取、解压语音合成语音编/解码语音识别计算机处理语音过程 3.2 3.2 常用音频编码算法和标准常用音频编码算法和标准 在
23、音频编码技术三十余年的发展过程中,国际电报电在音频编码技术三十余年的发展过程中,国际电报电话咨询委员会(话咨询委员会(CCITT)和国际标准化组织()和国际标准化组织(ISO)先后)先后提出了一系列有关音频编码的建议提出了一系列有关音频编码的建议:方法算法名称数据率标准应用质量波形编码PCM均匀量化 公共网ISDN配音4.04.5(A)(A)64kbpsG.711APCM自适应量化 DPCM差值量化ADPCM自适应差值量化32kbpsG.721SBADPCM子带自适应差值量化64kbpsG.7225.3kbps6.3kbpsG.723参数编码LPC线性预测编码2.4kbps 保密话声2.53.
24、5混合编码CELPC码激励LPC4.6kbps 移动通信3.74.0VSELP矢量和激励LPC8kbps 语音通信RPE-LTP长时预测规则码激励13.2kbps ISDNLD-CELP低延时码激励LPC16kbpsG.728G.729 MPEG多自带感知编码128kbps CD5.0 AC-3感知编码 音响5.03.2.1 3.2.1 音频信号编码基础音频信号编码基础u 数据压缩条件数据压缩条件 信号之所以能被压缩和编码,其原因主要是:信号之所以能被压缩和编码,其原因主要是:数据冗余度数据冗余度:音频信号通常存在很多用处不大的空间,空间越多,数据的:音频信号通常存在很多用处不大的空间,空间越
25、多,数据的冗余度也越大。通过数据的压缩,将这些不用的空间去掉。冗余度也越大。通过数据的压缩,将这些不用的空间去掉。人类不敏感因素人类不敏感因素:一般而言,人类对某些频率的音频信号不敏感,有无这:一般而言,人类对某些频率的音频信号不敏感,有无这些频率的音频,在听觉上影响不大,在数据压缩时,就可去掉这些不敏感的些频率的音频,在听觉上影响不大,在数据压缩时,就可去掉这些不敏感的成分,以便减少数据量。成分,以便减少数据量。信息传输与存储信息传输与存储:信息承载在数据上进行传输和存储,在传输和存储前后:信息承载在数据上进行传输和存储,在传输和存储前后需要对数据进行压缩处理,其原理如下图所示。需要对数据进
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多媒体技术 基础 实验 教程
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内