多媒体技术基础与实验教程.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《多媒体技术基础与实验教程.ppt》由会员分享,可在线阅读,更多相关《多媒体技术基础与实验教程.ppt(43页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、多媒体技术基础与实验多媒体技术基础与实验教程教程现在学习的是第1页,共43页第三章第三章 目录目录3.1 3.1 数字音频基本原理数字音频基本原理 3.1.1 人类听觉特性人类听觉特性 3.1.2 数字音频数字音频 3.1.3 声音声音 3.1.4 语音语音3.2 常用音频编码算法和标准常用音频编码算法和标准 3.2.1 音频信号编码基础音频信号编码基础 3.2.2 常用音频编码标准常用音频编码标准 3.2.3 国际音频标准化组织简介国际音频标准化组织简介3.3 音频文件格式音频文件格式 3.3.1 波形格式波形格式 3.3.2 MIDI格式格式 3.3.3 MP3压缩格式压缩格式 3.3.4
2、 流式音频格式流式音频格式3.4 音频处理工具音频处理工具Audition 3.4.1 功能概述功能概述 3.4.2 编辑环境编辑环境 3.4.3 基本操作基本操作现在学习的是第2页,共43页3.1 3.1 数字音频基本原理数字音频基本原理 3.1.1 人类听觉特性人类听觉特性 u 听阈与听域听阈与听域l 声压声压是声音在空气中传播而改变了空气原来的恒定静压力,导致了原有静压力的微小增是声音在空气中传播而改变了空气原来的恒定静压力,导致了原有静压力的微小增加加。l 声压级声压级为某一点的声压与参考声压的比值取常用对数后再乘以为某一点的声压与参考声压的比值取常用对数后再乘以20的值,单位是分贝,
3、即的值,单位是分贝,即dB,是反映,是反映声音大小、强弱的最基本参量声音大小、强弱的最基本参量。l 听阈(听阈(Auditory Threshold)就是指人能听到的最低声压级(就是指人能听到的最低声压级(Sound Power Level,SPL)。纯音的)。纯音的听阈与频率有关:听阈与频率有关:1kHz纯音的听阈约为纯音的听阈约为4dB,10kHz时听阈约为时听阈约为15dB,到,到40kHz时达到时达到50dB左左右。右。l 听域(听域(Audible Area)是指人能感知的声音的范围,正常人耳能够感知的频率范围大致是是指人能感知的声音的范围,正常人耳能够感知的频率范围大致是20Hz2
4、0kHz;正常人能感知声音的声压级范围是;正常人能感知声音的声压级范围是0128dB,这里基准声压级(,这里基准声压级(0 dB SPL)的定义)的定义是是10-16W/cm2。l 声强声强是指单位时间(是指单位时间(1秒钟)内声音通过垂直于声音传播方向单位面积(秒钟)内声音通过垂直于声音传播方向单位面积(cm2)的声能量。)的声能量。现在学习的是第3页,共43页听域频率曲线 在“听阈-频率”曲线和“痛阈-频率”曲线之间的区域就是人耳的听觉范围。现在学习的是第4页,共43页u 音调音调 音调(音调(Pitch)是指人耳对不同频率声音的一种主观感受。人们定义一个是指人耳对不同频率声音的一种主观感
5、受。人们定义一个高于听阈高于听阈40dB、频率为、频率为1kHz的纯音的音调为的纯音的音调为1000Mel,这里,这里Mel是音调的度量是音调的度量单位。单位。u 响度和响度级响度和响度级 响度(响度(Loudness)是人耳感受声音强弱的主观感觉程度,这种感觉与音强、频率和波形都有关是人耳感受声音强弱的主观感觉程度,这种感觉与音强、频率和波形都有关系,其度量单位为系,其度量单位为Sone,定义一个高于听阈,定义一个高于听阈40dB、频率为、频率为1kHz的纯音的响度为的纯音的响度为1Sone。响度级(响度级(Loudness Level)是指某响度与基准响度相比的等级,其度量单位为是指某响度
6、与基准响度相比的等级,其度量单位为Phon,定义,定义1kHz纯音的声强级为纯音的声强级为1Phon。响度和响度级响度和响度级L之间满足以下转换关系:之间满足以下转换关系:现在学习的是第5页,共43页现在学习的是第6页,共43页u 绝对听觉门限绝对听觉门限 绝对听觉门限(绝对听觉门限(Absolute Threshold of Hearing,ATH)指一个人在没有噪声的环境指一个人在没有噪声的环境下,能够产生听觉,感知到一个纯音信号(某各频率点)的最小能量幅度。通常绝下,能够产生听觉,感知到一个纯音信号(某各频率点)的最小能量幅度。通常绝对听觉门限用声压级表示(对听觉门限用声压级表示(dB)
7、,静音为),静音为0dB,痛阈为,痛阈为140dB。绝对听觉门限曲线 横坐标是频率,表示人所能听到的声音横坐标是频率,表示人所能听到的声音的频率范围的频率范围 纵坐标是声压级,表示所有低于门纵坐标是声压级,表示所有低于门限的声音信号人类一般听不到限的声音信号人类一般听不到 现在学习的是第7页,共43页u 临界频带临界频带 临界频带(临界频带(Critical BandCritical Band)是指一个纯音可以被以它为中心频是指一个纯音可以被以它为中心频率,并且具有一定频带宽度的连续噪声所掩蔽,在这一频带内噪声功率率,并且具有一定频带宽度的连续噪声所掩蔽,在这一频带内噪声功率等于该纯音的功率。
8、这使该纯音处于刚能被听到的临界状态,即称这一等于该纯音的功率。这使该纯音处于刚能被听到的临界状态,即称这一带宽为临界频带宽度。临界频带的单位叫带宽为临界频带宽度。临界频带的单位叫Bark(Bark(巴克巴克)。频率 500Hz的情况下,现在学习的是第8页,共43页临临 界界频频 带带频频 率率 (Hz)(Hz)临临 界界频频 带带频频 率率 (Hz)(Hz)低端高端宽度低端高端宽度001001001320002320320110020010014232027003802200300100152700315045033004001001631503700550440051011017370044
9、007005510630120184400530090066307701401953006400110077709201502064007700130089201080160217700950018009108012701902295001200025001012701480210231200015500350011148017202402415500220506550121720200028025个临界频带 现在学习的是第9页,共43页u 同时掩蔽同时掩蔽 同时掩蔽(同时掩蔽(Simultaneous MaskingSimultaneous Masking)又称频域掩蔽,分为噪声掩蔽音又称频
10、域掩蔽,分为噪声掩蔽音调(调(NMTNMT)、音调掩蔽噪声()、音调掩蔽噪声(TMNTMN)和噪声掩蔽噪声()和噪声掩蔽噪声(NMNNMN)。)。掩蔽效应是指当两个响度不等的声音作用于人耳时,响度较高的掩蔽效应是指当两个响度不等的声音作用于人耳时,响度较高的频率成分的存在会影响到对响度较低的频率成分的感知。频率成分的存在会影响到对响度较低的频率成分的感知。当两个或更多的音频信号到达人内耳时,掩蔽声与被掩蔽声同时当两个或更多的音频信号到达人内耳时,掩蔽声与被掩蔽声同时作用发生掩蔽效应,就称同时掩蔽。即在一个临界频带内,一个大的作用发生掩蔽效应,就称同时掩蔽。即在一个临界频带内,一个大的信号可以掩
11、蔽掉若干小的信号,无论这个信号是音调还是噪音。信号可以掩蔽掉若干小的信号,无论这个信号是音调还是噪音。现在学习的是第10页,共43页声强为60dB、频率为1000Hz纯音的掩蔽效应 声强为60dB、频率不同的纯音的掩蔽效应 现在学习的是第11页,共43页u 异时掩蔽异时掩蔽 异时掩蔽(异时掩蔽(Nonsimultaneous MaskingNonsimultaneous Masking)又称时域掩蔽,是指掩蔽效应发生在掩蔽声又称时域掩蔽,是指掩蔽效应发生在掩蔽声与被掩蔽声不同时出现的情况下。此时出现的一个强音频信号可以掩蔽到之前若干与被掩蔽声不同时出现的情况下。此时出现的一个强音频信号可以掩蔽
12、到之前若干时间和之后若干时间的音频信号的感知,即导前掩蔽或滞后掩蔽。而对之前音频信时间和之后若干时间的音频信号的感知,即导前掩蔽或滞后掩蔽。而对之前音频信号的掩蔽效应衰减的很快,大概只能掩蔽到几毫秒,而对之后音频信号的掩蔽可以号的掩蔽效应衰减的很快,大概只能掩蔽到几毫秒,而对之后音频信号的掩蔽可以持续到最长持续到最长200ms200ms的时间。的时间。时域掩蔽 现在学习的是第12页,共43页u 感知熵感知熵 感知熵(感知熵(Perceptual EntropyPerceptual Entropy)是指利用心理声学的掩蔽现象和信号能是指利用心理声学的掩蔽现象和信号能量化原理来测量音频信号中感知相
13、关的信息。一般以位(量化原理来测量音频信号中感知相关的信息。一般以位(bitbit)作为单位,实)作为单位,实际上表示了音频信号压缩的理论极限。际上表示了音频信号压缩的理论极限。感知熵的计算原理是:感知熵的计算原理是:1 1)对原始信号加)对原始信号加20482048点汉明窗,然后进行点汉明窗,然后进行20482048点的快速傅立叶变换,将时域点的快速傅立叶变换,将时域音频信号转换成频域信号。音频信号转换成频域信号。2 2)通过临界频带分析得到掩蔽阈值,然后对信号进行噪音类和纯音类判决,最后)通过临界频带分析得到掩蔽阈值,然后对信号进行噪音类和纯音类判决,最后将绝对听阈考虑进来。将绝对听阈考虑
14、进来。现在学习的是第13页,共43页3.1.2 3.1.2 数字音频数字音频n n音频信号是时间和幅度都连续变化的一维模拟信号,要想在计算机中对它音频信号是时间和幅度都连续变化的一维模拟信号,要想在计算机中对它音频信号是时间和幅度都连续变化的一维模拟信号,要想在计算机中对它音频信号是时间和幅度都连续变化的一维模拟信号,要想在计算机中对它进行处理,就要将它变成时间和幅度都是离散的数字信号,所以数字音频进行处理,就要将它变成时间和幅度都是离散的数字信号,所以数字音频进行处理,就要将它变成时间和幅度都是离散的数字信号,所以数字音频进行处理,就要将它变成时间和幅度都是离散的数字信号,所以数字音频是指音
15、频信号经过离散化处理后再用一系列的数字来表示的信号,其特点是指音频信号经过离散化处理后再用一系列的数字来表示的信号,其特点是指音频信号经过离散化处理后再用一系列的数字来表示的信号,其特点是指音频信号经过离散化处理后再用一系列的数字来表示的信号,其特点是保真度好,动态范围大。数字音频可分为波形声音、语音和音乐。波形是保真度好,动态范围大。数字音频可分为波形声音、语音和音乐。波形是保真度好,动态范围大。数字音频可分为波形声音、语音和音乐。波形是保真度好,动态范围大。数字音频可分为波形声音、语音和音乐。波形声音实际上包含了所有的声音形式,因此数字音频有时也泛称为声音。声音实际上包含了所有的声音形式,
16、因此数字音频有时也泛称为声音。声音实际上包含了所有的声音形式,因此数字音频有时也泛称为声音。声音实际上包含了所有的声音形式,因此数字音频有时也泛称为声音。n n用计算机来处理音频信号必须将模拟音频信号转换成有限个数字表示的离散用计算机来处理音频信号必须将模拟音频信号转换成有限个数字表示的离散用计算机来处理音频信号必须将模拟音频信号转换成有限个数字表示的离散用计算机来处理音频信号必须将模拟音频信号转换成有限个数字表示的离散序列,其间要经历:选择采样频率,即进行采样;选择分辨率,即进行量化;序列,其间要经历:选择采样频率,即进行采样;选择分辨率,即进行量化;序列,其间要经历:选择采样频率,即进行采
17、样;选择分辨率,即进行量化;序列,其间要经历:选择采样频率,即进行采样;选择分辨率,即进行量化;最后编码形成声音文件。最后编码形成声音文件。最后编码形成声音文件。最后编码形成声音文件。声音的采样与量化 现在学习的是第14页,共43页u 采样采样 l 采样(采样(SamplingSampling)是把模拟信号在时间域上以固定的时间间隔对波形的值是把模拟信号在时间域上以固定的时间间隔对波形的值进行抽取,再用若干位二进制数表示。进行抽取,再用若干位二进制数表示。l 两个取样点之间的间隔称为两个取样点之间的间隔称为采样周期采样周期,它的倒数称为采样频率。,它的倒数称为采样频率。l 根据采样定理,当采样
18、频率大于信号最高频率的两倍时,在采样过程中就不根据采样定理,当采样频率大于信号最高频率的两倍时,在采样过程中就不会丢失信息,并且可以用采样后的信号重构原始信号,就能不失真地还原出会丢失信息,并且可以用采样后的信号重构原始信号,就能不失真地还原出原始的声音信号。若超过此取样频率,就会包含冗余的信息;若低于此频率,原始的声音信号。若超过此取样频率,就会包含冗余的信息;若低于此频率,则将产生不同程度的失真。则将产生不同程度的失真。l 对于音频,最常用的采样频率有三种:对于音频,最常用的采样频率有三种:44.1KHz44.1KHz、22.05 KHz22.05 KHz、11.025 KHz11.025
19、 KHz,其中其中44.1KHz44.1KHz采样频率是最常用的频率。采样频率是最常用的频率。l 声道数声道数是声音通道的个数,指一次采样的声音波形个数。单声道一次采样是声音通道的个数,指一次采样的声音波形个数。单声道一次采样一个声音波形,双声道一次采样两个声音波形,又称为一个声音波形,双声道一次采样两个声音波形,又称为“立体声立体声”。现在学习的是第15页,共43页u 量化量化 l 量化(量化(QuantityQuantity)的目的是将采样后的信号波形的幅度值(样本)进行离)的目的是将采样后的信号波形的幅度值(样本)进行离散化处理,样本从模拟量转化成了数字量。量化位数越多,所得到的量化散化
20、处理,样本从模拟量转化成了数字量。量化位数越多,所得到的量化值越接近原始波形的采样值。值越接近原始波形的采样值。l 一个量化器就是将整个信号的幅度值分成若干个有限的区间,并且把落一个量化器就是将整个信号的幅度值分成若干个有限的区间,并且把落入同一个区间的样本点都用同一个幅度值来表示,这个幅度值称为量化值。入同一个区间的样本点都用同一个幅度值来表示,这个幅度值称为量化值。l 量化方式有三种:零记忆量化、分组量化和序列量化。量化方式有三种:零记忆量化、分组量化和序列量化。零记忆量化是每次量化一个模拟采样值,并对所有采样点都使用相同的量化器特性;零记忆量化是每次量化一个模拟采样值,并对所有采样点都使
21、用相同的量化器特性;分组量化是从可能输出组的离散集合中选出一组输出值,代表一组输入的模拟采分组量化是从可能输出组的离散集合中选出一组输出值,代表一组输入的模拟采样值;样值;序列量化是在分组或非分组的基础上,用一些邻近采样点的信息对采样序列进行序列量化是在分组或非分组的基础上,用一些邻近采样点的信息对采样序列进行量化。量化。现在学习的是第16页,共43页3.1.3 3.1.3 声音声音n n声学是研究声音的学科,包括声波的产生、传播和接收。物体振动在弹性体声学是研究声音的学科,包括声波的产生、传播和接收。物体振动在弹性体声学是研究声音的学科,包括声波的产生、传播和接收。物体振动在弹性体声学是研究
22、声音的学科,包括声波的产生、传播和接收。物体振动在弹性体里的传播叫做波,而在空气中传播的波就叫做声波,能被人的听觉器官所感里的传播叫做波,而在空气中传播的波就叫做声波,能被人的听觉器官所感里的传播叫做波,而在空气中传播的波就叫做声波,能被人的听觉器官所感里的传播叫做波,而在空气中传播的波就叫做声波,能被人的听觉器官所感觉到的声波叫声音,其频率一般在觉到的声波叫声音,其频率一般在觉到的声波叫声音,其频率一般在觉到的声波叫声音,其频率一般在20Hz20Hz20Hz20Hz20KHz20KHz20KHz20KHz之间。之间。之间。之间。n n声音的传播是将本地振动向一个接一个的区域传播的过程,因此声
23、音是纵向传播的。声音声音的传播是将本地振动向一个接一个的区域传播的过程,因此声音是纵向传播的。声音声音的传播是将本地振动向一个接一个的区域传播的过程,因此声音是纵向传播的。声音声音的传播是将本地振动向一个接一个的区域传播的过程,因此声音是纵向传播的。声音振动所产生压力的改变可以是周期性的,也可以是非周期性的。一系列周期性的振动是一振动所产生压力的改变可以是周期性的,也可以是非周期性的。一系列周期性的振动是一振动所产生压力的改变可以是周期性的,也可以是非周期性的。一系列周期性的振动是一振动所产生压力的改变可以是周期性的,也可以是非周期性的。一系列周期性的振动是一个周期,每秒经过一个固定点的振动周
24、期的次数就是声波的频率,用个周期,每秒经过一个固定点的振动周期的次数就是声波的频率,用个周期,每秒经过一个固定点的振动周期的次数就是声波的频率,用个周期,每秒经过一个固定点的振动周期的次数就是声波的频率,用HzHzHzHz表示,人类听力表示,人类听力表示,人类听力表示,人类听力的大致范围是的大致范围是的大致范围是的大致范围是20Hz20Hz20Hz20Hz20KHz20KHz20KHz20KHz,因此音频设备的响应设计也是在这个频率范围内。,因此音频设备的响应设计也是在这个频率范围内。,因此音频设备的响应设计也是在这个频率范围内。,因此音频设备的响应设计也是在这个频率范围内。n n声音的三要素
25、是音调、音色和音强。就听觉特性而言,声音质量的高低主要取决于声音的三要素是音调、音色和音强。就听觉特性而言,声音质量的高低主要取决于声音的三要素是音调、音色和音强。就听觉特性而言,声音质量的高低主要取决于声音的三要素是音调、音色和音强。就听觉特性而言,声音质量的高低主要取决于这三要素。这三要素。这三要素。这三要素。n n音强是指声音的强度,也称为声音的响度。音强与声波的振幅成正比,振幅音强是指声音的强度,也称为声音的响度。音强与声波的振幅成正比,振幅音强是指声音的强度,也称为声音的响度。音强与声波的振幅成正比,振幅音强是指声音的强度,也称为声音的响度。音强与声波的振幅成正比,振幅越大,强度越大
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多媒体技术 基础 实验 教程
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内