书签分享收藏举报版权申诉 / 43

立即下载

当前位置：首页 > 教育专区 > 大学资料 > 多媒体技术基础与实验教程讲稿.ppt

多媒体技术基础与实验教程讲稿.ppt

上传人：石***

文档编号：39344600

上传时间：2022-09-07

格式：PPT

页数：43

大小：2.36MB

( 4.5 )

《多媒体技术基础与实验教程讲稿.ppt》由会员分享，可在线阅读，更多相关《多媒体技术基础与实验教程讲稿.ppt（43页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、第一页，讲稿共四十三页哦3.1 3.1 数字音频基本原理数字音频基本原理 3.1.1 人类听觉特性人类听觉特性 3.1.2 数字音频数字音频 3.1.3 声音声音 3.1.4 语音语音3.2 常用音频编码算法和标准常用音频编码算法和标准 3.2.1 音频信号编码基础音频信号编码基础 3.2.2 常用音频编码标准常用音频编码标准 3.2.3 国际音频标准化组织简介国际音频标准化组织简介3.3 音频文件格式音频文件格式 3.3.1 波形格式波形格式 3.3.2 MIDI格式格式 3.3.3 MP3压缩格式压缩格式 3.3.4 流式音频格式流式音频格式3.4 音频处理工具音频处理工具Audition

2、 3.4.1 功能概述功能概述 3.4.2 编辑环境编辑环境 3.4.3 基本操作基本操作第二页，讲稿共四十三页哦u 听阈与听域听阈与听域l 声压声压是声音在空气中传播而改变了空气原来的恒定静压力，导致了原有静压力的微小增加是声音在空气中传播而改变了空气原来的恒定静压力，导致了原有静压力的微小增加。l 声压级声压级为某一点的声压与参考声压的比值取常用对数后再乘以为某一点的声压与参考声压的比值取常用对数后再乘以20的值，单位是分贝，即的值，单位是分贝，即dB，是反，是反映声音大小、强弱的最基本参量映声音大小、强弱的最基本参量。l 听阈（听阈（Auditory Threshold）就是指人能听到的

3、最低声压级（就是指人能听到的最低声压级（Sound Power Level，SPL）。纯音的听阈与频率有关：）。纯音的听阈与频率有关：1kHz纯音的听阈约为纯音的听阈约为4dB，10kHz时听阈约为时听阈约为15dB，到，到40kHz时达到时达到50dB左右。左右。l 听域（听域（Audible Area）是指人能感知的声音的范围，正常人耳能够感知的频率范围大致是是指人能感知的声音的范围，正常人耳能够感知的频率范围大致是20Hz20kHz；正常人能感知声音的声压级范围是；正常人能感知声音的声压级范围是0128dB，这里基准声压级（，这里基准声压级（0 dB SPL）的）的定义是定义是10-16

4、W/cm2。l 声强声强是指单位时间（是指单位时间（1秒钟）内声音通过垂直于声音传播方向单位面积（秒钟）内声音通过垂直于声音传播方向单位面积（cm2）的声能量。）的声能量。第三页，讲稿共四十三页哦听域频率曲线在“听阈-频率”曲线和“痛阈-频率”曲线之间的区域就是人耳的听觉范围。第四页，讲稿共四十三页哦u 音调音调音调（音调（Pitch）是指人耳对不同频率声音的一种主观感受。人们定义一个是指人耳对不同频率声音的一种主观感受。人们定义一个高于听阈高于听阈40dB、频率为、频率为1kHz的纯音的音调为的纯音的音调为1000Mel，这里，这里Mel是音调的度量单是音调的度量单位。位。u 响度和响度

5、级响度和响度级响度（响度（Loudness）是人耳感受声音强弱的主观感觉程度，这种感觉与音强、频率和波形是人耳感受声音强弱的主观感觉程度，这种感觉与音强、频率和波形都有关系，其度量单位为都有关系，其度量单位为Sone，定义一个高于听阈，定义一个高于听阈40dB、频率为、频率为1kHz的纯音的响度为的纯音的响度为1Sone。响度级（响度级（Loudness Level）是指某响度与基准响度相比的等级，其度量单位为是指某响度与基准响度相比的等级，其度量单位为Phon，定义，定义1kHz纯音的声强级为纯音的声强级为1Phon。0.030.063 10LN 40lg33.33NL响度和响度级响度和响

6、度级L之间满足以下转换关系：之间满足以下转换关系：第五页，讲稿共四十三页哦第六页，讲稿共四十三页哦u 绝对听觉门限绝对听觉门限绝对听觉门限（绝对听觉门限（Absolute Threshold of Hearing，ATH）指一个人在没有噪声的环境下，能指一个人在没有噪声的环境下，能够产生听觉，感知到一个纯音信号（某各频率点）的最小能量幅度。通常绝对听觉门限用声压级表够产生听觉，感知到一个纯音信号（某各频率点）的最小能量幅度。通常绝对听觉门限用声压级表示（示（dB），静音为），静音为0dB，痛阈为，痛阈为140dB。绝对听觉门限曲线横坐标是频率，表示人所能听到的横坐标是频率，表示人所能听到的

7、声音的频率范围声音的频率范围纵坐标是声压级，表示所有低于门限纵坐标是声压级，表示所有低于门限的声音信号人类一般听不到的声音信号人类一般听不到第七页，讲稿共四十三页哦u 临界频带临界频带临界频带（临界频带（Critical BandCritical Band）是指一个纯音可以被以它为中心频是指一个纯音可以被以它为中心频率，并且具有一定频带宽度的连续噪声所掩蔽，在这一频带内噪声功率率，并且具有一定频带宽度的连续噪声所掩蔽，在这一频带内噪声功率等于该纯音的功率。这使该纯音处于刚能被听到的临界状态，即称这一等于该纯音的功率。这使该纯音处于刚能被听到的临界状态，即称这一带宽为临界频带宽度。临界频带

8、的单位叫带宽为临界频带宽度。临界频带的单位叫Bark(Bark(巴克巴克)。频率 500Hz的情况下，)1000/log(491fBark第八页，讲稿共四十三页哦临临界界频频带带频频率率 (Hz)(Hz)临临界界频频带带频频率率 (Hz)(Hz)低端高端宽度低端高端宽度001001001320002320320110020010014232027003802200300100152700315045033004001001631503700550440051011017370044007005510630120184400530090066307701401953006400110

9、077709201502064007700130089201080160217700950018009108012701902295001200025001012701480210231200015500350011148017202402415500220506550121720200028025个临界频带第九页，讲稿共四十三页哦u 同时掩蔽同时掩蔽同时掩蔽（同时掩蔽（Simultaneous MaskingSimultaneous Masking）又称频域掩蔽，分为噪声又称频域掩蔽，分为噪声掩蔽音调（掩蔽音调（NMTNMT）、音调掩蔽噪声（）、音调掩蔽噪声（TMNTMN）和噪声掩蔽噪声

10、（）和噪声掩蔽噪声（NMNNMN）。）。掩蔽效应是指当两个响度不等的声音作用于人耳时，响度较高的掩蔽效应是指当两个响度不等的声音作用于人耳时，响度较高的频率成分的存在会影响到对响度较低的频率成分的感知。频率成分的存在会影响到对响度较低的频率成分的感知。当两个或更多的音频信号到达人内耳时，掩蔽声与被掩蔽当两个或更多的音频信号到达人内耳时，掩蔽声与被掩蔽声同时作用发生掩蔽效应，就称同时掩蔽。即在一个临界频带声同时作用发生掩蔽效应，就称同时掩蔽。即在一个临界频带内，一个大的信号可以掩蔽掉若干小的信号，无论这个信号是内，一个大的信号可以掩蔽掉若干小的信号，无论这个信号是音调还是噪音。音调还是噪音。第十

11、页，讲稿共四十三页哦声强为60dB、频率为1000Hz纯音的掩蔽效应声强为60dB、频率不同的纯音的掩蔽效应第十一页，讲稿共四十三页哦u 异时掩蔽异时掩蔽异时掩蔽（异时掩蔽（Nonsimultaneous MaskingNonsimultaneous Masking）又称时域掩蔽，是指掩蔽效应发生在掩又称时域掩蔽，是指掩蔽效应发生在掩蔽声与被掩蔽声不同时出现的情况下。此时出现的一个强音频信号可以掩蔽到蔽声与被掩蔽声不同时出现的情况下。此时出现的一个强音频信号可以掩蔽到之前若干时间和之后若干时间的音频信号的感知，即导前掩蔽或滞后掩蔽。而之前若干时间和之后若干时间的音频信号的感知，即导前掩蔽

12、或滞后掩蔽。而对之前音频信号的掩蔽效应衰减的很快，大概只能掩蔽到几毫秒，而对之后音对之前音频信号的掩蔽效应衰减的很快，大概只能掩蔽到几毫秒，而对之后音频信号的掩蔽可以持续到最长频信号的掩蔽可以持续到最长200ms200ms的时间。的时间。时域掩蔽第十二页，讲稿共四十三页哦u 感知熵感知熵感知熵（感知熵（Perceptual EntropyPerceptual Entropy）是指利用心理声学的掩蔽现象和信号能量是指利用心理声学的掩蔽现象和信号能量化原理来测量音频信号中感知相关的信息。一般以位（化原理来测量音频信号中感知相关的信息。一般以位（bitbit）作为单位，实际上表）作为单位，实际上

13、表示了音频信号压缩的理论极限。示了音频信号压缩的理论极限。感知熵的计算原理是：感知熵的计算原理是：1 1）对原始信号加）对原始信号加20482048点汉明窗，然后进行点汉明窗，然后进行20482048点的快速傅立叶变换，将时域音频点的快速傅立叶变换，将时域音频信号转换成频域信号。信号转换成频域信号。2 2）通过临界频带分析得到掩蔽阈值，然后对信号进行噪音类和纯音类判决）通过临界频带分析得到掩蔽阈值，然后对信号进行噪音类和纯音类判决，最后将绝对听阈考虑进来。，最后将绝对听阈考虑进来。第十三页，讲稿共四十三页哦声音的采样与量化第十四页，讲稿共四十三页哦u 采样采样 l 采样（采样（Samplin

14、gSampling）是把模拟信号在时间域上以固定的时间间隔对波形的值进行是把模拟信号在时间域上以固定的时间间隔对波形的值进行抽取，再用若干位二进制数表示。抽取，再用若干位二进制数表示。l 两个取样点之间的间隔称为两个取样点之间的间隔称为采样周期采样周期，它的倒数称为采样频率。，它的倒数称为采样频率。l 根据采样定理，当采样频率大于信号最高频率的两倍时，在采样过程中就不会丢根据采样定理，当采样频率大于信号最高频率的两倍时，在采样过程中就不会丢失信息，并且可以用采样后的信号重构原始信号，就能不失真地还原出原始的声失信息，并且可以用采样后的信号重构原始信号，就能不失真地还原出原始的声音信号。若超过此

15、取样频率，就会包含冗余的信息；若低于此频率，则将产生不音信号。若超过此取样频率，就会包含冗余的信息；若低于此频率，则将产生不同程度的失真。同程度的失真。l 对于音频，最常用的采样频率有三种：对于音频，最常用的采样频率有三种：44.1KHz44.1KHz、22.05 KHz22.05 KHz、11.025 KHz11.025 KHz，其，其中中44.1KHz44.1KHz采样频率是最常用的频率。采样频率是最常用的频率。l 声道数声道数是声音通道的个数，指一次采样的声音波形个数。单声道一次采样一个声音波是声音通道的个数，指一次采样的声音波形个数。单声道一次采样一个声音波形，双声道一次采样两个声音波

16、形，又称为形，双声道一次采样两个声音波形，又称为“立体声立体声”。第十五页，讲稿共四十三页哦u 量化量化 l 量化（量化（QuantityQuantity）的目的是将采样后的信号波形的幅度值（样本）进行离散化处）的目的是将采样后的信号波形的幅度值（样本）进行离散化处理，样本从模拟量转化成了数字量。量化位数越多，所得到的量化值越接近原始波理，样本从模拟量转化成了数字量。量化位数越多，所得到的量化值越接近原始波形的采样值。形的采样值。l 一个量化器就是将整个信号的幅度值分成若干个有限的区间，并且把落入同一个一个量化器就是将整个信号的幅度值分成若干个有限的区间，并且把落入同一个区间的样本点都用同一个

17、幅度值来表示，这个幅度值称为量化值。区间的样本点都用同一个幅度值来表示，这个幅度值称为量化值。l 量化方式有三种：零记忆量化、分组量化和序列量化。量化方式有三种：零记忆量化、分组量化和序列量化。零记忆量化是每次量化一个模拟采样值，并对所有采样点都使用相同的量零记忆量化是每次量化一个模拟采样值，并对所有采样点都使用相同的量化器特性；化器特性；分组量化是从可能输出组的离散集合中选出一组输出值，代表一组输入的分组量化是从可能输出组的离散集合中选出一组输出值，代表一组输入的模拟采样值；模拟采样值；序列量化是在分组或非分组的基础上，用一些邻近采样点的信息对采样序列进行序列量化是在分组或非分组的基础上，用

18、一些邻近采样点的信息对采样序列进行量化。量化。第十六页，讲稿共四十三页哦第十七页，讲稿共四十三页哦说话的意向及概念语言语音知觉语义情感压缩、存储读取、解压语音合成语音编/解码语音识别计算机处理语音过程第十八页，讲稿共四十三页哦第十九页，讲稿共四十三页哦方法算法名称数据率标准应用质量波形编码PCM均匀量化公共网ISDN配音4.04.5(A)(A)64kbpsG.711APCM自适应量化 DPCM差值量化ADPCM自适应差值量化32kbpsG.721SBADPCM子带自适应差值量化64kbpsG.7225.3kbps6.3kbpsG.723参数编码LPC线性预测编码2.4kbps 保密话声

19、2.53.5混合编码CELPC码激励LPC4.6kbps 移动通信3.74.0VSELP矢量和激励LPC8kbps 语音通信RPE-LTP长时预测规则码激励13.2kbps ISDNLD-CELP低延时码激励LPC16kbpsG.728G.729 MPEG多自带感知编码128kbps CD5.0 AC-3感知编码音响5.0第二十页，讲稿共四十三页哦u 数据压缩条件数据压缩条件信号之所以能被压缩和编码，其原因主要是：信号之所以能被压缩和编码，其原因主要是：数据冗余度数据冗余度：音频信号通常存在很多用处不大的空间，空间越多，数据的冗余度也：音频信号通常存在很多用处不大的空间，空间越多，数据的冗

20、余度也越大。通过数据的压缩，将这些不用的空间去掉。越大。通过数据的压缩，将这些不用的空间去掉。人类不敏感因素人类不敏感因素：一般而言，人类对某些频率的音频信号不敏感，有无这些频率的音频，：一般而言，人类对某些频率的音频信号不敏感，有无这些频率的音频，在听觉上影响不大，在数据压缩时，就可去掉这些不敏感的成分，以便减少数据量。在听觉上影响不大，在数据压缩时，就可去掉这些不敏感的成分，以便减少数据量。信息传输与存储信息传输与存储：信息承载在数据上进行传输和存储，在传输和存储前后需要对数据进：信息承载在数据上进行传输和存储，在传输和存储前后需要对数据进行压缩处理，其原理如下图所示。行压缩处理，其原理如

21、下图所示。有损压缩无损压缩数据解压缩数据解压缩数据存储数据传输第二十一页，讲稿共四十三页哦u 数据冗余数据冗余冗余是指信息所具有的各种性质中多余的无用空间，其多余的程度叫做冗余度。信息冗余是指信息所具有的各种性质中多余的无用空间，其多余的程度叫做冗余度。信息量、数据量和冗余量之间的关系如下：量、数据量和冗余量之间的关系如下：duDIIDdu其中，表示信息量表示信息量表示数据量表示数据量表示冗余量，冗余量应在数据存储和传输之前去掉。表示冗余量，冗余量应在数据存储和传输之前去掉。冗余大致可分为：空间冗余、时间冗余、冗余大致可分为：空间冗余、时间冗余、统计冗余、统计冗余、结构冗余、信息熵冗余、结

22、构冗余、信息熵冗余、知识冗余等知识冗余等第二十二页，讲稿共四十三页哦u 数据压缩算法分类数据压缩算法分类数据压缩算法可根据解码后的数据与压缩前的原始数数据压缩算法可根据解码后的数据与压缩前的原始数据是否完全一致分为据是否完全一致分为“无损压缩编码无损压缩编码”和和“有损压缩编码有损压缩编码”两大类。两大类。第二十三页，讲稿共四十三页哦第二十四页，讲稿共四十三页哦第二十五页，讲稿共四十三页哦u G.711 64kb/sG.711 64kb/s脉冲编码调制（脉冲编码调制（PCMPCM）19721972年，年，CCITTCCITT对一个对一个64kb/s64kb/s压扩型压扩型PCMPCM编码器

23、做了标准化，称为编码器做了标准化，称为G.711G.711。事实上，已经有两个标准。在北美和日本，使用事实上，已经有两个标准。在北美和日本，使用律律PCMPCM。世界其他国家使用。世界其他国家使用A A律律PCMPCM。两种编码器的信号都用两种编码器的信号都用8 8位表示。有效信噪比大约为位表示。有效信噪比大约为35dB35dB，能够把它们看成浮点，能够把它们看成浮点表示值。表示值。A A律律PCMPCM对小信号有较大的分辨力，其动态范围等效于对小信号有较大的分辨力，其动态范围等效于1212位线性位线性PCMPCM。律律PCMPCM等效于等效于1313位线性位线性PCMPCM，但是，对于小信号

24、有更多的粒状噪声。，但是，对于小信号有更多的粒状噪声。两种编码器在总体性能上是等效的。很重要的一点是：当这两种编码器级联时，可以考两种编码器在总体性能上是等效的。很重要的一点是：当这两种编码器级联时，可以考虑为省去了最低有效位，而降低为虑为省去了最低有效位，而降低为56kb/s56kb/s的比特率。的比特率。第二十六页，讲稿共四十三页哦u G.721G.721、G.723G.723自适应差分脉码调制（自适应差分脉码调制（ADPCMADPCM）19841984年，年，CCITTCCITT首先对首先对32kbit/s32kbit/s自适应差分脉码调制（自适应差分脉码调制（ADPCMADPCM）做了

25、标准化）做了标准化，称为，称为G.721G.721。它为两个目的服务：。它为两个目的服务：第一第一，用于数字倍增器（用于数字倍增器（DCMEDCME）上，能够使系统容量有）上，能够使系统容量有2 2：1 1的增加；的增加；第二第二，在有些线路上，经常会遇到一端为，在有些线路上，经常会遇到一端为律而另一端为律而另一端为A A律的情况，律的情况，G.721G.721是为接收是为接收律或律或A A律的任一种作为输入而建立的。律的任一种作为输入而建立的。G.723G.723是在是在19881988年标准化的。它试图为年标准化的。它试图为DCMEDCME提供应用，而且，是在提供应用，而且，是在ADPCM

26、ADPCM的基的基础上，对两种附加速率础上，对两种附加速率24kb/s24kb/s和和40kb/s40kb/s进一步标准化。进一步标准化。G.721G.721是是32kb/s ADPCM32kb/s ADPCM，已经被选中作为欧洲数字无绳电话（，已经被选中作为欧洲数字无绳电话（DECTDECT）和无绳电话）和无绳电话IIII（CT2CT2）的标准。）的标准。第二十七页，讲稿共四十三页哦u G.722 7kHzG.722 7kHz声音编码器声音编码器 G.722G.722建议的音频压缩仍采用波形编码技术，为建议的音频压缩仍采用波形编码技术，为7kHz7kHz宽带编码器，主要用于电宽带编码器，主要

27、用于电话会议和可视电话会议。人们试图找到比电话（话会议和可视电话会议。人们试图找到比电话（2002003200Hz3200Hz）更大的带宽）更大的带宽，以减少使用者的疲劳。较大的带宽增加了语音的可懂度，因为在使用电，以减少使用者的疲劳。较大的带宽增加了语音的可懂度，因为在使用电话带宽的情况下，有些语音不易区分。话带宽的情况下，有些语音不易区分。这种编码器是基于两个子带的编码组合。一个这种编码器是基于两个子带的编码组合。一个2424抽头镜面正交滤波器，用抽头镜面正交滤波器，用于有效地分开信号，上频带使用于有效地分开信号，上频带使用16kb/s ADPCM16kb/s ADPCM，类似如，类似如G

28、.727G.727编码器。下频带使编码器。下频带使用用48kb/s ADPCM48kb/s ADPCM编码，具有编码，具有4 4和和5 5个量化器嵌入到个量化器嵌入到6 6位量化器。位量化器。第二十八页，讲稿共四十三页哦u G.728 16kb/sG.728 16kb/s低延迟码激励线性预测编码（低延迟码激励线性预测编码（LD-CELPLD-CELP）G.728G.728的工作进程是从的工作进程是从19881988年由年由CCITTCCITT开始的。它试图建立通用的开始的。它试图建立通用的16kb/s16kb/s长话质长话质量的语音编码标准。长话质量意味着它能匹配或超过量的语音编码标准。长话质

29、量意味着它能匹配或超过G.721 32kb/s ADPCMG.721 32kb/s ADPCM的性能；通用则表示任何地方都能够使用，所以引入了低延迟的要求。后来，的性能；通用则表示任何地方都能够使用，所以引入了低延迟的要求。后来，CCITTCCITT限限制它不能用在主干线的连接上，能够用在点到点的终端设备和电路倍增设备中制它不能用在主干线的连接上，能够用在点到点的终端设备和电路倍增设备中。G.728G.728的第一项应用是低比特率的视频电话，由于它能使用帧擦除，故也能够用在有的第一项应用是低比特率的视频电话，由于它能使用帧擦除，故也能够用在有衰减的无线电通道上。衰减的无线电通道上。G.728G

30、.728开始是按照浮点开始是按照浮点CELPCELP编码算法规定的，故要求严格的按照建议中规定的编码算法规定的，故要求严格的按照建议中规定的算法实现。为了验证是否已经正确实现，建立了一组试验矢量。后来，按照严格算法实现。为了验证是否已经正确实现，建立了一组试验矢量。后来，按照严格定点规定的算法也在定点规定的算法也在19941994年完成了。年完成了。第二十九页，讲稿共四十三页哦u MPEG1MPEG1的音频编码的音频编码国际标准化组织国际标准化组织/国际电工委员会所属的国际电工委员会所属的WG11WG11工作组制定推荐了工作组制定推荐了MPEGMPEG标准。已公布标准。已公布和正在讨论的标准

31、有和正在讨论的标准有MPEG1MPEG1、MPEG2MPEG2、MPEG4MPEG4、MPEG7MPEG7。这里仅介绍。这里仅介绍MPEG1MPEG1标准的一部分标准的一部分，对应于，对应于ISO/IEC 11172-3ISO/IEC 11172-3（MPEG-MPEG-音频）。这部分规定了高质量音频编码方法、存储表音频）。这部分规定了高质量音频编码方法、存储表示和解码方法。编码器的输入和解码器的输出与现存的示和解码方法。编码器的输入和解码器的输出与现存的PCMPCM标准兼容。标准兼容。ISO/IEC 11172ISO/IEC 11172视频、音频的总比特率为视频、音频的总比特率为1.5Mb/

32、s1.5Mb/s。音频使用的采样率为。音频使用的采样率为32kHz32kHz、44.1kHz44.1kHz和和48kHz48kHz。编码输出的比特率有许多种，由相关的参数决定编码输出的比特率有许多种，由相关的参数决定:（1 1）编码器）编码器（2 2）编码层次）编码层次（3 3）存储）存储（4 4）解码）解码第三十页，讲稿共四十三页哦u ACAC音频编码音频编码 AC-1AC-1应用的编码技术是自适应增量调制，它把应用的编码技术是自适应增量调制，它把20kHz20kHz的宽带立体声音频信号的宽带立体声音频信号编码成编码成512kb/s512kb/s的数据流。的数据流。AC-1AC-1曾在卫星电

33、视和调频广播上得到广泛应用。曾在卫星电视和调频广播上得到广泛应用。19901990年年DOLBYDOLBY实验室推出了立体声编码标准实验室推出了立体声编码标准AC-2AC-2，它采用类似，它采用类似MDCTMDCT的重叠窗口的重叠窗口的快速傅立叶变换编码技术，其比特率在的快速傅立叶变换编码技术，其比特率在256kb/s256kb/s以下。以下。AC-2AC-2被应用在被应用在PCPC声卡和综声卡和综合业务数字网等方面。合业务数字网等方面。AC-3AC-3音频编码标准的起源是音频编码标准的起源是DOLBY AC-1DOLBY AC-1。第三十一页，讲稿共四十三页哦第三十二页，讲稿共四十三页哦3.

34、3.1 3.3.1 波形格式波形格式 u WAVWAV是是Microsoft WindowsMicrosoft Windows本身提供的音频格式，用本身提供的音频格式，用.wav.wav作为扩展名，其文件格式称作为扩展名，其文件格式称为波形文件格式为波形文件格式(WAVE File Format)(WAVE File Format)。u 在在WindowsWindows环境下，大部分多媒体文件都遵循环境下，大部分多媒体文件都遵循RIFFRIFF结构来存放信息，结构来存放信息，RIFFRIFF可以看做可以看做是一种树状结构，其基本构成单位为是一种树状结构，其基本构成单位为ChunkChunk，就

35、像树形结构中的节点，每个，就像树形结构中的节点，每个ChunkChunk由由辨别码、数据长度及数据组成。辨别码、数据长度及数据组成。RIFF的简化结构图第三十三页，讲稿共四十三页哦u MIDIMIDI是是Musical Instrument Digital InterfaceMusical Instrument Digital Interface的首写字母组合词，可译成的首写字母组合词，可译成“电子乐器数字接口电子乐器数字接口”。用于在音乐合成器（。用于在音乐合成器（Music SynthesizersMusic Synthesizers）、乐器（）、乐器（Musical Instrumen

36、tsMusical Instruments）和计算机之间交换音乐信息、播放和录制音乐的一种标准协议）和计算机之间交换音乐信息、播放和录制音乐的一种标准协议。MIDIMIDI标准确定了将计算机与电声乐器、录音设备连接起来所需的电缆线、硬件及通标准确定了将计算机与电声乐器、录音设备连接起来所需的电缆线、硬件及通信协议。信协议。u MIDIMIDI标准的优点标准的优点：生成的文件比较小，因为生成的文件比较小，因为MIDIMIDI文件存储的是命令，而不是声音波形。文件存储的是命令，而不是声音波形。容易编辑，因为编辑命令比编辑声音波形要容易得多。容易编辑，因为编辑命令比编辑声音波形要容易得多。可以作背景

37、音乐，因为可以作背景音乐，因为MIDIMIDI音乐可以和其它的媒体，如数字电视、图形、动音乐可以和其它的媒体，如数字电视、图形、动画、话音等一起播放，这样可以加强演示效果。画、话音等一起播放，这样可以加强演示效果。第三十四页，讲稿共四十三页哦u 产生产生MIDIMIDI乐音的方法很多，现在用得较多的方法有两种。乐音的方法很多，现在用得较多的方法有两种。u 一种是（一种是（Synthesis Frequency ModulationSynthesis Frequency Modulation，FMFM）合成法。）合成法。FMFM发声器发声器的原理是先对音色本质进行研究计算之后再通过人工方式的原理

38、是先对音色本质进行研究计算之后再通过人工方式“模拟模拟”(”(或或合成合成)其频率，使用调变波去调变载波，最终获得不同的音色表现。其频率，使用调变波去调变载波，最终获得不同的音色表现。数字调制频率载波波形深度类型音调反馈音量颤音波形音效模拟声音 D/A 信号输出 D Attack：声音提升速度 S Decay：声音下降速度 A Sustain：乐音维持强度 R Release：声音回零速度声音包络发生器组合数字载波和调制器波形参数进行数字运算 FM声音合成器的基本原理第三十五页，讲稿共四十三页哦u 另一种是乐音样本合成法，也称为波形表另一种是乐音样本合成法，也

39、称为波形表(Wavetable)(Wavetable)合成法。合成法。颤音合凑声音回声回荡移动立体声源音调右通道 D/A 立体声模拟音量信号输出左声道 D Attack：声音提升速度 S Decay：声音下降速度 A R Sustain：乐音维持强度声音包络发生器 Release：声音回零速度乐音样本（ROM）数字信号处理器（DSP）数字计算：改变播放速率，加音效，使用包络数据等乐音样本合成器的工作原理第三十六页，讲稿共四十三页哦u MIDIMIDI通信形式，是将电子乐器连接起来的一种手段，它是控制乐器所用的软件和通信形式，是将电子乐器连接起来的一种手段，它是控制乐

40、器所用的软件和硬件的规范。大多数电子乐器内部都有与计算机类似的用于控制的微处理器。硬件的规范。大多数电子乐器内部都有与计算机类似的用于控制的微处理器。u MIDIMIDI在各种设备之间传送消息。当在一个在各种设备之间传送消息。当在一个MIDIMIDI设备上演奏时，其内部的微处理器设备上演奏时，其内部的微处理器将乐曲的详细信息包括演奏的音符，节奏的变化等发送出去，另外的将乐曲的详细信息包括演奏的音符，节奏的变化等发送出去，另外的MIDIMIDI设备接设备接收这些消息并做出相应的反应。在每个收这些消息并做出相应的反应。在每个MIDIMIDI乐器中使用三个连接器，一个向乐器中使用三个连接器，一个向外

41、发送数据，一个接收数据，另一个将收到的数据传送给其他外发送数据，一个接收数据，另一个将收到的数据传送给其他MIDIMIDI设备。设备。u MIDIMIDI消息有两种类型：状态字节和数字字节。状态字节描述发送的信息类别，数字字消息有两种类型：状态字节和数字字节。状态字节描述发送的信息类别，数字字节总是跟在状态字节后面，表示动作的实际值。节总是跟在状态字节后面，表示动作的实际值。第三十七页，讲稿共四十三页哦u 所有所有MIDIMIDI消息通过通道发送和接收。通道上能够传送不同乐器的声音，音序器能消息通过通道发送和接收。通道上能够传送不同乐器的声音，音序器能够让不同的乐器演奏不同的声部。够让不同的乐

42、器演奏不同的声部。MIDI通道乐器MIDI通道乐器MIDI通道乐器MIDI通道乐器1Piano5Cellos9Harp13Bassoon2Harp6Violas10Trombone14Clarinet3Percussion7Violin I11Trumpet15Oboe4Basses8Violin II12French.Horn16Fluteu MIDIMIDI用状态字节中的低用状态字节中的低4 4位表示紧随其后的数据所在的通道。位表示紧随其后的数据所在的通道。4 4位可表示位可表示0 01515这这1616个值，所以个值，所以MIDIMIDI有有1616个可用通道。个可用通道。第三十八页，讲

43、稿共四十三页哦u MP3MP3是是Fraunhofer-IISFraunhofer-IIS研究所（研究所（http:/www.iis.fhg.de/http:/www.iis.fhg.de/）的研究成果，它的）的研究成果，它的全称是全称是MPEG 1 Layer3MPEG 1 Layer3音频文件，是音频文件，是MPEG 1MPEG 1标准中的声音部分，也叫标准中的声音部分，也叫MPEGMPEG音频层。音频层。它根据压缩质量和编码复杂程度划分为三层，即它根据压缩质量和编码复杂程度划分为三层，即Layer1Layer1、Layer2Layer2、Layer3Layer3，分别对应分别对应MP1M

44、P1、MP2MP2、MP3MP3这三种声音文件。这三种声音文件。u MP3MP3对音频信号采用的是有损压缩方式，为了降低声音失真度，对音频信号采用的是有损压缩方式，为了降低声音失真度，MP3MP3采取了采取了“感知音频编码技术感知音频编码技术”，即编码时先对音频文件进行频谱分析，然后用过，即编码时先对音频文件进行频谱分析，然后用过滤器滤掉噪音电平，接着通过量化的方式将剩下的每一位打散排列，最后滤器滤掉噪音电平，接着通过量化的方式将剩下的每一位打散排列，最后形成具有较高压缩比的形成具有较高压缩比的MP3MP3文件，并使压缩后的文件在回放时能够达到比文件，并使压缩后的文件在回放时能够达到比较接近原

45、始音频数据的声音效果。较接近原始音频数据的声音效果。第三十九页，讲稿共四十三页哦u MP3MP3作为目前最普及的音频压缩格式，其文件大体分为三部分：作为目前最普及的音频压缩格式，其文件大体分为三部分：TAG_V2TAG_V2（ID3V2ID3V2）、）、FRAMEFRAME、TAG_V2TAG_V2（ID3V1ID3V1），其含义分别是：），其含义分别是：l ID3V2ID3V2：包含作者、作曲、专辑等信息。长度不固定，扩展了包含作者、作曲、专辑等信息。长度不固定，扩展了ID3V1ID3V1的信息量。的信息量。l FRAMEFRAME：一系列的帧，个数由文件大小和帧长决定。每个帧的长度一系列的

46、帧，个数由文件大小和帧长决定。每个帧的长度可能固定，也可能不固定，由比特率决定。每个帧又分为帧头和数可能固定，也可能不固定，由比特率决定。每个帧又分为帧头和数据实体两部分，帧头记录了据实体两部分，帧头记录了MP3MP3的数码率、采样率、版本等信息，的数码率、采样率、版本等信息，各帧间相互独立。各帧间相互独立。FRAMEHEADERCRC（free）MAIN_DATAMP3的FRAME格式 l ID3V1ID3V1：包含作者、作曲、专辑等信息，长度为包含作者、作曲、专辑等信息，长度为128B128B。第四十页，讲稿共四十三页哦第四十一页，讲稿共四十三页哦3.4 3.4 音频处理工具音频处理工具A

47、uditionAuditionAdobe AuditionAdobe Audition软件是软件是AdobeAdobe公司推出的一款完整的、应用于运行公司推出的一款完整的、应用于运行WindowsWindows系统系统的的PCPC机上的多音轨音频工作站。机上的多音轨音频工作站。u 功能概述功能概述 Adobe AuditionAdobe Audition是一款功能强大的、专业级的音乐编辑软件，能高质量是一款功能强大的、专业级的音乐编辑软件，能高质量的完成高级混音、编辑、控制、合成和特效处理能力，允许用户编辑个的完成高级混音、编辑、控制、合成和特效处理能力，允许用户编辑个性化的音频文件、创建循环

48、、引进了性化的音频文件、创建循环、引进了4545个以上的个以上的DSPDSP特效以及高达特效以及高达128128个音轨。个音轨。Adobe AuditionAdobe Audition拥有集成的多音轨和编辑视图、实时特效、环绕支持、分拥有集成的多音轨和编辑视图、实时特效、环绕支持、分析工具、恢复特性和视频支持等功能，为音乐、视频、音频和声音设计专业析工具、恢复特性和视频支持等功能，为音乐、视频、音频和声音设计专业人员提供全面集成的音频编辑和混音解决方案。人员提供全面集成的音频编辑和混音解决方案。Adobe AuditionAdobe Audition提供了直觉的、客户化的界面，允许用户删减和调整窗提供了直觉的、客户化的界面，允许用户删减和调整窗口的大小，创建一个高效率的音频工作范围。口的大小，创建一个高效率的音频工作范围。Adobe AuditionAdobe Audition为视频项目提供了高品质的音频，允许用户对能够为视频项目提供了高品质的音频，允许用户对能够观看影片重放的观看影片重放的AVIAVI声音音轨进行编辑、混合和增加特效。声音音轨进行编辑、混合和增加特效。第四十二页，讲稿共四十三页哦u 编辑环境第四十三页，讲稿共四十三页哦

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

18 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 多媒体技术基础实验教程讲稿

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：多媒体技术基础与实验教程讲稿.ppt
链接地址：https://www.taowenge.com/p-39344600.html