多媒体技术基础与实验教程.ppt

资源ID：46620282 资源大小：5MB 全文页数：43页
资源格式： PPT 下载积分：15金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要15金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

多媒体技术基础与实验教程.ppt

多媒体技术基础与实验多媒体技术基础与实验教程教程现在学习的是第1页，共43页第三章第三章目录目录3.1 3.1 数字音频基本原理数字音频基本原理 3.1.1 人类听觉特性人类听觉特性 3.1.2 数字音频数字音频 3.1.3 声音声音 3.1.4 语音语音3.2 常用音频编码算法和标准常用音频编码算法和标准 3.2.1 音频信号编码基础音频信号编码基础 3.2.2 常用音频编码标准常用音频编码标准 3.2.3 国际音频标准化组织简介国际音频标准化组织简介3.3 音频文件格式音频文件格式 3.3.1 波形格式波形格式 3.3.2 MIDI格式格式 3.3.3 MP3压缩格式压缩格式 3.3.4 流式音频格式流式音频格式3.4 音频处理工具音频处理工具Audition 3.4.1 功能概述功能概述 3.4.2 编辑环境编辑环境 3.4.3 基本操作基本操作现在学习的是第2页，共43页3.1 3.1 数字音频基本原理数字音频基本原理 3.1.1 人类听觉特性人类听觉特性 u 听阈与听域听阈与听域l 声压声压是声音在空气中传播而改变了空气原来的恒定静压力，导致了原有静压力的微小增是声音在空气中传播而改变了空气原来的恒定静压力，导致了原有静压力的微小增加加。l 声压级声压级为某一点的声压与参考声压的比值取常用对数后再乘以为某一点的声压与参考声压的比值取常用对数后再乘以20的值，单位是分贝，即的值，单位是分贝，即dB，是反映，是反映声音大小、强弱的最基本参量声音大小、强弱的最基本参量。l 听阈（听阈（Auditory Threshold）就是指人能听到的最低声压级（就是指人能听到的最低声压级（Sound Power Level，SPL）。纯音的）。纯音的听阈与频率有关：听阈与频率有关：1kHz纯音的听阈约为纯音的听阈约为4dB，10kHz时听阈约为时听阈约为15dB，到，到40kHz时达到时达到50dB左左右。右。l 听域（听域（Audible Area）是指人能感知的声音的范围，正常人耳能够感知的频率范围大致是是指人能感知的声音的范围，正常人耳能够感知的频率范围大致是20Hz20kHz；正常人能感知声音的声压级范围是；正常人能感知声音的声压级范围是0128dB，这里基准声压级（，这里基准声压级（0 dB SPL）的定义）的定义是是10-16W/cm2。l 声强声强是指单位时间（是指单位时间（1秒钟）内声音通过垂直于声音传播方向单位面积（秒钟）内声音通过垂直于声音传播方向单位面积（cm2）的声能量。）的声能量。现在学习的是第3页，共43页听域频率曲线在“听阈-频率”曲线和“痛阈-频率”曲线之间的区域就是人耳的听觉范围。现在学习的是第4页，共43页u 音调音调音调（音调（Pitch）是指人耳对不同频率声音的一种主观感受。人们定义一个是指人耳对不同频率声音的一种主观感受。人们定义一个高于听阈高于听阈40dB、频率为、频率为1kHz的纯音的音调为的纯音的音调为1000Mel，这里，这里Mel是音调的度量是音调的度量单位。单位。u 响度和响度级响度和响度级响度（响度（Loudness）是人耳感受声音强弱的主观感觉程度，这种感觉与音强、频率和波形都有关是人耳感受声音强弱的主观感觉程度，这种感觉与音强、频率和波形都有关系，其度量单位为系，其度量单位为Sone，定义一个高于听阈，定义一个高于听阈40dB、频率为、频率为1kHz的纯音的响度为的纯音的响度为1Sone。响度级（响度级（Loudness Level）是指某响度与基准响度相比的等级，其度量单位为是指某响度与基准响度相比的等级，其度量单位为Phon，定义，定义1kHz纯音的声强级为纯音的声强级为1Phon。响度和响度级响度和响度级L之间满足以下转换关系：之间满足以下转换关系：现在学习的是第5页，共43页现在学习的是第6页，共43页u 绝对听觉门限绝对听觉门限绝对听觉门限（绝对听觉门限（Absolute Threshold of Hearing，ATH）指一个人在没有噪声的环境指一个人在没有噪声的环境下，能够产生听觉，感知到一个纯音信号（某各频率点）的最小能量幅度。通常绝下，能够产生听觉，感知到一个纯音信号（某各频率点）的最小能量幅度。通常绝对听觉门限用声压级表示（对听觉门限用声压级表示（dB），静音为），静音为0dB，痛阈为，痛阈为140dB。绝对听觉门限曲线横坐标是频率，表示人所能听到的声音横坐标是频率，表示人所能听到的声音的频率范围的频率范围纵坐标是声压级，表示所有低于门纵坐标是声压级，表示所有低于门限的声音信号人类一般听不到限的声音信号人类一般听不到现在学习的是第7页，共43页u 临界频带临界频带临界频带（临界频带（Critical BandCritical Band）是指一个纯音可以被以它为中心频是指一个纯音可以被以它为中心频率，并且具有一定频带宽度的连续噪声所掩蔽，在这一频带内噪声功率率，并且具有一定频带宽度的连续噪声所掩蔽，在这一频带内噪声功率等于该纯音的功率。这使该纯音处于刚能被听到的临界状态，即称这一等于该纯音的功率。这使该纯音处于刚能被听到的临界状态，即称这一带宽为临界频带宽度。临界频带的单位叫带宽为临界频带宽度。临界频带的单位叫Bark(Bark(巴克巴克)。频率 500Hz的情况下，现在学习的是第8页，共43页临临界界频频带带频频率率 (Hz)(Hz)临临界界频频带带频频率率 (Hz)(Hz)低端高端宽度低端高端宽度001001001320002320320110020010014232027003802200300100152700315045033004001001631503700550440051011017370044007005510630120184400530090066307701401953006400110077709201502064007700130089201080160217700950018009108012701902295001200025001012701480210231200015500350011148017202402415500220506550121720200028025个临界频带现在学习的是第9页，共43页u 同时掩蔽同时掩蔽同时掩蔽（同时掩蔽（Simultaneous MaskingSimultaneous Masking）又称频域掩蔽，分为噪声掩蔽音又称频域掩蔽，分为噪声掩蔽音调（调（NMTNMT）、音调掩蔽噪声（）、音调掩蔽噪声（TMNTMN）和噪声掩蔽噪声（）和噪声掩蔽噪声（NMNNMN）。）。掩蔽效应是指当两个响度不等的声音作用于人耳时，响度较高的掩蔽效应是指当两个响度不等的声音作用于人耳时，响度较高的频率成分的存在会影响到对响度较低的频率成分的感知。频率成分的存在会影响到对响度较低的频率成分的感知。当两个或更多的音频信号到达人内耳时，掩蔽声与被掩蔽声同时当两个或更多的音频信号到达人内耳时，掩蔽声与被掩蔽声同时作用发生掩蔽效应，就称同时掩蔽。即在一个临界频带内，一个大的作用发生掩蔽效应，就称同时掩蔽。即在一个临界频带内，一个大的信号可以掩蔽掉若干小的信号，无论这个信号是音调还是噪音。信号可以掩蔽掉若干小的信号，无论这个信号是音调还是噪音。现在学习的是第10页，共43页声强为60dB、频率为1000Hz纯音的掩蔽效应声强为60dB、频率不同的纯音的掩蔽效应现在学习的是第11页，共43页u 异时掩蔽异时掩蔽异时掩蔽（异时掩蔽（Nonsimultaneous MaskingNonsimultaneous Masking）又称时域掩蔽，是指掩蔽效应发生在掩蔽声又称时域掩蔽，是指掩蔽效应发生在掩蔽声与被掩蔽声不同时出现的情况下。此时出现的一个强音频信号可以掩蔽到之前若干与被掩蔽声不同时出现的情况下。此时出现的一个强音频信号可以掩蔽到之前若干时间和之后若干时间的音频信号的感知，即导前掩蔽或滞后掩蔽。而对之前音频信时间和之后若干时间的音频信号的感知，即导前掩蔽或滞后掩蔽。而对之前音频信号的掩蔽效应衰减的很快，大概只能掩蔽到几毫秒，而对之后音频信号的掩蔽可以号的掩蔽效应衰减的很快，大概只能掩蔽到几毫秒，而对之后音频信号的掩蔽可以持续到最长持续到最长200ms200ms的时间。的时间。时域掩蔽现在学习的是第12页，共43页u 感知熵感知熵感知熵（感知熵（Perceptual EntropyPerceptual Entropy）是指利用心理声学的掩蔽现象和信号能是指利用心理声学的掩蔽现象和信号能量化原理来测量音频信号中感知相关的信息。一般以位（量化原理来测量音频信号中感知相关的信息。一般以位（bitbit）作为单位，实）作为单位，实际上表示了音频信号压缩的理论极限。际上表示了音频信号压缩的理论极限。感知熵的计算原理是：感知熵的计算原理是：1 1）对原始信号加）对原始信号加20482048点汉明窗，然后进行点汉明窗，然后进行20482048点的快速傅立叶变换，将时域点的快速傅立叶变换，将时域音频信号转换成频域信号。音频信号转换成频域信号。2 2）通过临界频带分析得到掩蔽阈值，然后对信号进行噪音类和纯音类判决，最后）通过临界频带分析得到掩蔽阈值，然后对信号进行噪音类和纯音类判决，最后将绝对听阈考虑进来。将绝对听阈考虑进来。现在学习的是第13页，共43页3.1.2 3.1.2 数字音频数字音频n n音频信号是时间和幅度都连续变化的一维模拟信号，要想在计算机中对它音频信号是时间和幅度都连续变化的一维模拟信号，要想在计算机中对它音频信号是时间和幅度都连续变化的一维模拟信号，要想在计算机中对它音频信号是时间和幅度都连续变化的一维模拟信号，要想在计算机中对它进行处理，就要将它变成时间和幅度都是离散的数字信号，所以数字音频进行处理，就要将它变成时间和幅度都是离散的数字信号，所以数字音频进行处理，就要将它变成时间和幅度都是离散的数字信号，所以数字音频进行处理，就要将它变成时间和幅度都是离散的数字信号，所以数字音频是指音频信号经过离散化处理后再用一系列的数字来表示的信号，其特点是指音频信号经过离散化处理后再用一系列的数字来表示的信号，其特点是指音频信号经过离散化处理后再用一系列的数字来表示的信号，其特点是指音频信号经过离散化处理后再用一系列的数字来表示的信号，其特点是保真度好，动态范围大。数字音频可分为波形声音、语音和音乐。波形是保真度好，动态范围大。数字音频可分为波形声音、语音和音乐。波形是保真度好，动态范围大。数字音频可分为波形声音、语音和音乐。波形是保真度好，动态范围大。数字音频可分为波形声音、语音和音乐。波形声音实际上包含了所有的声音形式，因此数字音频有时也泛称为声音。声音实际上包含了所有的声音形式，因此数字音频有时也泛称为声音。声音实际上包含了所有的声音形式，因此数字音频有时也泛称为声音。声音实际上包含了所有的声音形式，因此数字音频有时也泛称为声音。n n用计算机来处理音频信号必须将模拟音频信号转换成有限个数字表示的离散用计算机来处理音频信号必须将模拟音频信号转换成有限个数字表示的离散用计算机来处理音频信号必须将模拟音频信号转换成有限个数字表示的离散用计算机来处理音频信号必须将模拟音频信号转换成有限个数字表示的离散序列，其间要经历：选择采样频率，即进行采样；选择分辨率，即进行量化；序列，其间要经历：选择采样频率，即进行采样；选择分辨率，即进行量化；序列，其间要经历：选择采样频率，即进行采样；选择分辨率，即进行量化；序列，其间要经历：选择采样频率，即进行采样；选择分辨率，即进行量化；最后编码形成声音文件。最后编码形成声音文件。最后编码形成声音文件。最后编码形成声音文件。声音的采样与量化现在学习的是第14页，共43页u 采样采样 l 采样（采样（SamplingSampling）是把模拟信号在时间域上以固定的时间间隔对波形的值是把模拟信号在时间域上以固定的时间间隔对波形的值进行抽取，再用若干位二进制数表示。进行抽取，再用若干位二进制数表示。l 两个取样点之间的间隔称为两个取样点之间的间隔称为采样周期采样周期，它的倒数称为采样频率。，它的倒数称为采样频率。l 根据采样定理，当采样频率大于信号最高频率的两倍时，在采样过程中就不根据采样定理，当采样频率大于信号最高频率的两倍时，在采样过程中就不会丢失信息，并且可以用采样后的信号重构原始信号，就能不失真地还原出会丢失信息，并且可以用采样后的信号重构原始信号，就能不失真地还原出原始的声音信号。若超过此取样频率，就会包含冗余的信息；若低于此频率，原始的声音信号。若超过此取样频率，就会包含冗余的信息；若低于此频率，则将产生不同程度的失真。则将产生不同程度的失真。l 对于音频，最常用的采样频率有三种：对于音频，最常用的采样频率有三种：44.1KHz44.1KHz、22.05 KHz22.05 KHz、11.025 KHz11.025 KHz，其中其中44.1KHz44.1KHz采样频率是最常用的频率。采样频率是最常用的频率。l 声道数声道数是声音通道的个数，指一次采样的声音波形个数。单声道一次采样是声音通道的个数，指一次采样的声音波形个数。单声道一次采样一个声音波形，双声道一次采样两个声音波形，又称为一个声音波形，双声道一次采样两个声音波形，又称为“立体声立体声”。现在学习的是第15页，共43页u 量化量化 l 量化（量化（QuantityQuantity）的目的是将采样后的信号波形的幅度值（样本）进行离）的目的是将采样后的信号波形的幅度值（样本）进行离散化处理，样本从模拟量转化成了数字量。量化位数越多，所得到的量化散化处理，样本从模拟量转化成了数字量。量化位数越多，所得到的量化值越接近原始波形的采样值。值越接近原始波形的采样值。l 一个量化器就是将整个信号的幅度值分成若干个有限的区间，并且把落一个量化器就是将整个信号的幅度值分成若干个有限的区间，并且把落入同一个区间的样本点都用同一个幅度值来表示，这个幅度值称为量化值。入同一个区间的样本点都用同一个幅度值来表示，这个幅度值称为量化值。l 量化方式有三种：零记忆量化、分组量化和序列量化。量化方式有三种：零记忆量化、分组量化和序列量化。零记忆量化是每次量化一个模拟采样值，并对所有采样点都使用相同的量化器特性；零记忆量化是每次量化一个模拟采样值，并对所有采样点都使用相同的量化器特性；分组量化是从可能输出组的离散集合中选出一组输出值，代表一组输入的模拟采分组量化是从可能输出组的离散集合中选出一组输出值，代表一组输入的模拟采样值；样值；序列量化是在分组或非分组的基础上，用一些邻近采样点的信息对采样序列进行序列量化是在分组或非分组的基础上，用一些邻近采样点的信息对采样序列进行量化。量化。现在学习的是第16页，共43页3.1.3 3.1.3 声音声音n n声学是研究声音的学科，包括声波的产生、传播和接收。物体振动在弹性体声学是研究声音的学科，包括声波的产生、传播和接收。物体振动在弹性体声学是研究声音的学科，包括声波的产生、传播和接收。物体振动在弹性体声学是研究声音的学科，包括声波的产生、传播和接收。物体振动在弹性体里的传播叫做波，而在空气中传播的波就叫做声波，能被人的听觉器官所感里的传播叫做波，而在空气中传播的波就叫做声波，能被人的听觉器官所感里的传播叫做波，而在空气中传播的波就叫做声波，能被人的听觉器官所感里的传播叫做波，而在空气中传播的波就叫做声波，能被人的听觉器官所感觉到的声波叫声音，其频率一般在觉到的声波叫声音，其频率一般在觉到的声波叫声音，其频率一般在觉到的声波叫声音，其频率一般在20Hz20Hz20Hz20Hz20KHz20KHz20KHz20KHz之间。之间。之间。之间。n n声音的传播是将本地振动向一个接一个的区域传播的过程，因此声音是纵向传播的。声音声音的传播是将本地振动向一个接一个的区域传播的过程，因此声音是纵向传播的。声音声音的传播是将本地振动向一个接一个的区域传播的过程，因此声音是纵向传播的。声音声音的传播是将本地振动向一个接一个的区域传播的过程，因此声音是纵向传播的。声音振动所产生压力的改变可以是周期性的，也可以是非周期性的。一系列周期性的振动是一振动所产生压力的改变可以是周期性的，也可以是非周期性的。一系列周期性的振动是一振动所产生压力的改变可以是周期性的，也可以是非周期性的。一系列周期性的振动是一振动所产生压力的改变可以是周期性的，也可以是非周期性的。一系列周期性的振动是一个周期，每秒经过一个固定点的振动周期的次数就是声波的频率，用个周期，每秒经过一个固定点的振动周期的次数就是声波的频率，用个周期，每秒经过一个固定点的振动周期的次数就是声波的频率，用个周期，每秒经过一个固定点的振动周期的次数就是声波的频率，用HzHzHzHz表示，人类听力表示，人类听力表示，人类听力表示，人类听力的大致范围是的大致范围是的大致范围是的大致范围是20Hz20Hz20Hz20Hz20KHz20KHz20KHz20KHz，因此音频设备的响应设计也是在这个频率范围内。，因此音频设备的响应设计也是在这个频率范围内。，因此音频设备的响应设计也是在这个频率范围内。，因此音频设备的响应设计也是在这个频率范围内。n n声音的三要素是音调、音色和音强。就听觉特性而言，声音质量的高低主要取决于声音的三要素是音调、音色和音强。就听觉特性而言，声音质量的高低主要取决于声音的三要素是音调、音色和音强。就听觉特性而言，声音质量的高低主要取决于声音的三要素是音调、音色和音强。就听觉特性而言，声音质量的高低主要取决于这三要素。这三要素。这三要素。这三要素。n n音强是指声音的强度，也称为声音的响度。音强与声波的振幅成正比，振幅音强是指声音的强度，也称为声音的响度。音强与声波的振幅成正比，振幅音强是指声音的强度，也称为声音的响度。音强与声波的振幅成正比，振幅音强是指声音的强度，也称为声音的响度。音强与声波的振幅成正比，振幅越大，强度越大。越大，强度越大。越大，强度越大。越大，强度越大。n n声音的质量简称音质。音质的好坏与音色和频率范围有关。另外影响音质的因素声音的质量简称音质。音质的好坏与音色和频率范围有关。另外影响音质的因素声音的质量简称音质。音质的好坏与音色和频率范围有关。另外影响音质的因素声音的质量简称音质。音质的好坏与音色和频率范围有关。另外影响音质的因素还有：还有：还有：还有：1 1 1 1）与采样频率有关。）与采样频率有关。）与采样频率有关。）与采样频率有关。2 2 2 2）与音频处理设备有关。）与音频处理设备有关。）与音频处理设备有关。）与音频处理设备有关。3 3 3 3）与信号噪声比有关。）与信号噪声比有关。）与信号噪声比有关。）与信号噪声比有关。现在学习的是第17页，共43页3.1.4 3.1.4 语音语音n n语音是一种特殊的媒体，但也是一种波形，在计算机中表示方式与波形声音的文件格语音是一种特殊的媒体，但也是一种波形，在计算机中表示方式与波形声音的文件格语音是一种特殊的媒体，但也是一种波形，在计算机中表示方式与波形声音的文件格语音是一种特殊的媒体，但也是一种波形，在计算机中表示方式与波形声音的文件格式相同。语音处理的研究已经有一百多年的历史。其研究范围主要涉及：语音编码、式相同。语音处理的研究已经有一百多年的历史。其研究范围主要涉及：语音编码、式相同。语音处理的研究已经有一百多年的历史。其研究范围主要涉及：语音编码、式相同。语音处理的研究已经有一百多年的历史。其研究范围主要涉及：语音编码、语音合成、语音识别的基本算法和应用。语音合成、语音识别的基本算法和应用。语音合成、语音识别的基本算法和应用。语音合成、语音识别的基本算法和应用。说话的意向及概念语言语音知觉语义情感压缩、存储读取、解压语音合成语音编/解码语音识别计算机处理语音过程现在学习的是第18页，共43页3.2 3.2 常用音频编码算法和标准常用音频编码算法和标准在音频编码技术三十余年的发展过程中，国际电报电话咨询在音频编码技术三十余年的发展过程中，国际电报电话咨询在音频编码技术三十余年的发展过程中，国际电报电话咨询在音频编码技术三十余年的发展过程中，国际电报电话咨询委员会（委员会（委员会（委员会（CCITTCCITT）和国际标准化组织（）和国际标准化组织（）和国际标准化组织（）和国际标准化组织（ISOISO）先后提出了一系）先后提出了一系）先后提出了一系）先后提出了一系列有关音频编码的建议列有关音频编码的建议列有关音频编码的建议列有关音频编码的建议:现在学习的是第19页，共43页方法算法名称数据率标准应用质量波形编码PCM均匀量化公共网ISDN配音4.04.5(A)(A)64kbpsG.711APCM自适应量化 DPCM差值量化ADPCM自适应差值量化32kbpsG.721SBADPCM子带自适应差值量化64kbpsG.7225.3kbps6.3kbpsG.723参数编码LPC线性预测编码2.4kbps 保密话声2.53.5混合编码CELPC码激励LPC4.6kbps 移动通信3.74.0VSELP矢量和激励LPC8kbps 语音通信RPE-LTP长时预测规则码激励13.2kbps ISDNLD-CELP低延时码激励LPC16kbpsG.728G.729 MPEG多自带感知编码128kbps CD5.0 AC-3感知编码音响5.0现在学习的是第20页，共43页3.2.1 3.2.1 音频信号编码基础音频信号编码基础u 数据压缩条件数据压缩条件信号之所以能被压缩和编码，其原因主要是：信号之所以能被压缩和编码，其原因主要是：数据冗余度数据冗余度：音频信号通常存在很多用处不大的空间，空间越多，数据的冗余度也越大。：音频信号通常存在很多用处不大的空间，空间越多，数据的冗余度也越大。通过数据的压缩，将这些不用的空间去掉。通过数据的压缩，将这些不用的空间去掉。人类不敏感因素人类不敏感因素：一般而言，人类对某些频率的音频信号不敏感，有无这些频率的音：一般而言，人类对某些频率的音频信号不敏感，有无这些频率的音频，在听觉上影响不大，在数据压缩时，就可去掉这些不敏感的成分，以便减少数据频，在听觉上影响不大，在数据压缩时，就可去掉这些不敏感的成分，以便减少数据量。量。信息传输与存储信息传输与存储：信息承载在数据上进行传输和存储，在传输和存储前后需要对数：信息承载在数据上进行传输和存储，在传输和存储前后需要对数据进行压缩处理，其原理如下图所示。据进行压缩处理，其原理如下图所示。有损压缩无损压缩数据解压缩数据解压缩数据存储数据传输现在学习的是第21页，共43页u 数据冗余数据冗余冗余是指信息所具有的各种性质中多余的无用空间，其多余的程度叫做冗余度。信冗余是指信息所具有的各种性质中多余的无用空间，其多余的程度叫做冗余度。信息量、数据量和冗余量之间的关系如下：息量、数据量和冗余量之间的关系如下：其中，表示信息量表示信息量表示数据量表示数据量表示冗余量，冗余量表示冗余量，冗余量应应在数据存在数据存储储和和传输传输之前去掉。之前去掉。冗余大致可分为：空间冗余、时间冗余、冗余大致可分为：空间冗余、时间冗余、统计冗余、统计冗余、结构冗余、信息熵冗余、结构冗余、信息熵冗余、知识冗余等知识冗余等现在学习的是第22页，共43页u 数据压缩算法分类数据压缩算法分类数据压缩算法可根据解码后的数据与压缩前的原始数据压缩算法可根据解码后的数据与压缩前的原始数据是否完全一致分为数据是否完全一致分为“无损压缩编码无损压缩编码”和和“有损压缩有损压缩编码编码”两大类。两大类。现在学习的是第23页，共43页现在学习的是第24页，共43页3.2.2 3.2.2 常用音频编码标准常用音频编码标准n nG.711 64kb/sG.711 64kb/s脉冲编码调制（脉冲编码调制（脉冲编码调制（脉冲编码调制（PCMPCM）n nG.721G.721、G.723G.723自适应差分脉码调制（自适应差分脉码调制（自适应差分脉码调制（自适应差分脉码调制（ADPCMADPCM）n nG.722 7kHzG.722 7kHz声音编码器声音编码器声音编码器声音编码器 n nG.728 16kb/sG.728 16kb/s低延迟码激励线性预测编码（低延迟码激励线性预测编码（低延迟码激励线性预测编码（低延迟码激励线性预测编码（LD-CELPLD-CELP）n nMPEG1MPEG1的音频编码的音频编码的音频编码的音频编码 n nACAC音频编码音频编码音频编码音频编码现在学习的是第25页，共43页u G.711 64kb/sG.711 64kb/s脉冲编码调制（脉冲编码调制（PCMPCM）19721972年，年，CCITTCCITT对一个对一个64kb/s64kb/s压扩型压扩型PCMPCM编码器做了标准化，称为编码器做了标准化，称为G.711G.711。事实上，已经有两个标准。在北美和日本，使用事实上，已经有两个标准。在北美和日本，使用律律PCMPCM。世界其他国家使用。世界其他国家使用A A律律PCMPCM。两种编码器的信号都用两种编码器的信号都用8 8位表示。有效信噪比大约为位表示。有效信噪比大约为35dB35dB，能够把它们看成浮点表，能够把它们看成浮点表示值。示值。A A律律PCMPCM对小信号有较大的分辨力，其动态范围等效于对小信号有较大的分辨力，其动态范围等效于1212位线性位线性PCMPCM。律律PCMPCM等效于等效于1313位线性位线性PCMPCM，但是，对于小信号有更多的粒状噪声。，但是，对于小信号有更多的粒状噪声。两种编码器在总体性能上是等效的。很重要的一点是：当这两种编码器级联时，可以考两种编码器在总体性能上是等效的。很重要的一点是：当这两种编码器级联时，可以考虑为省去了最低有效位，而降低为虑为省去了最低有效位，而降低为56kb/s56kb/s的比特率。的比特率。现在学习的是第26页，共43页u G.721G.721、G.723G.723自适应差分脉码调制（自适应差分脉码调制（ADPCMADPCM）19841984年，年，CCITTCCITT首先对首先对32kbit/s32kbit/s自适应差分脉码调制（自适应差分脉码调制（ADPCMADPCM）做了标准）做了标准化，称为化，称为G.721G.721。它为两个目的服务：。它为两个目的服务：第一第一，用于数字倍增器（用于数字倍增器（DCMEDCME）上，能够使系统容量有）上，能够使系统容量有2 2：1 1的增加；的增加；第二第二，在有些线路上，经常会遇到一端为，在有些线路上，经常会遇到一端为律而另一端为律而另一端为A A律的情况，律的情况，G.721G.721是为是为接收接收律或律或A A律的任一种作为输入而建立的。律的任一种作为输入而建立的。G.723G.723是在是在19881988年标准化的。它试图为年标准化的。它试图为DCMEDCME提供应用，而且，是在提供应用，而且，是在ADPCMADPCM的基的基础上，对两种附加速率础上，对两种附加速率24kb/s24kb/s和和40kb/s40kb/s进一步标准化。进一步标准化。G.721G.721是是32kb/s ADPCM32kb/s ADPCM，已经被选中作为欧洲数字无绳电话（，已经被选中作为欧洲数字无绳电话（DECTDECT）和无）和无绳电话绳电话IIII（CT2CT2）的标准。）的标准。现在学习的是第27页，共43页u G.722 7kHzG.722 7kHz声音编码器声音编码器 G.722G.722建议的音频压缩仍采用波形编码技术，为建议的音频压缩仍采用波形编码技术，为7kHz7kHz宽带编码器，主要宽带编码器，主要用于电话会议和可视电话会议。人们试图找到比电话（用于电话会议和可视电话会议。人们试图找到比电话（2002003200Hz3200Hz）更大的）更大的带宽，以减少使用者的疲劳。较大的带宽增加了语音的可懂度，因为在使用电话带带宽，以减少使用者的疲劳。较大的带宽增加了语音的可懂度，因为在使用电话带宽的情况下，有些语音不易区分。宽的情况下，有些语音不易区分。这种编码器是基于两个子带的编码组合。一个这种编码器是基于两个子带的编码组合。一个2424抽头镜面正交滤波器，用于抽头镜面正交滤波器，用于有效地分开信号，上频带使用有效地分开信号，上频带使用16kb/s ADPCM16kb/s ADPCM，类似如，类似如G.727G.727编码器。下频带使编码器。下频带使用用48kb/s ADPCM48kb/s ADPCM编码，具有编码，具有4 4和和5 5个量化器嵌入到个量化器嵌入到6 6位量化器。位量化器。现在学习的是第28页，共43页u G.728 16kb/sG.728 16kb/s低延迟码激励线性预测编码（低延迟码激励线性预测编码（LD-CELPLD-CELP）G.728G.728的工作进程是从的工作进程是从19881988年由年由CCITTCCITT开始的。它试图建立通用的开始的。它试图建立通用的16kb/s16kb/s长话长话质量的语音编码标准。长话质量意味着它能匹配或超过质量的语音编码标准。长话质量意味着它能匹配或超过G.721 32kb/s G.721 32kb/s ADPCMADPCM的性能；通用则表示任何地方都能够使用，所以引入了低延迟的要求。后来，的性能；通用则表示任何地方都能够使用，所以引入了低延迟的要求。后来，CCITTCCITT限制它不能用在主干线的连接上，能够用在点到点的终端设备和电路倍增设限制它不能用在主干线的连接上，能够用在点到点的终端设备和电路倍增设备中。备中。G.728G.728的第一项应用是低比特率的视频电话，由于它能使用帧擦除，故的第一项应用是低比特率的视频电话，由于它能使用帧擦除，故也能够用在有衰减的无线电通道上。也能够用在有衰减的无线电通道上。G.728G.728开始是按照浮点开始是按照浮点CELPCELP编码算法规定的，故要求严格的按照建议中规定编码算法规定的，故要求严格的按照建议中规定的算法实现。为了验证是否已经正确实现，建立了一组试验矢量。后来，按的算法实现。为了验证是否已经正确实现，建立了一组试验矢量。后来，按照严格定点规定的算法也在照严格定点规定的算法也在19941994年完成了。年完成了。现在学习的是第29页，共43页u MPEG1MPEG1的音频编码的音频编码国际标准化组织国际标准化组织/国际电工委员会所属的国际电工委员会所属的WG11WG11工作组制定推荐了工作组制定推荐了MPEGMPEG标准。已标准。已公布和正在讨论的标准有公布和正在讨论的标准有MPEG1MPEG1、MPEG2MPEG2、MPEG4MPEG4、MPEG7MPEG7。这里仅介绍。这里仅介绍MPEG1MPEG1标准的一部标准的一部分，对应于分，对应于ISO/IEC 11172-3ISO/IEC 11172-3（MPEG-MPEG-音频）。这部分规定了高质量音频编码方法、存音频）。这部分规定了高质量音频编码方法、存储表示和解码方法。编码器的输入和解码器的输出与现存的储表示和解码方法。编码器的输入和解码器的输出与现存的PCMPCM标准兼容。标准兼容。ISO/IEC ISO/IEC 1117211172视频、音频的总比特率为视频、音频的总比特率为1.5Mb/s1.5Mb/s。音频使用的采样率为。音频使用的采样率为32kHz32kHz、44.1kHz44.1kHz和和48kHz48kHz。编码输出的比特率有许多种，由相关的参数决定编码输出的比特率有许多种，由相关的参数决定:（1 1）编码器）编码器（2 2）编码层次）编码层次（3 3）存储）存储（4 4）解码）解码现在学习的是第30页，共43页u ACAC音频编码音频编码 AC-1AC-1应用的编码技术是自适应增量调制，它把应用的编码技术是自适应增量调制，它把20kHz20kHz的宽带立体声音频信号编的宽带立体声音频信号编码成码成512kb/s512kb/s的数据流。的数据流。AC-1AC-1曾在卫星电视和调频广播上得到广泛应用。曾在卫星电视和调频广播上得到广泛应用。19901990年年DOLBYDOLBY实验室推出了立体声编码标准实验室推出了立体声编码标准AC-2AC-2，它采用类似，它采用类似MDCTMDCT的重叠窗口的快的重叠窗口的快速傅立叶变换编码技术，其比特率在速傅立叶变换编码技术，其比特率在256kb/s256kb/s以下。以下。AC-2AC-2被应用在被应用在PCPC声卡和综合业声卡和综合业务数字网等方面。务数字网等方面。AC-3AC-3音频编码标准的起源是音频编码标准的起源是DOLBY AC-1DOLBY AC-1。现在学习的是第31页，共43页3.2.3 3.2.3 国际音频标准化组织简介国际音频标准化组织简介 n n国际电信联盟（国际电信联盟（国际电信联盟（国际电信联盟（ITUITUITUITU）n n北美的标准化组织北美的标准化组织北美的标准化组织北美的标准化组织 n n欧洲电信标准研究所欧洲电信标准研究所欧洲电信标准研究所欧洲电信标准研究所 n n日本的日本的日本的日本的RCR RCR RCR RCR n n中国的电信标准化组织中国的电信标准化组织中国的电信标准化组织中国的电信标准化组织现在学习的是第32页，共43页3.3 3.3 音频文件格式音频文件格式3.3.1 3.3.1 波形格式波形格式 u WAVWAV是是Microsoft WindowsMicrosoft Windows本身提供的音频格式，用本身提供的音频格式，用.wav.wav作为扩展名，其文件格式作为扩展名，其文件格式称为波形文件格式称为波形文件格式(WAVE File Format)(WAVE File Format)。u 在在WindowsWindows环境下，大部分多媒体文件都遵循环境下，大部分多媒体文件都遵循RIFFRIFF结构来存放信息，结构来存放信息，RIFFRIFF可以看做可以看做是一种树状结构，其基本构成单位为是一种树状结构，其基本构成单位为ChunkChunk，就像树形结构中的节点，每个，就像树形结构中的节点，每个ChunkChunk由辨别码、由辨别码、数据长度及数据组成。数据长度及数据组成。RIFF的简化结构图现在学习的是第33页，共43页3.3.2 MIDI3.3.2 MIDI格式格式u MIDIMIDI是是Musical Instrument Digital InterfaceMusical Instrument Digital Interface的首写字母组合词，可译成的首写字母组合词，可译成“电子乐器数字接口电子乐器数字接口”。用于在音乐合成器（。用于在音乐合成器（Music SynthesizersMusic Synthesizers）、乐器）、乐器（Musical InstrumentsMusical Instruments）和计算机之间交换音乐信息、播放和录制音乐的一种标）和计算机之间交换音乐信息、播放和录制音乐的一种标准协议。准协议。MIDIMIDI标准确定了将计算机与电声乐器、录音设备连接起来所需的标准确定了将计算机与电声乐器、录音设备连接起来所需的电缆线、硬件及通信协议。电缆线、硬件及通信协议。u MIDIMIDI标准的优点标准的优点：生成的文件比较小，因为生成的文件比较小，因为MIDIMIDI文件存储的是命令，而不是声音波形。文件存储的是命令，而不是声音波形。容易编辑，因为编辑命令比编辑声音波形要容易得多。容易编辑，因为编辑命令比编辑声音波形要容易得多。可以作背景音乐，因为可以作背景音乐，因为MIDIMIDI音乐可以和其它的媒体，如数字电视、图音乐可以和其它的媒体，如数字电视、图形、动画、话音等一起播放，这样可以加强演示效果。形、动画、话音等一起播放，这样可以加强演示效果。现在学习的是第34页，共43页u 产生产生MIDIMIDI乐音的方法很多，现在用得较多的方法有两种。乐音的方法很多，现在用得较

注意事项

本文（多媒体技术基础与实验教程.ppt）为本站会员（石***）主动上传，淘文阁 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知淘文阁 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。