第6章音频压缩编码技术及其国际标准课件.ppt
《第6章音频压缩编码技术及其国际标准课件.ppt》由会员分享,可在线阅读,更多相关《第6章音频压缩编码技术及其国际标准课件.ppt(61页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1第六章 音频压缩编码技术及其国际标准26.1 6.1 概述概述6.2 MPEG6.2 MPEG音频压缩编码音频压缩编码6.3 Dolby AC-36.3 Dolby AC-3数字音频压缩编码技术数字音频压缩编码技术36.1.1 人的听觉生理心理特性6.1.2 数字音频信号压缩编码的主要类型6.1.3 音频压缩编码技术标准介绍6.1 概述概述4声音(Audio)的传送是通信中不可或缺的内容电视及图像通信中除了传送图像外,传送声音也是极为重要的。如在会议电视中,由于通信线路带宽的限制,图像是可以跳帧的,每秒钟能传10帧已经很不错了,但语音的传送却不可以是断续的,而且要有较高的音质。6.1 概述概
2、述5数字声音信号的数据量相比数字视频要小很多,但是如果不压缩的话,对传输和存储的压力还是很大。数字声音信号与图像信号一样,通过取样、量化、编码后的数据也非常大。如CD机,采用44.1kHz取样,16bit量化,即使单声道,其编码数据也达到:44.1X16705.6kbits传输与存储均有很大困难。6.1 概述概述6 声声音音编编码码(Audio Audio CodingCoding)是是一一类类高高保保真真的的音音频频编编码,它的带宽应为码,它的带宽应为20Hz20Hz至至20KHz20KHz。但但在在许许多多场场合合,主主要要是是传传送送语语音音,而而不不是是主主要要传传送送音音乐乐,故故音
3、音频频带带宽宽在在50Hz50Hz至至7KHz7KHz就就够够了了。在在电电话话通通信信中中,其其带带宽宽只只有有300Hz300Hz至至3.4KHz3.4KHz,在在声声音音编编码码中中,主主要要是是传传送送语语音音的的一一类类编编码码称称之之为为语语音音编编码码(Speech Speech CodingCoding)。在在电电视视电电话话及及会会议议电电视视中中主主要要是是语语音音编编码码,而而数数字字电电视视、高高清清晰度电视中的伴音却是属于高保真度的音频晰度电视中的伴音却是属于高保真度的音频编码。编码。6.1 概述概述7声音简介声音简介n声音是听觉器官对声波的感知声音是听觉器官对声波的
4、感知n声波是通过空气或其他介质传播的连续振动声波是通过空气或其他介质传播的连续振动6.1 概述概述8声波具有普通波所具有的特性声波具有普通波所具有的特性反射 reflection折射 refraction衍射diffraction干涉 interference共振 resonance声强、响度:声波的压强,或能量,或振幅声强、响度:声波的压强,或能量,或振幅音高、音调:声波的频率音高、音调:声波的频率音色、音品:声波的谐波频谱和包络决定音色、音品:声波的谐波频谱和包络决定6.1 概述概述96.1 概述概述10 声音信息能够压缩的基本依据是声音信息能够压缩的基本依据是 (1 1)声音信息的冗余度
5、)声音信息的冗余度 (2 2)人类的听觉特性)人类的听觉特性 6.1 概述概述11(1 1)声音信息的冗余度)声音信息的冗余度 从从信信息息保保持持的的角角度度讲讲,只只有有当当信信源源本本身身具具有有冗冗余度,才能对其压缩。余度,才能对其压缩。语语音音和和音音乐乐信信号号中中正正是是存存在在着着时时域域信信息息冗冗余余及及频频域域信信息息冗冗余余,所所以以可可以以进进行行压压缩缩。这这是是对对音音频频信信号进行压缩的一个理论基础。号进行压缩的一个理论基础。6.1 概述概述12(2 2)人类的听觉特性)人类的听觉特性 语语音音和和音音乐乐信信号号最最终终是是传传送送给给人人听听的的,人人的的听
6、听觉觉生生理理心理特性在整个音频传输过程中起着重要的作用。心理特性在整个音频传输过程中起着重要的作用。由由于于人人们们的的听听觉觉系系统统存存在在着着某某些些不不敏敏感感效效应应,对对于于某某些些情情况况下下的的音音频频不不能能被被感感知知,因因此此从从感感知知效效果果来来看看,这这些些不敏感的音频分量可认为是知觉冗余。不敏感的音频分量可认为是知觉冗余。如如果果将将这这部部分分冗冗余余压压缩缩掉掉,可可提提高高编编码码效效率率。这这是是音音频压缩的另一个理论基础。频压缩的另一个理论基础。6.1 概述概述13音频数据压缩一般有两种方法:(1)利用信号本身的统计特性,在完全不丢失信息的情况下,进行
7、高效的熵编码(平均信息量编码);(2)利用人们对音频信号的感知特性,通过省略人们所不能分辨或不敏感的信息来压缩信息量,这就是知觉编码。6.1 概述概述14音频数音频数据压缩据压缩一般有一般有两个途两个途径径 利用信号本身的统计利用信号本身的统计特性,在完全不丢失信特性,在完全不丢失信息的情况下,进行息的情况下,进行高效高效高效高效的熵编码的熵编码的熵编码的熵编码 (平均信息量编码平均信息量编码);利用人们对音频信号的感利用人们对音频信号的感知特性,通过省略人们所知特性,通过省略人们所不能分辨或不敏感的信息不能分辨或不敏感的信息来压缩信息量,这就是来压缩信息量,这就是知觉编码知觉编码知觉编码知觉
8、编码。针对音频中存在针对音频中存在的冗余,目前实的冗余,目前实用的有熵编码和用的有熵编码和知觉编码两种方知觉编码两种方法法。6.1 概述概述15声音质量评价的两种方法客观质量度量 用信噪比(SNR)主观质量度量 专家打分 有时同时采取两种方法评估,有时以主观质量度量为主6.1 概述概述16信噪比信噪比SNR(signal-to-noise ratio)SNR(signal-to-noise ratio)SNR表示信号能量和噪声能量的比,单位为分贝表示信号能量和噪声能量的比,单位为分贝(db)6.1 概述概述17主观平均分主观平均分(mean opinion score(mean opinion
9、 score,MOS)MOS)分数分数质量等级质量等级失真级别失真级别5优优(Excellent)无察觉无察觉4良良(Good)(刚刚)察觉但不讨厌察觉但不讨厌3中中(Fair)(察觉察觉)有点讨厌有点讨厌2差差(Poor)讨厌但不反感讨厌但不反感1劣劣(Bad)极讨厌极讨厌(令人反感令人反感)表:表:声音质量声音质量MOSMOS评分标准评分标准6.1 概述概述18u 对响度的感知对响度的感知 声音的响度就是声音的强弱声音的响度就是声音的强弱在物理上,用声强在物理上,用声强W/cm2或声压或声压dyn/cm2度量度量在心理上,用在心理上,用phon(方)或(方)或sone(宋)度量(宋)度量
10、人耳的听觉范围人耳的听觉范围听阈:人耳朵刚可听见的声音强度听阈:人耳朵刚可听见的声音强度痛域:使人耳感到疼痛的声音强度痛域:使人耳感到疼痛的声音强度听觉范围:听阈和痛域之间听觉范围:听阈和痛域之间6.1.1 人的听觉生理人的听觉生理心理特性心理特性19“听阈频率”曲线和“痛阈频率”曲线6.1.1 人的听觉生理人的听觉生理心理特性心理特性20u 人耳能够感知的频率范围约人耳能够感知的频率范围约20-20000Hz20-20000Hz高保真声音高保真声音(high-fidelity audio):(high-fidelity audio):10 10 20000 Hz20000 Hz声音声音(au
11、dio/sound):20(audio/sound):20 20 000Hz20 000Hz话音话音(speech/voice):300(speech/voice):3003400 Hz3400 Hz亚音亚音/次音次音(subsonic):20 Hz(subsonic):20000 Hz(ultrasonic):20000 Hz6.1.1 人的听觉生理人的听觉生理心理特性心理特性21u 对频率的感知表现为音高对频率的感知表现为音高客观上用频率表示声音的音高,单位是客观上用频率表示声音的音高,单位是HzHz主观感觉的音高单位则是主观感觉的音高单位则是“美美(Mel)(Mel)”主观音高与客观音高
12、是对数关系主观音高与客观音高是对数关系6.1.1 人的听觉生理人的听觉生理心理特性心理特性22n“音高频率”曲线6.1.1 人的听觉生理人的听觉生理心理特性心理特性23u 临界频带临界频带人耳刚刚可以感知两种频率的声音有差别的频人耳刚刚可以感知两种频率的声音有差别的频率范围率范围临界频带的单位叫做临界频带的单位叫做Bark(Bark(巴克巴克),1Bark1Bark等于一等于一个临界频带的宽度。个临界频带的宽度。通常认为音频有通常认为音频有2525个临界频带,见表。个临界频带,见表。临界频带的宽度随频率的变化而变化临界频带的宽度随频率的变化而变化6.1.1 人的听觉生理人的听觉生理心理特性心理
13、特性246.1.1 人的听觉生理人的听觉生理心理特性心理特性25u 掩蔽效应掩蔽效应 一个声音阻碍听觉系统感受另一个声音的现象一个声音阻碍听觉系统感受另一个声音的现象前者称为掩蔽声音前者称为掩蔽声音(masking tone)(masking tone)后者称为被掩蔽声音后者称为被掩蔽声音(masked tone)(masked tone)26 在在音音频频信信号号的的知知觉觉编编码码中中,利利用用了了人人们们听听觉觉的的生生理理心心理理特特性性对对感感知知的的影影响响,例例如如人人耳耳的的掩掩蔽蔽效效应应、频频域域灵灵敏敏度度以以及及相位的不敏感特性等相位的不敏感特性等。听听觉觉的的掩掩蔽蔽
14、效效应应是是声声音音编编码码的的基基础础,掩掩蔽蔽效效应应既既和和频频率率域域有有关关,亦亦和和时间域有关。时间域有关。6.1.1 人的听觉生理人的听觉生理心理特性心理特性27人人的的听听觉觉生生理理-心理特性心理特性1)频谱掩蔽效应频谱掩蔽效应2)时间掩蔽效应时间掩蔽效应3)方向掩蔽效应方向掩蔽效应6.1.1 人的听觉生理人的听觉生理心理特性心理特性28 1)频谱掩蔽效应频谱掩蔽效应一个强纯音掩蔽了其附近同时发声的弱纯音的特性,也称同时掩蔽(simultaneous masking)图6.1中示出若有一个声压强度达70dB频率1KHz的纯音出现时,处于1KHz邻近某一频带内强度较小的声音信号
15、人耳是听不见的,即被1KHz纯音掩蔽掉了。图中示出了1KHz纯音的掩蔽阈曲线,一般一个纯音的声压强度越大,对周围频率的掩蔽作用越强。由于处于掩蔽阈曲线下的声音听不见,故这些信息是多余的,无需参与编码输出。6.1.1 人的听觉生理人的听觉生理心理特性心理特性29图图6.1 人耳听觉的频率特性曲线人耳听觉的频率特性曲线30频域掩蔽特性频域掩蔽特性频率越接近,掩蔽效果越明显频率越接近,掩蔽效果越明显高频方向的掩蔽效果强于低频方向高频方向的掩蔽效果强于低频方向不同纯音的掩蔽效应曲线6.1.1 人的听觉生理人的听觉生理心理特性心理特性31信掩比信掩比SMR(signalSMR(signal-to-mas
16、k ratio)-to-mask ratio)子带的信号能量除以子带的最小掩蔽阈值子带的信号能量除以子带的最小掩蔽阈值SMRSMR小于等于小于等于1 1的子带信号是听不到的的子带信号是听不到的l噪掩比噪掩比NMR(noiseNMR(noise-to-mask ratio)-to-mask ratio)噪声除以最小掩蔽阈值噪声除以最小掩蔽阈值噪声是量化带来的,通过控制量化步长可以控噪声是量化带来的,通过控制量化步长可以控制量化噪声,使噪声能够被掩蔽掉制量化噪声,使噪声能够被掩蔽掉l这里所说的掩蔽阈值是全局掩蔽阈值,全这里所说的掩蔽阈值是全局掩蔽阈值,全局掩蔽需要根据实际情况计算得到。局掩蔽需要根
17、据实际情况计算得到。6.1.1 人的听觉生理人的听觉生理心理特性心理特性322)时间掩蔽效应时间掩蔽效应(Temporal Masking EffectTemporal Masking Effect)除除了了在在强强的的声声音音信信号号出出现现的的同同时时弱弱信信号号会会被被掩掩蔽蔽掉掉(称称为为同同时时掩掩蔽蔽)外外,在在强强的的声声音音信信号号出出现现之之前前或或之之后后的的短短暂暂时时间间内内已已存存在在的的弱弱音音信信号号也也会会被被强强信信号号掩掩蔽蔽掉掉,分分别别称称为为前前掩掩蔽蔽和和后后掩掩蔽蔽。如如图图6.26.2所示。这种现象所示。这种现象称时间掩蔽效应称时间掩蔽效应 在在
18、声声音音编编码码时时,将将时时间间上上相相继继的的一一些些取取样样值值合合并并为为组组块块以以降降低低码码率率,就就是是利利用用上上述述人人类类听听觉觉的的时时间掩蔽特性而确定的。间掩蔽特性而确定的。6.1.1 人的听觉生理人的听觉生理心理特性心理特性33图图6.2 时间掩蔽效应时间掩蔽效应6.1.1 人的听觉生理人的听觉生理心理特性心理特性前掩蔽通常有3ms 20ms,后掩蔽可以持续50ms100ms 34l产生时域掩蔽的主要原因产生时域掩蔽的主要原因人的大脑处理信息需要花费一定的时间人的大脑处理信息需要花费一定的时间6.1.1 人的听觉生理人的听觉生理心理特性心理特性353)方向掩蔽效应方
19、向掩蔽效应 人人耳耳除除具具有有听听觉觉掩掩蔽蔽效效应应外外,还还不不能能分分别别判判断断频频率率接接近近的的高高频频声声音音信信号号的的方方向向,在在声声音音编编码码中中可可利利用用此此特特性性,把把多多个个声声道道的的高高频频部部分分耦耦合合到到一一个个公公共共声声道道,以以达达到到压压缩缩编编码的目的。码的目的。6.1.1 人的听觉生理人的听觉生理心理特性心理特性36 6.1.2 数字音频信号压缩编码的主要类型数字音频信号压缩编码的主要类型3)参数编码)参数编码1)熵编码)熵编码2)波形编码)波形编码4)混合编码)混合编码37典型的声音采样参数质量质量采样频率采样频率(kHz)采样深度采
20、样深度(bit)单道声单道声/立立体声体声(未压缩的未压缩的)数数据率据率(kb/s)频率范围频率范围(Hz)电话电话*88单道声单道声64.0 2003400AM11.0258单道声单道声88.22015000FM22.05016立体声立体声705.6507000CD44.116立体声立体声1411.22020000DAT4816立体声立体声1536.02020000*电话使用律编码,动态范围为13位,压缩后的样本精度为8位6.1.2 数字音频信号压缩编码的主要类型数字音频信号压缩编码的主要类型38 数数字字音音频频信信号号的的压压缩缩编编码码主主要要分分为为熵熵编编码码、波形编码、参数编码
21、、混合编码四种类型。波形编码、参数编码、混合编码四种类型。1)1)熵编码熵编码 音音频频信信息息与与视视频频信信息息的的熵熵编编码码基基本本原原理理相相同同,主要主要包括霍夫曼编码、算术编码与游程编码包括霍夫曼编码、算术编码与游程编码。6.1.2 数字音频信号压缩编码的主要类型数字音频信号压缩编码的主要类型392)2)波形编码波形编码 当当音音频频信信号号数数字字化化后后,考考虑虑人人类类的的听听觉觉特特性性,使使编编码码信信号号尽尽可可能能既既与与原原始始输输入入信信号号相相匹匹配配,又又能能适适应应人人们们的的应应用用要要求求。波波形形编编码码主主要要包包括括全全频频带带编编码码、子子带带
22、编编码码和和矢矢量量量量化化编编码码,主主要要有有:PCM(PCM(脉脉冲冲编编码码调调制制)、DPCMDPCM(差差分分脉脉冲冲编编码码调调制制)、ADPCMADPCM(自自适适应应差差分分脉脉冲冲编编码码调调制制)、SBCSBC(子子带带编编码码)。波波形形编编码码能能够够在在高高码码率率的的条条件件下下获获得得高高质质量量的的音音频频信号,因而适于高保真语音及音乐信号的压缩编码信号,因而适于高保真语音及音乐信号的压缩编码。6.1.2 数字音频信号压缩编码的主要类型数字音频信号压缩编码的主要类型40DPCM(differentialDPCM(differential pulse code
23、modulation)pulse code modulation)基本思想:根据过去的样本去估算下一个样本信号的幅度大小,这个值称为预测值,然后对实际信号值与预测值之差进行量化编码DPCM与PCM的不同可适应大范围变化的输入信号 6.1.2 数字音频信号压缩编码的主要类型数字音频信号压缩编码的主要类型41ADPCMADPCM (adaptive difference pulse (adaptive difference pulse codemodulationcodemodulation)核心思想利用自适应的思想改变量化阶的大小,即使用小的量化阶去编码小的差值,使用大的量化阶去编码大的差值使用
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 音频 压缩 编码 技术 及其 国际标准 课件
限制150内