第4章音频媒体的压缩编码.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《第4章音频媒体的压缩编码.ppt》由会员分享,可在线阅读,更多相关《第4章音频媒体的压缩编码.ppt(90页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、音频媒体的压缩编码标准与技术第四章本章内容音频信号的相关概念 音频信号的基本概念;数字化方法;压缩编音频信号的基本概念;数字化方法;压缩编码的可行性与分类;声音类别与数据率码的可行性与分类;声音类别与数据率音频信息压缩编码技术标准体系 G.7XXG.7XX系列和系列和MPEG-XMPEG-X系列系列G.7XX声音压缩编码技术 各标准的编码方法;编各标准的编码方法;编/解码器等解码器等MPEG-X声音压缩编码语音识别话音技术的研究热点话音压缩编码(Speech Coding)话音识别(Speech Recognition)文本话音转换(Text To Speech)4.1 音频信号声音的产生源于
2、物体的震动,这种震动引起物体声音的产生源于物体的震动,这种震动引起物体周围气压的变化并传播,最后形成了声音。周围气压的变化并传播,最后形成了声音。声音是一种波,由两个参数描述:声音是一种波,由两个参数描述:频率:声音的尖锐程度。频率:声音的尖锐程度。振幅:声音的大小,又称响度。振幅:声音的大小,又称响度。l l音频信号是指处在音频信号是指处在20Hz20Hz20kHz20kHz频率范围的声音。频率范围的声音。音频频率范围音频频率范围音频频率范围音频频率范围 低频声音低频声音低频声音低频声音(Infra-sound)(Infra-sound):0Hz0Hz20Hz20Hz 人类听觉频率范围的声音
3、:人类听觉频率范围的声音:人类听觉频率范围的声音:人类听觉频率范围的声音:20Hz20Hz20kHz20kHz 高频高频高频高频(Ultrasound)(Ultrasound):20kHz20kHz1GHz1GHz 超声波超声波超声波超声波(HypersoundHypersound):1GHz1GHz10THz10THz音频信号声波图示,其中包含两个重要参数:频率和振幅声波图示,其中包含两个重要参数:频率和振幅音频信号根据音频信号占用频谱的不同,可以将音频信号分为3类:1.1.语音信号:又称话音信号,是人在正常情况下语音信号:又称话音信号,是人在正常情况下发出的一种声音,频率范围大约为发出的一
4、种声音,频率范围大约为300Hz300Hz3.4KHz3.4KHz。2.2.音乐信号:各种乐器发出的声音,频率范围大音乐信号:各种乐器发出的声音,频率范围大约为约为20Hz20Hz20kHz20kHz。3.3.噪音信号:人们不感兴趣的一类声音,通常研噪音信号:人们不感兴趣的一类声音,通常研究如何去掉它。究如何去掉它。4.1.1 音频信号的数字化音频信号通常是连续信号,要利用计算机来处理,首先需要对其数字化。模拟模拟模拟模拟语音语音语音语音采样采样采样采样量化量化量化量化编码编码编码编码samplessamples-0.25-0.25-0.5-0.5-0.75-0.750 00.250.250.
5、50.50.750.75samplessamples01001110100111数字数字数字数字序列序列序列序列音频信号的数字化 对声音信号进行采样时,一般使用音频范围的对声音信号进行采样时,一般使用音频范围的ADCADC(模数转换器)进行。不同的模数转换器)进行。不同的ADCADC主要区别主要区别于以下两个重要参数:于以下两个重要参数:(1 1)采样频率:)采样频率:采样频率是指每秒钟采集声音样本的个数。它采样频率是指每秒钟采集声音样本的个数。它的取值应该满足的取值应该满足NyquistNyquist Theory Theory,即采样频率即采样频率f fs s应应该大于等于声音信号中最高频
6、率该大于等于声音信号中最高频率f fmm的两倍。的两倍。采样频率的单位是:采样频率的单位是:HzHz或或samples/ssamples/s。如:数字电话的采样率为如:数字电话的采样率为8KHz8KHz。(2 2)采样精度:)采样精度:采样精度用样本位数来表示。采样精度用样本位数来表示。样本位数越多,则声音质量越高,因为每个样样本位数越多,则声音质量越高,因为每个样本的量化值与原样本值越接近。本的量化值与原样本值越接近。采样精度的单位是:采样精度的单位是:bits/samplebits/sample。采样频率越高,采样精度越大,则数字化声音效采样频率越高,采样精度越大,则数字化声音效果越好,但
7、是需要的存储量就越大。因此在实际应果越好,但是需要的存储量就越大。因此在实际应用中,需要折中考虑声音质量和存储量的问题。用中,需要折中考虑声音质量和存储量的问题。0 0-0.25-0.25-0.5-0.5-0.75-0.750.250.250.50.50.750.75samplessamplesSampling HeightSampling Height-1-1另外一种表示精度的方法是信噪比(另外一种表示精度的方法是信噪比(另外一种表示精度的方法是信噪比(另外一种表示精度的方法是信噪比(SNRSNR),),),),表示为:表示为:表示为:表示为:其中,其中,其中,其中,V Vsignalsig
8、nal表示信号电压,表示信号电压,表示信号电压,表示信号电压,V Vnoisenoise表示噪声电压,表示噪声电压,表示噪声电压,表示噪声电压,SNRSNR的单位为分贝(的单位为分贝(的单位为分贝(的单位为分贝(dBdB)。)。)。)。信噪比越高,声音质量越好。信噪比越高,声音质量越好。信噪比越高,声音质量越好。信噪比越高,声音质量越好。声音硬件:MicrophoneMicrophoneADCADCStored/Stored/TransmittedTransmittedDACDACSoundAnalog SignalSpeakerSpeakerAnalog SignalDigital Sign
9、alReproduced Sound Input DevicesDigital ProcessorOutput Devices4.1.2 音频信号压缩编码的可行性与分类对于高质量和长时间的音频数据,由于数据量都特别大,为了有效地存储和传输,需要进行压缩编码。压缩的可能性存在于:(1 1)声音信号中包含大量的冗余信息,如样本相关性、)声音信号中包含大量的冗余信息,如样本相关性、时间周期相关性、基音相关性等。时间周期相关性、基音相关性等。(2 2)利用人的感知特性进行压缩。)利用人的感知特性进行压缩。(3 3)根据话音产生机理进行压缩。)根据话音产生机理进行压缩。衡量语音编码性能的主要因素有:编码
10、质量;编码质量;编码速率;编码速率;算法复杂度。算法复杂度。音频信号压缩技术音频信号压缩技术 音频信号压缩编码的主要依据是人耳的听觉特性,主要有两点:1.人的听觉系统中存在一个听觉阈值电平,低于这个电平的声音信号人耳听不到.2.人的听觉存在屏蔽效应。当几个强弱不同的声音同时存在时,强声使弱声难以听到,并且两者之间的关系与其相对频率的大小有关.声音编码算法就是通过这些特性来去掉更多的冗余数据,来达到压缩数据的目的。无失真压缩音频压缩方法有失真压缩Huffman编码行程编码波形编码参数编码混合编码全频带编码PCMDPCMADPCM子带编码 自适应变换编码ATC 心理学模型矢量量化线性预测LPC矢量
11、和激励线性预测VSELP多脉冲线性预测MP-LPC码本激励线性预测CELP音频信号压缩编码的分类根据压缩编码思想的不同,把音频编码技术分为三类:根据压缩编码思想的不同,把音频编码技术分为三类:(1 1)波形编码()波形编码(Waveform CodingWaveform Coding)(2 2)源编码(源编码(Source CodingSource Coding),参数编码(3 3)混合编码(混合编码(Hybrid CodingHybrid Coding)波形编码:没有利用语音信号自身的特点。波形编译码的想法没有利用语音信号自身的特点。波形编译码的想法是,不利用生成话音信号的任何知识而企图产生
12、一种重是,不利用生成话音信号的任何知识而企图产生一种重构信号,它的波形与原始话音波形尽可能地一致。一般构信号,它的波形与原始话音波形尽可能地一致。一般来说,这种编译码器的复杂程度比较低,数据速率在来说,这种编译码器的复杂程度比较低,数据速率在16 16 kb/skb/s以上,质量相当高。低于这个数据速率时,音质急以上,质量相当高。低于这个数据速率时,音质急剧下降。如:剧下降。如:1.CD1.CD质量音频数据量:质量音频数据量:2x44100 x16 2x44100 x16 b/sb/s2.2.电话质量音频数据量:电话质量音频数据量:8Kx8 8Kx8 b/sb/s PCM(DPCM PCM(D
13、PCM 56Kb/s;ADPCM 32Kb/s).56Kb/s;ADPCM 32Kb/s).源编码(参数编码):参数化,利用语音信号的特点进行数据压缩。音源编译码的想法是企图从话音波形信号中提取生成话音的参数,使用这些参数通过话音生成模型重构出话音。例如:信道声码器的工作原理:将语音信号基于语音分析原理分解成一系列频率分量,将这些分量在信道中传输。接收方基于收到的数据进行语音重建:将收到的数据中的频率分量作为语音的基频,产生一系列脉冲作为浊音,用噪声发生器的输出作为清音。此方法可以将语音的传输速率降低至2.4Kb/s,甚至更低。l混合编码:混合编译码器使用音源编译码技术和波形编译码技术,数据率
14、和音质介于它们之间。使用的激励信号波形尽可能接近于原始话音信号的波形。例如CELP。下图表示了目前这三种编译码器的话音质量和数据率的关系。图 普通编译码器的音质与数据率 4.1.3 声音类别与数据率声音根据频带分为5类:(1)电话(Telephone)声音(2)调幅(Amplitude Modulation)广播声音(3)调频(Frequency Modulation)广播声音(4)数字音频光盘(CD-Audio)声音(5)数字录音带(Digital Audio Tape)声音这些不同的声音数据区别于采样频率、采样精度、通道数、数据率和频率范围等参数。声音类别与数据率声音类别声音类别采样率采样
15、率(kHz)(kHz)精度精度(bit/s)(bit/s)单声道单声道/立体声立体声数据速率数据速率(未经压缩)未经压缩)频率范围频率范围(HzHz)PhonePhone8 88 8singlesingle8kBps8kBps200-3400Hz200-3400HzAMAM11.02511.0258 8singlesingle11.0kBps11.0kBps50-7000Hz50-7000HzFMFM22.05022.0501616stereostereo88.2kBps88.2kBps20-15000Hz20-15000HzCDCD44.144.11616stereostereo176.4k
16、Bps176.4kBps20-20000Hz20-20000HzDATDAT48481616stereostereo192.0kBps192.0kBps20-20000Hz20-20000Hz宽带音响宽带音响宽带音响宽带音响:20Hz:20Hz20kHz20kHz声音类别与数据率我们所熟悉的数字音频文件格式如下表所示:我们所熟悉的数字音频文件格式如下表所示:文件扩展名文件扩展名说明说明.PCM.PCMPCM PCM 数据序列数据序列.VOC.VOC声卡使用的音频文件格式声卡使用的音频文件格式.WAV.WAV微软使用的波形音频文件格式微软使用的波形音频文件格式.SND.SNDNeXTNeXT计算
17、机使用的波形音频文件格式计算机使用的波形音频文件格式.AIF.AIF苹果计算机使用的波形音频文件格式苹果计算机使用的波形音频文件格式.MID.MIDMIDI MIDI 文件格式文件格式.RMI.RMI微软使用的微软使用的MIDI MIDI 文件格式文件格式未压缩的声音文件的存储量可用下式计算:未压缩的声音文件的存储量可用下式计算:存储量(存储量(B B)=(采样频率采样频率HZHZ采样位数采样位数bitbit声道数声道数时间秒)时间秒)/8/8 4.1.4 声音质量的度量声音质量的度量分为:客观质量度量和主观质量度量。声音客观质量的度量用信噪比信噪比来展开:信噪比(信噪比(SNRSNR)越大,
18、声音质量越好;反之,信噪比)越大,声音质量越好;反之,信噪比越小,声音质量越差越小,声音质量越差声音主观质量的度量是利用人的感觉(听觉)来进行度量,主观平均判分法(MOS),通常分5分:1 1分分:劣劣(极反感极反感);2);2分分:差差(讨厌但不反感讨厌但不反感);3);3分分:中中(有有点讨厌点讨厌);4);4分分:良良(基本可以接受基本可以接受);5);5分分:优优(效果很好效果很好)声音质量的度量Kbit/s1248163264poorsufficientsatisfactorygoodexcellentAchievable Quality year 1980year 1990year
19、 2000 部分编码器的部分编码器的MOS分分 编码器MOS分64 kb/s脉冲编码调制(PCM)4.332 kb/s自适应差分脉冲编码调制(ADPCM)4.116 kb/s低时延码激励线性预测编码(LD-CELP)4.08 kb/s码激励线性预测编码(CELP)3.73.8 kb/s码激励线性预测编码(CELP)3.02.4 kb/s线性预测编码(LPC)2.54.2音频信息压缩编码技术标准体系常见的音频压缩编码准则有ITU制定的G.7XX系列和ISO/IEC制定的MPEG-X系列。G.7XXG.7XX是一组是一组 ITU-T ITU-T 标准,用于音频压缩和解压标准,用于音频压缩和解压缩。
20、它主要用于电话方面。在电话技术中,有两缩。它主要用于电话方面。在电话技术中,有两个主要的算法标准,分别定义在个主要的算法标准,分别定义在 -law-law 算法算法(美国使用)和(美国使用)和 A-law A-law 算法(欧洲及世界其他算法(欧洲及世界其他国家使用)中。两者都是基于对数关系的,但对国家使用)中。两者都是基于对数关系的,但对于计算机的处理来说,后者更为简单。于计算机的处理来说,后者更为简单。MPEG-XMPEG-X是一组用于视频的编码方案,其中也有是一组用于视频的编码方案,其中也有音频的编码部分,可以用于音频压缩编码。音频的编码部分,可以用于音频压缩编码。1 1电话质量的音频压
21、缩编码技术标准电话质量的音频压缩编码技术标准电话质量的音频压缩编码技术标准电话质量的音频压缩编码技术标准信号频率规定在信号频率规定在300Hz300Hz3.4kHz3.4kHz,采用标准的脉冲编采用标准的脉冲编码调制码调制(PCM)(PCM),当采样频率为当采样频率为8kHz8kHz,进行进行8bit8bit量化时,量化时,所得数据速率为所得数据速率为64kb/s64kb/s,即一个数字电话。即一个数字电话。PCMPCM标准标准G G.711,1972711,1972年年CCITTCCITT为电话质量和语音压缩为电话质量和语音压缩制定,其速率为制定,其速率为64Kb64Kbs s,使用非线性量
22、化技术,主使用非线性量化技术,主要用于公共电话网中。要用于公共电话网中。ADPCMADPCM是利用样本与样本之间的高度相关性和量化阶是利用样本与样本之间的高度相关性和量化阶自适应来压缩数据的一种波形编码技术,自适应来压缩数据的一种波形编码技术,CCITTCCITT为此为此制定了制定了G.721G.721推荐标准,这个标准叫做推荐标准,这个标准叫做32 kb/s ADPCM32 kb/s ADPCM。在此基础上还制定了在此基础上还制定了G.721G.721的扩充推荐标准的扩充推荐标准G.723G.723,使,使用该标准的编码器的数据率可降低到用该标准的编码器的数据率可降低到40 kb/s40 k
23、b/s和和24 24 kb/skb/s。G.721 G.721 的输入信号是的输入信号是G.711 PCMG.711 PCM代码,它的数据率为代码,它的数据率为64 kb/s64 kb/s。而而G.721 ADPCMG.721 ADPCM的输出是用的输出是用4 4位表示的差分位表示的差分信号,它的采样率仍然是信号,它的采样率仍然是8 kHz8 kHz,它的数据率为它的数据率为32 32 kb/skb/s,这样就获得了这样就获得了2 2 1 1的数据压缩。的数据压缩。2 2 2 2调幅广播质量的音频压缩编码技术标准调幅广播质量的音频压缩编码技术标准调幅广播质量的音频压缩编码技术标准调幅广播质量的
24、音频压缩编码技术标准 频率在频率在频率在频率在50Hz50Hz50Hz50Hz一一一一7kHz7kHz7kHz7kHz范围。范围。范围。范围。G.722G.722G.722G.722标标标标准是采用准是采用准是采用准是采用16kHz16kHz16kHz16kHz采采采采样样样样,14bit14bit14bit14bit量化,信号数据速率量化,信号数据速率量化,信号数据速率量化,信号数据速率为为为为224kbit224kbit224kbit224kbits s s s,224kbit224kbit224kbit224kbits s s s可以被可以被可以被可以被压缩压缩压缩压缩成成成成64kbi
25、t64kbit64kbit64kbits.s.s.s.采用子采用子采用子采用子带编码带编码带编码带编码方法,将方法,将方法,将方法,将输输输输入音入音入音入音频频频频信号信号信号信号经滤经滤经滤经滤波器分成高子波器分成高子波器分成高子波器分成高子带带带带和和和和低子低子低子低子带带带带两个部分,分两个部分,分两个部分,分两个部分,分别进别进别进别进行行行行ADPCMADPCMADPCMADPCM编码编码编码编码,再混合形成,再混合形成,再混合形成,再混合形成输输输输出出出出码码码码流,流,流,流,224kbit224kbit224kbit224kbits s s s可以被可以被可以被可以被压缩
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 音频 媒体 压缩 编码
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内