欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    第4章音频媒体的压缩编码.ppt

    • 资源ID:68510716       资源大小:827.50KB        全文页数:90页
    • 资源格式: PPT        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第4章音频媒体的压缩编码.ppt

    音频媒体的压缩编码标准与技术第四章本章内容音频信号的相关概念 音频信号的基本概念;数字化方法;压缩编音频信号的基本概念;数字化方法;压缩编码的可行性与分类;声音类别与数据率码的可行性与分类;声音类别与数据率音频信息压缩编码技术标准体系 G.7XXG.7XX系列和系列和MPEG-XMPEG-X系列系列G.7XX声音压缩编码技术 各标准的编码方法;编各标准的编码方法;编/解码器等解码器等MPEG-X声音压缩编码语音识别话音技术的研究热点话音压缩编码(Speech Coding)话音识别(Speech Recognition)文本话音转换(Text To Speech)4.1 音频信号声音的产生源于物体的震动,这种震动引起物体声音的产生源于物体的震动,这种震动引起物体周围气压的变化并传播,最后形成了声音。周围气压的变化并传播,最后形成了声音。声音是一种波,由两个参数描述:声音是一种波,由两个参数描述:频率:声音的尖锐程度。频率:声音的尖锐程度。振幅:声音的大小,又称响度。振幅:声音的大小,又称响度。l l音频信号是指处在音频信号是指处在20Hz20Hz20kHz20kHz频率范围的声音。频率范围的声音。音频频率范围音频频率范围音频频率范围音频频率范围 低频声音低频声音低频声音低频声音(Infra-sound)(Infra-sound):0Hz0Hz20Hz20Hz 人类听觉频率范围的声音:人类听觉频率范围的声音:人类听觉频率范围的声音:人类听觉频率范围的声音:20Hz20Hz20kHz20kHz 高频高频高频高频(Ultrasound)(Ultrasound):20kHz20kHz1GHz1GHz 超声波超声波超声波超声波(HypersoundHypersound):1GHz1GHz10THz10THz音频信号声波图示,其中包含两个重要参数:频率和振幅声波图示,其中包含两个重要参数:频率和振幅音频信号根据音频信号占用频谱的不同,可以将音频信号分为3类:1.1.语音信号:又称话音信号,是人在正常情况下语音信号:又称话音信号,是人在正常情况下发出的一种声音,频率范围大约为发出的一种声音,频率范围大约为300Hz300Hz3.4KHz3.4KHz。2.2.音乐信号:各种乐器发出的声音,频率范围大音乐信号:各种乐器发出的声音,频率范围大约为约为20Hz20Hz20kHz20kHz。3.3.噪音信号:人们不感兴趣的一类声音,通常研噪音信号:人们不感兴趣的一类声音,通常研究如何去掉它。究如何去掉它。4.1.1 音频信号的数字化音频信号通常是连续信号,要利用计算机来处理,首先需要对其数字化。模拟模拟模拟模拟语音语音语音语音采样采样采样采样量化量化量化量化编码编码编码编码samplessamples-0.25-0.25-0.5-0.5-0.75-0.750 00.250.250.50.50.750.75samplessamples01001110100111数字数字数字数字序列序列序列序列音频信号的数字化 对声音信号进行采样时,一般使用音频范围的对声音信号进行采样时,一般使用音频范围的ADCADC(模数转换器)进行。不同的模数转换器)进行。不同的ADCADC主要区别主要区别于以下两个重要参数:于以下两个重要参数:(1 1)采样频率:)采样频率:采样频率是指每秒钟采集声音样本的个数。它采样频率是指每秒钟采集声音样本的个数。它的取值应该满足的取值应该满足NyquistNyquist Theory Theory,即采样频率即采样频率f fs s应应该大于等于声音信号中最高频率该大于等于声音信号中最高频率f fmm的两倍。的两倍。采样频率的单位是:采样频率的单位是:HzHz或或samples/ssamples/s。如:数字电话的采样率为如:数字电话的采样率为8KHz8KHz。(2 2)采样精度:)采样精度:采样精度用样本位数来表示。采样精度用样本位数来表示。样本位数越多,则声音质量越高,因为每个样样本位数越多,则声音质量越高,因为每个样本的量化值与原样本值越接近。本的量化值与原样本值越接近。采样精度的单位是:采样精度的单位是:bits/samplebits/sample。采样频率越高,采样精度越大,则数字化声音效采样频率越高,采样精度越大,则数字化声音效果越好,但是需要的存储量就越大。因此在实际应果越好,但是需要的存储量就越大。因此在实际应用中,需要折中考虑声音质量和存储量的问题。用中,需要折中考虑声音质量和存储量的问题。0 0-0.25-0.25-0.5-0.5-0.75-0.750.250.250.50.50.750.75samplessamplesSampling HeightSampling Height-1-1另外一种表示精度的方法是信噪比(另外一种表示精度的方法是信噪比(另外一种表示精度的方法是信噪比(另外一种表示精度的方法是信噪比(SNRSNR),),),),表示为:表示为:表示为:表示为:其中,其中,其中,其中,V Vsignalsignal表示信号电压,表示信号电压,表示信号电压,表示信号电压,V Vnoisenoise表示噪声电压,表示噪声电压,表示噪声电压,表示噪声电压,SNRSNR的单位为分贝(的单位为分贝(的单位为分贝(的单位为分贝(dBdB)。)。)。)。信噪比越高,声音质量越好。信噪比越高,声音质量越好。信噪比越高,声音质量越好。信噪比越高,声音质量越好。声音硬件:MicrophoneMicrophoneADCADCStored/Stored/TransmittedTransmittedDACDACSoundAnalog SignalSpeakerSpeakerAnalog SignalDigital SignalReproduced Sound Input DevicesDigital ProcessorOutput Devices4.1.2 音频信号压缩编码的可行性与分类对于高质量和长时间的音频数据,由于数据量都特别大,为了有效地存储和传输,需要进行压缩编码。压缩的可能性存在于:(1 1)声音信号中包含大量的冗余信息,如样本相关性、)声音信号中包含大量的冗余信息,如样本相关性、时间周期相关性、基音相关性等。时间周期相关性、基音相关性等。(2 2)利用人的感知特性进行压缩。)利用人的感知特性进行压缩。(3 3)根据话音产生机理进行压缩。)根据话音产生机理进行压缩。衡量语音编码性能的主要因素有:编码质量;编码质量;编码速率;编码速率;算法复杂度。算法复杂度。音频信号压缩技术音频信号压缩技术 音频信号压缩编码的主要依据是人耳的听觉特性,主要有两点:1.人的听觉系统中存在一个听觉阈值电平,低于这个电平的声音信号人耳听不到.2.人的听觉存在屏蔽效应。当几个强弱不同的声音同时存在时,强声使弱声难以听到,并且两者之间的关系与其相对频率的大小有关.声音编码算法就是通过这些特性来去掉更多的冗余数据,来达到压缩数据的目的。无失真压缩音频压缩方法有失真压缩Huffman编码行程编码波形编码参数编码混合编码全频带编码PCMDPCMADPCM子带编码 自适应变换编码ATC 心理学模型矢量量化线性预测LPC矢量和激励线性预测VSELP多脉冲线性预测MP-LPC码本激励线性预测CELP音频信号压缩编码的分类根据压缩编码思想的不同,把音频编码技术分为三类:根据压缩编码思想的不同,把音频编码技术分为三类:(1 1)波形编码()波形编码(Waveform CodingWaveform Coding)(2 2)源编码(源编码(Source CodingSource Coding),参数编码(3 3)混合编码(混合编码(Hybrid CodingHybrid Coding)波形编码:没有利用语音信号自身的特点。波形编译码的想法没有利用语音信号自身的特点。波形编译码的想法是,不利用生成话音信号的任何知识而企图产生一种重是,不利用生成话音信号的任何知识而企图产生一种重构信号,它的波形与原始话音波形尽可能地一致。一般构信号,它的波形与原始话音波形尽可能地一致。一般来说,这种编译码器的复杂程度比较低,数据速率在来说,这种编译码器的复杂程度比较低,数据速率在16 16 kb/skb/s以上,质量相当高。低于这个数据速率时,音质急以上,质量相当高。低于这个数据速率时,音质急剧下降。如:剧下降。如:1.CD1.CD质量音频数据量:质量音频数据量:2x44100 x16 2x44100 x16 b/sb/s2.2.电话质量音频数据量:电话质量音频数据量:8Kx8 8Kx8 b/sb/s PCM(DPCM PCM(DPCM 56Kb/s;ADPCM 32Kb/s).56Kb/s;ADPCM 32Kb/s).源编码(参数编码):参数化,利用语音信号的特点进行数据压缩。音源编译码的想法是企图从话音波形信号中提取生成话音的参数,使用这些参数通过话音生成模型重构出话音。例如:信道声码器的工作原理:将语音信号基于语音分析原理分解成一系列频率分量,将这些分量在信道中传输。接收方基于收到的数据进行语音重建:将收到的数据中的频率分量作为语音的基频,产生一系列脉冲作为浊音,用噪声发生器的输出作为清音。此方法可以将语音的传输速率降低至2.4Kb/s,甚至更低。l混合编码:混合编译码器使用音源编译码技术和波形编译码技术,数据率和音质介于它们之间。使用的激励信号波形尽可能接近于原始话音信号的波形。例如CELP。下图表示了目前这三种编译码器的话音质量和数据率的关系。图 普通编译码器的音质与数据率 4.1.3 声音类别与数据率声音根据频带分为5类:(1)电话(Telephone)声音(2)调幅(Amplitude Modulation)广播声音(3)调频(Frequency Modulation)广播声音(4)数字音频光盘(CD-Audio)声音(5)数字录音带(Digital Audio Tape)声音这些不同的声音数据区别于采样频率、采样精度、通道数、数据率和频率范围等参数。声音类别与数据率声音类别声音类别采样率采样率(kHz)(kHz)精度精度(bit/s)(bit/s)单声道单声道/立体声立体声数据速率数据速率(未经压缩)未经压缩)频率范围频率范围(HzHz)PhonePhone8 88 8singlesingle8kBps8kBps200-3400Hz200-3400HzAMAM11.02511.0258 8singlesingle11.0kBps11.0kBps50-7000Hz50-7000HzFMFM22.05022.0501616stereostereo88.2kBps88.2kBps20-15000Hz20-15000HzCDCD44.144.11616stereostereo176.4kBps176.4kBps20-20000Hz20-20000HzDATDAT48481616stereostereo192.0kBps192.0kBps20-20000Hz20-20000Hz宽带音响宽带音响宽带音响宽带音响:20Hz:20Hz20kHz20kHz声音类别与数据率我们所熟悉的数字音频文件格式如下表所示:我们所熟悉的数字音频文件格式如下表所示:文件扩展名文件扩展名说明说明.PCM.PCMPCM PCM 数据序列数据序列.VOC.VOC声卡使用的音频文件格式声卡使用的音频文件格式.WAV.WAV微软使用的波形音频文件格式微软使用的波形音频文件格式.SND.SNDNeXTNeXT计算机使用的波形音频文件格式计算机使用的波形音频文件格式.AIF.AIF苹果计算机使用的波形音频文件格式苹果计算机使用的波形音频文件格式.MID.MIDMIDI MIDI 文件格式文件格式.RMI.RMI微软使用的微软使用的MIDI MIDI 文件格式文件格式未压缩的声音文件的存储量可用下式计算:未压缩的声音文件的存储量可用下式计算:存储量(存储量(B B)=(采样频率采样频率HZHZ采样位数采样位数bitbit声道数声道数时间秒)时间秒)/8/8 4.1.4 声音质量的度量声音质量的度量分为:客观质量度量和主观质量度量。声音客观质量的度量用信噪比信噪比来展开:信噪比(信噪比(SNRSNR)越大,声音质量越好;反之,信噪比)越大,声音质量越好;反之,信噪比越小,声音质量越差越小,声音质量越差声音主观质量的度量是利用人的感觉(听觉)来进行度量,主观平均判分法(MOS),通常分5分:1 1分分:劣劣(极反感极反感);2);2分分:差差(讨厌但不反感讨厌但不反感);3);3分分:中中(有有点讨厌点讨厌);4);4分分:良良(基本可以接受基本可以接受);5);5分分:优优(效果很好效果很好)声音质量的度量Kbit/s1248163264poorsufficientsatisfactorygoodexcellentAchievable Quality year 1980year 1990year 2000 部分编码器的部分编码器的MOS分分 编码器MOS分64 kb/s脉冲编码调制(PCM)4.332 kb/s自适应差分脉冲编码调制(ADPCM)4.116 kb/s低时延码激励线性预测编码(LD-CELP)4.08 kb/s码激励线性预测编码(CELP)3.73.8 kb/s码激励线性预测编码(CELP)3.02.4 kb/s线性预测编码(LPC)2.54.2音频信息压缩编码技术标准体系常见的音频压缩编码准则有ITU制定的G.7XX系列和ISO/IEC制定的MPEG-X系列。G.7XXG.7XX是一组是一组 ITU-T ITU-T 标准,用于音频压缩和解压标准,用于音频压缩和解压缩。它主要用于电话方面。在电话技术中,有两缩。它主要用于电话方面。在电话技术中,有两个主要的算法标准,分别定义在个主要的算法标准,分别定义在 -law-law 算法算法(美国使用)和(美国使用)和 A-law A-law 算法(欧洲及世界其他算法(欧洲及世界其他国家使用)中。两者都是基于对数关系的,但对国家使用)中。两者都是基于对数关系的,但对于计算机的处理来说,后者更为简单。于计算机的处理来说,后者更为简单。MPEG-XMPEG-X是一组用于视频的编码方案,其中也有是一组用于视频的编码方案,其中也有音频的编码部分,可以用于音频压缩编码。音频的编码部分,可以用于音频压缩编码。1 1电话质量的音频压缩编码技术标准电话质量的音频压缩编码技术标准电话质量的音频压缩编码技术标准电话质量的音频压缩编码技术标准信号频率规定在信号频率规定在300Hz300Hz3.4kHz3.4kHz,采用标准的脉冲编采用标准的脉冲编码调制码调制(PCM)(PCM),当采样频率为当采样频率为8kHz8kHz,进行进行8bit8bit量化时,量化时,所得数据速率为所得数据速率为64kb/s64kb/s,即一个数字电话。即一个数字电话。PCMPCM标准标准G G.711,1972711,1972年年CCITTCCITT为电话质量和语音压缩为电话质量和语音压缩制定,其速率为制定,其速率为64Kb64Kbs s,使用非线性量化技术,主使用非线性量化技术,主要用于公共电话网中。要用于公共电话网中。ADPCMADPCM是利用样本与样本之间的高度相关性和量化阶是利用样本与样本之间的高度相关性和量化阶自适应来压缩数据的一种波形编码技术,自适应来压缩数据的一种波形编码技术,CCITTCCITT为此为此制定了制定了G.721G.721推荐标准,这个标准叫做推荐标准,这个标准叫做32 kb/s ADPCM32 kb/s ADPCM。在此基础上还制定了在此基础上还制定了G.721G.721的扩充推荐标准的扩充推荐标准G.723G.723,使,使用该标准的编码器的数据率可降低到用该标准的编码器的数据率可降低到40 kb/s40 kb/s和和24 24 kb/skb/s。G.721 G.721 的输入信号是的输入信号是G.711 PCMG.711 PCM代码,它的数据率为代码,它的数据率为64 kb/s64 kb/s。而而G.721 ADPCMG.721 ADPCM的输出是用的输出是用4 4位表示的差分位表示的差分信号,它的采样率仍然是信号,它的采样率仍然是8 kHz8 kHz,它的数据率为它的数据率为32 32 kb/skb/s,这样就获得了这样就获得了2 2 1 1的数据压缩。的数据压缩。2 2 2 2调幅广播质量的音频压缩编码技术标准调幅广播质量的音频压缩编码技术标准调幅广播质量的音频压缩编码技术标准调幅广播质量的音频压缩编码技术标准 频率在频率在频率在频率在50Hz50Hz50Hz50Hz一一一一7kHz7kHz7kHz7kHz范围。范围。范围。范围。G.722G.722G.722G.722标标标标准是采用准是采用准是采用准是采用16kHz16kHz16kHz16kHz采采采采样样样样,14bit14bit14bit14bit量化,信号数据速率量化,信号数据速率量化,信号数据速率量化,信号数据速率为为为为224kbit224kbit224kbit224kbits s s s,224kbit224kbit224kbit224kbits s s s可以被可以被可以被可以被压缩压缩压缩压缩成成成成64kbit64kbit64kbit64kbits.s.s.s.采用子采用子采用子采用子带编码带编码带编码带编码方法,将方法,将方法,将方法,将输输输输入音入音入音入音频频频频信号信号信号信号经滤经滤经滤经滤波器分成高子波器分成高子波器分成高子波器分成高子带带带带和和和和低子低子低子低子带带带带两个部分,分两个部分,分两个部分,分两个部分,分别进别进别进别进行行行行ADPCMADPCMADPCMADPCM编码编码编码编码,再混合形成,再混合形成,再混合形成,再混合形成输输输输出出出出码码码码流,流,流,流,224kbit224kbit224kbit224kbits s s s可以被可以被可以被可以被压缩压缩压缩压缩成成成成64kbit64kbit64kbit64kbits s s s,最后,最后,最后,最后进进进进行数据插入行数据插入行数据插入行数据插入(最高最高最高最高插入速率达插入速率达插入速率达插入速率达16kbit16kbit16kbit16kbits)s)s)s),因此利用,因此利用,因此利用,因此利用G.722G.722G.722G.722标标标标准可以在窄准可以在窄准可以在窄准可以在窄带综带综带综带综合合合合服服服服务务务务数据网数据网数据网数据网N-ISDNN-ISDNN-ISDNN-ISDN中的一个中的一个中的一个中的一个B B B B信道上信道上信道上信道上传传传传送送送送调调调调幅广播幅广播幅广播幅广播质质质质量的音量的音量的音量的音频频频频信号信号信号信号)。3 3高保真度立体声音频压缩编码技术标准高保真度立体声音频压缩编码技术标准 高高高高保保保保真真真真立立立立体体体体声声声声音音音音频频频频信信信信号号号号频频频频率率率率范范范范围围围围是是是是50Hz50Hz50Hz50Hz20kHz20kHz20kHz20kHz,采采采采用用用用444444441kHz1kHz1kHz1kHz采采采采样样样样频频频频率率率率,16bit16bit16bit16bit量量量量化化化化进进进进行行行行数数数数字字字字化化化化转转转转换换换换,其其其其数数数数据据据据速速速速率率率率每每每每声声声声道达道达道达道达705kbit705kbit705kbit705kbits s s s。采样频率为采样频率为采样频率为采样频率为48kHz48kHz48kHz48kHz,44.1kHz44.1kHz44.1kHz44.1kHz,32kHz32kHz32kHz32kHzMPEGMPEGMPEGMPEG音频压缩技术的数据速率为每声道音频压缩技术的数据速率为每声道音频压缩技术的数据速率为每声道音频压缩技术的数据速率为每声道32323232448kbit448kbit448kbit448kbits s s s,适,适,适,适合于合于合于合于CDCDCDCDDADADADA光盘应用。光盘应用。光盘应用。光盘应用。目前国际上比较成熟的高保真立体声音频压缩标目前国际上比较成熟的高保真立体声音频压缩标准为准为MPEGMPEG音频音频。MPEG-1MPEG-1和和MPEG-2MPEG-2的声音数据压缩编码不是依据波的声音数据压缩编码不是依据波形本身的相关性和模拟人的发音器官的特性,而形本身的相关性和模拟人的发音器官的特性,而是利用人的是利用人的听觉系统的特性听觉系统的特性来达到压缩声音数据来达到压缩声音数据的目的,这种压缩编码称为感知声音编码的目的,这种压缩编码称为感知声音编码(perceptual audio coding)(perceptual audio coding)。4.2.1 G.7XX系列音频信号压缩编码标准G.711 64 kbps 信道上的语音频率脉冲编码调制(PCM)G.721 32 kbit/s 自适应差分脉冲编码调制(ADPCM)G.722 64 kbit/s 下的 7 kHz 音频编码 G.722.1 G.722.1 带有低帧损耗的具有免提操作的系统在带有低帧损耗的具有免提操作的系统在 24 24 kbit/skbit/s 和和 32 32 kbit/skbit/s 上的编码上的编码 G.722.2 G.722.2 利用自适应多频率宽带(利用自适应多频率宽带(AMR-WBAMR-WB)以)以 16 16 kbit/skbit/s 多频率语音编码多频率语音编码G.723:G.723是一种以是一种以24Kbps运行的基于运行的基于 ADPCM 的有损耗压缩标准。其音质不如非压的有损耗压缩标准。其音质不如非压缩的缩的 G.711PCM 标准以及基于标准以及基于 SBADPCM SBADPCM 的的 G.722标准。标准。G.723.1和和G.723.2用于用于H.324标准。标准。G.726 40、32、24、16 kbit/s 自适应差分脉冲编码调制 ADPCM G.727 5-、4-、3-和 2-bit/s 嵌入式自适应差分脉冲编码调制 ADPCMG.728 利用低延迟代码线性预测以 16 bit/s 进行语音编码G.729 利用共扼结构代数激励编码线性预测(CS-ACELP)以 8 bit/s 进行语音编码4.2.2 MPEG-X系列音频信号压缩标准MPEG-1制定于1992年,为工业级标准而设计。它处理音频时,具有CD(指激光唱盘)音质,质量级别基本与VHS相当。MPEG-1是针对整个音频范围的声音进行编码,采样频率为48kHz、采样精度为16位的立体声数据压缩到256b/s时,即在6:1的压缩率下,即使是专业测试员,也难以分辨出是解压声音还是原始声音。4.2.2 MPEG-X系列音频信号压缩标准MPEG-2制定于1994年,设计目标是高级工业标准的图象质量以及更高的传输率。MPEG-2可提供CD级的音质。MPEG-2的音频编码可提供左右中及两个环绕声道,以及一个加重低音声道,和多达7个伴音声道(DVD可有8种语言配音的原因)。由于MPEG-2在设计时的巧妙处理,使得大多数MPEG-2解码器也可播放MPEG-1格式的数据,如VCD。4.2.2 MPEG-X系列音频信号压缩标准两种声音数据压缩格式(1)MPEG-2 Audio,或者称为MPEG-2多声道(Multichannel)声音,又称为MPEG-2 BC(Backward Compatible,后向兼容),与MPEG-1 Audio是兼容的。(2)MPEG-2 AAC(Advanced Audio Coding,先进的音频编码),通常称为非后向兼容MPEG-2 NBC(Non-Backward-Compatible,非后向兼容)标准,与MPEG-1声音格式不兼容。MPEG-4音频编码 19961996年年1111月月在在MaceioMaceio举举行行的的MPEGMPEG第第3737次次会会议议正正式式确确定定的的MPEG-2MPEG-2先先进进音音频频编编码码AACAAC(Advanced Advanced Audio Audio CodingCoding),已已被被作作为为目目前前正正在制定的在制定的MPEG-4MPEG-4音频标准的一部分。音频标准的一部分。19961996年年3 3月月在在意意大大利利FlorenceFlorence举举行行的的MPEGMPEG第第3434次次会会议议上上给给出出了了MPEG-4MPEG-4音音频频验验证证模模型型VMVM的的第第一一个个完完整整描描述述。通通过过大大量量的的核核心心实实验(验(Core ExperimentCore Experiment),),音频验证模型得到了迅速的发展。音频验证模型得到了迅速的发展。19961996年年1111月月就就公公布布了了第第一一个个MPEG-4MPEG-4的的音音频频工工作作草草案案。在在MPEGMPEG第第4040次次 会会 议议 上上,结结 构构 音音 频频 SASA(Structured Structured AudioAudio)和和 文文 语语 转转 换换TTSTTS(Text Text to to SpeechSpeech)被被加加到到MPEG-4MPEG-4音音频频标标准准中中,作作为为合合成成的的音频编码部分。音频编码部分。19971997年年1111月月在在FribourgFribourg举举行行的的MPEGMPEG第第4141次次会会议议公公布布了了音音频频标标准准的的最最终终标标准准草草案案(Final Final Draft Draft International International StandardStandard),内内容容与与正式标准基本相同。正式标准基本相同。19991999年年1 1月公布正式标准版本月公布正式标准版本1 1 2000 2000年年1 1月公布标准的版本月公布标准的版本2 24.2.2 MPEG-X系列音频信号压缩标准4.2.2 MPEG-X系列音频信号压缩标准MPEG-4音频标准(ISO/IEC 14496-3)分为自然音频编码和合成音频编码两大类。MPEG-4(ISO/IEC 14496)已建立了两个版本,正在开发第3版。MPEG-4音频部分促进广泛的应用,这些应用可能包括从智能语音到高质量多声道音频,从自然声音到合成声音。特别是,它支持由下述成分组成的音频对象的高效表示:语音信号:合成语音:它允许一个文本或带有韵律参数的文本(基音轮廓,音素持续期等等)作为输入产生可理解的合成语音。4.3 G.7XX声音压缩编码G.711声音压缩编码G.722声音压缩编码G.723声音压缩编码G.729声音压缩编码各自的编码方法各自的编码方法编编/解码器结构及工作原理解码器结构及工作原理4.3.1 G.722声音压缩编码G.722基于子带 ADPCM技术(SBADPCM),它是将现有的带宽分成两个独立的子带信道分别采用差分脉冲编码调制算法。G.722压缩信号的带宽范围为50Hz到7kHz,而G.711仅限于4.4kHz。其比特率为48、56、64Kbps,在标准模式下,采样速率是16KHz,幅度深度为14比特。1、G.722的编码方法采用子带自适应差分脉冲编码调制技术(SB-ADPCM)。以上技术的操作方法是:用正交镜像滤波器(用正交镜像滤波器(QMFQMF)把频带分割成两把频带分割成两个等带宽的子带,分别是高频带和低频带。个等带宽的子带,分别是高频带和低频带。对两个子带中的信号采用对两个子带中的信号采用ADPCMADPCM进行编码。进行编码。其基本思想是将信号分解为若干子频带内的分其基本思想是将信号分解为若干子频带内的分量之和,然后对各子带分量根据其不同的分布特量之和,然后对各子带分量根据其不同的分布特性采取不同的压缩策略以降低码率。性采取不同的压缩策略以降低码率。2、G.722的编/解码器G.722音频编/解码器结构如下图所示:a.编码器编码器高子带高子带ADPCM编码编码音频音频信号信号输入输入声音声音数据数据传送传送部件部件发送正发送正交镜像交镜像滤波器滤波器低子带低子带ADPCM编码编码多多路路复复合合器器IH16Kbit/sIL16Kbit/sXinXHXL附加数据附加数据0Kbit/s,8Kbit/s,16Kbit/s数据输入数据输入部件部件高子带高子带ADPCM解码解码音频音频信号信号输出输出声音声音数据数据传送传送部件部件发送正发送正交镜像交镜像滤波器滤波器低子带低子带ADPCM解码解码多多路路复复合合器器IH16Kbit/sIL16Kbit/sYoutYHYL附加数据附加数据0Kbit/s,8Kbit/s,16Kbit/s数据输出数据输出部件部件b.解码器解码器4.3.2 G.723声音压缩编码G.723是ITU-T在1996年制订成型的一种多媒体语音编解码标准。其典型应用包括IP电话服务、H.324视频电话、无线电话、数字卫星系统、数电倍增设备(DCME)、公共交换电话网(PSTN)、ISDN及各种多媒体语音信息产品。G.723标准传输码率有5.3kb/s和6.3kb/s两种,在编程过程中可随时切换,两种速率的区别在于采用的激励技术不同。该标准主要包含了编码算法和解码算法。G.723声音压缩编码5.3kb/s的编码器采用代数码线预测激励(ACELP);6.3kb/s的编码器则采用多脉冲最大似然量化(MP-MLQ)激励。编码原理:从采集的语音信号中解析出声道模型参数,构造一个合成滤波器,采用合适的激励源激励,编码传输的参数主要是激励源与合成滤波器的参数。接收端根据传输编码参数,重构出激励源与合成滤波器进行解码,还原出来的数字语音信号经D/A转换器转换成模拟语音信号。G.723是基于分析合成的声音压缩编码标准。参数编码此编码方法又称音源编码,其原理参见下图。此编码方法又称音源编码,其原理参见下图。预加重预加重加窗加窗自相关函数自相关函数清清/浊音判浊音判断断基音提取基音提取线性预测编码线性预测编码MUX及及量量化化编编码码语音样本语音样本编码编码ai下面,首先介绍G.723中的参数编码方法,再由于参数编码方法中语音生成模型里使用的激励信号过于简单而造成话音质量不高的缺点,再介绍一种将波形编码与音源编码混合的编码方法。参数编码原理:参数编码原理:通过分析声音的产生机理,建立数学模型。编码时从声音波通过分析声音的产生机理,建立数学模型。编码时从声音波形信号中提取生成声音的参数;解码时使用这些参数通过声音形信号中提取生成声音的参数;解码时使用这些参数通过声音生成模型,重构出声音。生成模型,重构出声音。话音生成模型把声音的产生过程看成是由声带振动脉冲激励话音生成模型把声音的产生过程看成是由声带振动脉冲激励声道滤波器的结果。声道滤波器的结果。话音参数包括:清浊音比例、浊音周期、增益系数、滤波器话音参数包括:清浊音比例、浊音周期、增益系数、滤波器参数等。参数等。根据接收到的话音参数,基于下图中的生成过程进行话音重根据接收到的话音参数,基于下图中的生成过程进行话音重构:构:脉冲序列发生器脉冲序列发生器随机噪声发生器随机噪声发生器声道滤波器声道滤波器基音周期基音周期T滤波器参数滤波器参数音源幅度音源幅度音源幅度音源幅度语音输出语音输出浊音浊音清音清音ai4.3.3 GSM编译码器简介编译码器简介 除了除了ADPCMADPCM算法已经得到普遍应用之外,还有一种使用较普遍算法已经得到普遍应用之外,还有一种使用较普遍的波形声音压缩算法叫做的波形声音压缩算法叫做GSMGSM算法。算法。GSMGSM是是G Global lobal S System for ystem for MMobile communicationsobile communications的缩写,可译成全球数字移动通信系统。的缩写,可译成全球数字移动通信系统。GSMGSM算法是算法是19921992年柏林技术大学根据年柏林技术大学根据GSMGSM协议开发的,这个协协议开发的,这个协议是欧洲最流行的数字蜂窝电话通信协议。议是欧洲最流行的数字蜂窝电话通信协议。GSMGSM的输入是帧的输入是帧(frame)(frame)数据,一帧数据,一帧(20(20毫秒毫秒)由采样频率为由采样频率为8 kHz8 kHz的带符号的的带符号的160160个样本组成,每个样本为个样本组成,每个样本为1313位或者位或者1616位的位的线性线性PCM(linearPCM(linear PCM)PCM)码。码。GSMGSM编码器可把一帧编码器可把一帧(16016(16016位位)的的数据压缩成数据压缩成260260位的位的GSMGSM帧,压缩后的数据率为帧,压缩后的数据率为16251625字节,相字节,相当于当于13 kb/s13 kb/s。由于。由于260260位不是位不是8 8位的整数倍,因此编码器输出的位的整数倍,因此编码器输出的GSMGSM帧为帧为264264位的线性位的线性PCMPCM码。采样频率为码。采样频率为8 kHz8 kHz、每个样本为、每个样本为1616位的未压缩的话音数据率为位的未压缩的话音数据率为128 kb/s128 kb/s,使用,使用GSMGSM压缩后的数压缩后的数据率为:据率为:(264(264位位80008000样本样本/秒秒)/160)/160样本样本=13.2=13.2 千位千位/秒秒GSMGSM的压缩比:的压缩比:128:13.2=9.7128:13.2=9.7,近似于,近似于10:110:1。4.4 MPEG-X声音压缩编码由于有必要确定一套通用的视频和音频声音编码方案,ISO/IEC标准组织成立了ISO/IES JTC1/SC29/WG11,即MPEG(活动图像专家组)。该小组负责比较和评估几种低码速率数字声音编码技术,以产生一套国际标准,用于活动图像、相关声音信息及其结合,和用数字存储媒体(DSM)存储与重现。MPEG针对的DSM包括CD-ROM、DAT、磁光碟和电脑磁盘。MPEG Audio标准是指标准是指MPEG-1 Audio、MPEG-2 Audio和和MPEG-2 AAC,MPEG-4 Audio和和MPEG-7音频框架与前面章节介绍的波形声音压缩编码与前面章节介绍的波形声音压缩编码(如如ADPCM)ADPCM)和参数和参数编码编码(如如LPC)LPC)不同,不同,MPEG-1MPEG-1和和MPEG-2MPEG-2的声音数据压缩编的声音数据压缩编码不是依码不是依 据波形本身的相关性和模拟人的发音器官的据波形本身的相关性和模拟人的发音器官的特性,而是利用人的听觉系统的特性来达到压缩声音特性,而是利用人的听觉系统的特性来达到压缩声音数据的目的,这种压缩编码称为数据的目的,这种压缩编码称为感知声音编码感知声音编码感知声音编码感知声音编码 (perceptual audio coding)(perceptual audio coding)。进入进入2020世纪世纪8080年代之后,尤其最近几年,人类在利用年代之后,尤其最近几年,人类在利用自身的听觉系统的特性来压缩声音数据方面取得了很自身的听觉系统的特性来压缩声音数据方面取得了很大的进展,先后制定了大的进展,先后制定了MPEG-1 Audio,MPEG-2 AudioMPEG-1 Audio,MPEG-2 Audio等标准等标准它们处理它们处理10 Hz10 Hz20000 Hz20000 Hz范围里的声音数据,使用范围里的声音数据,使用“心理声学模型心理声学模型(psychoacoustic model)”(psychoacoustic model)”来达到压缩来达到压缩声音数据的目的。声音数据的目的。“听阈听阈频率频率”曲线曲线 当声音弱到人的耳朵刚刚可以听见时,我们称此时的声音强度为“听阈”。听阈是随频率变化的另一种极端的情况是声音强到使人耳感到疼痛。实验表明,如果频率

    注意事项

    本文(第4章音频媒体的压缩编码.ppt)为本站会员(s****8)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开