音频编解码技术介绍幻灯片.ppt
《音频编解码技术介绍幻灯片.ppt》由会员分享,可在线阅读,更多相关《音频编解码技术介绍幻灯片.ppt(50页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、音频编解码技术介绍第1页,共50页,编辑于2022年,星期三培训目标培训目标了解音频编解码的目的了解音频编解码的目的熟悉音频编解码的各种标准熟悉音频编解码的各种标准知道音频编解码的技术构成知道音频编解码的技术构成关注音频编解码技术的发展关注音频编解码技术的发展第2页,共50页,编辑于2022年,星期三语音编解码概述语音编解码概述(a)波形编码器;(b)声码器;(c)混合编码器语音编码器类型语音编码器类型第3页,共50页,编辑于2022年,星期三语音编解码概述语音编解码概述(a)波形编码器不利用生成语音信号的任何知识来产生一种重构信号,波形编码器会尽可能重构出包括背景噪音在内的模拟波形。由于波形
2、编码器作用于所有输入信号,因此会产生高质量的样值。特点是复杂度低,在数据速率16kb/s以上时,质量很好,例如,ITU-TG.711规范(PCM)用的比特率为64kbps。Timedomainapproach:PCM(pulsecodemodulation),DPCM,ADPCMFrequencydomainapproach:SBC(sub-bandcoding),ATC(adaptivetransformcoding)语音编码器类型语音编码器类型第4页,共50页,编辑于2022年,星期三语音编解码概述语音编解码概述(b)声码器声码器(vocoder)也称为音源编译码器,它试图在话音波形信号中
3、提取生成话音的参数,通过这些参数和话音生成模型重构出语音。线性预测编码(LPC)用来获取一时变数字滤波器的参数。这个滤波器用来模拟说话人的声道输出。声码器(vecoder)时变滤波器(time-varyingfilter)命令 基本激励它的音质很低,增加数据率对提高音质基本无用,广泛用于军事保密通讯.语音编码器类型语音编码器类型第5页,共50页,编辑于2022年,星期三语音编解码概述语音编解码概述试图填补波形编码和音源编码的间隔:waveformcoding不能解决低于16kb/s下的音质问题,sourcecoding可压缩到2.4kb/s或更低,但音质不自然。时域合成-分析编码器(analy
4、sis-by-synthesis,ABS)。它和音源编码器的主要区别:不使用2个状态(有声/无声)的模型来寻找滤波器的输入激励信号,而是要寻找这样一种激励信号,使得这种信号产生的波形尽可能接近原始话音波形.语音编码器类型语音编码器类型(1)(1)第6页,共50页,编辑于2022年,星期三语音编解码概述语音编解码概述(c)混合编码器目前常用的语音编码器是混合编码器,它融合了波形编码器和声码器的长处。它的另一特点是它工作在非常低的比特率(416kbps)。混合编码器采用合成分析(AbS)技术。(c.1)线性预测合成分析编码器:前向自适应LPAS编码器:8kbpsG.729编码器和6.3kbps与5
5、.3kbpsG.723.1编码器后向自适应LPAS编码:16kbpsG.728低时延码激励线性预测(c.2)参数语音编码器:2.4kbps混合激励线性预测编码语音编码器类型语音编码器类型(2)(2)第7页,共50页,编辑于2022年,星期三语音编解码概述语音编解码概述语音编码器的主要功能就是把用户语音的PCM(脉冲编码调制)样值编码成少量的比特(帧)。这种方法使得语音在链路产生误码、网络抖动和突发传输时具有鲁棒性(Robustness)。在接收端,语音帧先被解码为PCM语音样值,然后再转换成语音波形。语音编解码目的语音编解码目的第8页,共50页,编辑于2022年,星期三语音编解码概述语音编解码
6、概述帧大小:帧的大小表示语音流量的时间长度,也称为帧时延。帧是语音信号的分立部件,且每帧是根据语音样点更新的。本章所介绍的编解码器都是一次处理一帧。每帧信息放在各语音分组中,并传送给接收端。处理时延:它表示在编解码器中对一帧语音做编码算法处理时所需的时间。它通常简单的计入帧时延。处理时延也称为算法时延。前视时延:编码器为了对当前帧的编码提供帮助而检查下一帧的一定长度,此长度就称为前视时延。前视的想法是为了利用相邻语音帧之间的密切相关性。帧长度:这个值表示经编码处理后的字节数(不包括帧头)。语音编码器评价语音编码器评价第9页,共50页,编辑于2022年,星期三语音编解码概述语音编解码概述语音比特
7、率:当编解码器的输入是标准脉冲编码调制的语音码流(比特率为64kbit/s)时,编解码器的输出速率。DSPMIPS:此值是指支持特定编码器的DSP处理器的最低速度。RAM需求:它描述了支持特定的编码过程所需要RAM的大小。编码器工作所需的时间:是指编码器的缓存及处理时间,称为单向系统时延。其值=帧大小+处理时延+前视时延。显然,解码时延也非常重要。实际上,解码时延大约是编码时延的一半。语音编码器评价(续)语音编码器评价(续)第10页,共50页,编辑于2022年,星期三音频编解码标准音频编解码标准语音编解码标准其它音频编解码标准DTMFTransmittersandReceivers标准回声消除
8、相关标准第11页,共50页,编辑于2022年,星期三音频编解码标准音频编解码标准语音编解码标准其它音频编解码标准DTMFTransmittersandReceivers标准回声消除相关标准第12页,共50页,编辑于2022年,星期三音频编解码标准音频编解码标准 语音编解码标准ITU-TRecommendationG.711ITU-TRecommendationG.723.1&AnnexAITU-TRecommendationG.728&AnnexGITU-TRecommendationG.729&AnnexAB第13页,共50页,编辑于2022年,星期三音频编解码标准音频编解码标准语音编解码标
9、准参数对照第14页,共50页,编辑于2022年,星期三音频编解码标准音频编解码标准Bit rates时延时延ms支持静音压支持静音压缩缩编码类型G.71164 kbit/s0.125 是是(Appendix II)PCMG.723.1 5.3&6.3 kbit/s37.5是是(Annex A)ACELP&MP-MLQG.72816 kbit/s0.625 否否LD-CELPG.7298 kbit/s15是是(Annex B)CSA-CELP音频编解码标准各参数对照第15页,共50页,编辑于2022年,星期三PCM(Pulse Code Modulation)模拟信号低通防失真滤波器波形编码器P
10、CM样本量化器采样:均匀采样量化:均匀量化,非均匀量化(大信号采用大间隔,小信号小间隔)音频编码技术音频编码技术音频编码技术音频编码技术PCM在通信中主要用于时分多路复用和频分多路复用.第16页,共50页,编辑于2022年,星期三语音压缩ADPCM自适应差分脉码调制波形编码方案自适应:自动压扩差分:仅对样本之间的变化编码每个样本的速率与比特:32Kbps=8Kbpsx4bits/sample24Kbps=8Kbpsx3bits/sample16Kbps=8Kbpsx2bits/sample第17页,共50页,编辑于2022年,星期三CELP:码激励线性预估进入编码器的信号从8比特PCM转换成1
11、6比特线性PCM样本编码器使用电码本。电码本用反馈信息对语音波形不断地分析,“学习”和预估白噪声生成器“激励”编码器数字结果(参数)被传送到远端码器进行语音波形的合成和生成第18页,共50页,编辑于2022年,星期三CS-ACELP:共轭结构代数码激励线性预估使用DSP80个16比特线性PCM数据样本帧(10M)进入10个8比特码字增加一个“向前”的5毫秒噪音降低和音调合成过滤增加到处理要求中8Kbps的数据速率第19页,共50页,编辑于2022年,星期三LD-CELP:低延迟码激励线性预估与CSA-CELP相似,但LDCELP使用较小的电码本,并以16Kbps操作使延迟减小到25毫秒(无“向
12、前”)从8-kHz输入语音的每五个样本中产生10比特的码字四个10比特的码字被称为一个“子帧”,它大约需要2.5毫秒进行编码两个“子帧”结合到一个5毫秒的码组中进行传输第20页,共50页,编辑于2022年,星期三DM and ADM(Adaptive Delta Modulation)SBC(Sub-Band Coding)and SB-ADPCMLPC(LinearPredictiveCoding)音频编码技术音频编码技术音频编码技术音频编码技术其它语音编码类型第21页,共50页,编辑于2022年,星期三音频编解码标准音频编解码标准语音编解码标准其它音频编解码标准DTMFTransmitte
13、rsandReceivers标准回声消除相关标准第22页,共50页,编辑于2022年,星期三当前国际上主流的新一代视音频编解码软件技术标准是国际运动图像专家组于1999年公布的MPEG4技术标准,将逐渐取代现有的MPEG1(VCD)、MPEG2(DVD)标准。MPEG4主要为了实现在有线、移动网络上传输互动的视音频内容,目前世界主要公司的编解码软件都支持MPEG4标准。虽然微软等几个公司在发展自己的技术和标准,但都脱不开MPEG4标准底层的基础专利技术。MPEG4等编解码技术的革命,极大地扩展了数字多媒体的应用市场。音频编码技术音频编码技术音频编码技术音频编码技术音频编解码标准其它音频编解码标
14、准第23页,共50页,编辑于2022年,星期三MPEG中音频编码标准(1)编码器的输入和解码器的输出与现存的PCM标准兼容ISO/IEC11172-3(MPEG1音频)的采样率为32kHz,44.1kHz和48kHz。根据应用需要,可以使用不同层次的编码系统。Layer包括将数字音频变成32个子带的基本映射。将数据格式化成块的固定分段。决定自适应位分配的心理声学模型。利用块压扩和格式化的量化器。理论上,层编码/解码的最少延时约为19ms。Layer提供了为分配,缩放因子和抽样的附加编码。使用了不同的帧格式。这层理论上的最小编码/解码延时约为35ms。Layer采用混合带通滤波器来提高频率分辨率
15、。它增加了差值量化(非均匀)、自适应分段和量化值的熵编码。这层理论上的最小编码/解码延时为59ms。联合立体声编码作为一个附加特征,能够加入到任何一层中。音频编码技术音频编码技术音频编码技术音频编码技术音频编解码标准其它音频编解码标准第24页,共50页,编辑于2022年,星期三杜比数字音频技术(1)AC-3编码和解码AC-3音频编码标准的起源是DOLBYAC-1。AC-1应用的编码技术是自适应增量调制(ADM),它把20kHz的宽带立体声音频信号编码成512kbps的数据流。AC-1曾在电视和调频广播上得到广泛应用。1990年DOLBY实验室推出了立体声编码标准AC-2,它采用类似MDCT的重
16、叠窗口的快速傅立叶变换(FFT)编码技术,其数据率在256kbps以下。AC-2被应用在PC声卡和综合业务数字网等方面。1992年DOLBY实验室在AC-2的基础上,有开发了DOLBYAC-3的数字音频编码技术。AC-3提供了五个声道的从20Hz的全通带频响,即正前方的左(L)、中(C)和右(R),后边的两个独立的环绕声通道左后(LS)和右后(RS)。AC-3同时还提供了一个100Hz以下的超低音声道供用户选用,以弥补低音之不足。因为此声道仅为辅助而已,故定为0.1声道。所以AC-3被称为5.1声道。AC-3将这6个声道进行数字编码,并将它们压缩成一个通道,而它的比特率仅是320kbps。音频
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 音频 解码 技术 介绍 幻灯片
限制150内