语音的压缩编码.ppt





《语音的压缩编码.ppt》由会员分享,可在线阅读,更多相关《语音的压缩编码.ppt(48页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第13章 语音的压缩编码Slide 1内容一、引言二、数字语音的波形编码三、数字语音的参数编码 四、数字语音的混合编码一、引 言Slide 3数字语音压缩编码的可能性声音信号中包含有大量的冗余信息邻近样本之间有很大的相关性周期之间的相关性基音之间的相关性长时(几十秒)自相关性话音间歇(静音)可以利用人的听觉感知特性进行压缩,可以利用语音信号的生成机理进行数据压缩。Slide 4语音压缩编码方法分类波形编码(Perception model-based compression)优点:通用、音频质量较高缺点:很难获得较大的压缩比示例:PCM,ADPCM,SBC参数编码,源编码(Production
2、 model-based compression)优点:压缩比较大缺点:信号源必须已知示例:LPC混合编码(Hybrid compression)示例:CELPSlide 5三类语音编码器性能比较极低低中码率(kb/s)1 2 4 8 16 32 64优 良 中 差 坏语音质量模型编码(源编码)参数编译码器(source codecs)混合编码混合编译码器(hybrid codecs)波形编码 波形编译码器(waveform codecs)Slide 6数字语音编码标准标准方法比特率质量时间应用G.711PCM644.41972PSTNANSI 1015LPC-102.42.71976保密通信
3、G.721ADPCM324.11984PSTNGSM(欧洲蜂窝通信)RPE-CELP133.61991ANSI 1016CELP4.83.21991G.728低延时CD-CELP164.01992IS 54(北美TDMA)VSELP83.51992IS 96(北美CDMA)QCELP1-83.41993日本蜂窝通信 VSELP6.83.31993G.729A CS-ACELP84.21995IP电话G.723.1(H.323,H.324)ACELP6.33.981995IP电话半速率GSM(欧洲蜂窝通信)AMR5-63.41995新的低速率ANSI标准 MELP2.43.31996二、数字语音
4、的波形编码Slide 8波形编译码器 算法比较简单,容易实现,低延迟,压缩效率不高,数据速率在16 kbps以上,声音质量相当好,通用性好,适用于任意类型的数字声音,很成熟,有一系列国际标准:CCITT G.711 PCM 64kb/s CCITT G.721 ADPCM 32Kb/s CCITT G.726 ADPCM 48,32,24,16 Kb/s已广泛应用于电话语音的中继线传输Slide 9CCITT G.711(脉冲编码调制)Pulse Code Modulation(PCM)of Voice Frequency编码过程:对数变换(压缩编码)F(n)低通滤波 (LPF)Xa(t)x(
5、n)A/D(13位)取样(8kHz)X(n)分析:方法简单,易实时处理,语音质量好,压缩效率不高,码率为64kbps。码率104 kbps码率 8位 x 8k64 kbpsSlide 10对数变换 F=ln(x)目的:适应听觉的非线性特性;压缩数据。北美和日本等地区 (律压扩算法)当 0=|x|=1/A当 1/A|x|=1欧洲和中国大陆等地区 (A律压扩算法)Slide 11压扩算法的实现 x(n):线性码(1+12位)F(n):PCM码(1+7位)0 0 0 0 0 0 0 W X Y Z a 0 0 0 W X Y Z 0 0 0 0 0 0 1 W X Y Z a 0 0 1 W X Y
6、 Z 0 0 0 0 0 1 W X Y Z a b 0 1 0 W X Y Z 0 0 0 0 1 W X Y Z a b c 0 1 1 W X Y Z 0 0 0 1 W X Y Z a b c d 1 0 0 W X Y Z 0 0 1 W X Y Z a b c d e 1 0 1 W X Y Z 0 1 W X Y Z a b c d e f 1 1 0 W X Y Z 1 W X Y Z a b c d e f g 1 1 1 W X Y ZXa(t)取样(8kHz)A/D(13位)x(n)A律/u律压缩编码8位 x 8kHzF(n)Slide 12 PCM 的应用应用于数字声音
7、的编辑处理(多媒体计算机)应用于声音的传输(通信):长途电话 (8 KHz x 8 bit x 1),时分多路复用TDM(time-division multiplexing)应用于全频带数字声音的表示/存储:CD-DA(CD唱片),DAT (44.1 KHz x 16 bit x 2)Slide 13ADPCM自适应差分脉冲编码调制(Adaptive Differential PCM)原理:1.声音信号具有很强的相关性,可从已知信号来预测未知信号,即使用前面的样本预测当前的样本,实际样本值与预测值之间的误差往往很小。2.利用自适应的思想改变量化阶的大小,即使用小的量化阶(step-size)
8、去编码小的差值,使用大的量化阶去编码大的差值,效果:量化位数可以显著减少,从而降低了总的码率。Slide 14增量调制(DM)Slide 15量化器 Q(m阶线性预测,A1,A2,.,Am可自动修正。)实际样本值线性预测公式:Xn=A1*Xn-1+A2*Xn-2+.+Am*Xn-m_线性预测器逆量化器 Q-1+预测值差值重建信号DPCM编码输出利用样本与样本之间存在的相关性进行编码,即根据前面的样本估算当前样本的大小,然后对预测误差进行量化编码。差分脉冲编码调制 DPCMSlide 16E量化结果255240239224:31161501161732:225240241255248232:24
9、8824:232248130,150,140,200,230f 130,130,142,144,167e 0,20,-2,56,63e 0,24,-8,56,56f 130,154,134,200,223举例Slide 17自适应脉冲编码调制(APCM)根据输入样本幅度的大小来改变量化阶大小。可以是瞬时自适应,即量化阶的大小每隔几个样本就改变,也可以是音节自适应,即量化阶的大小在较长时间周期里发生变化。量化器 Q样本值量化阶适配器自适应APCM编码输出Slide 18量化器 Q13位自然码的数字语音样本_线性预测器逆量化器 Q-1+预测值差值重建信号DPCM编码输出CCITT G.721 AD
10、PCM编码器A量化阶适配器自适应(4 位)6阶自适应线性预测,4位的自适应量化器,输出码率:8k x 4=32 kbpsSlide 19ADPCM 小结PCM话音质量 4.5级ADPCM话音质量 4.34级,码率降低一倍(32 kbps)。ADPCM应用:数字语音通信多媒体应用中的语音(解说词)Slide 20Sub-band coding(子带编码)基本原理:利用带通滤波器(BPF)把声音信号按频率范围划分成几个组成部分(子频带,子带)低频部分能量较集中,量化精度要高,取样频率可稍低。高频部分是摩擦音、噪音,量化精度可低些,但取样频率要稍高。不同子频带作不同的ADPCM编码处理,然后再复合在
11、一起。Slide 21MUX64kbps SBC数据插入部件辅助数据输入16kHz,14bits,数字声音传输正交镜象滤波器 (TQMF)4-8kHz0-4kHzXHXL 高频带 ADPCM编码器8000,2bits16 kbps 低频带 ADPCM 编码器8000,6bits48 kbps模式1:声音64kbps;辅助数据 0 模式2:声音56kbps;辅助数据 8 kbps模式3:声音48kbps;辅助数据 16kbpsG.722:64 kbps的声音子带编码二、数字语音的参数编码Slide 23参数编码(源编码)的设计思想分析人的发声器官的结构及语音生成的原理,建立语音生成的物理(数学)
12、模型,编码时:从话音波形信号中提取生成该话音的参数;解码时:根据语音生成模型,使用这些参数合成原始话音。提取语音生成参数语音生成模型(编码器)语音参数数字语音使用参数合成语音语音生成模型(解码器)重建的语音Slide 24语音生成过程(1)空气由肺部呼出,经过声带,送入声道,最后从嘴唇呼出,产生声音。声音信号具有短期相关性(持续时间1 ms左右)声道是一个谐振腔,说话时,声道形状不断变化,引起谐振频率改变,大约10 100 ms改变一次;声道可以看作为具有共振特性的一个滤波器,由于声道形状变化比较慢,因此该滤波器的转移函数(transfer function)只需要每20ms左右时间修改一次。
13、声道声带空气语音Slide 25语音生成过程(2)声道滤波器由肺部空气经过声带而激励,根据激励的模式,语音可分成2类:浊音(时间域)浊音Voiced sounds(声带震动,产生准周期的空气脉冲激励信号,送入声道)清音(时间域)清音Unvoiced sounds(声带不振动,声门始终处于“开”状态,送入声道的空气激励信号是一种无周期性的噪音信号)Slide 26语音生成的声道滤波器模型(1)Slide 27语音生成的声道滤波器模型(2)LPC模型=(a1,a2,a3,a4,a5,a6,a7,a8,a9,a10,G,V/UV,T)脉冲序列发生器随机噪声发生器基音周期T(声带振动)(声带不振动)U
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 压缩 编码

限制150内