语音的压缩编码.ppt

上传人：wuy****n92

文档编号：66725238

上传时间：2022-12-19

格式：PPT

页数：48

大小：796KB

( 4.5 )

《语音的压缩编码.ppt》由会员分享，可在线阅读，更多相关《语音的压缩编码.ppt（48页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、第13章语音的压缩编码Slide 1内容一、引言二、数字语音的波形编码三、数字语音的参数编码四、数字语音的混合编码一、引言Slide 3数字语音压缩编码的可能性声音信号中包含有大量的冗余信息邻近样本之间有很大的相关性周期之间的相关性基音之间的相关性长时（几十秒）自相关性话音间歇（静音）可以利用人的听觉感知特性进行压缩,可以利用语音信号的生成机理进行数据压缩。Slide 4语音压缩编码方法分类波形编码(Perception model-based compression)优点:通用、音频质量较高缺点:很难获得较大的压缩比示例:PCM,ADPCM,SBC参数编码,源编码(Production

2、 model-based compression)优点:压缩比较大缺点:信号源必须已知示例:LPC混合编码(Hybrid compression)示例:CELPSlide 5三类语音编码器性能比较极低低中码率(kb/s)1 2 4 8 16 32 64优良中差坏语音质量模型编码（源编码）参数编译码器(source codecs)混合编码混合编译码器(hybrid codecs)波形编码波形编译码器(waveform codecs)Slide 6数字语音编码标准标准方法比特率质量时间应用G.711PCM644.41972PSTNANSI 1015LPC-102.42.71976保密通信

3、G.721ADPCM324.11984PSTNGSM(欧洲蜂窝通信)RPE-CELP133.61991ANSI 1016CELP4.83.21991G.728低延时CD-CELP164.01992IS 54(北美TDMA)VSELP83.51992IS 96(北美CDMA)QCELP1-83.41993日本蜂窝通信 VSELP6.83.31993G.729A CS-ACELP84.21995IP电话G.723.1(H.323,H.324)ACELP6.33.981995IP电话半速率GSM(欧洲蜂窝通信)AMR5-63.41995新的低速率ANSI标准 MELP2.43.31996二、数字语音

4、的波形编码Slide 8波形编译码器算法比较简单，容易实现，低延迟，压缩效率不高，数据速率在16 kbps以上，声音质量相当好，通用性好，适用于任意类型的数字声音，很成熟，有一系列国际标准：CCITT G.711 PCM 64kb/s CCITT G.721 ADPCM 32Kb/s CCITT G.726 ADPCM 48,32,24,16 Kb/s已广泛应用于电话语音的中继线传输Slide 9CCITT G.711(脉冲编码调制)Pulse Code Modulation(PCM)of Voice Frequency编码过程：对数变换(压缩编码)F(n)低通滤波 (LPF)Xa(t)x(

5、n)A/D(13位)取样(8kHz)X(n)分析：方法简单，易实时处理，语音质量好，压缩效率不高，码率为64kbps。码率104 kbps码率 8位 x 8k64 kbpsSlide 10对数变换 F=ln(x)目的:适应听觉的非线性特性；压缩数据。北美和日本等地区（律压扩算法）当 0=|x|=1/A当 1/A|x|=1欧洲和中国大陆等地区（A律压扩算法）Slide 11压扩算法的实现 x(n):线性码(1+12位)F(n):PCM码(1+7位)0 0 0 0 0 0 0 W X Y Z a 0 0 0 W X Y Z 0 0 0 0 0 0 1 W X Y Z a 0 0 1 W X Y

6、 Z 0 0 0 0 0 1 W X Y Z a b 0 1 0 W X Y Z 0 0 0 0 1 W X Y Z a b c 0 1 1 W X Y Z 0 0 0 1 W X Y Z a b c d 1 0 0 W X Y Z 0 0 1 W X Y Z a b c d e 1 0 1 W X Y Z 0 1 W X Y Z a b c d e f 1 1 0 W X Y Z 1 W X Y Z a b c d e f g 1 1 1 W X Y ZXa(t)取样(8kHz)A/D(13位)x(n)A律/u律压缩编码8位 x 8kHzF(n)Slide 12 PCM 的应用应用于数字声音

7、的编辑处理（多媒体计算机）应用于声音的传输（通信）:长途电话 (8 KHz x 8 bit x 1),时分多路复用TDM(time-division multiplexing)应用于全频带数字声音的表示/存储:CD-DA（CD唱片），DAT (44.1 KHz x 16 bit x 2)Slide 13ADPCM自适应差分脉冲编码调制(Adaptive Differential PCM)原理：1.声音信号具有很强的相关性，可从已知信号来预测未知信号,即使用前面的样本预测当前的样本，实际样本值与预测值之间的误差往往很小。2.利用自适应的思想改变量化阶的大小，即使用小的量化阶(step-size)

8、去编码小的差值，使用大的量化阶去编码大的差值，效果：量化位数可以显著减少，从而降低了总的码率。Slide 14增量调制(DM)Slide 15量化器 Q(m阶线性预测，A1,A2,.,Am可自动修正。)实际样本值线性预测公式：Xn=A1*Xn-1+A2*Xn-2+.+Am*Xn-m_线性预测器逆量化器 Q-1+预测值差值重建信号DPCM编码输出利用样本与样本之间存在的相关性进行编码，即根据前面的样本估算当前样本的大小，然后对预测误差进行量化编码。差分脉冲编码调制 DPCMSlide 16E量化结果255240239224:31161501161732:225240241255248232:24

9、8824:232248130，150，140，200，230f 130,130,142,144,167e 0,20,-2,56,63e 0,24,-8,56,56f 130,154,134,200,223举例Slide 17自适应脉冲编码调制(APCM)根据输入样本幅度的大小来改变量化阶大小。可以是瞬时自适应，即量化阶的大小每隔几个样本就改变，也可以是音节自适应，即量化阶的大小在较长时间周期里发生变化。量化器 Q样本值量化阶适配器自适应APCM编码输出Slide 18量化器 Q13位自然码的数字语音样本_线性预测器逆量化器 Q-1+预测值差值重建信号DPCM编码输出CCITT G.721 AD

10、PCM编码器A量化阶适配器自适应(4 位)6阶自适应线性预测，4位的自适应量化器，输出码率：8k x 4=32 kbpsSlide 19ADPCM 小结PCM话音质量 4.5级ADPCM话音质量 4.34级,码率降低一倍(32 kbps)。ADPCM应用：数字语音通信多媒体应用中的语音（解说词）Slide 20Sub-band coding(子带编码)基本原理：利用带通滤波器(BPF)把声音信号按频率范围划分成几个组成部分(子频带，子带)低频部分能量较集中，量化精度要高，取样频率可稍低。高频部分是摩擦音、噪音，量化精度可低些，但取样频率要稍高。不同子频带作不同的ADPCM编码处理，然后再复合在

11、一起。Slide 21MUX64kbps SBC数据插入部件辅助数据输入16kHz,14bits,数字声音传输正交镜象滤波器 (TQMF)4-8kHz0-4kHzXHXL 高频带 ADPCM编码器8000,2bits16 kbps 低频带 ADPCM 编码器8000,6bits48 kbps模式1：声音64kbps；辅助数据 0 模式2：声音56kbps；辅助数据 8 kbps模式3：声音48kbps；辅助数据 16kbpsG.722:64 kbps的声音子带编码二、数字语音的参数编码Slide 23参数编码(源编码)的设计思想分析人的发声器官的结构及语音生成的原理，建立语音生成的物理(数学)

12、模型，编码时：从话音波形信号中提取生成该话音的参数；解码时：根据语音生成模型,使用这些参数合成原始话音。提取语音生成参数语音生成模型（编码器）语音参数数字语音使用参数合成语音语音生成模型（解码器）重建的语音Slide 24语音生成过程（1）空气由肺部呼出，经过声带，送入声道，最后从嘴唇呼出，产生声音。声音信号具有短期相关性(持续时间1 ms左右)声道是一个谐振腔，说话时，声道形状不断变化，引起谐振频率改变，大约10 100 ms改变一次；声道可以看作为具有共振特性的一个滤波器，由于声道形状变化比较慢，因此该滤波器的转移函数(transfer function)只需要每20ms左右时间修改一次。

13、声道声带空气语音Slide 25语音生成过程（2）声道滤波器由肺部空气经过声带而激励，根据激励的模式，语音可分成2类：浊音（时间域）浊音Voiced sounds（声带震动，产生准周期的空气脉冲激励信号，送入声道）清音（时间域）清音Unvoiced sounds（声带不振动，声门始终处于“开”状态，送入声道的空气激励信号是一种无周期性的噪音信号）Slide 26语音生成的声道滤波器模型(1)Slide 27语音生成的声道滤波器模型(2)LPC模型=(a1,a2,a3,a4,a5,a6,a7,a8,a9,a10,G,V/UV,T)脉冲序列发生器随机噪声发生器基音周期T(声带振动)(声带不振动)U

14、V(清音)V(浊音)H(z)声道参数a1 a2 a3 a10.语音(声道滤波器)s(n)增益Gu(n)激励信号Slide 28语音是一个近似的短时(1030ms)平稳随机过程，LPC模型的参数A=(a1,a2,a3,a4,a5,a6,a7,a8,a9,a10,G,V/UV,T)变化比较慢,大约每20ms变化一次；假设语音信号的取样频率为8kHz，将每秒钟分成50帧，每帧 20ms(其中有20 x8=160个样本)，每一帧的所有信号近似地满足同一模型，即每一帧语音可以使用同一组参数来表示:浊音还是清音（1位）浊音的基频T（6位）音源的幅度G（5位）线性滤波器的参数（10个参数，每个参数6位

15、，共60位）语音的参数编码（LPC分析）从已知的数字语音信号中提取参数所以，每秒总码率为：50 x 72 bits=3600 bps=3.6kbpsSlide 29如何确定LPC的系数(1)对声音波形的编码实际就转化为如何提取语音生成模型的参数，经典的方法是线性预测编码LPC。每一个样本都用过去10个样本的线性组合来预测：spre(n)=-a1s(n-1)+a2s(n-2)+a10s(n-10)样本s(n)的预测误差为:e(n)=s(n)-spre(n)=s(n)+a1s(n-1)+a2s(n-2)+a10s(n-10)10个样本s(n-10)s(n-2)s(n-1)s(n)Slide 30问

16、题：对给定的一帧信号s(n)，n=0.159，怎样选择系数ai 使得预测误差e(n)的平方和为最小？即 E=s(n)+a1s(n-1)+a2s(n-2)+a10s(n-10)2 最小为此，上式对a1,a2,a10 分别求偏导数得到一组差分方程 dE/da1=0,s(n)+a1s(n-1)+a2s(n-2)+a10s(n-10)s(n-1)=0 dE/da2 0,s(n)+a1s(n-1)+a2s(n-2)+a10s(n-10)s(n-2)=0 .,dE/da10 0,s(n)+a1s(n-1)+a2s(n-2)+a10s(n-10)s(n-10)=0 如何确定LPC的系数(2)Slide 3

17、1求解系数 ai的线性方程组R(1,1)R(1,2)R(1,3).R(1,10)a1 -R(0,1)R(2,1)R(2,2)R(2,3).R(2,10)a2 -R(0,2)R(3,1)R(3,2)R(3,3).R(3,10)a3 -R(0,3).R(10,1)R(10,2)R(10,3).R(10,10)a10 -R(0,10)=其中 R(i,j)s(n-i)s(n-j),是信号s(n)的自相关性n=0159-kSlide 32如何确定LPC的系数(3)如何确定其他3个参数(V/UV,G,T)浊音/清音的判定比较困难，不正确的分类会大大降低语音质量使用语音信号过零点的数目来判定；i12,140

18、基音周期T的估计是生成高品质、高清晰语音的关键常用方法：SIFT基音检测法，AMDF基音检测法激励信号的增益GSlide 33例1 2.4kb/s LPC语音编码器20ms作为1帧，按帧进行编码LPC系数的比特分配为：34 bit增益G：7 bit浊音/清音及浊音的基音周期T：7 bit码率:48x502.4kb/sSlide 34例 LPC-10编码器(ANSI 1015,2.4kb/s)22.5ms作为1帧，以帧为单位进行编码，LPC系数共10位，采用协方差方法计算，浊音的基音周期T采用平均幅值差分函数(AMDF)计算，共60个值，范围51.3-400Hz，半对数表示，激励信号：浊音采用

19、标准化的存储波形码率：54 x 1000/22.5=2.4 kb/s 参数浊音清音 a1 5 5 a2 5 5 a3 5 5 a4 5 5 a5 4 -a6 4 -a7 4 -a8 4 -a9 3 -a10 2 -V/UV 1 1 T 6 6 G 5 5 同步 1 1 误差保护 -21 总计 54 54Slide 35波形编码与参数编码的比较波形编码参数编码 1 码率高码率低 2 音质好音质差 3 算法简单算法复杂 4 可处理任何声音信号仅处理语音信号参数编码的数据率在2-4 kbps左右，产生的语音虽然可以听懂，但其质量远远低于波形编码。尽管它的音质比较低，但它的保密性能好，

20、因此这种编译码器一直用在军事上.三、数字语音的混合编码Slide 37参数编码的不足参数编码在降低码率方面有很大突破，但语音质量尚不理想；原因是语音生成模型中的激励信号的处理过于简单：不是清音就是浊音；实际上有些是浊音、清音的混合；浊音的激励信号是周期性的，实际上是准周期性的；脉冲序列发生器随机噪声发生器基音周期(声带振动)(声带不振动)音源幅度音源幅度浊音清音线性滤波器声道参数.语音(声道模型)激励信号改进思路：设计更好的激励信号。Slide 38混合编码的原理思路:使用合成-分析法AbS(Analysis-by-Synthesis)来改进参数编码,其中声道滤波器模型仍与LPC编码器中

21、的相同，但不使用两个状态(有声/无声)的模型作为滤波器的输入激励信号，而是增加反馈，调节激励信号u(n),使语音输入信号s(n)与重建的语音信号误差e(n)为最小。误差信号按感知加权误差最小？原始语音s(n)e(n)线性滤波器滤波器参数.合成语音激励信号的生成或选择激励信号u(n)s(n)编码器通过“合成”许多不同的近似值来“分析”输入话音信号，所以称为“合成-分析编码器”。）Slide 39激励信号生成的方法：1.多脉冲线性预测编码MPLPC(multiple pulse LPC)2.等间隔脉冲激励RPE(regular-pulse excited)3.码激励线性预测CELP(cod

22、e excited linear predictive)最佳激励信号u(n)的生成方法Slide 40多脉冲线性预测编码 MPLPC 将原始语音分为20ms长度的帧,对每一帧计算出LPC的系数；假设激励信号由k个脉冲组成，每个脉冲的幅度和位置待定；从第1个脉冲开始，确定其幅度和位置；若1，i-1个脉冲的幅度和位置已经确定，则确定第i个脉冲的幅度与位置；上述过程重复k次，结束。决定第i个脉冲的幅度与位置多脉冲激励发生器LPC合成器感知权重i=1.k原始语音合成语音u(n)重复k次1 2 3 4 5 i i+1 ktSlide 41等间隔脉冲激励LPC编码器 Regular-Pulse Excit

23、ed LPC每一帧使用4组激励信号(即每5 ms有1组激励信号),每一组激励信号使用13个脉冲，间隔时间相同，编码器每5ms计算一次激励信号的参数（第1个激励脉冲的位置和所有其他脉冲的幅度），目标是使40-120个样本范围的预测误差序列的自相关达到最大：56 bit/5ms第一个激励脉冲的位置(相位2bit+量化因子6bit)13个脉冲的幅值(13x3bit)长时预测(LTP)系数(2bit),长时预测延时(7bit)每20ms进行一次短时预测，确定LPC的系数（共36比特）每20ms需4x56+36=260bit,码率0.26x50=13kb/sSlide 42例 GSM(13kbps)语音

24、编码器(Global System for Mobile communications)每5ms产生一组由13个脉冲组成的激励信号序列(56bit)每5ms计算一次，使40-120个样本范围的短时预测误差序列的自相关达到最大LPC滤波器有8个系数，共36bit，每20 ms 计算一次每20ms生成4x56+36=260bit,码率0.26x50=13kb/sSlide 43码激励线性预测编码器 (CELP，Code Excited LPC)CELP算法,1985提出。使用有限数量的激励信号存储在存储器中(称为码本)，以替代多脉冲激励。选用哪一个激励信号由码本的索引项指出，其增益项用来扩展它的功

25、率。在CELP基础上制定的话音编码标准:美国的 ANSI的 4.8 kbps codecITU的“low-delay 16 kbps codec Slide 44演演示（示（1）A lathe is a big tool.Grab every dish of sugar.原始声音（PCM）ADPCMCELPLD-CELPCS-ACELPLPC-10Slide 45演演示（示（2）格式码率1 min=Sample11,025Hz 16bit PCM 176.4kbs 1292k11k16bitpcm.wav8000Hz 16bit PCM 128kbs937.5k8k16bitpcm.wa

26、v11,025Hz 8bit PCM 88.2kbs646k11k8bitpcm.wav11,025Hz u-Law 88.2kbs646k11kulaw.wav8,000Hz 8bit PCM 64kbs468.8k8k8bitpcm.wav8,000Hz u-Law 64kbs468.8k8kulaw.wav*toll quality telephone11,025Hz 4bit ADPCM 44.1kbs323k11kadpcm.wav8000Hz 4bit ADPCM 32kbs234.4k8kadpcm.wav11,025Hz GSM6.10 18kbs131.8k11kgsm.wa

27、v8,000Hz GSM6.10 13kbs102.5k8kgsm.wav*cell phone quality8000Hz Lernout&Hauspie SBC 12.0kbs87.9k8ksbc12.wav8,000Hz DSP Group TrueSpeech 9kbs65.9k8ktruespeech.wav8,000Hz Lernout&Hauspie CELP 4.8kbs35k8kcelp.wav四、小结Slide 47从语音生成模型看语音编码如果有足够的比特精确地描述激励信号，则对声音模型的要求就可以低一些（波形编码器）如果分配给激励信号的比特很少，激励信号描述就很粗糙，那么对模拟语音生成过程的滤波器要求就很高（参数编码器）；采用合适的方法比较准确地描述激励信号和滤波器结构，就能达到编码效率高、声音质量好的效果（混合编码器）。滤波器激励信号语音语音生成(解码)的过程，可以统一地看作是一组激励信号经过滤波器滤波后得到的。滤波器用于模拟语音的生成过程。

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

11.9 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 语音压缩编码

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：语音的压缩编码.ppt
链接地址：https://www.taowenge.com/p-66725238.html