5第五章_语音编码.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《5第五章_语音编码.ppt》由会员分享,可在线阅读,更多相关《5第五章_语音编码.ppt(55页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 第五章语音编码第五章语音编码 5.15.1概述概述5.25.2语音信号压缩编码的评价系统语音信号压缩编码的评价系统5.35.3语音信号的波形编码语音信号的波形编码5.45.4语音信号的参数编码语音信号的参数编码1 编码、传输、存储和译码是语音数字传输和数字编码、传输、存储和译码是语音数字传输和数字存储的必要过程。存储的必要过程。随着语音通信技术的发展,压缩语音信号的传输随着语音通信技术的发展,压缩语音信号的传输带宽,降低信道的传输速率,一直是人们追求的目标。带宽,降低信道的传输速率,一直是人们追求的目标。语音编码在实现这一目标的过程中担当重要的角色。语音编码在实现这一目标的过程中担当重要的角
2、色。语音编码就是使表达语音信号的比特数目最小。语音编码就是使表达语音信号的比特数目最小。一、编码(压缩)的重要性一、编码(压缩)的重要性5.1概述概述 第五章语音编码第五章语音编码 2二、编码速率(信息容量)二、编码速率(信息容量)用比特用比特/秒(秒(b/sb/s或或bpsbps)来度量,用来度量,用I I表示,表示,I=R I=R f fs s ,R,R代表每个语音采样值编码所需的比代表每个语音采样值编码所需的比特数;特数;f fs s是采样频率。是采样频率。当当f fs s=8kHz=8kHz,每个采样值用每个采样值用8 8比特位来编码,则比特位来编码,则编码速率为编码速率为64kb/s
3、64kb/s。5.1概述概述3二、编码速率(信息容量)二、编码速率(信息容量)用比特用比特/秒(秒(b/sb/s或或bpsbps)来度量,用来度量,用I I表示,表示,I=R I=R f fs s ,R,R代表每个语音采样值编码所需的比代表每个语音采样值编码所需的比特数;特数;f fs s是采样频率。是采样频率。当当f fs s=8kHz=8kHz,每个采样值用每个采样值用8 8比特位来编码,则比特位来编码,则编码速率为编码速率为64kb/s64kb/s。5.1概述概述4三、编码的分类三、编码的分类1.1.波形编码波形编码(waveform coding)(waveform coding):基
4、本原理是在时基本原理是在时间轴上对模拟话音信号按照一定的速率来抽样,然间轴上对模拟话音信号按照一定的速率来抽样,然后将幅度样本分层量化,并使用代码来表示。在接后将幅度样本分层量化,并使用代码来表示。在接收端将收到的数字序列经过解码恢复到原模拟信号,收端将收到的数字序列经过解码恢复到原模拟信号,保持原始语音的波形形状。话音质量高,编码速率保持原始语音的波形形状。话音质量高,编码速率高。如高。如PCMPCM编码类(编码类(a a率或率或u u率率PCMPCM、ADPCM ADPCM、ADM)ADM),编码速率为编码速率为646416kb/s16kb/s,语音质量好。语音质量好。5.1概述概述52.
5、2.参数编码(声源编码参数编码(声源编码 parametric parametric codingcoding):根据语音信号产生的数学模型,通过对语音信号特根据语音信号产生的数学模型,通过对语音信号特征参数的提取后进行编码(将特征参数变换成数字征参数的提取后进行编码(将特征参数变换成数字代码进行传输)。在接收端将特征参数,结合数学代码进行传输)。在接收端将特征参数,结合数学模型,恢复语音,力图使重建语音保持尽可能高的模型,恢复语音,力图使重建语音保持尽可能高的可懂度,重建语音信号的波形同原始语音信号的波可懂度,重建语音信号的波形同原始语音信号的波形可能会有相当大的区别。如线性预测(形可能会有
6、相当大的区别。如线性预测(LPCLPC)编编码类。编码速率低,码类。编码速率低,2.4-1.2kb/s2.4-1.2kb/s,自然度低,对自然度低,对环境噪声敏感。环境噪声敏感。三、编码的分类三、编码的分类63.3.混合编码混合编码(Hybrid coding)(Hybrid coding):将波形编码与参数编码相结合,在将波形编码与参数编码相结合,在2.4-1.2kb/s2.4-1.2kb/s速率上能够得到高质量的合成语音。混合编码包括若速率上能够得到高质量的合成语音。混合编码包括若干语音特征参量又包括部分波形编码信息,以达到波干语音特征参量又包括部分波形编码信息,以达到波形编码的高质量和参
7、量编码的低速率的优点。形编码的高质量和参量编码的低速率的优点。三、编码的分类三、编码的分类74.4.语音编码的极限速率语音编码的极限速率 语音中最基本的元素是音素,大约有语音中最基本的元素是音素,大约有128128256256个,个,如果按通常的说话速度,每秒平均发出如果按通常的说话速度,每秒平均发出1010个音素,则个音素,则信息率为:信息率为:I=logI=log2 2(256)(256)1010bps=80bpsbps=80bps把发音看成是以语音速率来传送,则语音编码的极限把发音看成是以语音速率来传送,则语音编码的极限速率为速率为80bps,80bps,从数字化标准的编码速率从数字化标
8、准的编码速率64kbps64kbps,到极到极限速率限速率80bps80bps,之间的距离,对于理论研究和实践有之间的距离,对于理论研究和实践有着极大的吸引力。着极大的吸引力。8 语音质量是衡量语音编码算法优劣的关键性能之语音质量是衡量语音编码算法优劣的关键性能之一。语音质量通常分为四类:一。语音质量通常分为四类:(1)广播级)广播级:宽带宽带(0-7000Hz0-7000Hz)高质量的语音,感觉不高质量的语音,感觉不出噪声存在出噪声存在(2)网络或电话级:)网络或电话级:200Hz-3200Hz,200Hz-3200Hz,信噪比大于信噪比大于30db。(3)通信级)通信级:完全可以听懂,但和
9、长途电话相比,有完全可以听懂,但和长途电话相比,有明显失真。明显失真。(4)合成级:)合成级:80%-90%可懂度,音质较差,听起来可懂度,音质较差,听起来像机器讲话,失去了讲话者的个人特征。像机器讲话,失去了讲话者的个人特征。5.2语音信号压缩编码的评价系统语音信号压缩编码的评价系统9 评价指标:清晰度或可懂度、音质。前者是指语音评价指标:清晰度或可懂度、音质。前者是指语音是否容易听清楚;后者指语音听起来有多自然。是否容易听清楚;后者指语音听起来有多自然。(1 1)可懂度评价)可懂度评价 DRTDRT:Diagnostic Diagnostic RhymerRhymer Test Test
10、(2 2)音质评价:音质评价:MOSMOS:Mean Opinion Score Mean Opinion Score 平均意见得分平均意见得分 DAMDAM:Diagnostic Acceptability Measure Diagnostic Acceptability Measure 判断满判断满意度得分。意度得分。1.1.主观评价方法主观评价方法语音质量有主观和客观两种评价方法语音质量有主观和客观两种评价方法5.2语音信号压缩编码的评价系统语音信号压缩编码的评价系统10 MOSMOS得分为五级得分为五级:优、良、可、差和坏。满优、良、可、差和坏。满分为分为5 5分,相当调频广播质量;分
11、,相当调频广播质量;4 4分以上是长途分以上是长途电话网标准;电话网标准;3.53.5分为通信标准;分为通信标准;3.03.0分仍有分仍有较好的可懂度,保持自然度;较好的可懂度,保持自然度;2.52.5分只维持可分只维持可懂度,懂度,是战术通信标准。是战术通信标准。11(1 1)波形失真度,用信噪比来度量)波形失真度,用信噪比来度量(2 2)频谱失真测量)频谱失真测量(3 3)谱包络失真测量)谱包络失真测量2.2.客观评价方法客观评价方法12 均匀量化时,无论大的输入信号还是小的输入均匀量化时,无论大的输入信号还是小的输入信号一律采用相同的量化间隔,为了适应大的输入信号一律采用相同的量化间隔,
12、为了适应大的输入信号,同时又要满足精度要求,就需要增加样本的信号,同时又要满足精度要求,就需要增加样本的位数位数。=2V/L=2V/2=2V/L=2V/2R R,但是对话音信号来说,大但是对话音信号来说,大信号出现的机会并不多,增加的样本数就没有充分信号出现的机会并不多,增加的样本数就没有充分利用。因此采用非均匀量化。利用。因此采用非均匀量化。一、非均匀量化的一、非均匀量化的PCMPCM编码编码5.35.3语音信号的波形编码语音信号的波形编码13 其基本思想是:大的输入信号采用大的量化其基本思想是:大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔。在满足精间隔,小的输入信号采用小的量
13、化间隔。在满足精度要求的情况下用较少的位数来表示。译码时,采度要求的情况下用较少的位数来表示。译码时,采用相同的规则。也可视为将信号进行非线性变换后用相同的规则。也可视为将信号进行非线性变换后再作均匀量化,如对信号进行对数压缩,再作均匀量化,如对信号进行对数压缩,微弱的信微弱的信号被放大,强的信号被压缩。号被放大,强的信号被压缩。译码时,指数扩张。译码时,指数扩张。非线性非线性压缩压缩均匀均匀量化量化编码编码x xa a(nT(nT)解码解码非线性非线性扩张扩张x x(nT(nT)14 现在的非均匀量化中,一般采用两种压缩扩张非现在的非均匀量化中,一般采用两种压缩扩张非均匀量化方法。采样后信号
14、幅度和量化数据之间有两均匀量化方法。采样后信号幅度和量化数据之间有两种对应关系,一种称为种对应关系,一种称为u u 律压扩(律压扩(compandingcompanding)算法,算法,另一种称为另一种称为A A 律压扩算法。律压扩算法。u u 律压扩主要用于北美律压扩主要用于北美和日本等地区的电话通信中。和日本等地区的电话通信中。A A 律压扩主要用在欧律压扩主要用在欧洲和中国的地区的电话通信中。洲和中国的地区的电话通信中。u u 律压扩律压扩15(1 1)输入)输入x xa a(nT(nT)的范围归一化为(的范围归一化为(1 11 1);(2 2)输出)输出F FA A(x(n)(x(n)
15、的范围为(的范围为(1 11 1););(3 3)A A为压扩参数,它反映最大量化间隔和最小量化为压扩参数,它反映最大量化间隔和最小量化间隔的比值。间隔的比值。A=87.56A=87.56A A 律压扩律压扩16 我国的我国的PCM30/32PCM30/32路基群也采用路基群也采用A A律律1313折线压折线压缩特性。缩特性。律律1515折线主要用于美国、加拿大和日折线主要用于美国、加拿大和日本等国的本等国的PCM 24PCM 24路基群中。路基群中。CCITTCCITT建议建议G.711G.711规定上述两种折线近似压缩规定上述两种折线近似压缩律为国际标准,且在国际间数字系统相互连接时,律为
16、国际标准,且在国际间数字系统相互连接时,要以要以A A律为标准。律为标准。因此这里重点介绍因此这里重点介绍A A律律1313折线。折线。17 F F F FA A A A(x)(x)(x)(x)011161 81321 41 2164112817/86/85/84/83/82/81/8x xa a(nT(nT)18A A律压扩编码律压扩编码采用采用8位二进制编码:位二进制编码:C7C6C5C4C3C2C1C0C7:表示信号的极性,称为极性码。表示信号的极性,称为极性码。0为正为正,1为负。为负。C3C2C1C0:表示表示每一段落每一段落的的16个均匀划分的量化个均匀划分的量化级,称为段内码。级
17、,称为段内码。0000 0001 0010 0011 0100 0101 0110 0111 1000 1001 1010 1011 1100 1101 1110 1111C6C5C4:表示段落序号,称为段落码。表示段落序号,称为段落码。000 001 010 011 100 101 110 11119对输入动态范围为(对输入动态范围为(-5v,+5v-5v,+5v),),用用A A律压扩编码,有:律压扩编码,有:1/128 0.0390625v76543210 1 5v1/2 2.5v1/4 1.25v1/8 0.625v1/16 0.3125v1/32 0.15625v1/64 0.078
18、125v0 0v输入信号为输入信号为1.05v1.05v,则编码为:则编码为:极性码:极性码:0 0 段落码:段落码:101101段内码:段内码:=(1.25-0.625)/16=(1.25-0.625)/16 =0.0390625 =0.0390625(1.05-0.625)/(1.05-0.625)/=10.88=10.88取整数取整数1010,对应第,对应第1010量化间隔,量化间隔,编码为编码为10101010最后完整的码字为:最后完整的码字为:010110100101101020 I=8kHz*8bit=64kbit/sI=8kHz*8bit=64kbit/s 实际中,麦克风采集信号
19、,量化为实际中,麦克风采集信号,量化为12/13/14/15/1612/13/14/15/16位的输入信号,使用位的输入信号,使用A A律压扩编码,律压扩编码,每个样本的量化位为每个样本的量化位为8 8。A A律压扩编码的速率:律压扩编码的速率:21对输入信号范围(对输入信号范围(-1,1-1,1):):A A律压扩编码的最小量阶为律压扩编码的最小量阶为 minmin=(1/128)/16=1/2048;=(1/128)/16=1/2048;在同样的输入信号范围,均匀量化的线性在同样的输入信号范围,均匀量化的线性PCMPCM以以A A律压扩编码的最小量阶为量阶进行量化,得到律压扩编码的最小量阶
20、为量阶进行量化,得到线性线性PCMPCM需要需要1212比特编码;比特编码;=2V/L=2V/2=2V/L=2V/2R R2/22/2R R=1/2048=1/2048 2 2R R2*2048 R=122*2048 R=12 A A律压扩编码则只需要律压扩编码则只需要8 8个比特位。个比特位。A A律压扩编码与线性律压扩编码与线性PCMPCM编码的对比编码的对比22二、增量调制编码二、增量调制编码 1.1.增量调制的定义:增量调制的定义:增量调制(增量调制(DMDM)也称为也称为 调制,是对输入样本调制,是对输入样本s(k)s(k)和和预测样本值预测样本值s se e(k)(k)的差值的差值
21、d(k)d(k)量化的最简单的一种情况,量化的最简单的一种情况,只有两种编码输出:只有两种编码输出:0 0或或1 1。一般情况下,如果差值大于。一般情况下,如果差值大于0 0,则编码为,则编码为“0”0”,若差值小于,若差值小于0 0,则编码为,则编码为“1”1”。由于增量编码只须用由于增量编码只须用1 1位对语音信号进行编码,所以位对语音信号进行编码,所以对增量调制编码系统称为对增量调制编码系统称为“1 1位系统位系统”。对于译码:每收到一个对于译码:每收到一个1 1码,则译码器的输出相对于码,则译码器的输出相对于前一个时刻的值上升一个量阶,每收到一个前一个时刻的值上升一个量阶,每收到一个0
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第五 语音 编码
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内