语音编码基础知识教学内容.ppt





《语音编码基础知识教学内容.ppt》由会员分享,可在线阅读,更多相关《语音编码基础知识教学内容.ppt(120页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、语音编码基础知识 编码、传输、存储和译码是语音数字传输和数字编码、传输、存储和译码是语音数字传输和数字存储的必要过程。存储的必要过程。随着语音通信技术的发展,压缩语音信号的传输随着语音通信技术的发展,压缩语音信号的传输带宽,降低信道的传输速率,一直是人们追求的目标。带宽,降低信道的传输速率,一直是人们追求的目标。语音编码在实现这一目标的过程中担当重要的角色。语音编码在实现这一目标的过程中担当重要的角色。语音编码就是使表达语音信号的比特数目最小。语音编码就是使表达语音信号的比特数目最小。一、编码(压缩)的重要性一、编码(压缩)的重要性数字传输系统模型数字传输系统模型信源信源信源编码信源编码信道编
2、码信道编码调制调制传输通道传输通道用户用户信源解码信源解码信道解码信道解码解调解调噪声噪声语音编码应用实例(语音编码应用实例(IPIP电话)电话)接收器接收器模数转换模数转换压缩编码压缩编码IPIP封装封装网网络络IPIP解包解包解码解码数模转换数模转换播放器播放器二、编码速率(信息容量)二、编码速率(信息容量)用比特用比特/秒(秒(b/sb/s或或bpsbps)来度量,用)来度量,用I I表示,有:表示,有:I=R I=R f fs s,R,R代表每个语音采样值编码所需的比代表每个语音采样值编码所需的比特数;特数;f fs s是采样频率。是采样频率。当当f fs s=8kHz=8kHz,每个
3、采样值用,每个采样值用8 8比特位来编码,则比特位来编码,则编码速率为编码速率为64kb/s64kb/s。三、编码的分类三、编码的分类1.1.波形编码波形编码(waveform coding)(waveform coding):基本原理是在时基本原理是在时间轴上对模拟话音信号按照一定的速率来抽样,然间轴上对模拟话音信号按照一定的速率来抽样,然后将幅度样本分层量化,并使用代码来表示。在接后将幅度样本分层量化,并使用代码来表示。在接收端将收到的数字序列经过解码恢复到原模拟信号,收端将收到的数字序列经过解码恢复到原模拟信号,保持原始语音的波形形状。话音质量高,编码速率保持原始语音的波形形状。话音质量
4、高,编码速率高。如高。如PCMPCM编码类(编码类(a a率或率或u u率率PCMPCM、ADPCM ADPCM、ADM)ADM),编码速率为编码速率为646416kb/s16kb/s,语音质量好。,语音质量好。2.2.参数编码(声源编码参数编码(声源编码 parametric coding parametric coding):根据语音信号产生的数学模型,通过对语音信根据语音信号产生的数学模型,通过对语音信号特征参数的提取后进行编码(将特征参数变换成号特征参数的提取后进行编码(将特征参数变换成数字代码进行传输)。在接收端将特征参数,结合数字代码进行传输)。在接收端将特征参数,结合数学模型,恢
5、复语音,力图使重建语音保持尽可能数学模型,恢复语音,力图使重建语音保持尽可能高的可懂度,重建语音信号的波形同原始语音信号高的可懂度,重建语音信号的波形同原始语音信号的波形可能会有相当大的区别。如线性预测的波形可能会有相当大的区别。如线性预测(LPCLPC)编码类。编码速率低,)编码类。编码速率低,2.4-1.2kb/s2.4-1.2kb/s,自然,自然度低,对环境噪声敏感。度低,对环境噪声敏感。3.3.混合编码混合编码(Hybrid coding)(Hybrid coding):将波形编码与参数编码相结合,在将波形编码与参数编码相结合,在2.4-1.2kb/s2.4-1.2kb/s速率上能够得
6、到高质量的合成语音。规则码激励长时速率上能够得到高质量的合成语音。规则码激励长时预测编码预测编码RPELPTRPELPT即为混合编码技术。混合编码包括即为混合编码技术。混合编码包括若干语音特征参量又包括部分波形编码信息,以达到若干语音特征参量又包括部分波形编码信息,以达到波形编码的高质量和参量编码的低速率的优点。波形编码的高质量和参量编码的低速率的优点。四、已经标准化的语音编码四、已经标准化的语音编码 指定组织:国际电信联盟指定组织:国际电信联盟 ITU-T ITU-T,http:/www.itu.inthttp:/www.itu.int 标准标准编码速率编码速率(kb/s)(kb/s)算法算
7、法MOSMOS得得分分 应用应用G.711G.7116464u u律或律或a a律律PCMPCM4.34.3公用网公用网 G.721G.7213232ADPCMADPCM4.14.1公用网公用网G.723.1G.723.15.35.3ACELPACELP3.23.2无线网无线网G.729G.7298 8CS-ACELPCS-ACELP3.83.8无线网无线网GSMGSM1313RPE-LTPRPE-LTP3.93.9无线网无线网(5)RPE-LTP(5)RPE-LTP:长长时时预预测测的的规规则则脉脉冲冲激激励励的的线线性性预预测测Regular-Pulse Regular-Pulse Exc
8、ited Excited LPC LPC with with a a Long-Term Long-Term PredictorPredictor(1)ADPCM(1)ADPCM:自适应差分脉冲编码:自适应差分脉冲编码 adaptive adaptive difference pulse code modulationdifference pulse code modulation (2)CELP(2)CELP:码码本本激激励励线线性性预预测测 (code code excited excited linear predictionlinear prediction)(3)ACELP(3)AC
9、ELP:代代数数码码本本激激励励线线性性预预测测Algebraic-Algebraic-Code-Excited Linear-PredictionCode-Excited Linear-Prediction (4)CS-ACELP(4)CS-ACELP:共共轭轭结结构构的的代代数数码码本本激激励励线线性性预预测测Conjugate Structure Algebraic-Code-Excited Conjugate Structure Algebraic-Code-Excited Linear-PredictionLinear-Prediction语音信号压缩编码的原理及其评价系统语音信号压
10、缩编码的原理及其评价系统一、语音压缩的基本依据一、语音压缩的基本依据二、语音编码的关键技术二、语音编码的关键技术三、语音压缩系统的性能指标和评测方法三、语音压缩系统的性能指标和评测方法一、语音压缩的基本依据一、语音压缩的基本依据 是语音信号的冗余度和人的听觉感知机理。是语音信号的冗余度和人的听觉感知机理。1.1.存在的时域冗余度:存在的时域冗余度:(1 1)幅度非均匀分布)幅度非均匀分布(2 2)语音信号样本间的相关性很强)语音信号样本间的相关性很强(3 3)浊音具有准周期)浊音具有准周期(4 4)声道的形状及其变化缓慢)声道的形状及其变化缓慢(5 5)语音间隙(静止系数)语音间隙(静止系数)
11、2.2.存在的频域冗余度:存在的频域冗余度:(1 1)非均匀的长时功率谱密度)非均匀的长时功率谱密度(2 2)短时功率谱密度)短时功率谱密度女声英文女声英文a的功率谱的功率谱3.3.人的听觉感知机理人的听觉感知机理(1 1)人类的听觉特性具有掩蔽效应)人类的听觉特性具有掩蔽效应(2 2)人耳对不同频段声音的敏感程度不同)人耳对不同频段声音的敏感程度不同(3 3)人耳对语音相位不敏感)人耳对语音相位不敏感4.4.语音编码的极限速率语音编码的极限速率 语音中最基本的元素是音素,大约有语音中最基本的元素是音素,大约有128128256256个,个,如果按通常的说话速度,每秒平均发出如果按通常的说话速
12、度,每秒平均发出1010个音素,则个音素,则信息率为:信息率为:I=log I=log2 2(256)(256)1010bps=80bpsbps=80bps把发音看成是以语音速率来传送,则语音编码的极限把发音看成是以语音速率来传送,则语音编码的极限速率为速率为80bps,80bps,从数字化标准的编码速率从数字化标准的编码速率64kbps64kbps,到极,到极限速率限速率80bps80bps,之间的距离,对于理论研究和实践有,之间的距离,对于理论研究和实践有着极大的吸引力。着极大的吸引力。二、语音编码的关键技术二、语音编码的关键技术语音信号中存在两种类型的相关性:语音信号中存在两种类型的相关
13、性:(1 1)样点间的短时相关性)样点间的短时相关性(2 2)相邻基音周期之间的长时相关性)相邻基音周期之间的长时相关性e(ne(n)x(n)x(n)短时预测滤波器短时预测滤波器1.1.语音信号的短时预测模型语音信号的短时预测模型 D D为基音周期,长时预测系数为基音周期,长时预测系数bbi i 的个数取的个数取1 1(q=r=0q=r=0)或)或3(q=r=1)3(q=r=1)。D D、bbi i 从语音信号中从语音信号中直接提取。语音信号通过长时预测,得出基音周直接提取。语音信号通过长时预测,得出基音周期、增益(振幅大小)。期、增益(振幅大小)。2.2.2.2.语音信号的长时预测语音信号的
14、长时预测语音信号的长时预测语音信号的长时预测 长时长时 线性线性预测预测x(n-p),x(n-p+1),.x(n-1)x(n-p),x(n-p+1),.x(n-1)x x(n)(n)长时预测滤波器长时预测滤波器x(n)x(n)e(n)e(n)激励发生器激励发生器完整的语音信号的预测模型完整的语音信号的预测模型3.3.感觉加权滤波器感觉加权滤波器 由于掩蔽效应,在语音频谱中,能量较高的频段由于掩蔽效应,在语音频谱中,能量较高的频段(共振峰处)的噪声相对于能量较低的频段的噪声不(共振峰处)的噪声相对于能量较低的频段的噪声不易被感觉。在度量原始语音和合成语音之间的误差时,易被感觉。在度量原始语音和合
15、成语音之间的误差时,在高能量段允许误差大,因此引入一个频域的感觉加在高能量段允许误差大,因此引入一个频域的感觉加权滤波器权滤波器W(z)W(z)来衡量语音之间的误差。加权因子来衡量语音之间的误差。加权因子 在在0 01 1之间之间,控制共振峰区域的误差增加控制共振峰区域的误差增加。输入输入语音语音x(n)x(n)线性线性预测预测分析分析感觉感觉加权加权滤波器滤波器后继处理后继处理三、语音压缩系统的性能指标和评测方法三、语音压缩系统的性能指标和评测方法1.1.语音压缩系统的性能指标语音压缩系统的性能指标(1 1)编码速率)编码速率(2 2)编码器的顽健性)编码器的顽健性(3 3)编码器的时延)编
16、码器的时延(4 4)算法的复杂度和可扩展性)算法的复杂度和可扩展性编码延时编码延时 一般地,编解码算法越复杂,延时越大,会明显一般地,编解码算法越复杂,延时越大,会明显感觉到通话对方反映感觉到通话对方反映“迟钝迟钝”,甚至造成正常通信困,甚至造成正常通信困难。难。另外一方面,延时造成回声,传统的电话系统中,另外一方面,延时造成回声,传统的电话系统中,在在2-4 2-4 线的转换处(混合线圈)因阻抗不匹配,导致线的转换处(混合线圈)因阻抗不匹配,导致接收者的收话音信号泄露到其发送路径上,返回给发接收者的收话音信号泄露到其发送路径上,返回给发送者,形成了回声。当延时小时,回声同房间交混,送者,形成
17、了回声。当延时小时,回声同房间交混,因此感觉不到;当延迟超过了因此感觉不到;当延迟超过了25ms25ms,能明显感觉到,能明显感觉到,从而严重影响通信。从而严重影响通信。一般地,要求编解码延时不超过一般地,要求编解码延时不超过5 510ms10ms。A A端的信号端的信号B B端经混端经混合线圈的回传信号合线圈的回传信号B B端的信号端的信号A A端经混端经混合线圈的回传信号合线圈的回传信号A A端端B B端端2.2.语音压缩系统的性能指标和评测方法语音压缩系统的性能指标和评测方法 语音质量是衡量语音编码算法优劣的关键性能之语音质量是衡量语音编码算法优劣的关键性能之一。语音质量通常分为四类:一
18、。语音质量通常分为四类:(1)广播级)广播级(2)网络或电话级)网络或电话级(3)通信级)通信级(4)合成级)合成级 语音质量语音质量有主观和客观两种评价方法。有主观和客观两种评价方法。评价指标:清晰度或可懂度、音质。前者是指语音评价指标:清晰度或可懂度、音质。前者是指语音是否容易听清楚;后者指语音听起来有多自然。是否容易听清楚;后者指语音听起来有多自然。(1 1)可懂度评价)可懂度评价 DRT DRT:Diagnostic Rhymer Test Diagnostic Rhymer Test (2 2)音质评价:)音质评价:MOS MOS:Mean Opinion Score Mean Op
19、inion Score 平均意平均意见得分和见得分和DAMDAM:Diagnostic Acceptability Measure Diagnostic Acceptability Measure 判断满意度得分。判断满意度得分。主观评价方法主观评价方法 MOSMOS得分为五级得分为五级:优、良、可、差和坏。满优、良、可、差和坏。满分为分为5 5分,相当调频广播质量;分,相当调频广播质量;4 4分以上是长途分以上是长途电话网标准;电话网标准;3.53.5分为通信标准;分为通信标准;3.0 3.0分仍有分仍有较好的可懂度,保持自然度;较好的可懂度,保持自然度;2.52.5分只维持可分只维持可懂度
20、,懂度,是战术通信标准。是战术通信标准。(1 1)波形失真度,用信噪比来度量)波形失真度,用信噪比来度量(2 2)频谱失真测量)频谱失真测量(3 3)谱包络失真测量)谱包络失真测量客观评价方法客观评价方法语音信号的波形编码语音信号的波形编码一一、非均匀量化的、非均匀量化的PCMPCM编码编码二、增量调制编码二、增量调制编码三、自适应增量调制编码三、自适应增量调制编码四、自适应差分脉冲编码四、自适应差分脉冲编码ADPCMADPCM五、自适应预测器五、自适应预测器六、自适应量化器六、自适应量化器七、七、ADPCMADPCM的总结的总结 均匀量化时,无论大的输入信号还是小的输入均匀量化时,无论大的输
21、入信号还是小的输入信号一律采用相同的量化间隔,为了适应大的输入信号一律采用相同的量化间隔,为了适应大的输入信号,同时又要满足精度要求,就需要增加样本的信号,同时又要满足精度要求,就需要增加样本的位数位数。=2V/L=2V/2=2V/L=2V/2R R,但是对话音信号来说,大但是对话音信号来说,大信号出现的机会并不多,增加的样本数就没有充分信号出现的机会并不多,增加的样本数就没有充分利用。因此采用非均匀量化。利用。因此采用非均匀量化。一、非均匀量化的一、非均匀量化的PCMPCM编码编码 其基本思想是:大的输入信号采用大的量化其基本思想是:大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔
22、。在满足精间隔,小的输入信号采用小的量化间隔。在满足精度要求的情况下用较少的位数来表示。译码时,采度要求的情况下用较少的位数来表示。译码时,采用相同的规则。也可视为将信号进行非线性变换后用相同的规则。也可视为将信号进行非线性变换后再作均匀量化,如对信号进行对数压缩,再作均匀量化,如对信号进行对数压缩,微弱的信微弱的信号被放大,强的信号被压缩。号被放大,强的信号被压缩。译码时,指数扩张。译码时,指数扩张。非线性非线性压缩压缩均匀均匀量化量化编码编码x xa a(nT)(nT)解码解码非线性非线性扩张扩张x x(nT)(nT)现在的非均匀量化中,一般采用两种压缩扩张非现在的非均匀量化中,一般采用两
23、种压缩扩张非均匀量化方法。采样后信号幅度和量化数据之间有两均匀量化方法。采样后信号幅度和量化数据之间有两种对应关系,一种称为种对应关系,一种称为u u 律压扩(律压扩(compandingcompanding)算法,)算法,另一种称为另一种称为A A 律压扩算法。律压扩算法。u u 律压扩主要用于北美律压扩主要用于北美和日本等地区的电话通信中。和日本等地区的电话通信中。A A 律压扩主要用在欧律压扩主要用在欧洲和中国的地区的电话通信中。洲和中国的地区的电话通信中。u u 律压扩律压扩(1 1)输入)输入x xa a(nT)(nT)的范围归一化为(的范围归一化为(1 11 1);(2 2)输出)
24、输出F FA A(x(n)(x(n)的范围为(的范围为(1 11 1););(3 3)A A为压扩参数,它反映最大量化间隔和最小量化为压扩参数,它反映最大量化间隔和最小量化间隔的比值。间隔的比值。A=87.56A=87.56A A 律压扩律压扩 我国的我国的PCM30/32PCM30/32路基群也采用路基群也采用A A律律1313折线压折线压缩特性。缩特性。律律1515折线主要用于美国、加拿大和日折线主要用于美国、加拿大和日本等国的本等国的PCM 24PCM 24路基群中。路基群中。CCITT CCITT建议建议G.711G.711规定上述两种折线近似压缩规定上述两种折线近似压缩律为国际标准,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 编码 基础知识 教学内容

限制150内