第4章 限失真信源编码PPT讲稿.ppt
第第4章章 限失真信源编限失真信源编码码第1页,共149页,编辑于2022年,星期一4.1 连续信源的熵和互信息连续信源的熵和互信息 前面研究的信源都是取值为有限或可数的离散信源,这些信源输出的消息属于时间离散、取值有限或可数的随机序列,其统计特性可以用联合概率分布来描述。而实际某些信源的输出常常是时间和取值都连续的消息。例如,语音信号、电视信号等都是时间的连续波形,而且,在某一固定时刻,它们的可能取值也是连续的,这样的信源称为随机波形信源。第2页,共149页,编辑于2022年,星期一随机波形信源输出的消息是随机的,因此,可用随机过程来描述。用随机过程描述其输出消息的信源称为随机波形信源。若信源输出用平稳连续型随机序列来描述,则此信源称为连续平稳信源。连续平稳信源也可分为连续平稳无记忆信源和连续平稳有记忆信源。平稳连续型随机序列中每个自由度上的变量是连续随机变量。用连续随机变量描述其输出消息的信源称为连续信源。下面讨论它们的信息测度。第3页,共149页,编辑于2022年,星期一连续信源基本的数学模型为其中 R是全实数集,是连续变量X的取值范围,p(x)为x的概率密度。定义连续信源的熵(差熵)为(41)第4页,共149页,编辑于2022年,星期一式(41)定义的连续信源的熵并不是实际信源输出的绝对熵,连续信源的绝对熵应该再加上一项无限大的常数项。因为连续信源的可能取值有无限多个,若其取值是等概率分布的,那么,信源不确定性为无限大。当确知输出为某值后,所获得的信息量也将为无限大。可见,h(X)已不能代表信源的平均不确定性大小,也不能代表连续信源输出的信息量。第5页,共149页,编辑于2022年,星期一同理,可定义两个连续变量X,Y的联合熵和条件熵:(42)(43)(44)第6页,共149页,编辑于2022年,星期一这样定义的差熵具有可加性、凸状性和极值性,不存在非负性和变换不变性等。设基本连续信道如图41所示。其输入和输出都是 单 个 连 续 型 随 机 变 量 的 信 道。可 用 模 型X,p(y|x),Y来描述单符号连续信道。X是输入连续型随机变量,X取值区间为a,b或实数域 R;Y是信道输出连续型随机变量,取值区间为a,b或实数域 R;信道的传递概率密度函数为p(y|x),并满足:(45)第7页,共149页,编辑于2022年,星期一信道输入X满足:(46)(47)信宿接收Y满足:第8页,共149页,编辑于2022年,星期一定义X和Y之间的平均互信息量为(48)(49)(410)第9页,共149页,编辑于2022年,星期一连续信道的平均互信息量和离散信道下平均互信息量的关系式完全类似,且保留了离散信道平均互信息量的所有含义和性质。可见,将差熵定义为连续信源的熵是有重要实际意义的。单符号连续信道的信息传输率:RI(X;Y),比特/自由度(411)多维连续信道平均互信息等相关内容可参见有关文献。第10页,共149页,编辑于2022年,星期一4.2 信息率失真理论信息率失真理论 4.2.1失真函数由于只涉及信源编码问题,所以可以将信道编码和译码看成是信道的一部分。这样信宿收到消息的失真(或误差)只是由信源编码带来的。从直观感觉可知,若允许失真越大,信息传输率可越小;若允许失真越小,信息传输率需越大。所以信息传输率与信源编码所引起的失真(或误差)是有关的。第11页,共149页,编辑于2022年,星期一为了定量地描述信息传输率和失真的关系,可以略去广义的无扰信道,所谓广义无扰信道,是指把信道编码、信道、信道译码这三部分看成一个没有任何干扰的广义信道。另一方面用虚拟手法拿信道来表示失真信源编码的作用,把信源编码和信源译码等价成一个信道,由于是失真编码,所以信道不是一一对应的,用信道传递概率描述编、译码前后关系,这样通信系统可简化为如图42所示。第12页,共149页,编辑于2022年,星期一图42第13页,共149页,编辑于2022年,星期一设离散无记忆信源:信源符号通过信道传输到接收端,则接收端接收变量为第14页,共149页,编辑于2022年,星期一对应于一对(u,v),定义一个非负函数:d(ui,vj)0,i 1,2,n;j 1,2,m (412)称此函数为失真函数(或称单个符号失真度)。它用来测度信源发出一个符号ui,而接收端收到一个符号vj时所引起的误差或失真。第15页,共149页,编辑于2022年,星期一由于信源U有n个符号,而接收变量V有m个符号,所以d(ui,vj)就有nm个,这nm个非负的函数可以排成矩阵形式,即:(413)称它为失真矩阵D,它是nm阶矩阵。第16页,共149页,编辑于2022年,星期一失真函数可有多种形式,但应尽可能符合信宿的主观特性,即主观上的失真感觉应与d(ui,vj)的值相对应。D越大,所感觉到的失真也越大,而且最好成正比。当uivj时,d应等于零,表示没有失真,当uivj时,d为正值。常用失真函数有:均方失真:绝对失真:相对失真:(414)(415)(416)第17页,共149页,编辑于2022年,星期一误码失真:(417)式中:x信源输出消息;y信宿收到消息。第18页,共149页,编辑于2022年,星期一均方失真和绝对失真只与(xy)有关,而不是分别与x及y有关,在数学处理上比较方便;相对失真与主观特性比较匹配,因为主观感觉往往与客观量的对数成正比,但其数学处理困难得多。其实选择一个与主观特性完全匹配的失真函数已非常困难了,更不用说还要便于数学处理了。前三种失真函数适用于连续信源,最后一种失真函数适用于离散信源。误码失真函数表明,当接收符号与发送符号相同时,就不存在失真和错误,即失真度为零;当接收符号与发送符号不同时,就存在失真。第19页,共149页,编辑于2022年,星期一而且认为只要发送符号与接收符号不同,由此引起的失真都相同,即失真度为常数。如果常数值为1,则称为汉明失真。离散对称信源的汉明失真矩阵 D为一方阵,且对角线上的元素为零:(418)第20页,共149页,编辑于2022年,星期一【例41】二元对称信源,信源U0,1,接收变量V0,1,在汉明失真定义下,失真函数为:d(0,0)d(1,1)0,d(0,1)d(1,0)1它表示当信源发送符号0(或符号1)而信宿接收到符号0(或符号1)时,则认为无失真或无错误存在;反之,若发送信源符号0(或符号1)而信宿接收符号1(或符号0)时,则认为有错误,并认为这两种错误的后果是等同的。其失真矩阵为第21页,共149页,编辑于2022年,星期一【例42】设信源U0,1,接收变量V0,1,2,定义失真函数为d(0,0)d(1,1)0,d(0,1)d(1,0)1,d(0,2)d(1,2)0.5,则失真矩阵 D为第22页,共149页,编辑于2022年,星期一【例43】信源U0,1,2,接收变量V0,1,2,失真函数为d(ui,vj)(uivj)2,求失真矩阵。由失真定义得:d(0,0)d(1,1)d(2,2)0 d(0,1)d(1,0)d(1,2)d(2,1)1 d(0,2)d(2,0)4所以失真矩阵 D为第23页,共149页,编辑于2022年,星期一4.2.2平均失真因为信源U和信宿接收量V都是随机变量,因此单个符号失真度d(ui,vj)也是随机变量。定义传输一个符号引起的失真为平均失真,即信源平均失真:(419)式中:ui信源输出符号,i1,2,n;p(ui)信源输出符号ui的概率;vj信宿接收符号,j1,2,,m;p(vj|ui)广义无扰信道传递概率。第24页,共149页,编辑于2022年,星期一单个符号的失真度d(ui,vj)描述了某个信源符号通过传输后失真的大小。对于不同的信源符号和不同的接收符号,其值是不同的。但平均失真度已对信源和信道进行了统计平均,所以此值是描述某一信源在某一广义无扰信道(或称为试验信道)传输下的失真大小,是从总体上描述整个系统失真情况的。从单个符号失真度出发,可以定义长度为K的信源序列的失真函数和平均失真度。信源序列失真度(失真函数):(420)第25页,共149页,编辑于2022年,星期一式中:S信源的一个输出序列;Y信宿的一个接收序列;sl信源输出序列中的一个符号;yl信宿接收序列中的一个符号。第26页,共149页,编辑于2022年,星期一式(420)表明,信源序列的失真度等于序列中对应单个信源符号失真度之和。N维信源符号序列的平均失真度:(421)则单个信源符号平均失真度:(422)第27页,共149页,编辑于2022年,星期一当信源与信道都是无记忆时,N维信源序列平均失真度为(423)式中:信源序列中第l个分量平均失真度。此时单个信源符号平均失真度:(424)第28页,共149页,编辑于2022年,星期一若平均失真度不大于所允许的失真D,即:(425)称式(425)为保真度准则。N维信源序列的保真度准则是:平均失真度不大于允许失真ND,即:(426)第29页,共149页,编辑于2022年,星期一 1.离散信源的信息率失真函数在信源给定,又定义了失真函数以后,总希望在满足一定失真的情况下,使信源传输给信宿的信息传输率R尽可能地小。或者说,在满足保真度准则下,寻找信源必须传输给信宿的信息率R的下限值,这个下限值与D有关。从接收端来看,就是在满足保真度准则下,寻找再现信源消息所必须获得的最低平均信息量。而接收端获得的平均信息量可用平均互信息量I(U;V)来表示,这就变成了在满足保真度准则的条件下,第30页,共149页,编辑于2022年,星期一寻找平均互信息量I(U;V)的最小值。BD是所有满足保真度准则的试验信道集合,可以在D失真许可的试验信道集合BD中寻找某一个信道p(vj|ui),使I(U;V)取最小值。由于平均互信息量I(u;v)是p(vj|ui)的U型凸函数,所以在BD集合中,极小值存在。这个最小值就是在条件下,信源必须传输的最小平均信息量。即(427)式中:BD所有满足保真度准则的试验信道的集合。第31页,共149页,编辑于2022年,星期一称R(D)为信息率失真函数(或率失真函数),其单位为奈特/信源符号或比特/信源符号。N维信源符号序列的信息率失真函数RN(D):(428)式中:x信源的一个输出序列;y信宿的一个接收序列;N维信源符号序列的平均失真度。第32页,共149页,编辑于2022年,星期一 2.连续信源的信息率失真函数定义连续信源平均失真度为(429)式中:d(u,v)连续信源失真函数;p(u)连续信源u的概率密度;p(v|u)信道传递概率密度。第33页,共149页,编辑于2022年,星期一根据连续信源平均失真度的定义,可求得平均互信息I(U;V)h(V)h(V|U),则连续信源的信息率失真函数:(430)式中:BD满足D的所有广义无扰信道集合;inf指下确界。第34页,共149页,编辑于2022年,星期一 3.保真度准则下的信源编码定理 定理41(限失真信源编码定理)设R(D)为离散无记忆信源X的信息率失真函数,R为信宿传输率,则当信息率RR(D),只要信源序列长度L足够长,一定存在一种编码方法,其译码失真小于或等于D,为任意小的正数;反之,若R0,每一个信源符号的平均码长满足如下公式:(431)第35页,共149页,编辑于2022年,星期一该定理指出,在失真限度内使信息率任意接近R(D)的编码方法存在,然而,若信息率小于R(D),平均失真一定会超过失真限度D。对于连续平稳无记忆信源,虽然无法进行无失真编码,但在限失真情况下,有与该定理一样的编码定理。该定理说明最佳编码是存在的,但对于如何进行编码却一无所知,因而就不能像无损编码那样从证明过程中引出概率匹配的编码方法,一般只能从优化的思路去求最佳编码。第36页,共149页,编辑于2022年,星期一这个定理证明了允许失真D确定后,总存在一种编码方法,使信息传输率R大于R(D)且可任意接近R(D),而平均失真小于允许失真D。反之,若RR(D),那么该编码的平均失真将大于D。如果用二进制符号进行编码的话,在允许一定失真D的情况下,平均每个信源符号所需的二元码符号的下限值就是R(D)。由此可见,信息率失真函数R(D)确实是在允许失真度为D的情况下信源信息压缩的下限值。当信源给定后,无失真信源压缩的极限值是信源熵H(U);有失真信源压缩的极限值是信息率失真函数H(D)。第37页,共149页,编辑于2022年,星期一在给定某D后,一般R(D)H(U)。同样,该定理只是一个存在定理。至于如何寻找最佳压缩编码方法,定理中并没有给出。在实际应用中,该定理主要存在以下两大类问题。第一类问题是,符合实际信源的R(D)函数的计算相当困难。首先,需要对实际信源的统计特性有确切的数学描述。其次,需要对符合主客观实际的失真给予正确的度量,否则不能求得符合主客观实际的R(D)函数。第38页,共149页,编辑于2022年,星期一例如,通常采用均方误差来表示信源的平均失真度。但对于图像信源来说,均方误差较小的编码方法,人们视觉感到失真较大。所以,人们仍采用主观观察来评价编码方法的好坏。因此,如何定义符合主客观实际情况的失真测度就是件较困难的事。第三,即便对实际信源有了确切的数学描述,又有符合主客观实际情况的失真测度,而信息率失真函数R(D)的计算还是比较困难的。第39页,共149页,编辑于2022年,星期一第二类问题是,即便求得了符合实际的信息率失真函数,还需研究采用何种实用的最佳编码方法才能达到R(D)。目前,这两方面工作都有进展。尤其是对实际信源的各种压缩方法,如对语音信号、电视信号和遥感图像等信源的各种压缩方法有了较大进展。相信随着数据压缩技术的发展,限失真编码理论中存在的问题将会得到解决。第40页,共149页,编辑于2022年,星期一4.3 标量量化编码标量量化编码 连续信源限失真编码的主要方法是量化,就是把连续的样值离散化为某些量化级数,所以量化也可称为数字化。量化后的信号也可称为数字信号,这种转换必将引入失真,量化时必须使这些失真最小。常用的量化方法有标量量化和矢量量化两种,所谓标量量化是指每次只量化一个模拟样本值,故又叫做零记忆量化。第41页,共149页,编辑于2022年,星期一4.3.1均匀量化标量量化中最简单的方法是均匀量化,也叫做线性量化。设量化器输入为x,对应实数值域空间为R,量化器输出为y,对应的实数值域空间为Rc,x和y的关系为yQ(x)(432)第42页,共149页,编辑于2022年,星期一设Rc对应取值范围a0,an,a0可为负无限。an可为正无限。所谓均匀量化就是将区间a0,an分割为n个相等距离且互不重叠的子区间ai,ai1,取每个小区间的中点值作为量化值yi,即aixai1时,yi(ai1ai)/2,若x的概率分布函数为p(x),则:均匀量化的量化误差:(433)(434)第43页,共149页,编辑于2022年,星期一量化器均方误差:量化器输入方差:(435)(436)量化器的信噪比SNR(SignalNoiseRate):量化器的工作区域有三个。第44页,共149页,编辑于2022年,星期一 1.正常量化区当输入xa0,an时,量化器能得到正常的量化输出。2.限幅区当xan时,量化器分别输出常量a0/2和an/2。量化器此时处于限幅或过载工作状态,将会产生较大的失真。第45页,共149页,编辑于2022年,星期一 3.空载区当/2xai/2时,将有两种情况:(1)当输入xai时,由于某种因素,使得x稍高于ai,则量化器输出上一级量化值yi1;当输入x稍低于ai时;则输出下一级量化值yi1,这时的误差为,量化器输出在两个量化级间往返跳动,形成一个矩形波输出,结果将产生点状噪声。(2)输入x在ai之上或之下,量化输出分别为恒定值yiai/2或yi1ai/2。第46页,共149页,编辑于2022年,星期一4.3.2最优量化将样本值量化总要带来误差,因此,人们在设计量化器时,总希望其误差越小越好,即寻求最优量化误差。所谓最优量化就是使量化器的均方误差2e最小或信噪比SNR最大的量化。根据信息熵的理论可以推断,量化误差最小的最优量化器,对量化器输入区间的分割应该是非均匀的。由于最优量化与p(x)有关,因而区间分割也与p(x)有关,尤其当N足够大时,可以近似认为在各个子区间ai,ai1上的概率分布p(x)为一常数,也就是说,在各子区间上可被视为均匀分布,即:第47页,共149页,编辑于2022年,星期一 p(x)p(yi),xai,ai1(437)因此,如果输入x的概率分布在 R上是均匀分布,其量化和最优量化是比较容易实现和讨论的,但对于一般标量量化的最优设计就不这样容易了。下面介绍MaxLivod两人提出的标量量化器的设计算法。第48页,共149页,编辑于2022年,星期一最优量化就是使量化器的均方误差2e为最小,将式(435)分别对ai和yi求导,并令其为零,即(438)(439)第49页,共149页,编辑于2022年,星期一则(440)(441)第50页,共149页,编辑于2022年,星期一这里求出的ai和yi的值,就是最优量化时的值。可见ai的最佳位置是输出yi1和yi的中点,yi最佳位置在ai和ai1区间的概率中心。一般情况下,ai和yi是互相制约、相互依赖的,不容易求出解析解,所以只能用递推公式获得近似解。MaxLivod采用的迭代方法如下:(1)任取y0;(2)由计算a1;第51页,共149页,编辑于2022年,星期一(3)根据公式(440)计算y1;(4)重复步骤(2)、(3),分别计算出a2,y2,a3,y3,,直至最后求得yn1;(5)检验yn是否为an1,an的概率中心,即式是否成立,或在允许的一定误差范围内成立;(6)若步骤(5)满足,则过程结束,否则,重新选y0,重复上述操作步骤。第52页,共149页,编辑于2022年,星期一4.4 矢量量化编码矢量量化编码 要想得到性能好的编码,仅采用标量量化是不可能的。在最佳编码中,如将离散信源的多个符号进行联合编码可提高效率,这对连续信源也是如此。当把多个信源符号联合起来形成多维矢量,再对矢量进行标量量化时,自由度将更大,同样的失真下,量化级数可进一步减少,码率可进一步压缩。这种量化叫做矢量量化。第53页,共149页,编辑于2022年,星期一实验证明,即使各信源符号相互独立,多维量化通常也可压缩信息率。因而矢量量化引起人们的兴趣而成为当前连续信源编码的一个热点。可是当维数较大时,矢量量化尚无解析方法,只能求助于数值计算;而且联合概率密度也不易测定,还需采用诸如训练序列的方法。一般来说,高维矢量的联合是很复杂的,虽已有不少方法,但其实现尚有不少困难,有待进一步研究。第54页,共149页,编辑于2022年,星期一设矢量量化器输入集为 XX1,X2,XN,XjX,Xj(xj1,xj2,,xjk),XRk(k维欧几里德空间),把Rk划分成J2n个互不相交的子空间R1,R2,R,求出每个子空间的质心Yi,所有的 Yi构成 YY1,Y2,Y,Y为量化器的输出空间,也叫码书(或码本),Yi叫码字或码矢,J叫码书的长度。第55页,共149页,编辑于2022年,星期一对J阶K维的矢量量化,实质上是判断输入Xj Rk属于哪个子空间Ri,然后输出该子空间代表码字 Yi,即:YiQ(Xj),1iJ,1jN(442)这里 Yi就是Xj的编码。第56页,共149页,编辑于2022年,星期一实际编码时,在发送端只需记录代表码字Yi的下标i,所以编码过程是把X映射到I1,2,J;而译码过程是在接收端依据收到的I代码,查找码书Y,获得码字Yi,用来代替Xj。由于总的码字个数J一般远小于总的输入信号NK,所以矢量量化的压缩能力非常大。第57页,共149页,编辑于2022年,星期一传输或存储一个矢量所需比特为lbJ(一般J2n),它是一个K维矢量,就是K个输入信号,所以每个输入信号的平均比特只有lbJ/K,称之为压缩比。适当选取码书长度J和码字维数K,可以获得很大压缩比。矢量量化中码书的码字越多,维数越大,失真就越小。只要适当地选择码字数量,就能控制失真量不超过某一给定值,因此码书控制着矢量的大小。矢量量化时每输入一个 Xj,都要和J个码字 Yi逐一比较,搜索与其最接近的码字 Yi。由于两者均为K维矢量,所以工作量很大。矢量量化是定长码,容易处理。第58页,共149页,编辑于2022年,星期一矢量量化由码书 Y和划分Ri的条件惟一确定。当码书确定后,通过最近邻域准则可以惟一确定区域分割。因此,最佳量化器的设计也就是最佳码书Y的设计。前面,在 讨 论 一 维 标 量 的 最 佳 设 计 时,引 入 了MaxLivod的迭代算法,1980年Linde、Buzo和Gray将此算法推广到了多维空间,称作LBG算法。因LBG算法由于理论上的严密性和实现的简便性以及较好的设计效果而得到了广泛的应用,并成为各种改进算法的基础。有关LBG算法等知识请参阅有关文献。第59页,共149页,编辑于2022年,星期一4.5 语音压缩编码语音压缩编码 对语音信号的压缩,人们有较强的兴趣,因为电话还是当前主要的通信手段之一,业务量也很大,尤其在移动通信中,由于无线频带有限,更需以低比特率传送。众所周知,语音压缩编码可划分为波形编码、参量编码和混合编码三大类型。波形编码的目的是在接收端恢复发端原语音的波形,并以波形的保真度即自然度为主要度量指标。参量编码不同于波形编码,它主要跟踪波形产生的过程,第60页,共149页,编辑于2022年,星期一并且仅传送反映波形变化的主要参量,在接收端根据语音产生过程,利用这些参量恢复语音。它又称为声码器,其主要度量指标是可懂度。混合编码则介于波形编码与参量编码之间,即在参量编码的基础上,引入了波形编码的特征,以达到改善自然度的目的,因此,它一般也称混合编码为软声码器。由于语音信源是属于连续的限失真信源,可以根据R(D)函数理论探讨波形编码的理论压缩极限。第61页,共149页,编辑于2022年,星期一由信息论可知,若要语音基本达到公用网入网信噪比标准,且大于26dB,那么理论压缩倍数大约为3.4,若进一步考虑到实际语音分布和主观因素影响后,大约为4倍左右。对于参量编码,度量其质量的指标不再是保真度,而是可懂度。若不考虑讲话人音质和情绪等因素,仅从可懂度出发,在理论上,语音最低信息率大约为7080b/s。它与目前常用的PCM语音64kb/s相比,理论压缩比大约为800900倍。限于篇幅本节只讨论语音压缩编码的基本原理。第62页,共149页,编辑于2022年,星期一4.5.1波形编码基本原理自适应差分脉码调制(ADPCM)是在差分脉码调制(DPCM)的基础上发展起来的。DPCM根据信号的过去样值预测下一个样值,并将预测误差加以量化、编码,而后进行传输,由于预测误差的幅度变化范围小于原信号的幅度变化范围,因此在相同量化噪声条件下,DPCM的量化比特数小于PCM,从而达到语音压缩编码的目的。ADPCM与DPCM比较,两者主要区别在于ADPCM中的量化器和预测器采用了自适应控制。同时,在译码器中多了一个同步编码调整,其作用是为了在同步级连时不产生误差积累。第63页,共149页,编辑于2022年,星期一20世纪80年代以来,32kbsADPCM技术已日趋成熟,并接近PCM的质量,但却节省一半的信道容量,因而受到重视。1984年CCITT提出G721建议,采用动态锁定量化器,这是一种具有自适应速度控制32kbs的自适应量化器,并将它作为国际标准化的语音编码方法。1986年又对G721建议进行了修正,称G726建议,详细内容请参见相关的文献。第64页,共149页,编辑于2022年,星期一4.5.2参量编码参量编码的出发点在于跟踪波形的产生过程,而不是传输波形本身。它传递的是反映这一变化过程的参量。根据线性预测原理,语音信号可用一系列预测变化的参量和其他与变化有关的参量来表征。在接收端,收到的这些语音参量通过一个时变数字滤波器,它根据发声原理合成原来的语音。称实现参量编码的编码器为语音编码器或声码器。所谓声码器,就是在充分研究音发音系统特点的基础上,设法提取语音信号的要素。第65页,共149页,编辑于2022年,星期一这样就可以只传送这些要素而不再传送语音信号的波形。在接收端利用这些要素重建语音信号,称为合成语音。只要这些要素选择得恰当,所需码率就可很小而仍能保持良好的语音质量。现在简要地说明人的发音过程。当人发声时,空气由肺部排出,在声带间受压而使声带振动,振动频率由声带的张力和声带的厚度等因素所决定,因而因人、内容而异。压出的气流强弱决定声音的强度。该气流经过由口腔等组成的声道时而被调制,形成不同的音色。声道包括口腔中的舌、齿、唇等,发鼻音时还要利用鼻腔。第66页,共149页,编辑于2022年,星期一以上均指发浊音和母音的情况。当发清音时,声带只有收缩和放开,不作周期性振动;发爆破音时,主要靠唇部动作,也属于清音类型。实际发声过程当然要比上述过程复杂得多,最常用的简化原理图如图43所示。第67页,共149页,编辑于2022年,星期一图43语音产生模型第68页,共149页,编辑于2022年,星期一图43中,u(n)是波形产生的激励参量,c(n)是输出的语音。激励分为两种:A路是发浊音或母音时的情况,可用周期性信号来代表,其周期大小和强度可随时调整;B路是发清音时的情况,可用近似于白噪声的随机信号来代表。图中的双掷开关表示发音不同时可上、下转换。滤波部分一般用线性滤波器来近似地代表声音在声道中被调制的过程。而线性时变滤波器的系数可以通过线性预测等技术获得。在一般情况下需要有12个系数ai(i1,2,12)。第69页,共149页,编辑于2022年,星期一此外,还有三个重要参量即音调(基音)周期P、清浊音判决uv和代表语音强弱的增益参量G。可见,语音信号中所包含的主要信息就由这15个参量所决定。通过对每帧语音进行分析求出这15个参量,然后将它们量化、编码传送给收端。接收端用收到的这15个参量和发声模型,综合、复制出语音信号。这里线性时变滤波器的系数由收到的12个参量ai,i1,2,12控制,激励器幅度受到增益G的控制。具体采用哪一类信号源则由收到的清浊音uv来决定。发清音时,激励为伪随机的白噪声源,发浊音时,激励为基音周期控制的准周期脉冲源。采用这种编码方式进行语音有效传输的系统称为线性预测器(LPC)。第70页,共149页,编辑于2022年,星期一线性预测分析仍是目前声码器技术的主流。近年来值得注意的有三个方面。首先是提高合成语音质量的措施,如采用余数激励声码器RELP、多脉冲激励声码器MELP以及声道参数模型的改善等。其次是进一步降低速率,如采用变换技术,优化编码、矢量量化技术等等。显然,这两方面的技术都与复杂性成正比,所以用复杂性换取技术性是今后的一个方向。最后是参数的自适应特性。一般预测系数自适应范围大致在30次s至400次s,而对音调基音周期和增益的自适应范围大致在100次s至200次s。第71页,共149页,编辑于2022年,星期一4.5.3混合编码余数激励声码器(RELPC)将余数低频谱中的一小部分(基带余数信号)所携带的激励信息传送给收端,它避免了清、浊音判决及基音提取。可见,它是在LPC声码器基础上发展起来的,从而是一种混合编码的方法。在接收端,用高频再生技术来恢复完整的余数信号,其实现方框图如图44所示。第72页,共149页,编辑于2022年,星期一图44RELPC原理方框图第73页,共149页,编辑于2022年,星期一图中语音带宽为H2,而余数信号的基带带宽是BH2,且它仅是全频带余数信号频谱的一部分(1L),采样以原采样率Fs的1L进行采样,然后对采样信号进行编码。下支路LPC分析提取参量并编码,将两路编码合并后送入信道。在接收端,上支路经过译码,输出基带余数信号,对基带余数信号进行高频再生处理,然后该信号通过下端截止频率为BH2的高通滤波器输出,再与基带余数信号相加产生全频带余数信号去激励LPC合成器产生合成语音输出。第74页,共149页,编辑于2022年,星期一可见,RELPC方法在发送端用余数信号中低频信息取代宽带余数信号信息,而在接收端对基带余数信号进行高频再生处理,产生全频带余数信号去激励LPC合成器。第75页,共149页,编辑于2022年,星期一 4.6 图像压缩编码图像压缩编码 在20世纪90年代,计算机技术、微电子技术和通信技术得到迅猛发展。多媒体计算机、多媒体数据库、多媒体通信、多媒体表现技术等多媒体研究领域也成为计算机和通信发展中的一个重要研究热点。其中面临最大的问题是数据量巨大的“爆炸”。文件、表格、工程图纸等二值图像的数据已较大。第76页,共149页,编辑于2022年,星期一但相比之下,语音信号、静止灰值图像、彩色静止图像电视图像、高清晰电视图像等的数据量更是巨大。特别是高清晰电视图像。一般电视图像的数据量要比语音的数据量大上千倍。因此,研究有效的数据压缩和解压缩的技术成为重要的、关键的研究方向。信息率失真理论从理论上指出,解决这种问题的途径是存在的、可能的。第77页,共149页,编辑于2022年,星期一4.6.1静止图像压缩编码新闻图片、医疗图片、卫星图片以及图像文献资料等均属于静止图像。这类静止图片的压缩,对传输和存储都具有重要的应用价值。静止图像压缩编码一般可划分为无失真编码与限失真编码两大类。对无失真编码一般采用霍夫曼编码或者算术编码。限失真编码主要有:帧内、帧间的预测编码;二维变换编码:KLT、DFT、DCT、HRT、SLT等等,以及子带编码、分层编码、轮廓编码、分形编码、小波变换等等,但主要以预测编码和正交变换编码为主,JPEG标准是用于多个灰度及色度连续变化的静止图像编码的国际标准。第78页,共149页,编辑于2022年,星期一4.6.2活动图像压缩编码广播电视、会议电视和可视电话等运动图像信号,除帧内像素间有相关性而外,帧与帧之间也有很强的相关性,所以对这类信号的处理常用帧间预测技术。帧间预测不仅要利用本行的前几个样值和前几行的相邻取样值,而且要利用上一帧或前几帧的取样值来估计当前帧内的像素值,因此帧间预测是一种三维预测方法。它在帧内预测的基础上,再利用帧间的时间相关性进一步消除图像信号的冗余度,提高压缩比。第79页,共149页,编辑于2022年,星期一为了达到实时帧间预测,前几帧的图像数据必须储存在帧存储器(VRAM)中。超大规模集成电路技术(VLSl)日趋成熟,使帧间预测技术变为现实,因此,帧间预测技术正在成为会议电视、可视电话、数字电视、HDTV的压缩数据的主要方法之一。在介绍帧间预测技术之前,先研究一下电视图像等帧间差值的统计特性。er(i,j)ur(i,j)-ur1(i,j)(443)第80页,共149页,编辑于2022年,星期一实际统计结果表明,该差值不大。对于变化缓慢的黑白图像序列,如可视电话、会议电视的图像信号,如果对其进行256级量化,只有4%像素的帧间差值超过阈值3;对于亮度值变化较为剧烈的256级的彩色电视图像序列,也只有7.5像素的帧间差值越过阈值6。可见帧与帧之间,信号的相关性是很强的,即冗余度很大。这一统计特性就是帧间预测编码的基础。帧间差值从总体上来看虽然不大,但从活动的局部图像像素或子块间看,有时还是比较大的,因此根据具体情况可采用两种帧间预测方法处理。第81页,共149页,编辑于2022年,星期一 1.狭义帧间预测狭义帧间预测就是用某点前一帧的像素值ur1(i,j)作为该点当前帧的像素值ur(i,j)的预测值。这种误差为e(i,j)ur(i,j)ur1(i,j)(444)第82页,共149页,编辑于2022年,星期一 2.复合差值预测当帧间某点的像素差值比较大,且图况较为复杂时,显然就不能简单地传输邻近两帧间对应像素的帧间差值,而应按一定准则,先估计一个像素或一个图像子块的运动,然后根据预测出的运动位移确定对应像素,从而获得相邻两帧间的帧间差值。复合差值预测与狭义帧间预测相比,对活动图像,其预测的帧间差值要小得多,且准确性高。在发送端称为运动估计,在接收端则称为运动补偿,一般简称运动补偿(MC)预测技术。根据参加运动估计的对象不同,有条件帧间修补法和运动补偿预测两种估计方法。第83页,共149页,编辑于2022年,星期一1)条件帧间修补法帧间预测误差为(445)式中:e(i,j)当前像素ur(i,j)帧间差值;第r帧中当前像素值;第r帧中当前像素ur(i,j)的预测值;前一帧中对应像素ur1(i,j)复原值。第84页,共149页,编辑于2022年,星期一对电视图像编码Mounts、Pease等人提出的条件像素修补法规定:若帧间误差e(i,j)超过阈值,则把这些像素存在缓冲存储器中,并以恒定的传输速度传送或者只传送误差e(i,j);对低于阈值的像素则不传送,在接收端用上一帧图像的相应像素值来代替。这样,一幅电视图像只要传送其中很少部分的像素,或只传送帧间差值,所以能得到较高的压缩比。第85页,共149页,编辑于2022年,星期一2)运动补偿预测运动补偿预测技术正处于研究和发展中,重点是寻找一些简单而又实用的帧内和帧间复合的自适应预测方法,但是至今没有取得特别有效的方案。下面简单介绍在国际标准化视频编码方案MPEG中,使用的运动补偿技术。运动补偿技术的基本原理是,运动补偿技术对占整个画面有较小的运动部分的图像,其压缩数据效果特别好,如会议电视、可视电话等。用运动补偿技术计算图像中运动部分位移的两个分量可使预测效果大大提高,运动补偿法跟踪画面内的活动情况,先对其加以补偿之后,再进行帧间预测。第86页,共149页,编辑于2022年,星期一运动补偿预测方案的使用规则是,首先把图像分割为静止的和运动的两部分。这里假设运动物体只作平移运动,即把物体的复杂运动化成一段段简单的平移,使算法简单易于实现。然后计算物体的位移值;接着用位移估值(即运动矢量)进行运动补偿预测。最后对预测信息进行编码。这项技术的关键是运动矢量的计算。从运动补偿技术中已看到,如何把图像分割成静、动两部分是运动补偿预测的基础,但这也是困难的。两帧图像间的运动估计是运动图像处理的关键。第87页,共149页,编辑于2022年,星期一通常采用两种较简单的方法处理:一种方法是把图像分成若干矩形子块;另一种方法是像素递归法。第一种方法将分成的子块分为动和不动两种,然后估计运动子块的位移,再进行预测传输;后一种方法则是对每个像素的位移进行递归估计。第88页,共149页,编辑于2022年,星期一4.6.3视频压缩编码电视信号具有很强的相关性和巨大的数据量,因此电视信号需要进行数据压缩,数字电视和高分辨率的电视(HDTV)将是21世纪人类使用的主要电视系统,这是由于数字电视比模拟电视具有很多突出优点而决定的。第89页,共149页,编辑于2022年,星期一1.数字电视的特点数字图像的质量远高于模拟电视图像。例如,数字电视信号的抗噪声干扰及克服非线性失真都明显地优于模拟电视信号,能克服高楼大厦对电波反射所造成的重影问题。数字电视信号经过多次中继再生。数字电视广播,在广阔范围内具有同等优良的图像质量。数字电视可以实现模拟电视难于实现的复杂的电视信号处理和加工,如数字视频特技效果。数字电视能克服全球各种模拟电视制式难于统一的问题,实现不同电视制式的自动转换等。第90页,共149页,编辑于2022年,星期一数字电视信号易于实现计算机控制和自动化操作、管理,易于实现广播电视与计算机网络和电话网的三网合一,为多媒体信息的传输、存储、同步、交互和融合创造条件。数字电视系统采用大规模数字集成电路,大大提高了电视设备的稳定性、可靠性。电视信号数字化后也存在几个问题:数码率太高,传输一路PCM数字电视信号所需要的带宽要比传输一路模拟电视信号大10倍左右,信道利用很不经济;由于数字电视的数据量庞大,对存储器的容量、元件的速度、数字电路的集成度要求很高。因此,在经济上、技术上实现全数字化的广播电视尚有较大的难度。但经过最近10年的研究,基本上找到了解决问题的方法。第91页,共149页,编辑于2022年,星期一这些解决的方法是,采用业已