第4章 限失真信源编码PPT讲稿.ppt
《第4章 限失真信源编码PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《第4章 限失真信源编码PPT讲稿.ppt(149页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第4章章 限失真信源编限失真信源编码码第1页,共149页,编辑于2022年,星期一4.1 连续信源的熵和互信息连续信源的熵和互信息 前面研究的信源都是取值为有限或可数的离散信源,这些信源输出的消息属于时间离散、取值有限或可数的随机序列,其统计特性可以用联合概率分布来描述。而实际某些信源的输出常常是时间和取值都连续的消息。例如,语音信号、电视信号等都是时间的连续波形,而且,在某一固定时刻,它们的可能取值也是连续的,这样的信源称为随机波形信源。第2页,共149页,编辑于2022年,星期一随机波形信源输出的消息是随机的,因此,可用随机过程来描述。用随机过程描述其输出消息的信源称为随机波形信源。若信
2、源输出用平稳连续型随机序列来描述,则此信源称为连续平稳信源。连续平稳信源也可分为连续平稳无记忆信源和连续平稳有记忆信源。平稳连续型随机序列中每个自由度上的变量是连续随机变量。用连续随机变量描述其输出消息的信源称为连续信源。下面讨论它们的信息测度。第3页,共149页,编辑于2022年,星期一连续信源基本的数学模型为其中 R是全实数集,是连续变量X的取值范围,p(x)为x的概率密度。定义连续信源的熵(差熵)为(41)第4页,共149页,编辑于2022年,星期一式(41)定义的连续信源的熵并不是实际信源输出的绝对熵,连续信源的绝对熵应该再加上一项无限大的常数项。因为连续信源的可能取值有无限多个,若其
3、取值是等概率分布的,那么,信源不确定性为无限大。当确知输出为某值后,所获得的信息量也将为无限大。可见,h(X)已不能代表信源的平均不确定性大小,也不能代表连续信源输出的信息量。第5页,共149页,编辑于2022年,星期一同理,可定义两个连续变量X,Y的联合熵和条件熵:(42)(43)(44)第6页,共149页,编辑于2022年,星期一这样定义的差熵具有可加性、凸状性和极值性,不存在非负性和变换不变性等。设基本连续信道如图41所示。其输入和输出都是 单 个 连 续 型 随 机 变 量 的 信 道。可 用 模 型X,p(y|x),Y来描述单符号连续信道。X是输入连续型随机变量,X取值区间为a,b或
4、实数域 R;Y是信道输出连续型随机变量,取值区间为a,b或实数域 R;信道的传递概率密度函数为p(y|x),并满足:(45)第7页,共149页,编辑于2022年,星期一信道输入X满足:(46)(47)信宿接收Y满足:第8页,共149页,编辑于2022年,星期一定义X和Y之间的平均互信息量为(48)(49)(410)第9页,共149页,编辑于2022年,星期一连续信道的平均互信息量和离散信道下平均互信息量的关系式完全类似,且保留了离散信道平均互信息量的所有含义和性质。可见,将差熵定义为连续信源的熵是有重要实际意义的。单符号连续信道的信息传输率:RI(X;Y),比特/自由度(411)多维连续信道平
5、均互信息等相关内容可参见有关文献。第10页,共149页,编辑于2022年,星期一4.2 信息率失真理论信息率失真理论 4.2.1失真函数由于只涉及信源编码问题,所以可以将信道编码和译码看成是信道的一部分。这样信宿收到消息的失真(或误差)只是由信源编码带来的。从直观感觉可知,若允许失真越大,信息传输率可越小;若允许失真越小,信息传输率需越大。所以信息传输率与信源编码所引起的失真(或误差)是有关的。第11页,共149页,编辑于2022年,星期一为了定量地描述信息传输率和失真的关系,可以略去广义的无扰信道,所谓广义无扰信道,是指把信道编码、信道、信道译码这三部分看成一个没有任何干扰的广义信道。另一方
6、面用虚拟手法拿信道来表示失真信源编码的作用,把信源编码和信源译码等价成一个信道,由于是失真编码,所以信道不是一一对应的,用信道传递概率描述编、译码前后关系,这样通信系统可简化为如图42所示。第12页,共149页,编辑于2022年,星期一图42第13页,共149页,编辑于2022年,星期一设离散无记忆信源:信源符号通过信道传输到接收端,则接收端接收变量为第14页,共149页,编辑于2022年,星期一对应于一对(u,v),定义一个非负函数:d(ui,vj)0,i 1,2,n;j 1,2,m (412)称此函数为失真函数(或称单个符号失真度)。它用来测度信源发出一个符号ui,而接收端收到一个符号vj
7、时所引起的误差或失真。第15页,共149页,编辑于2022年,星期一由于信源U有n个符号,而接收变量V有m个符号,所以d(ui,vj)就有nm个,这nm个非负的函数可以排成矩阵形式,即:(413)称它为失真矩阵D,它是nm阶矩阵。第16页,共149页,编辑于2022年,星期一失真函数可有多种形式,但应尽可能符合信宿的主观特性,即主观上的失真感觉应与d(ui,vj)的值相对应。D越大,所感觉到的失真也越大,而且最好成正比。当uivj时,d应等于零,表示没有失真,当uivj时,d为正值。常用失真函数有:均方失真:绝对失真:相对失真:(414)(415)(416)第17页,共149页,编辑于2022
8、年,星期一误码失真:(417)式中:x信源输出消息;y信宿收到消息。第18页,共149页,编辑于2022年,星期一均方失真和绝对失真只与(xy)有关,而不是分别与x及y有关,在数学处理上比较方便;相对失真与主观特性比较匹配,因为主观感觉往往与客观量的对数成正比,但其数学处理困难得多。其实选择一个与主观特性完全匹配的失真函数已非常困难了,更不用说还要便于数学处理了。前三种失真函数适用于连续信源,最后一种失真函数适用于离散信源。误码失真函数表明,当接收符号与发送符号相同时,就不存在失真和错误,即失真度为零;当接收符号与发送符号不同时,就存在失真。第19页,共149页,编辑于2022年,星期一而且认
9、为只要发送符号与接收符号不同,由此引起的失真都相同,即失真度为常数。如果常数值为1,则称为汉明失真。离散对称信源的汉明失真矩阵 D为一方阵,且对角线上的元素为零:(418)第20页,共149页,编辑于2022年,星期一【例41】二元对称信源,信源U0,1,接收变量V0,1,在汉明失真定义下,失真函数为:d(0,0)d(1,1)0,d(0,1)d(1,0)1它表示当信源发送符号0(或符号1)而信宿接收到符号0(或符号1)时,则认为无失真或无错误存在;反之,若发送信源符号0(或符号1)而信宿接收符号1(或符号0)时,则认为有错误,并认为这两种错误的后果是等同的。其失真矩阵为第21页,共149页,编
10、辑于2022年,星期一【例42】设信源U0,1,接收变量V0,1,2,定义失真函数为d(0,0)d(1,1)0,d(0,1)d(1,0)1,d(0,2)d(1,2)0.5,则失真矩阵 D为第22页,共149页,编辑于2022年,星期一【例43】信源U0,1,2,接收变量V0,1,2,失真函数为d(ui,vj)(uivj)2,求失真矩阵。由失真定义得:d(0,0)d(1,1)d(2,2)0 d(0,1)d(1,0)d(1,2)d(2,1)1 d(0,2)d(2,0)4所以失真矩阵 D为第23页,共149页,编辑于2022年,星期一4.2.2平均失真因为信源U和信宿接收量V都是随机变量,因此单个符
11、号失真度d(ui,vj)也是随机变量。定义传输一个符号引起的失真为平均失真,即信源平均失真:(419)式中:ui信源输出符号,i1,2,n;p(ui)信源输出符号ui的概率;vj信宿接收符号,j1,2,,m;p(vj|ui)广义无扰信道传递概率。第24页,共149页,编辑于2022年,星期一单个符号的失真度d(ui,vj)描述了某个信源符号通过传输后失真的大小。对于不同的信源符号和不同的接收符号,其值是不同的。但平均失真度已对信源和信道进行了统计平均,所以此值是描述某一信源在某一广义无扰信道(或称为试验信道)传输下的失真大小,是从总体上描述整个系统失真情况的。从单个符号失真度出发,可以定义长度
12、为K的信源序列的失真函数和平均失真度。信源序列失真度(失真函数):(420)第25页,共149页,编辑于2022年,星期一式中:S信源的一个输出序列;Y信宿的一个接收序列;sl信源输出序列中的一个符号;yl信宿接收序列中的一个符号。第26页,共149页,编辑于2022年,星期一式(420)表明,信源序列的失真度等于序列中对应单个信源符号失真度之和。N维信源符号序列的平均失真度:(421)则单个信源符号平均失真度:(422)第27页,共149页,编辑于2022年,星期一当信源与信道都是无记忆时,N维信源序列平均失真度为(423)式中:信源序列中第l个分量平均失真度。此时单个信源符号平均失真度:(
13、424)第28页,共149页,编辑于2022年,星期一若平均失真度不大于所允许的失真D,即:(425)称式(425)为保真度准则。N维信源序列的保真度准则是:平均失真度不大于允许失真ND,即:(426)第29页,共149页,编辑于2022年,星期一 1.离散信源的信息率失真函数在信源给定,又定义了失真函数以后,总希望在满足一定失真的情况下,使信源传输给信宿的信息传输率R尽可能地小。或者说,在满足保真度准则下,寻找信源必须传输给信宿的信息率R的下限值,这个下限值与D有关。从接收端来看,就是在满足保真度准则下,寻找再现信源消息所必须获得的最低平均信息量。而接收端获得的平均信息量可用平均互信息量I(
14、U;V)来表示,这就变成了在满足保真度准则的条件下,第30页,共149页,编辑于2022年,星期一寻找平均互信息量I(U;V)的最小值。BD是所有满足保真度准则的试验信道集合,可以在D失真许可的试验信道集合BD中寻找某一个信道p(vj|ui),使I(U;V)取最小值。由于平均互信息量I(u;v)是p(vj|ui)的U型凸函数,所以在BD集合中,极小值存在。这个最小值就是在条件下,信源必须传输的最小平均信息量。即(427)式中:BD所有满足保真度准则的试验信道的集合。第31页,共149页,编辑于2022年,星期一称R(D)为信息率失真函数(或率失真函数),其单位为奈特/信源符号或比特/信源符号。
15、N维信源符号序列的信息率失真函数RN(D):(428)式中:x信源的一个输出序列;y信宿的一个接收序列;N维信源符号序列的平均失真度。第32页,共149页,编辑于2022年,星期一 2.连续信源的信息率失真函数定义连续信源平均失真度为(429)式中:d(u,v)连续信源失真函数;p(u)连续信源u的概率密度;p(v|u)信道传递概率密度。第33页,共149页,编辑于2022年,星期一根据连续信源平均失真度的定义,可求得平均互信息I(U;V)h(V)h(V|U),则连续信源的信息率失真函数:(430)式中:BD满足D的所有广义无扰信道集合;inf指下确界。第34页,共149页,编辑于2022年,
16、星期一 3.保真度准则下的信源编码定理 定理41(限失真信源编码定理)设R(D)为离散无记忆信源X的信息率失真函数,R为信宿传输率,则当信息率RR(D),只要信源序列长度L足够长,一定存在一种编码方法,其译码失真小于或等于D,为任意小的正数;反之,若R0,每一个信源符号的平均码长满足如下公式:(431)第35页,共149页,编辑于2022年,星期一该定理指出,在失真限度内使信息率任意接近R(D)的编码方法存在,然而,若信息率小于R(D),平均失真一定会超过失真限度D。对于连续平稳无记忆信源,虽然无法进行无失真编码,但在限失真情况下,有与该定理一样的编码定理。该定理说明最佳编码是存在的,但对于如
17、何进行编码却一无所知,因而就不能像无损编码那样从证明过程中引出概率匹配的编码方法,一般只能从优化的思路去求最佳编码。第36页,共149页,编辑于2022年,星期一这个定理证明了允许失真D确定后,总存在一种编码方法,使信息传输率R大于R(D)且可任意接近R(D),而平均失真小于允许失真D。反之,若RR(D),那么该编码的平均失真将大于D。如果用二进制符号进行编码的话,在允许一定失真D的情况下,平均每个信源符号所需的二元码符号的下限值就是R(D)。由此可见,信息率失真函数R(D)确实是在允许失真度为D的情况下信源信息压缩的下限值。当信源给定后,无失真信源压缩的极限值是信源熵H(U);有失真信源压缩
18、的极限值是信息率失真函数H(D)。第37页,共149页,编辑于2022年,星期一在给定某D后,一般R(D)H(U)。同样,该定理只是一个存在定理。至于如何寻找最佳压缩编码方法,定理中并没有给出。在实际应用中,该定理主要存在以下两大类问题。第一类问题是,符合实际信源的R(D)函数的计算相当困难。首先,需要对实际信源的统计特性有确切的数学描述。其次,需要对符合主客观实际的失真给予正确的度量,否则不能求得符合主客观实际的R(D)函数。第38页,共149页,编辑于2022年,星期一例如,通常采用均方误差来表示信源的平均失真度。但对于图像信源来说,均方误差较小的编码方法,人们视觉感到失真较大。所以,人们
19、仍采用主观观察来评价编码方法的好坏。因此,如何定义符合主客观实际情况的失真测度就是件较困难的事。第三,即便对实际信源有了确切的数学描述,又有符合主客观实际情况的失真测度,而信息率失真函数R(D)的计算还是比较困难的。第39页,共149页,编辑于2022年,星期一第二类问题是,即便求得了符合实际的信息率失真函数,还需研究采用何种实用的最佳编码方法才能达到R(D)。目前,这两方面工作都有进展。尤其是对实际信源的各种压缩方法,如对语音信号、电视信号和遥感图像等信源的各种压缩方法有了较大进展。相信随着数据压缩技术的发展,限失真编码理论中存在的问题将会得到解决。第40页,共149页,编辑于2022年,星
20、期一4.3 标量量化编码标量量化编码 连续信源限失真编码的主要方法是量化,就是把连续的样值离散化为某些量化级数,所以量化也可称为数字化。量化后的信号也可称为数字信号,这种转换必将引入失真,量化时必须使这些失真最小。常用的量化方法有标量量化和矢量量化两种,所谓标量量化是指每次只量化一个模拟样本值,故又叫做零记忆量化。第41页,共149页,编辑于2022年,星期一4.3.1均匀量化标量量化中最简单的方法是均匀量化,也叫做线性量化。设量化器输入为x,对应实数值域空间为R,量化器输出为y,对应的实数值域空间为Rc,x和y的关系为yQ(x)(432)第42页,共149页,编辑于2022年,星期一设Rc对
21、应取值范围a0,an,a0可为负无限。an可为正无限。所谓均匀量化就是将区间a0,an分割为n个相等距离且互不重叠的子区间ai,ai1,取每个小区间的中点值作为量化值yi,即aixai1时,yi(ai1ai)/2,若x的概率分布函数为p(x),则:均匀量化的量化误差:(433)(434)第43页,共149页,编辑于2022年,星期一量化器均方误差:量化器输入方差:(435)(436)量化器的信噪比SNR(SignalNoiseRate):量化器的工作区域有三个。第44页,共149页,编辑于2022年,星期一 1.正常量化区当输入xa0,an时,量化器能得到正常的量化输出。2.限幅区当xan时,
22、量化器分别输出常量a0/2和an/2。量化器此时处于限幅或过载工作状态,将会产生较大的失真。第45页,共149页,编辑于2022年,星期一 3.空载区当/2xai/2时,将有两种情况:(1)当输入xai时,由于某种因素,使得x稍高于ai,则量化器输出上一级量化值yi1;当输入x稍低于ai时;则输出下一级量化值yi1,这时的误差为,量化器输出在两个量化级间往返跳动,形成一个矩形波输出,结果将产生点状噪声。(2)输入x在ai之上或之下,量化输出分别为恒定值yiai/2或yi1ai/2。第46页,共149页,编辑于2022年,星期一4.3.2最优量化将样本值量化总要带来误差,因此,人们在设计量化器时
23、,总希望其误差越小越好,即寻求最优量化误差。所谓最优量化就是使量化器的均方误差2e最小或信噪比SNR最大的量化。根据信息熵的理论可以推断,量化误差最小的最优量化器,对量化器输入区间的分割应该是非均匀的。由于最优量化与p(x)有关,因而区间分割也与p(x)有关,尤其当N足够大时,可以近似认为在各个子区间ai,ai1上的概率分布p(x)为一常数,也就是说,在各子区间上可被视为均匀分布,即:第47页,共149页,编辑于2022年,星期一 p(x)p(yi),xai,ai1(437)因此,如果输入x的概率分布在 R上是均匀分布,其量化和最优量化是比较容易实现和讨论的,但对于一般标量量化的最优设计就不这
24、样容易了。下面介绍MaxLivod两人提出的标量量化器的设计算法。第48页,共149页,编辑于2022年,星期一最优量化就是使量化器的均方误差2e为最小,将式(435)分别对ai和yi求导,并令其为零,即(438)(439)第49页,共149页,编辑于2022年,星期一则(440)(441)第50页,共149页,编辑于2022年,星期一这里求出的ai和yi的值,就是最优量化时的值。可见ai的最佳位置是输出yi1和yi的中点,yi最佳位置在ai和ai1区间的概率中心。一般情况下,ai和yi是互相制约、相互依赖的,不容易求出解析解,所以只能用递推公式获得近似解。MaxLivod采用的迭代方法如下:
25、(1)任取y0;(2)由计算a1;第51页,共149页,编辑于2022年,星期一(3)根据公式(440)计算y1;(4)重复步骤(2)、(3),分别计算出a2,y2,a3,y3,,直至最后求得yn1;(5)检验yn是否为an1,an的概率中心,即式是否成立,或在允许的一定误差范围内成立;(6)若步骤(5)满足,则过程结束,否则,重新选y0,重复上述操作步骤。第52页,共149页,编辑于2022年,星期一4.4 矢量量化编码矢量量化编码 要想得到性能好的编码,仅采用标量量化是不可能的。在最佳编码中,如将离散信源的多个符号进行联合编码可提高效率,这对连续信源也是如此。当把多个信源符号联合起来形成多
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第4章 限失真信源编码PPT讲稿 失真 信源 编码 PPT 讲稿
限制150内