五章节信源编码.ppt
《五章节信源编码.ppt》由会员分享,可在线阅读,更多相关《五章节信源编码.ppt(110页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、五章节信源编码 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望信息通过信道传输到信宿的过程即为通信。要做到既不失真又快速地通信,需要解决两个问题:在不失真或允许一定失真条件下,如何提高信息传输速度-这是本章要讨论的信源编码问题.在信道受到干扰的情况下,如何增加信号的抗干扰能力,同时又使得信息传输率最大-这是下章要讨论的信道编码问题.一般来说,抗干扰能与信息传输率二者相互矛盾。然而编码定理已从理论上证明,至少存在某种最佳的编码能够解决上述矛盾,做到既可靠又有效地传输
2、信息。信源虽然多种多样,但无论是哪种类型的信源,信源符号之间总存在相关性和分布的不均匀性,使得信源存在冗余度。信源编码的目的就是要减少冗余,提高编码效率。信源编码的基本途径有两个:一是编码后使序列中的各个符号之间尽可能地 互相独立,即解除相关性-方法包括预测编 码和变换编码.二是使编码后各个符号出现的概率尽可能相等,即均匀化分布-方法主要是统计编码.信源编码常分为无失真信源编码和限失真信源编码,前者主要用于文字、数据信源的压缩,后者主要用于图像、语音信源的压缩。本章主要介绍信源编码的基本思路与主要方法,以无失真、统计编码为主,期望通过本章学习能建立起信源压缩编码的基本概念。5.1 编码器及相关
3、概念为了分析方便和突出问题的重点,当研究信源编码时,我们把信道编码和译码看成是信道的一部分,从而突出信源编码。同样,在研究信道编码时,可以将信源编码和译码看成是信源和信宿的一部分,从而突出信道编码。5.1.1 码的分类一.编码器模型 由于信源编码可以不考虑抗干扰问题,所以它的数学模型比较简单。下图为一个编码器模型:输入是信源符号集:x为编码器所用的编码符号集,包含r个元素 ,称为码符号(码元).由码符号 组成的输出序列 称为码字.其长度 称为码字长度或码长,全体码字 的集合C称为码或码书.编码器将信源符号集中的信源符号 (或长为N的信源符号序列 )变成由码符号组成的长为的与信源符号一一对应的输
4、出序列。即:二.码的分类:对于编码器而言,根据码符号集合X X中码元的个数不同以及码字长度是否一致,有以下一些常用的编码形式:(1)二元码和r元码 若码符号集 ,编码所得码字为一些适合在二元信道中传输的二元序列,则称二元码。二元码是数字通信与计算机系统中最常用的一种码。若码符号集共有 r 个元素,则所得之码称为 r 元码.(2)等长码 若一组码中所有码字的长度都相同-(即 ),则称为等长码.(3)变长码 若一组码中码字的码长各不相同(即码字长度 不等),则称为变长码变长码.如表中“编码1”为等长码,“编码2”为变长码。信源符号si符号出现概率p(si)编码1编码2s1p(s1)000s2p(s
5、2)0101s3p(s3)10001s4p(s4)11101(4)分组码 若每个信源符号按照固定的码表映射成一个码字,则称为分组码。否则就是非分组码.如果采用分组编码方法,需要分组码具有某些属性,以保证在接收端能够迅速而准确地将接收到的码译成与信源符号对应的消息。下面讨论分组码的一些直观属性。1)非奇异码和奇异码 若一组码中所有码字都不相同(即所有信源符号映射到不同的码符号序列),则称为非非奇异码奇异码。反之,则为奇异码。如表中的“编码2”是奇异码,其他码是非奇异码。概率信源符号 编码1编码2编码3编码4编码51/20000011/4010110011/8101001100011/811101
6、111100012)同价码 若码符号集X:中每个码符号所占的传输时间都相同,则所得的码为同价码同价码。我们一般讨论同价码,对同价码来说等长码中每个码字的传输时间相同,而变长码中每个码字的传输时间就不一定相同。3)码的N次扩展码 假定某一码,它把信源 中的符号 一一变换成码C中的码字 ,则码C的N次扩展码是所有N个码字组成的码字序列的集合。例如:若码 满足:则码C的N次扩展码集合 ,其中:即码C的N次扩展码中,每个码字 与信源的N次 扩 展 信 源 中 的 每 个 信 源 符 号 是一一对应的:4)惟一可译码 若任意一串有限长的码符号序列只能被惟一地译成所对应的信源符号序列,则此码称为惟一可译码
7、(或称单义可译码)。否则就称为非惟一可译码或非单义可译码。若要使某一码为惟一可译码,则对于任意给定的有限长的码符号序列,只能被惟一地分割成一个个的码字。例如:对于二元码 ,当任意给定一串码字序列,例如“10001101”,只可唯一地划分为1,00,01,1,01,因此是惟一可译码;而对另一个二元码 ,当码字序列为“01001”时,可划分为0,10,01或01,0,01,所以是非惟一可译的。对惟一可译码又分为即时码和非即时码:如果在接收端收到一个完整的码字后,就能立即进行译码,这样的码叫做即时码;而在接收端收到一个完整的码字后,还需等下一个码字接收后才能判断是否可以译码,这样的码叫做非即时码。即
8、时码又称为非延长码,对即时码而言,在码本中任意一个码字都不是其它码字的前缀部分。对非即时码来说,有的码是惟一可译的,有的码是非惟一可译的,主要取决于码的总体结构。综上所述,可将码作所示的分类:5.1.2 码树对于给定码字的全体集合,可以用码树码树来描述。对于r进制的码树,如下页图所示,其中图(a)为二元码树,图(b)为三元码树。在码树中点是树根树根,从树根伸出个树枝树枝,构成元码树。树枝的尽头是节点节点,一般中间节点中间节点会伸出树枝,不伸出树枝的节点为终端节点终端节点,编码时应尽量在终端节点安排码字。码树中自树根经过一个分枝到达一阶节点,一阶节点最多为r个,二阶节点的可能个数为r2个,n阶节
9、点最多有rn个,若将从每个节点发出的个分枝分别标以0,1,r-1,则每个n阶节点需要用n个r元数字表示。如果指定某个n阶节点为终端节点,用于表示一个信源符号,则该节点就不再延伸,相应的码字即为从树根到此端点的分枝标号序列,该序列长度为n,用这种方法构造的码满足即时码的条件,因为从树根到每一个终端节点所走的路径均不相同,所以一定满足对即时码前缀的限制。如果有个q信源符号,那么在码树上就要选择q个终端节点,用相应r的元基本符号表示这些码字。若树码的各个分支都延伸到最后一级端点,此时将共有个码字,这样的码树称为整树,如图(a)所示。否则就称为非整树,如图(b)所示,这时的码字就不是等长码了。因此,码
10、树与码之间具有如下一一对应的关系:树根码字起点;树枝数码的进制数;节点码字或码字的一部分;终端节点码字;阶数码长;非整树变长码;整树等长码。5.1.3 Kraft不等式利用码树可以判断给定的码是否为惟一可译码,但需要画出码树。在实际中,我们可以利用克拉夫特(Kraft)不等式,直接根据各码字的长度来判断惟一可译码是否存在,即各码字的长度应符合克拉夫特不等式:式中,r为进制数也即码符号的个数,q为信源符号数。Kraft不等式是惟一可译码存在的充要条件,其必要性表现在如果码是惟一可译码,则必定满足Kraft不等式;充分性表现在如果满足Kraft不等式,则这种码长的惟一可译码一定存在,但并不表示所有
11、满足Kraft不等式的码一定是惟一可译码。因此,克拉夫特不等式是惟一可译码存在的充要条件,而不是惟一可译码的充要条件。5.2 变长编码变长码往往在码长的平均值不很大时,就可编出效率很高而且无失真的码,其平均码长受香农第一定理所限定,即:若对信源离散无记忆信源S的N次扩展信源 进行编码,则总可以找到一种编码方法,构成惟一可译码,使信源S中每个信源符号所需的平均码长满足:且当 时有:其中,为N次扩展信源的平均码长,为信源符号扩展序列 的码长.为对扩展信源进行编码后,每个信源符号 编码所需的等效的平均码长。要做到无失真的信源编码,平均每个信源符号所需最少的r元码元数为信源的熵 。即 它是无失真信源压
12、缩的极限值。若编码的平均码长小于信源的熵值 ,则惟一可译码不存在,在译码或反变换时必然要带来失真或差错。通过对扩展信源进行变长编码,当N时,平均码长无失真信源编码的实质实质:对离散信源进行适当的变换,使变换后形成的新的码符号信源(即信道的输入信源)尽可能为等概率分布,以使新信源的每个码符号平均所含的信息量达到最大,使信道的信息传输率达到信道容量,实现信源与信道理想的统计匹配。这实际上就是香农第一定理的物理意义。为了衡量各种编码是否达到极限情况,定义变长码的编码效率为:常通过编码效率来衡量各种编码的优劣.为了衡量各种编码与最佳码的差距,定义码的剩余度为:信息传输率定义为:注意:虽然与在数值上相同
13、,但它们的单位不同,编码效率没有单位,而信息传输率的单位是比特/码符号。在二元无噪无损信道中在二元信道中,若编码效率 =1,R=1比特码符号,则达到信道的信道容量,此时编码效率最高,码的剩余度为零。前面已经说明,对于某一个信源和某一符号集来说,凡是满足克拉夫特不等式的惟一可译码可以有多种,在这些惟一可译码中,如果有一种(或几种)码,其平均编码长度小于所有其他惟一可译码的平均编码长度,则该码称为最佳码(或紧致码)。为了使得平均编码长度为最小,必须将概率大的信息符号编以短的码字,概率小的符号编以长的码字。能获得最佳码(或次最佳码)的编码方法有很多,本节重点介绍:香农(shannon)编码、费诺(F
14、ano)编码、霍夫曼(Huffman)编码。5.2.1 香农码香农第一定理指出,可选择每个码字的长度满足关系式:或:x 表示不小于 x 的整数。按不等式选择的码长所构成的码称香农码。香农码满足克拉夫特不等式,所以一定存在对应码字的长度的惟一可译码。一般情况下,按照香农编码方法编出来的码,其平均码长不是最短的,也即不是紧致码(最佳码)。只有当信源符号的概率分布使不等式左边的等号成立时,编码效率才达到最高。香农码的编码步骤如下:1)将个信源符号按概率递减的方式进行排列:2)按香农不等式计算出每个信源符号的码长 ;3)为了编成惟一可译码,计算第i个信源符号的累加概率 4)将累加概率 用二进制数表示。
15、5)取 对应二进制数的小数点后位构成该信源符号的二进制码字。例例:设信源共有七个信源符号,其概率分布如表所示,试对该信源进行香农编码。解:计算过程见下页 码的性能分析:通过计算可得此信源的熵:(比特符号)而码的平均长度:(二元码符号符号)编码效率:概率累加概率码长信源符号对应的二进制数码字0.2000.0002.3430000.190.20.00112.4130010.180.390.01102.4830110.170.570.10012.5631000.150.740.10112.7431010.100.890.11103.34411100.010.990.11111106.66711111
16、105.2.2 费诺码费诺编码属于概率匹配编码,但它一般也不是最佳的编码方法,只有当信源的概率分布呈现 分布形式的条件下,才能达到最佳码的性能。费诺码的编码步骤如下:1)信源符号以概率递减的次序排列起来;2)将排列好的信源符号按概率值划分成两大组,使每组的概率之和接近于相等,并对每组各赋予一个二元码符号“0”和“1”;3)将每一大组的信源符号再分成两组,使划分后的两个组的概率之和接近于相等,再分别赋予一个二元码符号;4)依次下去,直至每个小组只剩一个信源符号为止;5)信源符号所对应的码字即为费诺码。例例:将下列消息按二元费诺码方法进行编码。解:其编码过程如下页:码的性能分析:此信源的熵 (比特
17、符号),而码的平均长度 (二元码符号符号)显然,该码是紧致码,编码效率:该码之所以能达到最佳,是因为信源符号的概率分布正好满足式,否则,在一般情况下是无法达到编码效率等于“1”的。费诺码具有如下的性质:费诺码的编码方法实际上是一种构造码树的方法,所以费诺码是即时码。费诺码考虑了信源的统计特性,使概率大的信源符号能对应码长较短的码字,从而有效地提高了编码效率。费诺码不一定是最佳码。因为费诺码编码方法不一定能使短码得到充分利用:当信源符号较多时,若有一些符号概率分布很接近时,分两大组的组合方法就会很多。可能某种分大组的结果,会使后面小组的“概率和”相差较远,从而使平均码长增加。r 元费诺码 前面讨
18、论的费诺码是二元费诺码,对r元费诺码,与二元费诺码编码方法相同,只是每次分组时应将符号分成概率分布接近的r个组。5.2.3 霍夫曼码1952年,霍夫曼(Huffman)提出了一种构造最佳码的方法,这是一种最佳的逐个符号的编码方法,一般就称作霍夫曼码霍夫曼码。设信源 ,其对应的概率分布为 ,则对二元霍夫曼码而言,其编码步骤如下:1)将q个信源符号按概率递减的方式排列起来;2)用“0”、“1”码符号分别表示概率最小的两个信源符号,并将这两个概率最小的信源符号合并成一个新的符号,从而得到只包含q-1个符号的新信源,称之为S信源的S1缩减信源;3)将缩减信源中的符号仍按概率大小以递减次序排列,再将其最
19、后两个概率最小的符号合并成一个符号,并分别用“0”、“1”码符号表示,这样又形成了由q-2个符号构成的缩减信源S2;4)依次继续下去,直到缩减信源只剩下两个符号为止,将这最后两个符号分别用“0”、“1”码符号表示;5)从最后一级缩减信源开始,向前返回,沿信源缩减方向的反方向取出所编的码元,得出各信源符号所对应的码符号序列,即为对应信源符号的码字。例例:对离散无记忆信源 进行霍夫曼编码。解:编码过程如表所示:1)将信源符号按概率大小由大至小排序。2)从概率最小的两个信源符号和开始编码,并按一定的规则赋予码符号,如下面的信源符号(小概率)为“1”,上面的信源符号(大概率)为“0”。若两支路概率相等
20、,仍为下面的信源符号为“1”上面的信源符号为“0”。3)将已编码两个信源符号概率合并,重新排队,编码。4)重复步骤3)直至合并概率等于“1.0”为止。5)从概率等于“1.0”端沿合并路线逆行至对应消息编码.码的性能分析:信源的熵为:(比特符号)从 ,可得平均码长为:编码效率为:按霍夫曼码的编码方法,可知这种码有如下特征特征:它是一种分组码:各个信源符号都被映射成一组固定次序的码符号;它是一种惟一可解的码:任何码符号序列只能以一种方式译码;它是一种即时码:由于代表信源符号的节点都是终端节点,因此其编码不可能是其它终端节点对应的编码的前缀,霍夫曼编码所得的码字一定是即时码。所以一串码符号中的每个码
21、字都可不考虑其后的符号直接解码出来。霍夫曼码的译码:对接收到的霍夫曼码序列可通过从左到右检查各个符号进行译码。说明:霍夫曼码是一种即时码,可用码树形式来表示。每次对缩减信源最后两个概率最小的符号,用“0”和“1”码是可以任意的,所以可得到不同的码,但码长不变,平均码长也不变。当缩减信源中缩减合并后得到的新符号的概率与其他信源符号概率相同时,从编码方法上来说,它们概率的排序是没有限制的,因此也可得到不同的码。即对给定信源,用霍夫曼编码方法得到的码并非是惟一,但平均码长不变。r 元霍夫曼码对二元霍夫曼码的编码方法同样可以推广到元编码中。不同的只是每次把概率最小的个符号合并成一个新的信源符号,并分别
22、用0,1,r-1,等码元表示。为了使短码得到充分利用,使平均码长为最短,必须使最后一步的缩减信源有r个信源符号。因此对于r元编码,信源S的符号个数q必须满足:q=n(r-1)+r.其中,n表示缩减的次数,r-1为每次缩减所减少的信源符号个数。对于二元码(r=2),信源符号个数必须满足:q=n+r,因此q可等于任意整正数。注意:对于r元码时,不一定能找到一个使式q=n(r-1)+r成立。在不满足上式时,可假设一些信源符号:作为虚拟的信源,并令它们对应的概率为零,即:,而使 能成立,这样处理后得到的r元霍夫曼码可充分利用短码,一定是紧致码。例例 对信源进行四元霍夫曼码编码。表列出了四元霍夫曼码的编
23、码方法及其对应的码字。5.3 限失真信源编码由实际生活经验我们知道,一般人们并不要求完全无失真地恢复消息。对人的心理视觉研究表明,人们在观察图像时主要是寻找某些比较明显的目标特征,而不是定量地分析图像中每个像素的亮度,或者至少不是对每个像素都等同地分析。例如观看一段视频或观察一幅图像,人们可能会关注其主要情节,对视频或图像中的细节并不是那么注意,此时便允许视频或图像有一定程度的失真。由香农第一定理知,无论哪种信道,只要信息传输率R小于信道容量C,总能找到一种编码方法,使得在信道上能以任意小的错误概率,以任意接近的传输率来传送信息。实际信道中,信源输出的信息传输率R一般都会超过信道容量,因此也就
24、不可能实现完全无失真地传输信源的信息。由香农第三定理知,在允许一定失真度D的情况下,信源输出的信息传输率可压缩到R(D)值,只要信息传输率R大于R(D),一定能找到一种编码方法,使得译码后的失真小于D。香农第三定理从理论上给出了信息传输率与允许失真之间的关系,奠定了信息率失真理论的基础。信息率失真理论是进行量化、数模转换、频带压缩和数据压缩的理论基础。一般情况下信源编码可分为离散信源编码、连续信源编码和相关信源编码三类。前两类编码方法主要讨论独立信源编码问题,后一类编码方法讨论非独立信源编码问题。离散信源可做到无失真编码,而连续信源则只能做到限失真编码。5.4 实用信源编码方法无失真和限失真信
25、源编码定理,说明了最佳码的存在性,但没有给出具体构造码的方法,实用的编码方法需要根据信源的具体特点来决定。霍夫曼码在实际中已得到应用,但它仍存在一些分组码所具有的缺点,例如概率特性必须精确地测定,如果信源概率特性稍有变化,就必须更换码表;对于二元信源,常需多个符号合起来编码,才能取得较好的效果,但是如果合并的符号数目不大时,编码效率提高得不多,特别是对于相关信源,霍夫曼编码不能给出令人满意的结果。因此在实用中常需作一些改进,同时也就有必要研究非分组码。在编码理论的指导下,先后出现了许多性能优良的编码方法,本节介绍一些实用的编码方法.5.4.1 游程编码 游程(Run-Length,简记RL)是
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 章节 信源 编码
限制150内