信息论第讲算术编码与编码讲稿.ppt
信息论第讲算术编码与编码第一页,讲稿共二十八页哦算术编码算术编码前面所讨论的无失真编码,都是建立在信源符号与码字一一对应的前面所讨论的无失真编码,都是建立在信源符号与码字一一对应的基础上,这种编码方法通常称为基础上,这种编码方法通常称为块码或分组码块码或分组码,此时信源符号一,此时信源符号一般是般是多元多元的。的。如果要对二元序列进行编码,则需采用合并信源符号方法,把二元如果要对二元序列进行编码,则需采用合并信源符号方法,把二元序列转换成多值符号,转换时二元符号之间的相关性不予考虑,转序列转换成多值符号,转换时二元符号之间的相关性不予考虑,转换后这些多值符号之间的相关性也不予考虑。这就使信源编码的匹换后这些多值符号之间的相关性也不予考虑。这就使信源编码的匹配原则不能充分满足,编码效率一般不高。配原则不能充分满足,编码效率一般不高。为了克服这种局限性,需要跳出分组码范畴,为了克服这种局限性,需要跳出分组码范畴,从整个符号序列出从整个符号序列出发,采用递推形式进行编码发,采用递推形式进行编码。第二页,讲稿共二十八页哦 从整个符号序列出发,根据各信源序列的概率将信源序列映射从整个符号序列出发,根据各信源序列的概率将信源序列映射到到0,1)区间上,然后选取区间内的一点(也就是一个二进区间上,然后选取区间内的一点(也就是一个二进制的小数)来表示信源序列。制的小数)来表示信源序列。算术编码基本思想算术编码基本思想 设信源字母表为设信源字母表为a1,a2,概率概率p(a1)=0.6,p(a2)=0.4,将将0,1按概率比例分为区间按概率比例分为区间0,0.6,0.6,l。p(a1)p(a2)0 0.6 10 0.36 0.6 0.84 1p(a1a1)p(a1a2)p(a2a1)p(a2a2)随着序列的长度不断增加随着序列的长度不断增加,C所所在区间的长度就越短在区间的长度就越短,精确地精确地确定确定C的位置需要码长也的位置需要码长也不断增加不断增加第三页,讲稿共二十八页哦 设信源符号集设信源符号集A=a1,a2,an,其相应概率分布为其相应概率分布为pi,pi 0(i=1,2,n),定义信源符号的定义信源符号的累积概率(分布函数)累积概率(分布函数)累积概率(分布函数)累积概率(分布函数)为为 P1=0;P2=p1;P3=p1+p2;累积概率累积概率r=1,2,npr=Pr+1-PrP1p1P2P3P41p2p30第四页,讲稿共二十八页哦 当当A=0,1二元信源时,二元信源时,P1=P(0)=0;P2=P(1)=p0P(0)P(1)01p0p1二元序列的累积概率二元序列的累积概率引例引例设有二元序列设有二元序列S=011,求,求S的累积概率的累积概率P(S)=p(000)+p(001)+p(010)第五页,讲稿共二十八页哦若若S后面接后面接0P(S0)=p(0000)+p(0001)+p(0010)+p(0011)+p(0100)+p(0101)=p(000)+p(001)+p(010)=P(S)若若S后面接后面接1P(S1)=p(0000)+p(0001)+p(0010)+p(0011)+p(0100)+p(0101)+p(0110)=P(S)+p(0110)=P(S)+p(S)p0二元序列的累积概率二元序列的累积概率P(0)=0,P(1)=p0 P(Sar)=P(S)+p(S)PrS0=0110S1=0111 p(Sar)=p(S)p(ar)p(Sar)=p(S)p(ar)P(Sar)=P(S)+p(S)Pr第六页,讲稿共二十八页哦P(0)0P(1)1p0设符号序列设符号序列S=011p1P(0)P(1)p(00)=p(0)P(1)P(01)p(01)P(01)P(1)P(011)p(010)=p(01)P(1)p(011)二元序列的累积概率二元序列的累积概率 P(Sar)=P(S)+p(S)Pr第七页,讲稿共二十八页哦累积概率递推公式累积概率递推公式一般多元信源序列的累积概率递推公式一般多元信源序列的累积概率递推公式序列的概率序列的概率(所对应区间的宽度所对应区间的宽度)递推公式递推公式第八页,讲稿共二十八页哦实际中实际中,求序列累积概率只需两个存储器求序列累积概率只需两个存储器,起始时可令起始时可令:A()=1,P()=0 每输入一个符号每输入一个符号,存储器存储器P和和A 就按照上式更新一次就按照上式更新一次,直至符号输入直至符号输入完毕完毕,这时存储器这时存储器P的内容即为该序列的累积概率。的内容即为该序列的累积概率。累积概率递推公式累积概率递推公式累积概率递推计算累积概率递推计算注意:计算过程中注意:计算过程中,每输入一个符号只要进行乘法和加每输入一个符号只要进行乘法和加法运算。法运算。第九页,讲稿共二十八页哦 通过信源符号序列累积概率计算通过信源符号序列累积概率计算,把区间分割成许多把区间分割成许多小区间小区间,不同的信源符号序列对应不同的区间为不同的信源符号序列对应不同的区间为P(S),P(S)+p(S),可取小区间内的一点来代表这序列。,可取小区间内的一点来代表这序列。将符号序列的将符号序列的累积概率累积概率累积概率累积概率写成二进位小数,取小数点后写成二进位小数,取小数点后L位位,若后面有尾数若后面有尾数,就进位到第就进位到第L位,即位,即算术编码算术编码若若P(S)=0.10110001,L=3 则则C=0.110第十页,讲稿共二十八页哦算术编码的唯一可译性算术编码的唯一可译性由码由码C的形成方法,的形成方法,又又可知可知可知可知由此可见由此可见C必在必在,因而唯一可译。因而唯一可译。对于长序列,对于长序列,p(S)必然很小,必然很小,L与概率倒数对数几乎相等,与概率倒数对数几乎相等,也就是说取整造成的差别很小,因而平均码长将接近于也就是说取整造成的差别很小,因而平均码长将接近于信源熵信源熵H(S)第十一页,讲稿共二十八页哦设二元无记忆信源设二元无记忆信源S=0,1,p(0)=1/4,p(1)=3/4。S=11111100,对其做算术编码。,对其做算术编码。P(S)=p(00000000)+p(00000001)+p(00000010)+p(11111011)=1-p(11111111)-p(11111110)-p(11111101)-p(11111100)=1-p(111111)=1-(3/4)6=0.110100100111从而得从而得C=0.1101010,S的码字为的码字为1101010解:解:p(S)=p2(0)p6(1)=(1/4)2(3/4)6例例 题题1101001第十二页,讲稿共二十八页哦+=p(1)=3/4=(0.11)2p(11)=(3/4)2=(0.1001)2+=p(0)=(1/4)=2-2p(S)p(0)p(S)右移2位第十三页,讲稿共二十八页哦设无记忆信源设无记忆信源U=a1,a2,a3,a4,其概率分布依次为,其概率分布依次为 0.5,0.25,0.125,0.125,对信源序列,对信源序列做算术编码。做算术编码。解:解:例例 题题第十四页,讲稿共二十八页哦序号uip(ui)P(ui)l(ui)C0空1001a21/41/220.102a11/81/230.1003a11/161/240.10004a31/12835/6470.10001105a41/1024567/1024100.10001101116a11/2048567/1024110.100011011107a21/81922269/4096130.10001101110108a11/163842269/4096140.10001101110100算术编码递推过程算术编码递推过程 a1,a2,a3,a40.5,0.25,0.125,0.125第十五页,讲稿共二十八页哦由算术编码递推表得由算术编码递推表得C=0.1000110111010000,从而从而U的码字为的码字为10001101110100 第十六页,讲稿共二十八页哦P(0)0P(1)1p(0)译码输出序列译码输出序列 011p(1)P(0)P(1)p(00)P(01)p(01)P(01)P(1)P(011)p(010)p(011)算术译码算术译码CCC第十七页,讲稿共二十八页哦对二元算术码而言,其译码过程是一系列比较过程:对二元算术码而言,其译码过程是一系列比较过程:每一步比较每一步比较 与与 ,这里,这里 为前面已译出的为前面已译出的序列串,序列串,是序列串是序列串 对应的宽度,对应的宽度,是序列是序列 的累的累积概率值,即为积概率值,即为 对应区间的下界限,对应区间的下界限,是此区间是此区间内下一个输入为符号内下一个输入为符号“0”所占的子区间宽度。所占的子区间宽度。译码规则为:译码规则为:若若 ,则译输出符号为,则译输出符号为“0”;若若 ,则译输出符号为,则译输出符号为“1”。算术编码的译码算术编码的译码第十八页,讲稿共二十八页哦算术编码的编码效率很高,当信源符号序列很长时,算术编码的编码效率很高,当信源符号序列很长时,L很大时,平均码长接近信源熵。很大时,平均码长接近信源熵。从性能上来看,算术编码具有许多优点,它所需的参数较少、从性能上来看,算术编码具有许多优点,它所需的参数较少、编码效率高、编译码简单,不象哈夫曼码那样需要一个很大编码效率高、编译码简单,不象哈夫曼码那样需要一个很大的码表。的码表。算术编码在图像数据压缩标准(如算术编码在图像数据压缩标准(如JPEG)中得到广泛)中得到广泛的应用。的应用。算术编码的优点算术编码的优点第十九页,讲稿共二十八页哦算术编码要注意的一些问题算术编码要注意的一些问题计算精度计算精度 随着递推过程的延续,随着递推过程的延续,P(u)和和F(u)的小数位数也将的小数位数也将逐步增加,若不能随时输出和加以截断,运算器逐步增加,若不能随时输出和加以截断,运算器将难以容纳。但有所截断必然降低精度,而精度将难以容纳。但有所截断必然降低精度,而精度不够会影响译码的正确性。不够会影响译码的正确性。存储器容量存储器容量 编成的码字编成的码字S的长度也是随序列的长度也是随序列u的长度增加而不断的长度增加而不断增长。若不及时输出,存储量将非常大。但若输出增长。若不及时输出,存储量将非常大。但若输出过早,运算过程中可能还需调整已经输出的部分,过早,运算过程中可能还需调整已经输出的部分,那就来不及了。那就来不及了。第二十页,讲稿共二十八页哦计算复杂性计算复杂性 每次递归运算都有乘法,每次递归运算都有乘法,P(ak)小数位数影响计算小数位数影响计算复杂度。在算术编码中使用的概率复杂度。在算术编码中使用的概率P(ak)不一定完不一定完全等于真实的概率分布,只要设定的分布近似全等于真实的概率分布,只要设定的分布近似于真实分布就很有效。于真实分布就很有效。自适应算术编码自适应算术编码 在实际应用中,可以在编码过程中根据输入的信源在实际应用中,可以在编码过程中根据输入的信源序列自适应估计信源的分布,因此可以对任意概率序列自适应估计信源的分布,因此可以对任意概率分布的信源(包含有记忆)进行编码。分布的信源(包含有记忆)进行编码。上述问题现已解决,算术编码已进入实用。上述问题现已解决,算术编码已进入实用。第二十一页,讲稿共二十八页哦两位以色列研究者两位以色列研究者J.Ziv和和A.Lempel独辟蹊径,完全脱离独辟蹊径,完全脱离Huffman及算术编码的设计思路,创造出了一系列比及算术编码的设计思路,创造出了一系列比Huffman编码更有效,比算术编码更快捷的通用压缩算法编码更有效,比算术编码更快捷的通用压缩算法LZ算法。算法。LZ编码编码对于统计特性确知的平稳信源,已有对于统计特性确知的平稳信源,已有Huffman编码和算术编编码和算术编码高效编码方法,其平均码长可逼近信源的平均符号熵,码高效编码方法,其平均码长可逼近信源的平均符号熵,而且实现困难不算太大,所以已进入实用。而且实现困难不算太大,所以已进入实用。要确知信源的统计特性相当困难。通用编码指在信源统计特要确知信源的统计特性相当困难。通用编码指在信源统计特性不知时,对信源进行编码,而且编码效率很高。性不知时,对信源进行编码,而且编码效率很高。第二十二页,讲稿共二十八页哦Ziv和和Lempel于于1977年提出了年提出了LZ77算法。算法。1978年,二人又年,二人又提出了改进算法,后被命名为提出了改进算法,后被命名为LZ78。1984年,年,T.A.Welch提出了提出了LZ78算法的一个变种,即算法的一个变种,即LZW算法。算法。1990年后,年后,T.C.Bell等人又陆续提出了许多等人又陆续提出了许多LZ系列算法的变体或改进版本。系列算法的变体或改进版本。LZ系列算法用一种巧妙的方式将字典技术应用于通用数据压系列算法用一种巧妙的方式将字典技术应用于通用数据压缩领域,而且,可以从理论上证明缩领域,而且,可以从理论上证明LZ 系列算法同样可以逼近系列算法同样可以逼近信息熵的极限信息熵的极限.下面我们主要介绍下面我们主要介绍LZ78算法。算法。第二十三页,讲稿共二十八页哦设输入信源符号序列为设输入信源符号序列为尽可能取最少个相连的信源符号,并保证各段都不相同。尽可能取最少个相连的信源符号,并保证各段都不相同。,其中,其中编码时将此序列分成不同的段。编码时将此序列分成不同的段。分段规则:分段规则:设序列分段结果为设序列分段结果为若若,则必有,则必有LZ78码码LZ78编码算法是一种分段编码。编码算法是一种分段编码。由分段规则可见,字典中每一段都是前面某一段后加一由分段规则可见,字典中每一段都是前面某一段后加一个符号。个符号。第二十四页,讲稿共二十八页哦开始时,先取一个符号作为第一段,然后再继续分段。若出现开始时,先取一个符号作为第一段,然后再继续分段。若出现有与前面相同符号时,就再取紧跟后面的一个符号一起组成一有与前面相同符号时,就再取紧跟后面的一个符号一起组成一个段,以使与前面的段不同。个段,以使与前面的段不同。这些分段构成字典。这些分段构成字典。当字典达到一定大小后,再分段时就应查看有否与字典中的短语相同,当字典达到一定大小后,再分段时就应查看有否与字典中的短语相同,若有重复就添加符号后再查看,直至与字典中短语不同为止。若有重复就添加符号后再查看,直至与字典中短语不同为止。由分段规则可见,字典中每一段都是前面某一段后加一个符号。由分段规则可见,字典中每一段都是前面某一段后加一个符号。则编码的码字由段号加后面一个符号组成。则编码的码字由段号加后面一个符号组成。或者说编码码字可用两个数段号或者说编码码字可用两个数段号i 和符号序号和符号序号r 组成。组成。第二十五页,讲稿共二十八页哦 段号段号i 和符号序号和符号序号r 的表示的表示由于由于ri,则,则 所以,对所以,对Nj编码所需的比特数为编码所需的比特数为 由上式可见,各段所需的比特数是不同的,是由上式可见,各段所需的比特数是不同的,是随随j的增加而增多。的增加而增多。第二十七页,讲稿共二十八页哦设设U=a1,a2,a3,a4,信源序列为,信源序列为按照分段规则,可以分为按照分段规则,可以分为段号短语irNjlj编码1a10002002a201130013a1a3126401104a2a42311410115a2a4a342185100106a1a11045?001007a40335?00011符号编码表符号编码表 a1a2a3a4012300011011例例 题题第二十八页,讲稿共二十八页哦