第五讲无损数据压缩课件.ppt
《第五讲无损数据压缩课件.ppt》由会员分享,可在线阅读,更多相关《第五讲无损数据压缩课件.ppt(65页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第五讲无损数据压缩第1页,此课件共65页哦压缩编码分类(信息)无损压缩无损压缩指使用压缩后的数据进行重构(或者叫做还原,解压缩),重构后的数据与原来的数据完全相同。无损压缩算法一般压缩比24。常用的无损压缩算法有霍夫曼(Huffman)算法和LZW(Lenpel-Ziv&Welch)压缩算法。有损压缩有损压缩指使用压缩后的数据进行重构,重构后的数据与原来的数据有所不同,但不影响人对原始资料表达的信息造成误解。图像和声音的压缩就可以采用有损压缩,因为其中包含的数据往往多于我们的视觉系统和听觉系统所能接收的信息,丢掉一些数据而不至于对声音或者图像所表达的意思产生误解,但可大大提高压缩比。第2页,此
2、课件共65页哦压缩技术分类通用数据压缩(均为无损压缩)通用数据压缩(均为无损压缩)多媒体数据压缩(无损和有损压缩)多媒体数据压缩(无损和有损压缩)基于统计模型基于统计模型的压缩技术的压缩技术基于字典模型基于字典模型的压缩技术的压缩技术HuffmanHuffman编码编码算术编码算术编码LZ77LZ77LZ78LZ78LZWLZW图像压缩图像压缩音频和视频压缩音频和视频压缩MPEGMPEG等等二值图像二值图像CCITTCCITTJBIGJBIG等等灰度图像灰度图像FELICSFELICSJPEGJPEG等等彩色图像彩色图像RLERLE编码编码JPEGJPEG等等矢量图像矢量图像PostScrip
3、tPostScriptWMFWMFCADCAD等等第3页,此课件共65页哦压缩技术的应用电报、传真(CCITT)通讯(Modem/网络协议)存储(压缩池)文件系统(压缩扇区)图像(GIF/TIFF/JPEG)音频(MP3)视频(MPEG/RM)数据库(B+树)归档(TAR/ZIP)密码学(消除数据的原始特征)全文索引(倒排索引表)编译(JAVA)程序设计(算法/空间和时间效率)人工智能(专家系统/知识树)第4页,此课件共65页哦压缩编码分类(原理)预测编码:PCM,DPCM,DM,LPC统计编码:huffman,shannon,REL,词典编码模型编码变换编码子带编码第5页,此课件共65页哦压
4、缩编码分类(长度)等长编码等长编码ASCII编码编码不等长编码不等长编码编码长度是不等长的编码长度是不等长的常见编码如常见编码如Huffman编码编码第6页,此课件共65页哦等长与不等长编码例如:符号序列x=“aabbccccddddeeeeeeee采用ASCII编码:a=01100001b=01100010c=01100011d=01100100e=01100101空=00100000等长编码:24*8=192bit如用后3位进行编码只需要3*24=72bit压缩比为:压缩比为:第7页,此课件共65页哦等长与不等长编码不等长编码方法字符次数概率码字字长E81/301D41/61003C41/
5、61013空41/61103A21/12 1110 4B21/12 1111 4需要空间:1*8+3*4+3*4+3*4+2*4+2*4=60平均码长平均码长=总位数/字符出现次数=60/24=2.5第8页,此课件共65页哦不等长码唯一性问题字符码1码2码3A000B101001C11011011D1110 01111对序列010110译码码1abc码2daca或ddb或abca第9页,此课件共65页哦压缩技术起源信息压缩技术的起源比计算机的发明早几千年第10页,此课件共65页哦信息论信息存在冗余信息存在冗余通过采用一定通过采用一定的模型和编码方法,的模型和编码方法,可以降低这种冗余度可以降低
6、这种冗余度贝尔实验室的ClaudeShannon和MIT的R.M.Fano几乎同时提出了最早的对符号进行有效编码从而实现数据压缩的Shannon-Fano编码方法。第11页,此课件共65页哦D.A.Huffman1952年发表论文:“最小冗余度代码的构造方法”A Method for the Construction of Minimum Redundancy CodesUNIX系统上一个不太为现代人熟知的压缩程序COMPACT就是Huffman0阶自适应编码的具体实现80年代初,Huffman编码又在CP/M和DOS系统中实现,其代表程序叫SQHuffman时代:时代:60 年代、年代、70
7、 年代乃至年代乃至 80 年代的早期年代的早期第12页,此课件共65页哦接近极限熵80年代早期,数学家们设计出算术编码方法(ArithmeticCoding)可以证明,算术编码得到的压缩效果可以最大地减小信息的冗余度,用最少量的符号精确表达原始信息内容q但是,在同样的计算机系统上,算术编码虽然可以得到最好的压缩效果,却要消耗也许几十倍的计算时间 算术编码是部分匹配预测(PredicationbyPartialmatching,PPM)技术的变体第13页,此课件共65页哦以色列人Jacob ZivJacob Ziv 和和 Abraham LempelAbraham Lempel1978年发表论文
8、:“通过可变比率编码的独立序列的压缩”Compression of Individual Sequences via Variable-Rate Coding字典编码时代:字典编码时代:LZ77和和LZ78压缩算法压缩算法1977年发表论文:“顺序数据压缩的一个通用算法”A Universal Algorithm for Sequential Data Compression第14页,此课件共65页哦LZW算法Terry Welch Welch实现了LZ78算法的一个变种LZW算法UNIX:使用LZW算法的Compress程序MS-DOS:ARC程序,以及PKWare、PKARC等仿制品。19
9、84年发表论文:“高性能数据压缩技术”A Technique for High-Performance Data Compression 第15页,此课件共65页哦通用数据压缩80年代中期以后,对LZ77算法进行改进HaruyasuYoshizaki(Yoshi)的LHarcRobertJung的ARJ从PKZip到WinZip:通用数据压缩格式标准 ZIPLZ77、LZ78、LZW 一起垄断当今的通用数据压缩领域一起垄断当今的通用数据压缩领域第16页,此课件共65页哦多媒体数据压缩q国际电报电话咨询委员会(CCITT):针对二值图像的一系列压缩标准,如CCITTGroup3、CCITTGro
10、up4等(此外还包括CCITT与ISO共同制订的JBIG标准)。q70年代末80年代初:数学家们提出了损失压缩精度以换取压缩率的损失压缩精度以换取压缩率的崭新思路崭新思路。国际标准化组织(ISO)和CCITT联合组成了两个委员会:静态图像联合专家小组(JPEG)和动态图像联合专家小组(MPEG)。诞生了JPEG、MPEG-1、MPEG-2、MPEG-4、MPEG-7等系列标准。qPostScript矢量图形格式:起源于1976年的Evans&Sutherland计算机公司,当时的名字是DesignSystem。1978年,JohnWarnock和MartinNewel将其演变为JAM语言。19
11、82年,JohnWarnock和ChuckGeschke创建了著名的AdobeSystem公司,第三次设计和实现了这个语言,并称其为PostScript。第17页,此课件共65页哦无损压缩模型使用模型:得到字符或单词在信息中出现的概率静态/半静态模型自适应模型静态字典模型自适应字典模型统计模型字典模型第18页,此课件共65页哦信息熵及基本概念1信息量信息量信息量是指从N个相等的可能事件中选出一个事件所需要的信息度量或含量,也就是在辨识N个事件中特定的一个事件的过程中所需要提问“是或否”的最少次数。设从N个数中选定任一个数xj的概率为p(xj),假定选定任意一个数的概率都相等,即p(xj)1/N
12、,因此定义其信息量为:式中,P(xj)是信源X发出xj的概率。I(xj)的含义是,信源X发出xj这个消息(随机事件)后,接收端收到信息量的量度。第19页,此课件共65页哦信息熵熵熵来源于40年代由ClaudeShannon创立的信息论中的一条定理,这一定理借用了热力学中的名词“熵”(Entropy)来表示一条信息中真正需要编码的信息量。信源S发出的xj(j=1,2,n)共n个随机事件的自信息统计平均,即H(X)称为信源X的“熵”,即信源X发出任意一个随机变量的平均信息量。其中:等概率事件的熵最大,为:当P(x1)1时,P(x2)P(x3)P(xj)0,由(4-6)式得此时熵为由上可得熵的范围为
13、:由上可得熵的范围为:第20页,此课件共65页哦在编码中用熵值来衡量是否为最佳编码。若以Lc表示编码器输出码字的平均码长,则当LcH(S)有冗余,不是最佳。LcH(S)不可能。LcH(S)最佳编码(Lc稍大于H(S))。熵值为平均码长Lc的下限。平均码长Lc的计算公式为:(j=1,2,n)其中:P(xj)是信源X发出xj的概率,L(xj)为xj的编码长。平均码长与熵关系第21页,此课件共65页哦熵的计算范例例:对信息aabbaccbaa,字符串长度为10,字符a、b、c分别出现了5、3、2次,则Ia=-log2(0.5)=1Ib=-log2(0.3)=1.737Ic=-log2(0.2)=2.
14、322H(S)=0.5Ia+0.3Ib+0.2Ic=1.4855如采用等长编码,则每个字符需要位;总的码长:L=5*+3*+2*=位对比一下,我们用ASCII编码表示该信息需要80位第22页,此课件共65页哦统计编码(熵)统计编码是根据消息出现概率的分布特性而进行的压缩编码在消息和码字间找到明确的一一对应关系,以便恢复时能准确无误再现出来第23页,此课件共65页哦技术准备:编码通过模型,我们可以确定对某一个符号该用多少位二进制数进行编码。现在的问题是,如何设计一种编码方案,使其尽量精确地用模型计算出来的位数表示某个符号。前缀编码规则:任何一个符号的编码都不是另一个符号编码的前缀。最简单的前缀编
15、码字符字符编码编码A0B10C110D1110E111101110010101110110111100010 D A B B D C E A A B 第24页,此课件共65页哦技术准备:压缩=模型+编码输入模型编码输出符号概率代码第25页,此课件共65页哦Shannon-Fano编码采用从上到下的方法进行编码。仙农-范诺(Shannon-Fano)算法:首先按照符号出现的频度或概率排序,使用递归方法分成两个部分,每一部分具有近似相同的次数(概率)当概率和为1,进行编码第26页,此课件共65页哦Shannon-Fano编码例有一幅40个象素组成的灰度图像,灰度共有5级,分别用符号A、B、C、D和
16、E表示,40个象素中出现灰度A的象素数有15个,出现灰度B的象素数有7个,出现灰度C的象素数有7个等等。如果用3个位表示5个等级的灰度值,也就是每个象素用3位表示,编码这幅图像总共需要120位。符 号ABCDE出现的次数157765H(S)=(15/40)*(40/15)+(7/40)*(40/7)+(5/40)*(40/5)=2.196这就是说每个符号用2.196位表示,40个象素需用87.84位第27页,此课件共65页哦Shannon-Fano编码例符号出现的次数()分配的代码需要的位数A15(0.375)1.41500030B7(0.175)2.51450114C7(0.175)2.51
17、451014D6(0.150)2.736911018E5(0.125)3.000011115第28页,此课件共65页哦Shannon-Fano编码例例题:例题:cabcedeacacdeddaaabaababaaabbacdebaceada 例子中的信息编码为:例子中的信息编码为:10 00 01 10 111 110 111 00 10 00 10.码长共码长共91位,而使用位,而使用ASCII编码表示上述信息共需要编码表示上述信息共需要240位位a 16b 7c 6d 6e-5 a 16b 7-c 6-d 6e-5 a 00b 01c 10d 110e 111root0010111abcd
18、e0第29页,此课件共65页哦Huffman编码依据信源字符出现的概率大小来构造代码,对出现概率较大的信源字符,给予较短码长,而对于出现概率较小的信源字符,给予较长的码长,最后使得编码的平均码字最短。第30页,此课件共65页哦编码过程编码过程编码过程编码过程 出现频率高的数据编码长度短,反之亦然出现频率高的数据编码长度短,反之亦然出现频率高的数据编码长度短,反之亦然出现频率高的数据编码长度短,反之亦然 1 1 信号源的数据按照出现概率递减的顺序排列信号源的数据按照出现概率递减的顺序排列信号源的数据按照出现概率递减的顺序排列信号源的数据按照出现概率递减的顺序排列 2 2 合并两个最小出现概率,作
19、为新数据出现概率合并两个最小出现概率,作为新数据出现概率合并两个最小出现概率,作为新数据出现概率合并两个最小出现概率,作为新数据出现概率 3 3 重复进行重复进行重复进行重复进行1212,直至概率相加为,直至概率相加为,直至概率相加为,直至概率相加为1 1为止为止为止为止 4 4 合并运算时,概率大者取合并运算时,概率大者取合并运算时,概率大者取合并运算时,概率大者取0 0,概率小者取,概率小者取,概率小者取,概率小者取1 1 5 5 记录概率为记录概率为记录概率为记录概率为1 1处到信号源的处到信号源的处到信号源的处到信号源的0 0、1 1序列序列序列序列编码特点编码特点编码特点编码特点 1
20、 1 编码长度可变,压缩与解压缩较慢编码长度可变,压缩与解压缩较慢编码长度可变,压缩与解压缩较慢编码长度可变,压缩与解压缩较慢 2 2 硬件实现困难硬件实现困难硬件实现困难硬件实现困难 3 3 编码效率取决于信号源的数据出现概率编码效率取决于信号源的数据出现概率编码效率取决于信号源的数据出现概率编码效率取决于信号源的数据出现概率Huffman编码第31页,此课件共65页哦例4-1:设输入图像的灰度级a1,a2,a3,a4,a5,a6出现的概率分别是0.4、0.2、0.12、0.15、0.1、0.03。试进行哈夫曼编码,并计算编码效率、压缩比、冗余度。编码步骤:编码步骤:(1 1)初始化,根据符
21、号概率的大小按由大到)初始化,根据符号概率的大小按由大到小顺序对符号进行排序,如图小顺序对符号进行排序,如图4-24-2所示。所示。(2 2)把概率小的两个符号组成一个节点,如)把概率小的两个符号组成一个节点,如图图4-24-2中的中的a5a5、a6a6组成节点组成节点P1P1。(3 3)重复步骤)重复步骤2 2,得到节点,得到节点P2P2、P3P3、P4P4、P5P5,形成一棵形成一棵“树树”,其中,其中P5P5为根节点。为根节点。(4 4)从根节点)从根节点P5P5开始到相应于每个符号的开始到相应于每个符号的“树叶树叶”,从上到下标上,从上到下标上1 1(上枝)或者(上枝)或者0 0(下枝
22、),(下枝),至于哪个为至于哪个为1 1哪个为哪个为0 0则无关紧要,最后的结果仅则无关紧要,最后的结果仅仅是分配的代码不同,而代码的平均长度是相仅是分配的代码不同,而代码的平均长度是相同的。同的。最终编码结果为:最终编码结果为:a1=1,a2=000,a1=1,a2=000,a3=011,a3=011,a4=001,a5=0100,a4=001,a5=0100,a6=0101a6=0101 第32页,此课件共65页哦由公式可求得图像信源熵是:H(X)=-(0.4log20.4+0.2log20.2+0.12log20.12+0.15log20.15+0.1log20.1+0.03log20.
23、03)=2.25bit根据哈夫曼编码过程图给出的结果,由公式(4-7)可求出它的平均码字长度:Lc=0.41+0.23+0.153+0.123+0.14+0.034=2.33压缩之前8个符号需要3个比特量化,经过压缩之后的平均码字长度为2.33,由公式(4-10)得其压缩比为:第33页,此课件共65页哦Huffman编码例题例题2:cabcedeacacdeddaaabaababaaabbacdebaceada 例子中的信息编码为:例子中的信息编码为:101 0 100 101 111 110 111 0 101 0 101.码长码长88位,比位,比Shannon-Fano编码略短一些编码略短
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第五 无损 数据压缩 课件
限制150内