信息论基础-数据压缩.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《信息论基础-数据压缩.ppt》由会员分享,可在线阅读,更多相关《信息论基础-数据压缩.ppt(99页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第3章章数据压缩和信源编码数据压缩和信源编码最优码的实际构造!最优码的实际构造!1数据压缩数据压缩“数据压缩数据压缩”在汉英词典中的解释:在汉英词典中的解释:datacompression(Amethodofreducingtheamountofmemoryrequiredtostoredatabyencodingitandminimizingredundancy.Compresseddatatakeslesstimetotransmit,butmorecomputationtimetorestoreittoitsoriginalformwhenneededforprocessing.)2数
2、据压缩数据压缩-作用作用通俗地说,就是用最少的数码来表示信号。通俗地说,就是用最少的数码来表示信号。其作用是:能较快地传输各种信号,如传真、其作用是:能较快地传输各种信号,如传真、Modem通信等;在现有的通信干线并行开通更多的多媒体业通信等;在现有的通信干线并行开通更多的多媒体业务,如各种增值业务;紧缩数据存储容量,如务,如各种增值业务;紧缩数据存储容量,如CDROM、VCD和和DVD等;降低发信机功率,这对于多等;降低发信机功率,这对于多媒体移动通信系统尤为重要。由此看来,通信时间、媒体移动通信系统尤为重要。由此看来,通信时间、传输带宽、存储空间甚至发射能量,都可能成为数据传输带宽、存储空
3、间甚至发射能量,都可能成为数据压缩的对象。压缩的对象。3数据压缩数据压缩-目的目的一、可以节省空间。一、可以节省空间。二、可以减少对带宽的占用。二、可以减少对带宽的占用。JPEG压缩编码技术的基本原理:JPEG专家组开发了两种基本的压缩算法,一种是采用以离散余弦变换(DCT-DiscreteCosineTransform)为基础的有损压缩算法,另一种是以空间线性预测技术(DPCM)为基础的无损压缩算法。现在应用得较多的是有损压缩算法。JPEG标准只处理单帧图像,而不必顾及到前后左右帧,将每帧图像作为基础进行处理,利用了空间压缩编码原理。4数据压缩数据压缩-目的目的一、可以节省空间。一、可以节省
4、空间。二、可以减少对带宽二、可以减少对带宽的占用。的占用。MPEG编码技术的基本原理:MPEG数字视频编码技术实质上是一种统计方法。在时间和空间方向上,视频列通常包含统计冗余度。MPEG压缩技术所依赖的基本统计特性为像素之间(interpel)的相关性,这里包含这样一个设想:即在各连续帧之间存在简单的相关性平移运动。5数据压缩数据压缩-类型类型有损压缩和无损压缩(有损压缩和无损压缩(图片格式图片格式)有损压缩有损压缩可以减少图像在内存和磁盘中占用的空间,在屏幕上观看图像时,不会发现它对图像的外观产生太大的不利影响。因为人的眼睛对光线比较敏感,光线对景物的作用比颜色的作用更为重要,这就是有损压缩
5、技术的基本依据。有损压缩的特点是保持颜色的逐渐变化,删除图像中颜色的突然变化。生物学中的大量实验证明,人类大脑会利用与附近最接近的颜色来填补所丢失的颜色。6数据压缩数据压缩-类型类型有损压缩和无损压缩(有损压缩和无损压缩(图片格式图片格式)有损压缩例如,对于蓝色天空背景上的一朵白云,有损压缩的方法就是删除图像中景物边缘的某些颜色部分。当在屏幕上看这幅图时,大脑会利用在景物上看到的颜色填补所丢失的颜色部分。利用有损压缩技术,某些数据被有意地删除了,而被取消的数据也不再恢复。无可否认,利用有损压缩技术可以大大地压缩文件的数据,但是会影响图像质量。如果使用了有损压缩的图像仅在屏幕上显示,可能对图像质
6、量影响不太大,至少对于人类眼睛的识别程度来说区别不大。可是,如果要把一幅经过有损压缩技术处理的图像用高分辨率打印机打印出来,那么图像质量就会有明显的受损痕迹。7数据压缩数据压缩-类型类型有损压缩和无损压缩(有损压缩和无损压缩(图片格式图片格式)无损压缩无损压缩的基本原理是相同的颜色信息只需保存一次。压缩图像的软件首先会确定图像中哪些区域是相同的,哪些是不同的。包括了重复数据的图像(如蓝天)就可以被压缩,只有蓝天的起始点和终结点需要被记录下来。但是蓝色可能还会有不同的深浅,天空有时也可能被树木、山峰或其他的对象掩盖,这些就需要另外记录。从本质上看,无损压缩的方法可以删除一些重复数据,大大减少要在
7、磁盘上保存的图像尺寸。8数据压缩数据压缩-类型类型有损压缩和无损压缩(有损压缩和无损压缩(图片格式图片格式)无损压缩但是,无损压缩的方法并不能减少图像的内存占用量,这是因为,当从磁盘上读取图像时,软件又会把丢失的像素用适当的颜色信息填充进来。如果要减少图像占用内存的容量,就必须使用有损压缩方法。无损压缩方法的优点是能够比较好地保存图像的质量,但是相对来说这种方法的压缩率比较低。但是,如果需要把图像用高分辨率的打印机打印出来,最好还是使用无损压缩几乎所有的图像文件都采用各自简化的格式名作为文件扩展名。从扩展名就可知道这幅图像是按什么格式存储的,应该用什么样的软件去读写等等。9数据压缩数据压缩-概
8、要概要在计算机科学和信息论中,数据压缩或者信源编码在计算机科学和信息论中,数据压缩或者信源编码是按照特定的编码机制用比未经编码少的数据位元是按照特定的编码机制用比未经编码少的数据位元(或者其它信息相关的单位)表示信息的过程。例(或者其它信息相关的单位)表示信息的过程。例如,如果我们将如,如果我们将“compression”编码为编码为“comp”那那么这么这篇文章可以用较少的数据位表示。一种流行的压缩篇文章可以用较少的数据位表示。一种流行的压缩实例是许多计算机都在使用的实例是许多计算机都在使用的ZIP文件格式,它不仅文件格式,它不仅仅提供了压缩的功能,而且还作为归档工具仅提供了压缩的功能,而且
9、还作为归档工具Archiver)使用,能够将许多文件存储到同一个文件中。使用,能够将许多文件存储到同一个文件中。10数据压缩数据压缩-概要概要对于任何形式的通信来说,只有当信息的发送对于任何形式的通信来说,只有当信息的发送方和接受方都能够理解编码机制的时候压缩数据通方和接受方都能够理解编码机制的时候压缩数据通信才能够工作。例如,只有当接受方知道这篇文章信才能够工作。例如,只有当接受方知道这篇文章需要用英语字符解释的时候这篇文章才有意义。同需要用英语字符解释的时候这篇文章才有意义。同样,只有当接受方知道编码方法的时候他才能够理样,只有当接受方知道编码方法的时候他才能够理解压缩数据。一些压缩算法利
10、用了这个特性,在压解压缩数据。一些压缩算法利用了这个特性,在压缩过程中对数据进行加密,例如利用密码加密,以缩过程中对数据进行加密,例如利用密码加密,以保证只有得到授权的一方才能正确地得到数据。保证只有得到授权的一方才能正确地得到数据。11数据压缩数据压缩-概要概要数据压缩能够实现是因为多数现实世界的数据都有统计数据压缩能够实现是因为多数现实世界的数据都有统计冗余。例如,字母冗余。例如,字母“e”在英语中比字母在英语中比字母“z”更加常用,字更加常用,字母母“q”后面是后面是“z”的可能性非常小。无损压缩算法通常利用利用了的可能性非常小。无损压缩算法通常利用利用了统统计冗余,这样就能更加简练地、
11、但仍然是完整地表示发送方计冗余,这样就能更加简练地、但仍然是完整地表示发送方的数据。的数据。如果允许一定程度的保真度损失,那么还可以实现进一如果允许一定程度的保真度损失,那么还可以实现进一步的压缩。例如,人们看图画或者电视画面的时候可能并不步的压缩。例如,人们看图画或者电视画面的时候可能并不会注意到一些细节并不完善。同样,两个音频录音采样序列会注意到一些细节并不完善。同样,两个音频录音采样序列可能听起来一样,但实际上并不完全一样。有损压缩算法在可能听起来一样,但实际上并不完全一样。有损压缩算法在带来微小差别的情况下使用较少的位数表示图像、视频或者带来微小差别的情况下使用较少的位数表示图像、视频
12、或者音频。音频。12数据压缩数据压缩-概要概要由于可以帮助减少如硬盘空间与连接带宽这样由于可以帮助减少如硬盘空间与连接带宽这样的昂贵资源的消耗,所以压缩非常重要,然而压缩的昂贵资源的消耗,所以压缩非常重要,然而压缩需要消耗信息处理资源,这也可能是费用昂贵的。需要消耗信息处理资源,这也可能是费用昂贵的。所以数据压缩机制的设计需要在压缩能力、失真度、所以数据压缩机制的设计需要在压缩能力、失真度、所需计算资源以及其它需要考虑的不同因素之间进所需计算资源以及其它需要考虑的不同因素之间进行折衷。行折衷。一些机制是可逆的,这样就可以恢复原始的数一些机制是可逆的,这样就可以恢复原始的数据,这种机制称为无损数
13、据压缩;另外一些机制为据,这种机制称为无损数据压缩;另外一些机制为了实现更高的压缩率允许一定程度的数据损失,这了实现更高的压缩率允许一定程度的数据损失,这种机制称为有损数据压缩。种机制称为有损数据压缩。13数据压缩数据压缩-概要概要然而,经常有一些文件不能被无损数据压缩算法然而,经常有一些文件不能被无损数据压缩算法压缩,实际上对于不含可以辨别样式的数据任何压压缩,实际上对于不含可以辨别样式的数据任何压缩算法都不能压缩。试图压缩已经经过压缩的数据缩算法都不能压缩。试图压缩已经经过压缩的数据通常得到的结果实际上是扩展数据,试图压缩经过通常得到的结果实际上是扩展数据,试图压缩经过加密的数据通常也会得
14、到这种结果。加密的数据通常也会得到这种结果。实际上,有损数据压缩也会最终达到不能工作的实际上,有损数据压缩也会最终达到不能工作的地步。我们来举一个极端的例子,压缩算法每次去地步。我们来举一个极端的例子,压缩算法每次去掉文件最后一个字节,那么经过这个算法不断的压掉文件最后一个字节,那么经过这个算法不断的压缩直至文件变空,压缩算法将不能继续工作。缩直至文件变空,压缩算法将不能继续工作。14数据压缩数据压缩-应用应用一种非常简单的压缩方法是行程长度编码,这种一种非常简单的压缩方法是行程长度编码,这种方法使用数据及数据长度这样简单的编码代替同样方法使用数据及数据长度这样简单的编码代替同样的连续数据,这
15、是无损数据压缩的一个实例。这种的连续数据,这是无损数据压缩的一个实例。这种方法经常用于办公计算机以更好地利用磁盘空间、方法经常用于办公计算机以更好地利用磁盘空间、或者更好地利用计算机网络中的带宽。对于电子表或者更好地利用计算机网络中的带宽。对于电子表格、文本、可执行文件等这样的符号数据来说,无格、文本、可执行文件等这样的符号数据来说,无损是一个非常关键的要求,因为除了一些有限的情损是一个非常关键的要求,因为除了一些有限的情况,大多数情况下即使是一个数据位的变化都是无况,大多数情况下即使是一个数据位的变化都是无法接受的。法接受的。15数据压缩数据压缩-应用应用对于视频和音频数据,只要不损失数据的
16、重要部对于视频和音频数据,只要不损失数据的重要部分一定程度的质量下降是可以接受的。通过利用人分一定程度的质量下降是可以接受的。通过利用人类感知系统的局限,能够大幅度得节约存储空间并类感知系统的局限,能够大幅度得节约存储空间并且得到的结果质量与原始数据质量相比并没有明显且得到的结果质量与原始数据质量相比并没有明显的差别。这些有损数据压缩方法通常需要在压缩速的差别。这些有损数据压缩方法通常需要在压缩速度、压缩数据大小以及质量损失这三者之间进行折衷。度、压缩数据大小以及质量损失这三者之间进行折衷。有损图像压缩用于数码相机中,大幅度地提高了有损图像压缩用于数码相机中,大幅度地提高了存储能力,同时图像质
17、量几乎没有降低。用于存储能力,同时图像质量几乎没有降低。用于DVD的的有损有损MPEG-2编解码视频压缩也实现了类似的功能。编解码视频压缩也实现了类似的功能。16数据压缩数据压缩-应用应用在有损音频压缩中,心理声学的方法用来去除信号在有损音频压缩中,心理声学的方法用来去除信号中听不见或者很难听见的成分。人类语音的压缩经常中听不见或者很难听见的成分。人类语音的压缩经常使用更加专业的技术,因此人们有时也将使用更加专业的技术,因此人们有时也将“语音压缩语音压缩”或者或者“语音编码语音编码”作为一个独立的研究领域与作为一个独立的研究领域与“音频音频压压缩缩”区分开来。不同的音频和语音压缩标准都属于音区
18、分开来。不同的音频和语音压缩标准都属于音频编解码范畴。例如语音压缩用于因特网电话,而音频编解码范畴。例如语音压缩用于因特网电话,而音频压缩被用于频压缩被用于CD翻录并且使用翻录并且使用MP3播放器解码。播放器解码。17数据压缩数据压缩-理论理论压缩的理论基础是信息论(它与算法信息论密切相压缩的理论基础是信息论(它与算法信息论密切相关)以及率失真理论,这个领域的研究工作主要是由关)以及率失真理论,这个领域的研究工作主要是由ClaudeShannon奠定的,他在二十世纪四十年代末奠定的,他在二十世纪四十年代末期及五十年代早期发表了这方面的基础性的论文。期及五十年代早期发表了这方面的基础性的论文。D
19、oyle和和Carlson在在2000年写道数据压缩年写道数据压缩“是所有是所有的的工程领域最简单、最优美的设计理论之一工程领域最简单、最优美的设计理论之一”。密码学。密码学与编码理论也是密切相关的学科,数据压缩的思想与与编码理论也是密切相关的学科,数据压缩的思想与统计推断也有很深的渊源。统计推断也有很深的渊源。18数据压缩数据压缩-理论理论许多无损数据压缩系统都可以看作是四步模型,有许多无损数据压缩系统都可以看作是四步模型,有损数据压缩系统通常包含更多的步骤,例如它包括预损数据压缩系统通常包含更多的步骤,例如它包括预测、频率变换以及量化。测、频率变换以及量化。Lempel-Ziv(LZ)压缩
20、方法是最流行的无损存储算)压缩方法是最流行的无损存储算法之一。法之一。DEFLATE是是LZ的一个变体,它针对解压的一个变体,它针对解压速度与压缩率进行了优化,虽然它的压缩速度可能非速度与压缩率进行了优化,虽然它的压缩速度可能非常缓慢,常缓慢,PKZIP、gzip以及以及PNG都在使用都在使用EFLATE。LZW(Lempel-Ziv-Welch)是)是Unisys的专利,直到的专利,直到2003年年6月专利到期限,这种方法用于月专利到期限,这种方法用于GIF图像。图像。19数据压缩数据压缩-理论理论另外值得一提的是另外值得一提的是LZR(LZ-Renau)方法,它是方法,它是Zip方法的基础
21、。方法的基础。LZR方法使用基于表格的压缩模方法使用基于表格的压缩模型,其中表格中的条目用重复的数据串替换。对于大型,其中表格中的条目用重复的数据串替换。对于大多数的多数的LZ方法来说,这个表格是从最初的输入数据方法来说,这个表格是从最初的输入数据动态生成的。这个表格经常采用霍夫曼编码维护(例动态生成的。这个表格经常采用霍夫曼编码维护(例如,如,SHRI、LZX)。)。目前一个性能良好基于目前一个性能良好基于LZ的的编码机制是编码机制是LZX,它用于微软公司的,它用于微软公司的CAB格式。格式。20数据压缩数据压缩-理论理论最好的压缩工具将概率模型预测结果用于算术编码。最好的压缩工具将概率模型
22、预测结果用于算术编码。算术编码由算术编码由JormaRissanen发明,并且由发明,并且由Witten、Neal以及以及Cleary将它转变成一个实用的方法。这种将它转变成一个实用的方法。这种方法能够实现比众人皆知的哈夫曼算法更好的压缩,方法能够实现比众人皆知的哈夫曼算法更好的压缩,并且它本身非常适合于自适应数据压缩,自适应数据并且它本身非常适合于自适应数据压缩,自适应数据压缩的预测与上下文密切相关。算术编码已经用于二压缩的预测与上下文密切相关。算术编码已经用于二值图像压缩标准值图像压缩标准JBIG、文档压缩标准、文档压缩标准DejaVu。文本。文本输入系统输入系统Dasher是一个逆算术编
23、码器。是一个逆算术编码器。有效输入信息文本的界面有效输入信息文本的界面21数据压缩和信源编码数据压缩和信源编码3.1等长码等长码3.2变长编码变长编码3.3哈夫曼码哈夫曼码3.4算术码算术码香农香农-费诺码费诺码3.5通用信源编码通用信源编码LZW算法算法习题三习题三22数据压缩和信源编码数据压缩和信源编码信源编码定理信源编码定理(定理)(定理)设设X1,X2为无记忆信源,服从共同分为无记忆信源,服从共同分布布p(x),则,则当码率当码率时,存在码率为时,存在码率为R的的编码,使得当编码,使得当n时时,误误差差码码率率Pe0.最优码的存在性最优码的存在性23数据压缩和信源编码数据压缩和信源编码
24、将信道编码和译码看成是信道的一部分,而突出信源编码;24数据压缩和信源编码数据压缩和信源编码通过信源编码,用尽可能少的信道符号来表达信源,即对信源数据用最有效的表达方式表达,尽可能减少编码后的数据的剩余度;25数据压缩和信源编码数据压缩和信源编码3.1等长码等长码3.2变长编码变长编码3.3哈夫曼码哈夫曼码3.4算术码算术码香农香农-费诺码费诺码3.5通用信源编码通用信源编码LZW算法算法习题三习题三26等长码等长码定义:设为信源字母表,=0,1,D-1为D进码元(码符号)集.映射f:nk (x1,xn)(u1,uk)等长编码;若k不唯一,则为变长编码.映射:k n称为相应的译码;称上述编码为
25、D元码.分分组组码码27等长码等长码定义(续):f(xn)=uk称为码字,k为码长;R=k/nlogD称为f的编码速率,即码率;由f编出的所有码字的集合称为码字集:C=f(xn),xn n 若任一码字只能被唯一译成所对应的信源符号序列,称这类编码为唯一可译码.又称信源的信息率又称信源的信息率-信信源编码后平均每个码元载荷源编码后平均每个码元载荷的最大信息量的最大信息量28等长码等长码1.若进行二元等长编码,则码字长至少为2;从而:熵H(X)=1.75;码率R=k/nlogD=2H(X).29等长码等长码2.若进行二元不等长编码.变长编码的平均码长:L=p(i)l(i)=1.75;熵H(X)=1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息论 基础 数据压缩
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内