数据压缩的实用性和必要性.ppt
数据压缩,数据压缩的实用性及必要性,演讲人:鄢航程,压缩饼干,面包,数据压缩流行的原因,人们喜欢积攒数据而不愿丢弃数据,不论多大的存储设备,都会溢出,数据压缩可延缓这一过程 人们喜欢快速的数据传输,讨厌长时间的等待,那些年我们。,那些年我们用到的“压缩”,7456气死我了 886拜拜咯 CUsee you PS顺带说一下 _宝宝很生气 我伙呆我和我的小伙伴都惊呆了 喜大普奔喜闻乐见,大快人心,普天同庆,奔走相告,什么是数据压缩?,数据压缩是指在不丢失有用信息的前提下,缩减数据量以减少存储空间,提高其传输、存储和处理效率,或按照一定的算法对数据进行重新组织,减少数据的冗余和存储的空间的一种技术方法。数据压缩包括有损压缩和无损压缩。,原始数据,压缩处理,压缩数据,数据压缩能实现的条件,(1)信息集包含冗余信息,(2)数据中间尤其是相邻数据之间存在相关性,(3)人的感官能力有限,一份计算机文件中,某些字符重复出现,或在特定位置可预见性出现,这边是冗余部分,图片颜色变化,视频两帧差别,音频波动周期,人的感官对时间变化,幅度变化,程度变化等识别能力有限,数据压缩的好处,时间域压缩迅速传输媒体信号 频率域压缩并行开通更多业务 空间域压缩降低存储费用 能量域压缩降低发射频率,为什么要进行数据压缩?,1.原始采样的静态和视频图象的数据量巨大 多媒体信息包括了文本、数据、声音、动画、图形、图像以及视频等多种媒体信息。经过数字化处理后其数据量非常大,如果不进行数据压缩处理,计算机系统就无法对它进行存储和交换。 2.有效利用存储器存储容量 CDROM单片容量为650MB840MB DVDROM或者其它光存储技术单片容量可达816GB 但是都几乎很难以非压缩格式容纳一部完整的商业影片,为什么要进行数据压缩?,3.提高通信线路的传输效率 目前,局域网、internet的访问速度都不可能以非压缩格式实时传输和播放视频节目。 多媒体的大数据量不仅超出了计算机的存储和处理能力,更是当前通信信道的传输速率所不及的。因此,为了存储、处理和传输这些数据,必须进行压缩。,为什么要进行数据压缩?,4.消除计算机系统处理视频I/O瓶颈 PCI总线频率为3366MHz,传输速率是133266MB/s 目前CDROM接口传输率为40150KB/s=6MB/s PC硬盘接口(UDMA)传输率为(cache到总线)3366MB/s 但是就总线频率和外存储器的寻道性能来说,很难以非压缩格式实时地将视频节目从CDROM或者硬盘中持续传送到显示子系统。,数据压缩的原理,数据压缩有不同的方法,他们基于不同的理念,适合不同的数据类型,产生不同的压缩效果。但是原理都相同,即通过去除源文件的原始数据的冗余度来压缩数据。,话题重点:冗余,什么是冗余? 相同或者相似信息的重复 可以在空间范围重复,也可以在时间范围重复 可以是严格重复,也可以是以某种相似性重复 分为统计冗余和心理视觉冗余两大类 它们为数据压缩技术的应用提供了可能的条件。因此在多媒体系统中必须采用数据压缩技术,它是多媒体技术中一项十分关键的技术。,话题重点:冗余,1.空间冗余 静态图象中存在的最主要的一种数据冗余 同一景物表面上采样点的颜色之间往往存在着空间连贯性 但是基于离散象素采样来表示物体颜色的方式通常没有利用这种连贯性 例如:图象中有一片连续的区域,其象素为相同的颜色,空间冗余产生,话题重点:冗余,2.时间冗余 运动图象中经常包含的冗余 一组连续的画面之间往往存在着时间和空间的相关性 但是基于离散时间采样来表示运动图象的方式通常没有利用这种连贯性 例如:房间里的两个人在聊天,在这个聊天的过程中,背景(房间和家具)一直是相同的,同时也没有移动,而且是同样的两个人在聊天,只有动作和位置的变化。,话题重点:冗余,3.结构冗余 在某些场景中,存在着明显的图象分布模式,这种分布模式称作结构 图象中重复出现或相近的纹理结构 结构可以通过特定的过程来生成 例如:方格状的地板,蜂窝,砖墙等,话题重点:冗余,4.知识冗余 有些图象的理解与某些知识有相当大的 相关性 这类规律性的结构可以由先验知识和背 景知识得到 例如:人脸的图象有固定的结构,嘴的 上方是鼻子,鼻子的上方是眼睛,鼻子位于正脸图象的中线上 知识冗余是模型编码的基础,话题重点:冗余,5.视觉冗余 人类的视觉系统对图象场的敏感性是非均匀和非线性的 对亮度变化敏感,而对色度的变化相对不敏感 在高亮度区,人眼对亮度变化敏感度下降 对物体边缘敏感,内部区域相对不敏感 对整体结构敏感,而对内部细节相对不敏感 可以根据这些视觉特性对图象信息进行取舍,话题重点:冗余,6.图像区域的相同性冗余 图象中的两个或者多个区域所对应的所有象素值相同或者相近,从而产生数据重复性存储。 这种冗余是矢量量化的基础,话题重点:冗余,7.纹理的统计冗余 有些图象纹理尽管不严格服从某个分布规律,但是在统计意义上服从这种规律 在统计意义上的重复,压缩技术的衡量标准,压缩比要大 恢复后失真小 压缩算法简单快速 压缩能否用硬件实现,压缩技术分类,通用数据压缩(均为无损压缩),多媒体数据压缩(无损和有损压缩),基于统计模型 的压缩技术,基于字典模型 的压缩技术,图像压缩,音频和视频压缩等,Huffman 编码,算术 编码,LZ77,LZ78,LZW,二值图像 CCITT JBIG等,彩色图像 RLE编码 JPEG等,矢量图像 PostScript WFM CAD等,灰度图像 FELICS JPEG等,三种压缩类型,无损压缩 是指压缩后的数据进行重构(还原,解压缩),重构的数据与原来的数据完全相同;用于要求重构信号与原始信号完全一致的场合 有损压缩 是指压缩后的数据进行重构(还原,解压缩),重构的数据与原来的数据有所不同,但不会引起人对原始资料的误解;用于不一定非要与原始信号完全一致的场合,三种压缩类型,3.混合压缩 是被广泛采用的方法,它吸收了各种无损压缩和有损压缩方法的长处,以求在压缩比,压缩效率及保真度之间取得最佳平衡,如静止图像压缩标准JPEG和活动图像压缩标准MPEG就是采用了混合编码的压缩方法。,通信系统模型,信源,信源 编码,信道编码,信道,信道译码,信源 译码,信宿,压缩技术的应用,人工智能(专家系统,知识树),编译(JAVA),程序设计(算法/空间/时间效率),全文索引(倒排索引表),密码学(消除数据的原始特征性),文件系统 (压缩扇区),数据库(B+树),归档(RAR/ZIP),音频(MP3),视频(MPEG/RM),存储(压缩池),图像(GIF/JPEG),电报传真(CCITT),通讯(Modem/网络协议),实现实例,DEFLATE(LZ77与哈夫曼编码的组合) ZIP、gzip、zlib与PN文件在使用 LZMA:7-Zip与StuffitX使用 LZO(非常快速的LZ变体,针对速度要求) Unix compress工具(.Z文件格式)、以及GIF使用LZW bzip2(Burrows-Wheeler变换与哈夫曼编码的组合) PAQ(一种基于context mixing的超高压缩率的算法,但是极度缓慢,是最高压缩比竞争中的佼佼者。) JPEG(使用离散余弦变换、量化、哈夫曼编码的图像压缩) MPEG(广泛使用的音频及视频压缩标准族,视频压缩使用离散余弦变换以及运动补偿预测) MP3(MPEG-1标准中用于声音及音乐压缩的部分,使用子带、MDCT、感知模型、量化以及哈夫曼编码) WMA(WMV音频编码规范中的一部分,使用MDCT、感知模型、低比特率量化、量化以及哈夫曼编码) Vorbis(类似于AAC的基于DCT的音频编解码,为了避免专利问题而设计) JPEG 2000(使用小波、量化、熵编码的图像压缩) TTA(使用线性预测编码,用于无损音频压缩) FLAC(用于无损音频压缩的线性预测编码),演讲结束谢谢观看,