2022年多媒体数据压缩算法研究报告与实现.docx
《2022年多媒体数据压缩算法研究报告与实现.docx》由会员分享,可在线阅读,更多相关《2022年多媒体数据压缩算法研究报告与实现.docx(20页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精品学习资源多媒体数据压缩算法讨论与实现摘要:多媒体数据压缩技术是实现实时有效地处理、传输和储备巨大的多媒体数据的关键技术;很多应用领域对多媒体信息的实时压缩提出了更高的要求,快速、高效的压缩算法是解决这一问题的关键;针对多媒体数据在空间、时间、结构、视觉、学问等方面所产生的冗余, 利用有损压缩和无损压缩等方法,对图像、音频、视频等多媒体数据进行压缩,以保留尽可能少的有用信息;本文主要是把所学的数据结构和算法设计的学问应用于实践,对目前普遍采纳的多媒体数据及其压缩算法加以讨论,同时介绍了数据压缩所采纳的分类、方法及其标准, 并分析每种算法的优缺点,并据此挑选设计一种多媒体数据的无损压缩算法;并
2、以实例加以说明;关键词:多媒体;压缩;哈夫曼编码 .1. 多媒体数据类型1.1 文字在现实世界中,文字是人与运算机之间进行信息交换的主要媒体;文字主要包括西文与中文;在运算机中,文字用二进制编码表示,即使用不同的二进制编码来代表不同的文字;1.2 音频音频 Audio )指的是 20HZ20kHz 的频率范畴,但实际上“音频”常常被作为“音频信号”或“声音”的同义语,是属于听觉类媒体,主要分为波形声音、语音和音乐;1.3 视频媒体能够利用视觉传递信息的媒体都是视频媒体;位图图像、矢量图像等都是视频媒体;1.4 动画动画是指运动的画面,动画在多媒体中是一种特别有用的信息交换工具;动画之所以成为可
3、能,是由于人类的“视觉暂留”的生理现象;用运算机实现的动画有两种,一种是帧动画,另一种是造型动画;2. 数据压缩基本原理2.1 信息、数据和编码数据是用来记录和传送信息,或者说数据是信息的载体;真正有用的不是数据本身, 而是数据所携带的信息;数据压缩的理论基础是信息论;数据压缩技术是建立在信息论的基础之上的;数据压缩的理论极限是信息熵;而信息熵有两个基本概念作铺垫,这两个基本概念就是信息、信息量;第一第一个概念“信息”;1. 信息信息是用不确定的量度定义的,也就是说信息被假设为由一系列的随机变量所代表, 它们往往用随机显现的符号来表示;我们称输出这些符号的源为“信源”;也就是要进行讨论与压缩的
4、对象;应当懂得这个概念中的“不确定性”、“随机”性、“度量”性,也就是说当你收到一条消息之前,某一大事处于不确定的状态中,当你收到消息后,去除不确定性,从而获得信息,因此去除不确定性的多少就成为信息的度量;比如:你在考试过后,没收到考试成果 考试成果通知为消息)之前,你不知道你的考试成果是否及格,那么你就处于一个不确定的状态;当你收到成果通知消息)是“及格”,此时,你就去除了“不及格”不确定状态,占 50%),你得到了消息“及格”;一个消息的可能性愈小,其信息含量愈大;反之,消息的可能性愈大,其信息含量愈小;欢迎下载精品学习资源2. 信息量指从 N个相等的可能大事中选出一个大事所需要的信息度量
5、和含量;也可以说是辨别N个大事中特定大事所需提问“是”或“否”的最小次数;例如: 从 64 个数 164 的整数)中选定某一个数采纳折半查找算法),提问:“是否大于 32?”,就不论回答是与否,都消去半数的可能大事,如此下去,只要问6 次这类问题,就可以从 64 个数中选定一个数,就所需的信息量是6 ,假定任选一个数的概率都相等,即Px=1/N ,就信息量 Ix 可定义为:上式可随对数所用“底”的不同而取不同的值,因而其单位也就不同;设底取大于 1 的整数 ,考虑一般物理器件的二态性,通常 取 2,相应的信息量单位为比特 bit );当 =e,相应的信息量单位为奈特 Nat);当 =10,相应
6、的信息量单位为哈特 大时,算出的Ix 小,那么这个大事发生的可能性大,不确定性小,大事一旦发生后供应的信息量也少;必定大事的Px 等于 1, Ix 等于 0,所以必定大事的消息报导,不含任何信息量;但是一件人们都没有估量到的大事 微小),一旦发生后,Ix 大,包含的信息量很大;所以随机大事的先验概率, 与大事发生后所产生的信息量,有亲密关系;Ix 称 x 发生后的自信息量,它也是一个随机变量;现在可以给“熵”下个定义了;信息量运算的是一个信源的某一个大事 ;3. 信息熵信源 X 发出的 x j j=1,2, n,共 n 个随机大事的自信息统计平均,即求数学期望HX在信息论中称为信源X 的“熵”
7、 Entropy,它的含义是信源X 发出任意一个随机变量的平均信息量;更具体的说,一般在说明和懂得信息熵时,有4 种样式:是不确定性的度量;2)当处于大事发生之时,是一种诧异性的度量;3)当处于大事发生之后,是获得信息的度量;=Px2=Px3 Px8=1/8 ,运算信源X 的熵;应用“熵”的定义可得其平均信息量为3 比特:香农信息论认为:信源所含有的平均信息量 空间冗余; 这是图像数据常常存在的一种冗余;在同一幅图像中,规章物体和规章背景的表面特性具有相关性,这些相关性的光成像结构在数字化图像中就表现为数据冗余;2 时间冗余; 时间冗余在图像序列中就是相邻帧图像之间有较大相关性,一帧图像中的某
8、物体或场景可以由其他帧图像中的物体或场景重构出来,音频的一个连续的渐变过程 中,也存在同样的时间冗余;3 信息熵冗余; 信源编码时,当安排给某个码元素的比特数使编码后单位数据量等于其信源熵,即达到其压缩极限;但实际中各码元素的先验概率很难预知,比特安排不能达到正确,实际的单位数据量大于信源熵时,便存在信息熵冗余;4 视觉冗余; 人眼对于图像场的留意是非匀称的,人眼并不能觉察图像场的全部变68化;事实上人类视觉的一般辨论率为2 灰度等级,而一般图像的量化采纳的是2 灰度等级,即存在着视觉冗余;5 听觉冗余; 人耳对不同频率的声音的敏锐性是不同的,并不能察觉全部频率的变化,对某些频率不必特殊关注,
9、因此存在听觉冗余;6 结构冗余; 图像一般都有特别强的纹理结构;如草席图像,纹理一般都是比较有规律的结构,因此在结构上存在冗余;7 学问冗余; 图像的懂得与某些基础学问有很大的相关性;例如,人脸的图像有同样的结构:嘴的上方有鼻子,鼻子上方有眼睛,鼻子在正脸图像的中线上等;这些规律性可 由某些基础学问得到,此类冗余为学问冗余;8 其他冗余; 多媒体数据除了上述冗余类型外,仍存在其他一些冗余类型,如由图像非定常特性所产生的冗余等;3. 数据压缩标准数据压缩是多媒体通信中的核心技术之一, 数据压缩讨论中应留意的问题是,第一,编码方法必需能用运算机或硬件电路高速实现;其次,要符合当前的国际标准;为此,
10、 国际上制定了很多与之相关的数据压缩标准, 主要可分为三类 : 音频压缩标准 , 二值和静止图像压缩标准, 以及视频压缩标准;欢迎下载精品学习资源3.1 音频数据的压缩标准音频信号是多媒体信息的重要组成部分;音频信号可以分为电话音频信号、调幅广播音频信号和高保真的立体声音信号;前两种单频信号的压缩技术比较成熟, 例如,ADPCM、 CELP和子带编码等;国际电报电话询问委员会CCITT )和国际标准化组织 已为这两种音频信号的压缩编码制定了一些国际标准;1.G. 711标准1972年CCITT 现更名为 ITU2T为电话质量和语音压缩制定了PCM标准 G.711;其速率为64kbit/s,使用
11、非线性量化技术 , 其质量相当于 12比特线性量化;2.G. 721标准1984年CCITT制定了 G.721标准 , 使用自适应差分 PCM编码 ADPCM,其速率 32kbit/s; ADPCM是一种对中等质量音频信号进行高效编码的有效算法之一, 它不仅适用于语音压缩, 而且也适用于调幅广播质量的音频压缩和CD2I音频压缩等应用;3.G. 722标准1988年CCITT为调幅广播质量的音频信号压缩制定了G.722标准 , 它使用子带编码方案 , 用滤波器将输入信号分成高低两个子带信号, 然后分别使用 ADPCM进行编码 , 经复用后形成输出码流; G.722标准也供应数据插入功能, 这样音
12、频码流与所插入的数据一起形成比特流;G.722能将 224kbit/s的调幅广播质量的音频信号压缩为64kbit/s,主要用于视听多媒体和会议电视等;4.G. 728标准为了进一步降低语音压缩的速率,1991 年CCITT制定了 G.728标准 , 使用基于短延时码本鼓励线性猜测编码 LD2CELP算法 , 其速率为 16kbit/s,其质量与 32kbit/s的G.721标准相当;5. MPEG21音频编码MPEG2音1 频编码是国际上制定的第一个高保真立体声音频编码标准ISO1117223 ;通过对 14 种音频编码方案的比较测试, 最终选定了以MUSICAMMaskingPatternU
13、niversalSubbandIntegratedCodingAndMultiplexing为基础的三层编码结构;依据不同的应用要求, 使用不同的层来构成其音频编码器;在MPEG2中1 音频编码的 1、2层称之为 MUSICAM;MUSICAM使用了以下技术 : 子带滤波器先将输入的数字音频信号分成 32个子带;在每个子带中 , 确定一段信号中的最大电平, 由此得到比例因子这一编码参数;由于比例因子的相对变化很小, 因此采纳差分熵编码方法;依据人耳的掩蔽效应确定掩蔽门限 , 据此自适应地安排比特, 以达到高效压缩音频数据;最终, 将音频压缩数据、比例因子和比特安排信息按帧结构组合在一起, 形成
14、音频比特流;6. MPEG22音频编码在MPEG2音1 频编码中 ,MUSICAM只能传送左右两个声道;为此,MPEG扩展了低码率多声道编码 , 将多声道扩展信息加到MPEG2音1 频数据帧结构的帮助数据段 其长度没有限制 中;这样可将声道数扩展至 5.1, 即3个前声道 左L、中 C和右 R、2个围绕声 左LS、右 RS和1个超低音声道 LFE常称之为 0.1 ;由此 , 形成了 MPEG2音2 频编码标准 SO1381823;MPEG2音2 频编欢迎下载精品学习资源码能传送多路声音 , 并能确保比特流与MPEG2前1 7.AC23系统向和后向兼容;欢迎下载精品学习资源AC23系统是 Dol
15、by 公司开发的新一代高保真立体声音频编码系统, 它继承了 AC22系统的很多优点 例如 , 变换编码、自适应量化和比特安排、人耳的听觉特性等, 并采纳了一些新的技术 例如 , 指数编码、混合前/ 后向自适应比特安排和耦合技术等;AC23系统的总体性能要优于目前的 MPEG2音2 频算法 称之为 MUSICAM围绕声 ;欢迎下载精品学习资源3.2 二值图象压缩标准二值图像是指只有黑、白两个亮度值的图像, 例如由文字组成的图像、地图、线路图等;灰度图像经过比特平面分解或抖动处理后也能变为二值图像;二值图像编码最常用、最典型的例子是传真;为此,CCITT 先后制定了 G3和G4标准 , 其中 ,G
16、3使用 MR 编码算法;而 G4是G3的改进型 , 使用 MMR算法;目前 , 这两种二值图像压缩标准广泛地应用于传真通信和文档储备领域;另一个正在进展的二值图像压缩标准是JBIG,JBIG 是二值图像专家组的缩写;JBIG可望成为新一代二值图像和低像素精度图像的无失真压缩标准;虽然已有了优秀的 MMRG标4准 , 但仍是要制定 JBIG,其主要缘由是改进二值中间色调图像的压缩性能;由于二值中间色调图像与二值文字图像具有特别不同的统计特性;而G3/G4不适应于中间色调图像, 当G3/G4压缩这类图像时 , 不仅得不到压缩 , 反而有可能扩展数据量, 而使用 JBIG标准可获得约8:1 的压缩;
17、它使用了与 JPEG标准相同的算术编码方法, 其压缩效率要比目前的传真标准 G3/G4高得多;值得指出的是, JBIG 标准虽然是针对二值图像的,但它也可以对包括灰度值 的黑白图像或彩色图像进行编码;3.3 静止图象压缩标准ISO和CCITT于 1986年底成立了“联合图片专家组”, 简称为 JPEG,讨论连续色调静止图像压缩的国际标准;从1988年至 1990 年, JPEG 进行了大量的改进工作后, 于 1991年4月形成了ISOCD10918号标准草案; JPEG标准草案 DIS 包括两部分 , 一部分为要求和指标 , 描述连续色调静止图像编码和解码过程的要求和要实现的指标, 以及用于应
18、用间交换压缩图像数据的编码表示 即交换格式 ;这些过程和表示是通用的, 可适用于很广的应用范畴, 例如通信和运算机系统中的彩色和灰度图像编码;另一部分描述如何确定部分1所定义的各种编码和解码过程的一样性;3.4 视频压缩标准视频是多媒体通信中最重要的媒体之一;一方面视频媒体能给人以“百闻不如一见”的感受 ,与话音相比 , 视频可以说是一种高级媒体, 能给人带来高级的视觉享受;另一方面由于视频的信息量特别大 特殊是数字化后 , 按质量划分 , 视频可大致分为以下三类:低质量视频 , 画面较小 , 通常为 QCIF 或CIF格式 , 帧速率低 , 通常为 5 10帧/ 秒, 既可为黑白视频也可为彩
19、色视频;其典型的应用包括电视电话和会议电视;中等质量的视频, 中等大小的画面 , 通常为 CIF 或CCIR 601 视频格式;帧速率为 25 30帧/ 秒, 多为彩色视频;其典型应用有CD和数字音频磁带等数字储备媒体;高质量视频 , 其画面较大 , 通常为 CCIR 601视频格式至高清楚度电视视频格式;帧速率 25 帧/ 秒, 高质量的彩色图像;其典型应用包括广播质量的一般数字电视和高清楚度电视等;针对上述三种视频, 国际上制定了相应的视频压缩标准:H.261 、MPEG21和MPEG2;2 值得一提的是 1992年成立了一个专家组来制定特别低码率 kbit/s级的视频标准 MPEG2;4
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022 多媒体 数据压缩 算法 研究 报告 实现
限制150内