多媒体数据压缩编码技术PPT讲稿.ppt
《多媒体数据压缩编码技术PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《多媒体数据压缩编码技术PPT讲稿.ppt(81页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、多媒体数据压缩编码技术第1页,共81页,编辑于2022年,星期六多媒体数据压缩编码的重要性 随着计算机技术的高度发展以及通信、计算机和大众传媒三大技术的相互融合,计算机已经不再局限于数值计算、文字处理的范畴,而成为处理图形、图像、视频、音频等多种信息的工具。但数字化后的声音、图像、视频和音频等多媒体数据是非常庞大的。例如:一页在A4(216mm300mm)纸上的照片,以300dpi(12像素/mm)采样,每个像素用24位真彩色信号表示,其数据量约为25MB/页,650MB的CD-ROM只可放14页;双声道立体声光盘,采样率是44.1kHz,采样精度16位,一秒钟数据量是44.1162/8=17
2、6KB/s,一张CD只能存放约1小时的声音。第2页,共81页,编辑于2022年,星期六多媒体数据压缩编码的重要性 对于如此巨大的多媒体数据,如果不经过压缩,不仅超出了计算机的存储和处理能力,而且在现在的通信信道的传输速率下,是无法完成大量多媒体信息的传输的,多媒体数据的高速传输和储藏所需要的巨大容量已经成为多媒体数据通信技术的最大障碍。因此,为了存储、处理和传输这些数据,必须进行压缩。第3页,共81页,编辑于2022年,星期六多媒体数据压缩编码的重要性 多媒体数据之所以能够进行压缩是因为原始数据是高度相关的,存在很大的数据冗余。多媒体数据所包含的冗余信息一般有以下几种:(1)统计冗余。(2)信
3、息熵冗余。(3)结构冗余。(4)知识冗余。(5)视觉冗余。第4页,共81页,编辑于2022年,星期六统计冗余 图像数据存在大量的统计特征的重复,这种重复包括静态单帧图像数据在空间上的冗余和音频、视频数据在时间上的冗余。在动态图像序列中,前后两帧图像之间具有较大的相关性,表现出帧与帧之间的重复,因而存在时间冗余。第5页,共81页,编辑于2022年,星期六信息熵冗余 信息熵定义为一组数据所表示的信息量,即 式中,E为信息熵,N为数据的种类(或称码元)个数,为第i个码元出现的概率。一组数据的数据量显然等于各记录码元的二进制位数(即编码长度)与该码元出现的概率乘积之和,即 式中,D为数据量,为第i个码
4、元的二进制位数。一般取 (如ASCII编码把所有码元都编码为7比特),这样得到的D必然大于E。这种因码元编码长度的不经济带来的冗余称为信息熵冗余或编码冗余。第6页,共81页,编辑于2022年,星期六信息熵冗余图 26个英文字母相对频率第7页,共81页,编辑于2022年,星期六结构冗余 有些图像从大面积上或整体上看存在着重复出现的相同或详尽的纹理结构,例如布纹图像和草席图像,被称为结构冗余。第8页,共81页,编辑于2022年,星期六知识冗余 许多图像的理解与图像所表现内容的基础知识(鲜艳或背景知识)有相当大的相关性,从这种知识出发可以归纳出图像的某种规律性变化,这类冗余称为知识冗余。知识冗余的一
5、个典型例子是对人像的理解,如鼻子上方有眼睛、鼻子又在嘴的上方等。第9页,共81页,编辑于2022年,星期六视觉冗余 人类的视觉系统实际上只在一定程度上对图像的变化产生敏感,即图像数据中存在着大量人类视觉觉察不到的细节。事实上,人类视觉系统的一般分辨率为64灰度级,而一般图像量化采用的是256灰度级,这类冗余称为视觉冗余。第10页,共81页,编辑于2022年,星期六多媒体数据压缩方法的分类 多媒体数据压缩方法有许多种,从不同的角度出发有不同的分类方法。1从信息论角度出发可分为两大类(1)冗余度压缩方法。也称无损压缩、信息保持编码或熵编码。(2)信息量压缩方法。也称有损压缩、失真度编码或熵压缩编码
6、。2按压缩算法分类 现有多媒体数据的压缩编码方案可分为统计编码、预测编码、脉冲编码调制、变换编码、子带编码、分形编码和小波编码等。第11页,共81页,编辑于2022年,星期六评价多媒体数据压缩方法的指标 评价多媒体数据压缩方法有3个主要指标:1压缩比2压缩质量(失真度)3压缩与解压的速度 第12页,共81页,编辑于2022年,星期六压缩比并不是一个绝对的指标压缩比并不是一个绝对的指标将16M色的真彩图像(图A)转变为256色(图B),数据量减少了约3倍,压缩比为1:3.当然这时产生了色彩失真,但如果选择原图的色彩范围定义调色板,色彩失真较小,人眼一般都还能接受.如果把图像深度从8位再压缩到4位
7、,即从256色再压到16色(图C),虽然数据量只减少了2倍,压缩比为1:2,但这时的人眼所看到的色彩失真比第一次大得多,效果很差图像效果 图像类型图A 真彩色图像图B 256色图像图C 16色图像压缩比8/24=1/34/24=1/6第13页,共81页,编辑于2022年,星期六常用的编码方法 根据压缩算法的原理,可以将压缩算法分为如下几类:信息熵编码(主要有行程长度编码、哈夫曼编码和算术编码)、通用编码、预测编码、模型法编码、矢量量化编码、子带编码和混合编码等。第14页,共81页,编辑于2022年,星期六信息熵编码 1行程长度编码行程长度编码(Run-Length Encoding,RLE)又
8、叫游程编码,是压缩文件最简单的方法之一。把一系列的重复值(例如图像象素的灰度值)用一个单独的值再加上一个计数值来取代。比如有这样一个字母序列aabbbccccccccdddddd它的行程长度编码就是2a3b8c6d。很多位图文件格式都用行程长度编码,例如TIFF,PCX、GEM等。第15页,共81页,编辑于2022年,星期六行程长度编码例有一线状图像,其灰度随长度坐标的关系如图3.1所示。描述这个一维图像可以用顺序的七个3bit的二进制数表示:011,011,011,011,101,101,101,共21比特。如果用行程编码方法对其编码,其编码就变成了100,011;011,101,共用了12
9、比特,比前一种编码节约了9个比特。第16页,共81页,编辑于2022年,星期六哈夫曼编码编码步骤如下:(1)统计信源符号出现的概率;(2)将信源符号按概率递减顺序排列;(3)把两个最小的概率值加起来,作为一个新组合符号的概率;(4)重复步骤(2)、(3),直到概率和达到1为止;(5)在每次合并信源时,将合并的信源分别标记“1”和“0”(例如,概率小的标记为“1”,概率大的标记为“0”);(6)寻找从每一信源符号到概率为1的路径,记录下路径上的“1”和“0”;(7)对每一符号写出“1”和“0”序列;第17页,共81页,编辑于2022年,星期六哈夫曼编码的 例子考虑信源进行哈夫曼编码的过程如下:信
10、源符号 X1 X2 X3 X4 X5 X6 概 率 0.25 0.25 0.20 0.15 0.1 0.05第18页,共81页,编辑于2022年,星期六哈夫曼编码的不足 它必须精确地统计出原始文件中每个值的出现频率,如果没有这个精确统计,压缩的效果就会大打折扣,甚至根本达不到压缩的效果。因此哈夫曼编码通常要经过两遍操作,第一遍进行统计,第二遍产生编码,所以编码的过程是比较慢的。另外由于各种长度的编码的译码过程也比较复杂,因此解压缩的过程也比较慢。它对于位的增删比较敏感。第19页,共81页,编辑于2022年,星期六算术编码 算术编码在图像数据压缩标准(如JPEG,JBIG)中扮演了重要的角色。在
11、算术编码中,消息用0到1之间的实数进行编码,算术编码用到两个基本的参数:符号的概率和它的编码间隔。信源符号的概率决定压缩编码的效率,也决定编码过程中信源符号的间隔,而这些间隔包含在0到1之间。编码过程中的间隔决定了符号压缩后的输出。算法举例假设信源符号为00,01,10,11,这些符号的概率分别为 0.1,0.4,0.2,0.3,根据这些概率可把间隔0,1)分成4个子间隔:0,0.1),0.1,0.5),0.5,0.7),0.7,1),二进制消息序列的输入为:10 00 11 00 10 11 01第20页,共81页,编辑于2022年,星期六算术编码第21页,共81页,编辑于2022年,星期六
12、算术编码的主要特点(1)信源符号的出现概率比较接近时,算术编码的效率比哈夫曼编码高。(2)算术编码的实现比哈夫曼编码复杂。算术编码是一种相对比较新的编码,它在许多方面比哈夫曼编码优越;算术编码是按照分数比特逼近熵,而哈夫曼编码是按照整数比特逼近熵;算术编码可以有效地从模型中分离出来,而哈夫曼编码是与统计模型强相关的。第22页,共81页,编辑于2022年,星期六算术编码需要注意的几个问题1.由于实际计算机精度不可能无限长,运算中溢出是明显的问题,但多数机器都有16位、32位或者64位的精度,因此可使用比例缩放法解决。2.算术编码器对消息只产生一个码字,这个码字是在0,1)中的一个实数,因此译码器
13、在接受到表示这个实数的所有位之前不能进行译码。3.算术编码也是一种对错误很敏感的编码方法,如果有一位发生错误就会导致整个消息译错。算术编码可以是静态的或者自适应的。在静态算术编码中,信源符号的概率是固定的。在自适应算术编码中,信源符号的概率根据编码时符号出现的频繁程度动态地进行修改,在编码期间估算信源符号概率的过程叫做建模。需要开发动态算术编码的原因是因为事先知道精确的信源概率是很难的,而且是不切实际的。当压缩消息时,我们不能期待一个算术编码器获得最大的效率,所能做的最有效方法是在编码过程中估算概率。因此动态建模成为确定编码器压缩效率的关键。第23页,共81页,编辑于2022年,星期六词典编码
14、词典编码的思想 第一类词典法的想法是企图查找正在压缩的字符序列是否在以前输入的数据中出现过,然后用已经出现过的字符串替代重复的部分,它的输出仅仅是指向早期出现过的字符串的“指针”。第24页,共81页,编辑于2022年,星期六第二类词典编码 第二类算法的想法是企图从输入的数据中创建一个“短语词典(dictionary of the phrases)”,这种短语可以是任意字符的组合。编码数据过程中当遇到已经在词典中出现的“短语”时,编码器就输出这个词典中的短语的“索引号”,而不是短语本身。第25页,共81页,编辑于2022年,星期六LZW算法的压缩过程 LZW算法在压缩过程中主要处理3种数据:输入
15、流、输出流和一张字符串表。输入流就是原始的字符流(对图像处理而言就是图像数据),输出流则是压缩生成的代码流。LZW压缩程序的任务就是把输入的原始数据转换成比原来短的代码串。第26页,共81页,编辑于2022年,星期六 字符串表是整个算法的核心。LZW算法和其他一些压缩技术的不同之处在于它是动态地标记数据流中出现的重复串。它把压缩过程中遇到的字符串记录在这张庞大的表中,在下一次又碰到这一字符串的时候,就用一个代码来表示它,通过用短代码来表示相对较长的字符串来压缩数据量。其具体压缩流程如右图所示。第27页,共81页,编辑于2022年,星期六LZW算法的解压缩过程 解开一个GIF图像实际上刚好是压缩
16、的一个逆过程。字符流变成了输出流,而代码流变成了输入流。同样,解压缩程序也要生成并维护与压缩时所用的一模一样的串表。解压缩程序从串表中查到输入代码对应的字符串,再将此字符串输出。右图给出了解压缩过程的流程。第28页,共81页,编辑于2022年,星期六预测编码 通常,图像中局部区域的像素是高度相关的,因此可以用先前像素的有关灰度知识来对当前像素的灰度进行估计,这就是预测。如果预测是正确的,则不必对每一个像素的灰度都进行压缩,而是把预测值与实际像素值之间的差值经过熵编码后发送到接收端,接收端通过预测值+差值信号来重建原像素。预测编码可分为线性预测编码和非线性预测编码。前者常被称为差分脉冲编码调制,
17、即DPCM(Differential Pulse Code Modulation)。第29页,共81页,编辑于2022年,星期六DPCM的原理框图(a)DPCM编码框图(b)DPCM译码框图第30页,共81页,编辑于2022年,星期六DPCM编码示例DPCM系统如图所示,预测器的预测值为前一个样值(图中D表示单位延迟)。假设输入信号已经量化,差值不再进行量 化。若DPCM系 统 的 输 入 为0,1,2,1,1,2,3,3,4,4,则编码过程如下:第31页,共81页,编辑于2022年,星期六变换编码 变换编码是进行一种可逆的函数变换(例如离散傅里叶变换),映射变换从一个信号域变换到另一个信号域
18、。在变换到另一个信号域的过程中,只要适当处理,就可以大大减少需要编码的信息,从而达到减化编码过程,实现数据压缩的目的,通常压缩效果很好。第32页,共81页,编辑于2022年,星期六 变换编码原理图 第33页,共81页,编辑于2022年,星期六模型编码 模型编码将图像信号看成三维世界中的目标和景物投影到二维平面的产物,而对这一产物的评价是由人类视觉系统的特性决定的。模型编码的关键是对特定的图像建立模型,并根据这个模型确定图像中景物的特征参数,如运动参数、形状参数等。解码时根据参数和已知模型用图像合成技术重建图像。由于编码的对象是特征参数,而不是原始图原像,因此有可能实现比较大的压缩比。模型编码引
19、入的误差主要是人眼视觉不太敏感的几何失真,因此重建图像非常自然和逼真。1988年召开的首届“64kb/s活动图像编码工作会议”确定了模型编码为新一代的编码方法。第34页,共81页,编辑于2022年,星期六混合编码 以两种或两种以上的方法对图像进行编码称为混合编码,本章后面介绍的JPEG和MPEG都属于混合编码。第35页,共81页,编辑于2022年,星期六多媒体数据压缩的国际标准 音频压缩标准 音频信号是多媒体信息的重要组成部分。目前,业界公认的声音质量标准分为4级,即数字激光唱盘CD-DA质量,其信号带宽为10Hz20kHz;调频广播FM质量,其信号带宽为20Hzl5kHz;调幅广播AM质量,
20、其信号带宽为50Hz7kHz;电话的话音质量,其信号带宽为200Hz3.4kHz。可见,数字激光唱盘的声音质量最高,电话的话音质量最低。数字音频压缩技术标准分为电话语音压缩、调幅广播语音压缩、高保真立体声音频压缩三种。第36页,共81页,编辑于2022年,星期六ITU-T的G系列声音压缩标准 ITU-T是国际电信联盟电信标准化部门,它研究和制定除无线电以外的所有电信领域标准。对于不同的音频信号,ITU-T制定了不同的音频标准。(1)用于电话质量的语音压缩标准。(2)用于调幅广播质量的音频压缩标准。第37页,共81页,编辑于2022年,星期六G.7xx标准 G.7xx是一组ITU-T标准,用于音
21、频压缩和解压缩,主要用于电话方面。在电话技术中,有两个主要的算法标准,分别定义在mu-law算法(美国使用)和a-law算法(欧洲及世界其他国家使用)中。两者都是基于对数关系的,但对于计算机的处理来说,后者更为简单。第38页,共81页,编辑于2022年,星期六G.7xx协议组的组成 G.711:64kb/s信道上的语音频率脉冲编码调制(PCM)。量化位数为8bit,采样频率为8kHz。G.721:32kb/s自适应差分脉冲编码调制(ADPCM)。量化位数为4bit,采样频率为8kHz。G.722:64 kb/s下的7 kHz音频编码,采样频率为16 kHz。采用子带编码,即将16kHz的频带分
22、为两个子带,通过ADPCM分别进行编码。G.722.1:带有低帧损耗的具有免提操作的系统在24 kb/s和32 kb/s上的编码。G.722.2:利用自适应多频率宽带(AMR-WB)以16 kb/s多频率语音编码。第39页,共81页,编辑于2022年,星期六G.7xx协议组的组成G.723:24 kb/s自适应差分脉冲编码调制。采样频率为8 kHz。G.726:40、32、24、16 kb/s自适应差分脉冲编码调制。采样频率为8 kHz。G.727:采用嵌入式自适应差分脉冲编码调制。G.728:利用短时延码本激励线性预测(LD-CELP)算法,比特率为16 kb/s,采样频率为8 kHz。G.
23、729:利用共轭结构代数激励编码线性预测(CS-ACELP),比特率为8 kb/s。第40页,共81页,编辑于2022年,星期六高保真立体声音频压缩标准 高保真立体声音频信号的频率范围为50 Hz20 kHz,在44.1 kHz采样频率下用16 bit量化,信号速率为每声道705 kb/s。目前国际上比较成熟的高保真立体声音频压缩标准为MPEG音频。MPEG是由音频和视频两部分组成的,可以分别进行压缩。第41页,共81页,编辑于2022年,星期六MPEG MPEG音频根据不同的算法分为三个层次。Layer 1与Layer 2具有大致相同的算法。输入音频信号的采样频率为48 kHz、44.1 k
24、Hz或32 kHz,经过滤波器组分成32个子带。同时编码器利用人耳的掩蔽效应,根据音频信号的性质计算各个频率分量的掩蔽门限,以控制每一个子带的量化参数,达到数据压缩的目的。MPEG音频的Layer 3进一步引入了辅助子带、非均匀量化和熵编码等技术,可以进一步压缩码率,目前在因特网CD光盘中广泛使用的MP3音乐就属于这一层次。立体声信号的编码也可以在MPEG音频中作为附加功能实现。MPEG音频压缩技术的传输速率为每声道32448 kb/s。第42页,共81页,编辑于2022年,星期六MPEG音频编码器和解码器的原理框图 MPEG音频编码器原理框图 MPEG音频解码器原理框图 第43页,共81页,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多媒体 数据压缩 编码 技术 PPT 讲稿
限制150内