多媒体技术——第5章多媒体数据压缩与编码之二.ppt
1 1、概述、概述 国际标准化组织国际标准化组织(ISO)和国际电报电话咨询和国际电报电话咨询委员会联合委员会联合于于19871987年成立年成立了一个专家组。了一个专家组。(Joint Photograghic Experts Group, 简称简称JPEG) JPEG标准为国际通用标准,是一个适用范围标准为国际通用标准,是一个适用范围很广的静态图像数据压缩标准,即可用于灰度图像很广的静态图像数据压缩标准,即可用于灰度图像又可用于彩色图像。又可用于彩色图像。累累进进模模式式分分层层模模式式以预测技术为基础以预测技术为基础的无损压缩算法的无损压缩算法以离散余弦(以离散余弦(DCT)为)为基础的有损压缩算法基础的有损压缩算法JPEGJPEG算法算法JPEG专家组开发了两种基本的压缩算法专家组开发了两种基本的压缩算法顺顺序序模模式式(1)正向离散余弦变换(FDCT) 1)空域表示(块准备) 每幅视频图像都可以表示成MN个矩阵, 这种表示称为空域表示。图像 子图像(88像素)3、基于DCT的顺序编码模式8 88 8块块FDCT量化量化熵编码熵编码压缩图像压缩图像数据数据表格规范表格规范表格规范表格规范DCT基压缩编码步骤基压缩编码步骤DCT Based Encoder2)空域到频域的转换 采用某种正交变换把空域表示的图像变换到 另一个正交空间(变换域)。 DCTf(I , j)F(v , v)离散余弦变换离散余弦变换空域到频域变换目的是什么? 二维离散余弦变换示意图二维离散余弦变换示意图用于变换的方法有很多,如:用于变换的方法有很多,如:最佳变换(最佳变换(Karhunen-LoeveKarhunen-Loeve,K-LK-L) 离散傅里叶变换(离散傅里叶变换(DFTDFT) 离散余弦变换(离散余弦变换(DCTDCT) 沃尔什哈达玛(沃尔什哈达玛(Walsh-HadamardWalsh-Hadamard)变换)变换 等等等等16) 12(cos16) 12(cos),()()(41),(7070vyuxyxfvcucvuFyx二维二维8 88 8子图像子图像正向正向离散余弦变换(离散余弦变换(FDCTFDCT)是:)是: 16) 12(cos16) 12(cos),()()(41),(7070vyuxvuFvcucyxfyx 逆向逆向离散余弦变换(离散余弦变换(IDCTIDCT)是:)是: 空域经过变换编码后形成的域叫变换域。DC 直流系数其余63个为交流系数ACDCT基函数基函数(2 2)量化)量化 量化是从模拟信号到数字信号的映射量化是从模拟信号到数字信号的映射 。 量化的目的就是在保证图像质量达到一定的保真度的量化的目的就是在保证图像质量达到一定的保真度的 前提下,丢掉一些次要的信息。前提下,丢掉一些次要的信息。 人眼对人眼对低频低频成分较敏感,量化步长取小些,成分较敏感,量化步长取小些, 以保留更多的低频成分。以保留更多的低频成分。 人眼对人眼对高频高频成分不太敏感,量化步长可以取大些。成分不太敏感,量化步长可以取大些。 可忽略一些高频成分,获得较大的压缩比可忽略一些高频成分,获得较大的压缩比 2568u 人眼对人眼对色彩色彩的变化不如对的变化不如对亮度亮度的变化敏感的变化敏感 。u 在编码前一般先将图像从在编码前一般先将图像从RGBRGB空间转换到空间转换到YUVYUV空间空间 。u 再把再把亮度分量亮度分量和和色度分量色度分量各自分成各自分成8 88 8的子块分别处理。的子块分别处理。 u采样时,对采样时,对亮度亮度Y Y分量的采样频率可以高一些,分量的采样频率可以高一些, 色度色度分量分量U U、V V可低一些。可低一些。 常用的方案有常用的方案有Y:U:V=4:2:2Y:U:V=4:2:2、4:2:04:2:0和和Y:U:V=4:1:1Y:U:V=4:1:1等。等。国际无线电咨询委员会(国际无线电咨询委员会(CCIRCCIR)提出了)提出了CCIR601CCIR601标准标准 ( ( 采样比为采样比为4:2:2 ) 4:2:2 ) :BGRVUY0813. 04186. 0500. 0500. 03316. 0169. 0114. 0587. 0299. 01611101624405161121214192658605514131624405769561417222951878062182237566810910377243555648110411392496478871031211201017292959811210010399 对对亮度亮度和和色度色度分别进行量化。这两个量化表是分别进行量化。这两个量化表是在实验的基础上,结合人眼的视觉特性而获得的在实验的基础上,结合人眼的视觉特性而获得的 。 亮度亮度的量化步长取小些以保证亮度受影响小些的量化步长取小些以保证亮度受影响小些 亮度量化表亮度量化表* 考虑到人眼对考虑到人眼对色度(高频分量)色度(高频分量)的图像的敏感性,左的图像的敏感性,左上角用上角用“1”1”个单位的量度值,这样个单位的量度值,这样1717、1818就可表示出来。就可表示出来。右下角采用右下角采用“5”5”个单位的量度值那么个单位的量度值那么9696,9797,104104都都可以表示成可以表示成9999。17182447999999991821266699999999242656999999999947669999999999999999999999999999999999999999999999999999999999999999999999999999色度量化表色度量化表 源图像样本源图像样本FDCT系数系数量化表量化表规格化量化系数规格化量化系数规格化量化系数规格化量化系数量化表量化表逆量化后的系数逆量化后的系数重构图像样本重构图像样本源图像样本源图像样本* 设计一个设计一个8*8的矩阵的矩阵B,其中每个数都为,其中每个数都为128,将,将“源图像样本源图像样本”矩阵矩阵A与设计的矩阵与设计的矩阵B相减得到矩阵相减得到矩阵C。即即C=A-B,再将,再将C转换为下一页的转换为下一页的“FDCT系数系数”。FDCT系数系数*通过通过FDCT计算得到上表的数值计算得到上表的数值亮度量化表亮度量化表量化阶量化阶1:8规格化量化系数规格化量化系数235.6/16=15-12.1/10=-1逆量化系数逆量化系数15*16=240-1*10=-10重构图像样本重构图像样本源图像样本源图像样本逆向离散余弦变换逆向离散余弦变换IDCT(3)“Z”字形编码字形编码 量化量化DCT系数的编排系数的编排 量化量化DCT系数的序号系数的序号(4)DC直流系数的差分编码 JPEG对量化后的DC系数采用DPCM 编码, 即: j = DCj DCj1 DC系数差分编码系数差分编码 DCj DCj1对差分对差分DC系数用两个符号进行编码系数用两个符号进行编码编码所用位数(尺寸)编码所用位数(尺寸)符号符号1 (表示信息长度表示信息长度)符号符号2 (表示信息幅度表示信息幅度)DC系数的幅度(值)系数的幅度(值)例如,例如,符号符号1为为10 符号符号2为为011 则编码符号为则编码符号为 10011(5)AC交流系数的行程长度编码 AC系数行程编码码字 下一个非0实际值(它为可变长度)符号2两个非0值间连续0的个数 表示下一个非0值需要的bit数符号1例:一个例:一个8*8亮度图像的编码过程亮度图像的编码过程150-100000-2-1000000-1-10000000000000000000000000000000000000000000000假设前一个子块假设前一个子块DC系数值为系数值为12,则,则j = DCj DCj1 = 15 -12 = 3编码(编码(j =3)所需要的位数为)所需要的位数为2。其幅度值为其幅度值为3,故,故DC系数的中间格式为系数的中间格式为 (2) (3)对于对于(2) (3)查查DC亮度的亮度的Huffman表表计算编码时,先表示为中间格式,再查表确定编码计算编码时,先表示为中间格式,再查表确定编码图像分量为图像分量为8位时位时DC系数差值的典型系数差值的典型Huffman表表尺寸分类亮度码字亮度码字1-1,10102-3.-2,2.30113-7.-4,4.71004-15.-8,8.1510156789-511.-256,2565111111111010-1023.-512,51210231111111102的的2进制数为进制数为103经过可变长度编码(经过可变长度编码(VLI)为)为011故故DC系数的编码为系数的编码为10011对对AC系数编码:系数编码:150-100000-2-1000000-1-10000000000000000000000000000000000000000000000l 符号符号1为(为(1,2) (遇到的第(遇到的第1个非零系数为个非零系数为-2,它前面的零系数,它前面的零系数 的个数为的个数为1,编码,编码-2需要需要2位)位)l 符号符号2为(为(-2) 遇到的第遇到的第2个非零系数为个非零系数为-1,它前面的零系数的,它前面的零系数的个数为个数为0,编码,编码0需要需要1位,所以位,所以符号符号1为(为(0,1)可以求得这个可以求得这个8*8象素子块熵编码的象素子块熵编码的中间格式中间格式:(2,3),(,(1,2)()(-2),(),(0,1)()(-1),),DC系数系数AC系数系数查亮度或色度查亮度或色度Huffman表得:(亮度表得:(亮度AC系数表见下页)系数表见下页)10011,1101101,000,注意:注意:-2的反码为的反码为01符号符号2为(为(-1)亮度亮度AC系数表系数表行程尺寸码长码字0/0(EOB,块结束代码)410100/12000/22010/331000/91611111111100000110/A1611111111100000111/1411001/25110111/37111100111/91611111111100001111/A161111111110001000,2/A,重复直到编完63个系数(6)熵编码)熵编码 对对DC系数系数和和AC系数再系数再使用哈夫曼作基于统计使用哈夫曼作基于统计特性的编码。特性的编码。哈夫曼编码可以使用简单的查表方法进行编码。哈夫曼编码可以使用简单的查表方法进行编码。l 为进一步达到压缩压缩目的为进一步达到压缩压缩目的(1 1)首先将图像分为)首先将图像分为 8 8* *8 8 的若干子图像;的若干子图像;(2 2)对)对 8 8* *8 8 的子图像进行的子图像进行 FDCT FDCT 变换;变换;(3 3)对)对 FDCT FDCT 的系数进行量化;的系数进行量化;(4 4)Z Z 字形编码;字形编码;(5 5)DC DC 系数的差分编码与系数的差分编码与 AC AC 系数的游程长度编码;系数的游程长度编码;(6 6)熵编码(如哈夫曼编码或算术编码)。)熵编码(如哈夫曼编码或算术编码)。源图像数据源图像数据DCT量化器量化器熵编码器熵编码器压缩后的图像数据压缩后的图像数据量化步长表量化步长表编码表编码表块准备块准备JPEG编码器(7 7)JPEGJPEG图像压缩方法总结图像压缩方法总结熵解码器IDCT量化表解码器逆量化器编码表88块压缩图象数据压缩图象数据恢复的图象数据恢复的图象数据 (8)图像的重构过程)图像的重构过程(9 9)JPEGJPEG压缩效果评价压缩效果评价压缩效果压缩效果( (比特比特/ /象素象素) ) 质质 量量 0.250.50中好 0.500.75好很好0.751.5 极 好1.22.0与原始图象分不出来 最后,把各种标记代码和编码后的图像数据按照一定的格式组成JPEG位流(JPEG bitstream)。比较不同压缩比的图像的清晰度比较不同压缩比的图像的清晰度应用软件应用软件PHOTOSHOP如上例中可以计算出数据流为如上例中可以计算出数据流为31bit,则其压缩比为:,则其压缩比为: 64 8 / 31=16.5* *4 4、基于、基于DCTDCT的累进编码模式的累进编码模式 主要方法:主要方法: 第一次扫描只进行粗糙的压缩,以很快的方法传第一次扫描只进行粗糙的压缩,以很快的方法传送出这幅图像,接收方据此可重建一幅质量较低但尚送出这幅图像,接收方据此可重建一幅质量较低但尚可识别的图像。可识别的图像。 在随后几次的扫描中,再对图像作较细致的处理,在随后几次的扫描中,再对图像作较细致的处理,使图像质量逐步提高。使图像质量逐步提高。* *5 5、基于、基于DCTDCT的分层编码模式的分层编码模式 分层编码的操作,是将一幅原始图像的空间分分层编码的操作,是将一幅原始图像的空间分辨率,分成多个低分辨率图像进行辨率,分成多个低分辨率图像进行“锥形锥形”编码的编码的方法。方法。 对低分辨率图像进行解码,重建图像。(使用对低分辨率图像进行解码,重建图像。(使用插值、滤波的方法使重建图像的分辨率提高至下一插值、滤波的方法使重建图像的分辨率提高至下一层图像的大小)。层图像的大小)。7、活动图像压缩编码标准MPEG(1)MPEG是什么MPEGMotion Picture Experts Group动态图像专家组MPEG-1MPEG-1:数字电视标准,:数字电视标准,19921992年正式发布年正式发布MPEG-2MPEG-2:数字电视标准,:数字电视标准,19941994年正式发布年正式发布MPEG-3MPEG-3:19931993年年7 7月已合并到月已合并到HDTVHDTV工作组工作组MPEG-4MPEG-4:多媒体通信标准,:多媒体通信标准,19991999年发布年发布MPEG-5MPEG-5:未见定义:未见定义MPEG-6MPEG-6:未见定义:未见定义MPEG-7MPEG-7:多媒体内容描述接口标准(正在研究):多媒体内容描述接口标准(正在研究)(2) MPEG-1( 数字电视数字电视VCD)(3) MPEG-2(数字电视(数字电视DVD)名 称MPEG-1MPEG-2标准化时间主要应用空间分辨率时间分辨率位速率质量压缩率1992年VCD数字电视352*288像素2530帧/秒1.5Mb/s相当于VHS20301994年DVD,数字TVTV(720*576)像素5060场/秒15Mb/s相当于NTSC/PAL电视3040MPEG-1和和MPEG-2典型的编码参数典型的编码参数(4)MPEG4: 1999年发布的标准,它是为视听数据的编码和交互播放开发算法和工具,是一个数据率很低的多媒体通信标准。 MPEG4的目标是要在异构网络环境下能够高度可靠的工作,并且具有很强的交互性。 MPEG4将应用在移动通讯、公用电话交换网并支持可视电话、电子邮件、电子报纸和其他低数据率场合下的应用。(5)MPEG7: 1996年启动,名称为多媒体内容描述接口,目的是年启动,名称为多媒体内容描述接口,目的是制定一套描述标准,用来描述各种媒体信息及他们之间的制定一套描述标准,用来描述各种媒体信息及他们之间的关系,以便更快更有效地检索信息。关系,以便更快更有效地检索信息。 特征抽取检索工具标准描述MPEG-7处理范围MPEG7的应用领域包括: 数字图书馆、例如图像的目录、音乐词典等; 多媒体目录服务,例如黄页; 广播媒体的选择,例如广播电台频道,TV频道; 多媒体编辑,例如个人电子新闻服务,多媒体创作; 其他潜在领域:教育、娱乐、新闻、旅游、医疗、 购物等等。(6)MPEG视频压缩算法思想视频压缩算法思想 在空间方向上,图像数据压缩采用在空间方向上,图像数据压缩采用JPEG的的 压缩算法来去掉冗余。压缩算法来去掉冗余。 在时间方向上,图像数据压缩采用移动补偿在时间方向上,图像数据压缩采用移动补偿 算法来去掉冗余。算法来去掉冗余。具有相关性的帧序列图像具有相关性的帧序列图像 这几种类型的图像及其预测方法可采用下面四种技术得到:这几种类型的图像及其预测方法可采用下面四种技术得到:帧内编码、前向预测、帧内编码、前向预测、 后向预测、后向预测、 双向预测双向预测I 帧:帧内画面P帧:预测画面B帧:插补画面典型的图像类型的显示次序典型的图像类型的显示次序IBBPBBPIPBBPBB显示次序显示次序 图像组次序图像组次序 MPEG视频中视频中B帧的使用帧的使用移动矢量的概念移动矢量的概念1)移动矢量(motion vector)的概念: 相邻画面之间,画面内容的活动部分具有连续性,即后一帧画面的图像是前一帧画面图像移动的结果。 首先 MPEG把原始图像分为 1616 的宏块, 设帧内画面(I帧)中的宏块为Io , 预测画面(P帧)中相应的宏块为I1,则前向预测公式为: I1(x) = Io(x + mv01)式中:x代表像素坐标(二维矢量) mv01是宏块I1相对于宏块 Io的移动矢量 如果已知宏块如果已知宏块I0和和I2则位于则位于I0和和I2中间帧上相应的中间帧上相应的宏块宏块I1的插值(双向预测)公式为:的插值(双向预测)公式为:I1(x)=I0(x+mv01)+ I2(x+mv21) / 2 MPEG标准只说明了怎样表示运动信息,以及如何标准只说明了怎样表示运动信息,以及如何使用运动信息进行预测。使用运动信息进行预测。 但它并不规定运动矢量但它并不规定运动矢量mv如何计算,这留给如何计算,这留给MPEG实现时自己解决实现时自己解决 。 因此,在因此,在MPEG编码编码/解码方面,人们可以不断改进,解码方面,人们可以不断改进,以获得更好的算法。以获得更好的算法。移动矢量的算法框图移动矢量的算法框图2)移动矢量的求解方法)移动矢量的求解方法 要使预测图象更精确,就要使参考宏块Io ,与预测宏块I1的差值最小,即所谓最佳匹配。 通常以绝对值 (Absolute Difference, AE)最小作为匹配判断判据: | ),(),(|150150yjxidjdigjifAE)16( ji 式中式中d dx x和和d dy y分别是参考宏块分别是参考宏块Io 的移动矢量d(d dx x, d, dy y) )在x和y方向上的矢量。 第二种方法以均方差第二种方法以均方差(mean-square error, MSE)最小作为匹配判据:最小作为匹配判据:22|2| | ),(),(1JjyxIidjdigjifJIMSE)16( ji其他的求解方法还有很多,如:其他的求解方法还有很多,如:二维对数搜索法二维对数搜索法三步搜索法三步搜索法对偶搜索法等对偶搜索法等 在在MPEG图像压缩过程中,寻找最佳匹配宏块要占据图像压缩过程中,寻找最佳匹配宏块要占据相当多的计算时间,匹配得越好,重构的图像质量越高。相当多的计算时间,匹配得越好,重构的图像质量越高。帧内图像帧内图像I的压缩编码算法框图的压缩编码算法框图预测图像预测图像P的压缩编码算法框图的压缩编码算法框图双向预测图像双向预测图像B的压缩编码算法框图的压缩编码算法框图(7)数字视频标准美国数字电视标准576 / 4831603201202407208001152128019206007209001035(1080)普通电视普通电视PC / Mac高级电视(高级电视(ATV)工作站工作站高清晰度电视高清晰度电视HDTVVCD(5)常用的数字视频格式)常用的数字视频格式1)AVI文件格式(文件格式(Audio Video Interleaved) AVI(Audio Video Interleaved)是一种音频视像)是一种音频视像交替记录的数字视频文件格式。交替记录的数字视频文件格式。 1992年初年初Microsoft公司推出了公司推出了AVI技术及其应用软技术及其应用软件件VFW(Video for Windows)。)。 在在AVI文件中,运动图像和伴音数据是以交织的方文件中,运动图像和伴音数据是以交织的方式存储,并独立于硬件设备。这种按交替方式组织音式存储,并独立于硬件设备。这种按交替方式组织音频和视像数据的方式可使得读取视频数据流时能更有频和视像数据的方式可使得读取视频数据流时能更有效地从存储媒介得到连续的信息。效地从存储媒介得到连续的信息。 2)MPEG文件格式文件格式 (.MPEG、.MPG、.DAT) MPEG文件格式是运动图像压缩算法的国际标准,文件格式是运动图像压缩算法的国际标准,MPEG标准包括标准包括MPEG视频、视频、MPEG音频和音频和MPEG系统系统(视频、音频同步)三个部分。(视频、音频同步)三个部分。 前面介绍的前面介绍的MP3音频文件就是音频文件就是MPEG音频的一个典型音频的一个典型应用。应用。 VCD使用使用MPEG-1标准制作;标准制作; DVD则使用则使用MPEG-2; MPEG-4标准主要应用于视像电话,视像电子邮件和标准主要应用于视像电话,视像电子邮件和电子新闻等,其压缩比例更高,所以对网络的传输速率要电子新闻等,其压缩比例更高,所以对网络的传输速率要求相对较低。求相对较低。3)MOV/QT文件格式文件格式 这是著名的这是著名的APPLE(美国苹果公司)开发的一种视(美国苹果公司)开发的一种视频格式,默认的播放器是苹果的频格式,默认的播放器是苹果的QuickTime Player。 QuickTime文件格式支持文件格式支持256位彩色,采用有损压缩位彩色,采用有损压缩算法。算法。 几乎所有的操作系统都支持几乎所有的操作系统都支持QuickTime的的MOV格式,格式,现在已经是数字媒体事实上的工业标准,多用于专业领现在已经是数字媒体事实上的工业标准,多用于专业领域。域。4)RM文件格式文件格式 RM(是(是Real Media)的缩写,)的缩写,Real Networks公司公司开发的视频文件格式,也是出现最早的视频流格式。开发的视频文件格式,也是出现最早的视频流格式。 RM可以是一个离散的单个文件,也可以是一个视可以是一个离散的单个文件,也可以是一个视频流文件,它在压缩方面做得非常出色,生成的文件频流文件,它在压缩方面做得非常出色,生成的文件非常小,它已成为网上直播的通用格式,并且这种技非常小,它已成为网上直播的通用格式,并且这种技术已相当成熟。所以在有微软那样强大的对手面前,术已相当成熟。所以在有微软那样强大的对手面前,并没有迅速倒去,直到现在依然占有视频直播的主导并没有迅速倒去,直到现在依然占有视频直播的主导地位。地位。5)ASF文件格式文件格式 ASF是是Advanced Streaming Format的缩写,它是的缩写,它是Microsoft公司的影像文件格式,是公司的影像文件格式,是Windows Media Service的核心。的核心。 ASF使用使用MPEG-4的压缩算法以网络数据包的形式的压缩算法以网络数据包的形式传输,实现流式多媒体内容发布。其中,在网络上传输传输,实现流式多媒体内容发布。其中,在网络上传输的内容就称为的内容就称为ASF Stream。ASF支持任意的压缩支持任意的压缩/解压缩解压缩编码方式,并可以使用任何一种底层网络传输协议,具编码方式,并可以使用任何一种底层网络传输协议,具有很大的灵活性。有很大的灵活性。其它格式:其它格式:AVS、DIVX、FLV、3GP6) * EVD文件格式文件格式 EVD全称为新一代高密度数字激光视盘系统,与全称为新一代高密度数字激光视盘系统,与DVD及超级及超级VCD相比较,技术优势明显,填补了国内高相比较,技术优势明显,填补了国内高清晰度节目光盘存储播放方面的空白。清晰度节目光盘存储播放方面的空白。2001年底,年底,EVD通过信产部的技术鉴定,该技术标准也是由阜国电子主通过信产部的技术鉴定,该技术标准也是由阜国电子主导开发。导开发。EVD标准是由中国主要的消费电子制造商组成的联标准是由中国主要的消费电子制造商组成的联盟所制定的一种高清晰光盘和播放机工业标准,拥有多盟所制定的一种高清晰光盘和播放机工业标准,拥有多项自主知识产权,联盟成员包括新科、夏新、信息产业项自主知识产权,联盟成员包括新科、夏新、信息产业部三所等数十家企业和科技机构。部三所等数十家企业和科技机构。 中国的中国的DVD制造商在国内每卖掉一台制造商在国内每卖掉一台DVD,就要向,就要向拥有拥有DVD知识产权的知识产权的“6C联盟联盟”交纳十几美元的专利费。交纳十几美元的专利费。如果出口的话,专利费则要超过如果出口的话,专利费则要超过20美元。美元。