第8章 现代编码技术精选文档.ppt
《第8章 现代编码技术精选文档.ppt》由会员分享,可在线阅读,更多相关《第8章 现代编码技术精选文档.ppt(100页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第8章章 现代编码技术现代编码技术本讲稿第一页,共一百页 8.1 传统信源编码的应用传统信源编码的应用根据信源编码技术的发展可以将其分为传统编码技术与现代编码技术两大类。传统编码技术主要有脉码调制(PCM,PulseCodeModulation)、量化法(Quantization)、空间和时间子抽样编码(SpatialandTemporalSubsamplingCoding)、熵编码(EntropyCoding)、预测编码(PredictiveCoding)、变换编码(TransformCoding)、矢量量化(VQ,VectorQuantization)、子带编码(SBC,SubbandC
2、oding)等方法。本讲稿第二页,共一百页这些方法前面已经介绍过,下面以图像信源为例简述传统信源编码技术的应用。采用脉码调制方法进行信源编码时,输入的连续信号通常以Nyquist速率采样,然后均匀量化。因此,它只是原始模拟信号的一种数字表示。量化器通常有N个电平,其中N是2的乘方(N2b),每个采样由一个具有b比特的固定长度的二进制码示。使用PCM对像素编码所需的比特数取决于被编码信源的类型。通常来说,单色广播或会议电视图像用8比特就足够了;而医学图像则可能需要10比特或更多,以保证足够的幅度分辨率。本讲稿第三页,共一百页对于彩色图像,每个彩色分量通常需要8比特,因而表示一个彩色像素共要使用2
3、4比特。PCM编码的效率是不高的,原因之一是PCM忽视了像素之间的空间和时间相关性;之二是它对所有量化幅度电平进行同样处理,即均匀量化;另外一个原因是它没有利用人眼的视觉特性。本讲稿第四页,共一百页量化是一个相当直观的数据压缩方法,其过程相当于将输入数据的取值范围加以限制。比如,图像像素,即图像中的一个采样点的灰度值是用8比特二进制数表示,将其灰度量化至2比特,即用2比特二进制数来表现原8比特的数据。显然,在数据量上,量化后的比特数是原来的025倍,相应压缩比为41。量化过程的实际做法是利用量化查找表使一个输出值对应于若干个输入值。量化算法利用人的视觉对不同亮度值域的敏感程度不一样的特点,在一
4、定输出图像质量的前提下,调节量化查找表达到最佳的压缩比。根据量化查找表的性质,量化算法分为线性与非线性两类。本讲稿第五页,共一百页在电视、电话等某些应用中,全分辨率不是必需的。这时,可以使用空间和时间子抽样来降低数据速率。在编码器中,从每几个像素中选择一个像素,从每几帧中选择一帧,然后加以传输。在译码器中,可根据接收的像素和帧内插丢失的像素和帧,再生出分辨率较低的原始视频序列。如果像素是由色度和亮度分量表示的,那么可以以较高的比率对色度分量进行子抽样,量化更粗略一些,这是因为人眼对色度分量的敏感性低一些。这种技术非常简单,但十分有效。本讲稿第六页,共一百页熵编码是纯粹基于信号统计特性的编码技术
5、。它是一种无损编码,解码后能无失真地恢复原信息。熵编码的基本原理是给出现概率较大的符号一个短码字,而给出现概率较小的符号一个长码字,这样使得最终的平均码长很小。一个精心设计的熵编码器,其输出的平均码长接近信源的信息熵,即码长的下限。常用的熵编码方法有游程编码、霍夫曼编码和算术编码三种。游程编码主要用于量化后出现大量零系数的情形,利用游程来表示连零码,降低为表示零码所用的数据量。霍夫曼编码是一种不等长最佳编码方法。所谓最佳是指对于相同概率分布的信源这种编码的平均码长比其他任何一种有效编码的平均码长都短。霍夫曼编码必须知道信源的概率分布,这一般是无法做到的。通常采用对大量数据进行统计后得到的近似分
6、布来代替实际的概率分布。本讲稿第七页,共一百页算术编码是20世纪80年代发展起来的一种熵编码方法,已渐渐受到人们的注意。它的基本原理是,任何一个数据序列均可表示成0和1之间的一个间隔,该间隔的位置与输入数据的概率分布有关。可以根据信源的统计特性来设计具体的编码器,也可以针对未知概型的信源来设计能够自适应适配其分布的算术编码器,并且这两种形式的编码器均可以用硬件实现。有关的实验数据表明,在未知信源概率分布的大部分情形下,算术编码要优于霍夫曼编码。上述三种熵编码方法均已被各种编码标准采纳。本讲稿第八页,共一百页预测编码有线性预测和非线性预测两类,它们可以在一幅图像内进行(帧内预测编码),也可以在多
7、幅图像之间进行(帧间预测编码)。预测编码基于图像数据的空间和时间冗余特性,用相邻的已知像素(或图像块)来预测当前像素(或图像块)的取值,然后再对预测误差进行量化和编码。这些相邻像素(或图像块)可以是同行扫描的,也可以是前几行或前几帧的,相应的预测编码分别称为一维、二维和三维预测,其中一维和二维预测是帧内预测,三维预测是帧间预测。预测编码的关键在于预测算法的选取,这与图像信号的概率分布很有关系。本讲稿第九页,共一百页实际中常根据大量的统计结果采用简化的概率分布形式来设计最佳的预测器,有时还使用自应预测器以较好地刻画图像信号的局部特性,提高预测效率。线性预测编码又称为差分脉冲编码调制,即DPCM(
8、DifferentialPulseCodeModulation)。帧内预测编码一般采用像素预测形式的DPCM,其优点是算法简单,易于硬件实现,缺点是对信道噪声及误码很敏感,会产生误码扩散,使图像质量大大下降。同时,帧内DPCM的编码压缩比很低,因此现在已很少独立使用,一般要结合其他的编码方法。帧间预测编码主要利用活动图像序列相邻帧间的相关性,即图像数据的时间冗余进行压缩,可以获得比帧内预测编码高得多的压缩比。本讲稿第十页,共一百页帧间预测编码作为消除图像序列帧间相关性的主要手段之一,在视频图像编码方法中占有很重要的地位。帧间预测编码一般是针对图像块的预测编码,它采用的技术有帧重复法、阈值法、帧
9、内插法、运动补偿法和自适应交替帧内帧间编码法等,其中运动补偿预测编码现已被各种视频图像编码标准采用,得到了很好的结果。这类图像编码方法的主要缺点在于对图像序列不同的区域,预测性能不一样,特别是在快运动区,预测效率很差。而且为了降低预测算法的运算复杂度和提高预测精度,一般先对图像进行分块,然后再预测,这势必造成分块边缘的不连续。本讲稿第十一页,共一百页与预测编码技术相比,消除图像数据空间相关性的一种更有效的方法是进行信号变换,使图像数据在变换域上最大限度的不相关。尽管图像变换本身对数据并未进行压缩,但由于变换后系数之间的相关性明显降低,图像的大部分能量只集中到少数几个变换系数上,采用适当的量化和
10、熵编码可以有效地压缩图像的数据量。而且图像经某些变换后,系数的空间分布和频率特性有可能与人眼的视觉特性匹配,本讲稿第十二页,共一百页因此可以利用人类视觉系统的生理和心理特点而得到较好的编码系统。变换编码通常是将空间域相关的像素点通过变换映射到另一个频域上。在变换后的频域上应满足:所有的系数相互独立;能量集中于少数几个系数上;这些系数集中于一个最小的区域内。保留少数重要的系数就能够很好地恢复出图像,人眼几乎觉察不出那些损失的系数。本讲稿第十三页,共一百页KLT变换是在以上思路下构造出来的最佳线性变换方案。它是用数据本身的相关矩对角化后构成的,这种变换将产生完全不相关的变换系数。如果图像数据之间是
11、高度相关的,经过KLT变换,系数将出现多个零值;同时,某些系数的值会很小。KLT变换的变换矩阵是由图像数据本身求得的,不同的图像数据有不同的变换矩阵。如此造成反变换矩阵的不惟一性;加之KLT变换矩阵的构造计算量很大,因而它不是一种实用的变换方法。本讲稿第十四页,共一百页尽管如此,KLT变换毕竟是线性变换压缩编码方法的一个最佳方案,通常可作为衡量其他线性变换性能的基准。就数据压缩而言,所选择的变换方法最好能与图像信号的特征匹配,此外还应从失真要求、实现的复杂度以及编码比特率等多方面进行综合考虑。KLT变换虽然是均方误差准则下的最佳变换,但在实际编码工作中,人们更常采用离散余弦变换DCT。本讲稿第
12、十五页,共一百页在现行变换编码方法中,对大多数图像信源来说,DCT变换是最接近KLT变换的方法。对变换后图像系数的编码一般采用门限编码加区域编码的形式。以DCT为例,根据变换系数的能量分布,可以将图像划分为不同的区域。其中变换后幅值较大的图像系数大多集中于图像块的左上角。与其他系数相比,这些低频系数具有的能量最大,包括了图像的大部分内容,在变换图像中的地位最重要,应使它们的量化误差最小。同样,对于图像块的其他区域,也应采用与该区域相匹配的量化和编码形式。这种根据能量分布对不同区域采用不同量化编码的技术称为区域编码。本讲稿第十六页,共一百页另一方面,变换后图像的许多系数很小,仅占原图像能量的很小
13、比例,对图像质量影响甚微,因此一般通过设定阈值的方法,将小于阈值的变换系数置零,从而大大提高编码效率。经门限和区域编码后,变换后图像的大部分系数为零,如何采用有效的方法将非零系数和零系数组织起来,在保证最少冗余的同时使连零系数出现概率最大,是变换图像编码面临的又一关键问题。在DCT图像编码方法中,对变换系数进行的Zigzag排序非常巧妙地解决了这一问题,但对有些图像变换方法,这种技术并非最佳。本讲稿第十七页,共一百页在一般图像中,对应轮廓边缘位置附近含有大量高频信息,它们相对于原图像是非常局部的,代表了图像数据的精细结构。按人眼的视觉特性,这些轮廓边缘信息对于图像的主观质量很重要,在编码时应给
14、予特别考虑。然而由于传统的正交变换的时频局域性很差,变换后的系数失去了对原图像精细结构的描述,从变换图像得不到图像轮廓边缘的局部信息,因此在量化编码时无法采用特殊的方法。而且在传统的变换图像编码方法中,大多是靠丢弃高频系数来提高压缩比的,从而导致图像的轮廓边缘模糊,严重影响复原图像的主观质量,这是传统变换编码方法的缺点之一。本讲稿第十八页,共一百页传统变换编码方法的另一缺点是提高编码压缩比时会出现块效应。这是因为为降低变换算法的运算复杂度和提高编码效率,传统图像变换方法均采用分块变换技术。图像块大,相关性就高,压缩比也就大。但是块的尺寸太大又会丢失数据的平稳性,从而引入误差,包括失去高频细节、
15、引入沿物体边界的噪声和可见的DCT图块边界。本讲稿第十九页,共一百页传统的变换图像编码方法的这些缺点使得它们不适合于需要较高压缩比的应用场合。究其根本原因,在于变换方法不具有良好时频局域性和全局变换的特点。实现实用的变换编码系统,主要分四个步骤。第一步是选择变换类型,DCT变换是应用最广泛的一种类型。第二步是选择方块的大小,较好的方块尺寸是88或1616。第三步是选择变换系数,并对其进行高效的量化,以便传输或存储。第四步是对量化系数进行比特分配,通常使用霍夫曼编码或游程编码。本讲稿第二十页,共一百页8.2 现代信源编码技术现代信源编码技术 20世纪80年代中后期,相关学科的迅速发展和新兴学科的
16、不断出现为信源编码的发展注入了新的活力。人们对信源信息需求的剧增也有力地促进了信源压缩编码技术的进步。许多学者结合模式识别、计算机图形学、计算机视觉、神经网络、小波分析和分形几何等理论开始探索信源信号压缩编码的新途径。本讲稿第二十一页,共一百页现代信源编码方法是针对传统编码方法中没有考虑人眼对轮廓、边缘的特殊敏感性和方向感知特性而提出的。它认为传统的编码技术以信息论和数字信号处理技术为理论基础,出发点是消除信源数据的线性相关性等统计冗余信息,其编码压缩信源数据的能力已接近极限,压缩比难以提高,例如对静止图像而言,这类方法的编码压缩比一般为1020倍左右。现代信源编码方法不局限于香农信息论的框架
17、,要求充分利用人类视觉系统的生理和心理特性以及信源的各种性质以期获得高压缩比。本讲稿第二十二页,共一百页8.2.1分形编码自然界由许许多多形状复杂的图形而构成,归纳起来它的形状和各种图形可分为两类:一类是有特征长度的图形,可用欧几里德几何学来描述和构造,例如房屋、汽车、足球、人等等,它们都是由具有特征长度的图形构造的,像房屋的高、宽,汽车的长度,足球的直径,人的身高等都是特征长度;另一类是没有特征长度的图形,例如海岸线、云彩、蛋糕的空穴等等,如果没有人工参照物,很难测量其尺度。本讲稿第二十三页,共一百页如何构造这些无规则的复杂现象和物体直到20世纪70年代才得以解决。1975年波兰出生的美国数
18、学家曼德尔布诺特(MandelbrotBB)首先研究了这种不规则形状和过程的性质,建立了自然界的分形几何理论。分形就是那些没有特征长度的图形的总称。曼德尔布诺特认为分形是几何外形,它与欧几里德几何外形相反,是没有规则的。首先它们处处无规则可言,其次它们在各种尺度上都有同样的不规则性。本讲稿第二十四页,共一百页即分形几何研究的对象是无规则的图形,且这种无规则图形从整体到局部变化,虽然均属无规则性,但具有自相似性(Selfsimilarity)。换言之,无论几何尺度怎样变化,事物任何一小部分的形状都与较大部分 的 形 状 极 其 相 似。这 种 尺 度 不 变 性(Scaleinvariance)
19、在自然界中广泛存在。分形中最显著的特点是自相似性,如弯弯曲曲的海岸线,洁白无瑕的晶状雪花,变换无穷的云彩,蕨类植物的叶子,排列成格状的峰窝等,它们都是自相似性的典型例子。本讲稿第二十五页,共一百页分形图之美丽,分形几何学之奇妙就在于它的自相似性,而从编码的角度,正是要恰当地、最大限度地利用这种自相似性。分形方法可以用于压缩编码的原因之一就是分形的自相似性。根据分形理论,不少复杂的图形,从信息论和计算观点来看,其信息含量并不大,一般只需要不多的数据,利用迭代函数系统迭代这全反馈的动态过程,在计算机上利用简单的算法和程序就可以产生相当复杂的自然图形。复杂的图形寓于简单算法之中,这是分形方法可以用于
20、压缩的另一个主要依据之一。本讲稿第二十六页,共一百页自然界许多事物的发展过程,如生长、凝聚、进化等形成多种多样的分形结构。例如人体的血液循环系统,从主动脉到毛细血管,直到血球细胞只能排单行滑行等分支都呈现一种分形结构。又如树木的枝叶也呈分形形态,用以获取阳光、空气,吸入二氧化碳排出氧气和抵抗风力。生物学家对植物种子基因研究发现,种子内只有一定的信息为植物编码,有限的基因产生了复杂的生物界,人类也是如此,所以植物等的复杂程度是有限的。它只不过是在生长过程中新陈代谢而形成的复杂分形形态。因此,分形意味着自然界许多复杂形态中潜藏着有组织的结构。如果能找到这些有效的信息,就能简单地表述自然界复杂的景象
21、。这是能够采用分形方法进行压缩的又一个依据。本讲稿第二十七页,共一百页8.2.2模型编码基于模型的信源编码技术是近几年发展起来的一种很有前途的低比特率编码方法。它利用了计算机视觉和计算机图形学中的方法和理论。其基本出发点是在编、解码两端分别建立起相同的模型。基于模型的编码器并不压缩实际的量化数据,而是采用一个表示景物(一般是人、人脸等)的模型,传送的信息是告诉接收方如何改变模型以匹配输入景物(如眨眼、扭头等)。基于模型的解码器也有一个与对应编码器相同的模型,解码器利用收到的数据调整其模型,然后生成供显示的图像。模型编码根据输入的图像提取模型参数,并根据模型参数重建图像。本讲稿第二十八页,共一百
22、页显然,模型编码方法的核心是建模和提取模型参数,其中模型的选取、描述和建立是决定模型编码质量的关键因素。从信息抽取功能的角度看,已经提出的模型包括:图像模型回答目标图像如何被模型化才会有效的问题;视觉模型描述重建图像后,人类视觉系统感知误差的形式和能力。这两种模型中,前者是模型法主要研究的对象,后者则偏重于在编码过程中引入人的视觉特性以便得到更好图像质量。从建立图像模型的复杂度和灵活性等角度考虑,三维线框模型(即用很多三角曲面片来逼近目标图像)是最好的,其他模型则因计算复杂和缺乏灵活性而很少使用。本讲稿第二十九页,共一百页为了对图像数据建模,一般要求对输入图像要有某些先验知识。目前研究最多、进
23、展最快的是针对可视电话应用中的图像序列编码,这类应用中的图像大多为人的头肩像。实质上此时的编码器是一个特征检测器,译码器是一个三维显示程序。基于模型的图像编码方法利用先验模型来抽取图像中的主要信息,并以模型参数的形式表示它们,因此可以获得很高的压缩比。在模型编码(ModelbasedCoding)方法的研究中还存在很多问题,例如:本讲稿第三十页,共一百页(1)模型法需要先验知识,不适合于一般的应用;(2)对不同应用所建模型是不一样的;(3)在线框模型中,控制点的个数不易确定,还未找到有效的方法能根据图像内容来选取;(4)即使对头肩模型,也存在很多问题,例如由特定人模型推广到非特定人、模型参数的
24、快速抽取、表情运动参数的计算等都没有很令人满意的解决方法,大部分系统还依赖于FACS(FacialActionCodingSystem)中对表情块AU(ActionUnit)的描述,需要专用交互式系统,运算的复杂度极高;本讲稿第三十一页,共一百页(5)由于复原图像是用图形学的方法产生的,看起来不够自然,尽管有纹理映射的方法,但结果仍有待进一步改进;(6)传统的误差评估准则不适合于对模型编码的评价。除此之外,如何利用人的视觉特性也是这种编码方法中一个没有解决的问题。模型图像编码方法的上述缺陷使得它的应用范围受很大限制,而且走向实用还需要一段时间。本讲稿第三十二页,共一百页8.2.3小波编码小波变
25、换的发展经历了一个漫长的过程。1910年Haar提出了小波规范正交基,这是最早的小波基,当时并没有出现“小波”这个词。1936年Littlewood和Paley对Fourier级数建立了二进制频率分量分组理论:对频率按2j进行划分,其Fourier变换的相位变化并不影响函数的大小,这是多尺度分析思想的最早来源。1946年Gabor提出的加窗Fourier变换(或称为短时Fourier变换)对弥补Fourier变换的不足起到了一定的作用,但并没有彻底解决这个问题。后来,Calderon、Zygmund、Stern和Weiss等人将LCD*2P理论推广到高维,并建立了奇异积分算子理论。1965年,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第8章 现代编码技术精选文档 现代 编码 技术 精选 文档
限制150内