视频数据的基本压缩编码技术与MPEG系列标准.doc
《视频数据的基本压缩编码技术与MPEG系列标准.doc》由会员分享,可在线阅读,更多相关《视频数据的基本压缩编码技术与MPEG系列标准.doc(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、视频数据的基本压缩编码技术与MPEG系列标准1 Huffman编码、算术编码、行程编码的原理、算法及适用范围。1.1 Huffman编码HUFFMAN编码又称哈夫曼编码,是一种可变长编码方式,是由美国数学家David Huffman创立的,是二叉树的一种特殊转化形式。编码的原理是:将使用次数多的代码转换成长度较短的代码,而使用次数少的可以使用较长的编码,并且保持编码的唯一可解性。Huffman算法的最根本的原则是:累计的(字符的统计数字*字符的编码长度)为最小,也就是权值(字符的统计数字*字符的编码长度)的和最小。由于Huffman编码需要扫描两次,第一次是统计数字,第二次是编码写文件,大大影
2、响了速度,因此有人发明了enhanced Huffman aglorithm。这种算法只扫描一遍文件,动态产生Huffman树,即每读n个字节就重新编码一次Huffman树,以达到提高速度的目的。在解码的过程中使用动态还原技术。Huffman编码是Huffman树的一个应用。Huffman编码应用广泛,如JPEG中就应用了Huffman编码。 1.2 算术编码算术编码是图像压缩的主要算法之一。 是一种无损数据压缩方法,也是一种熵编码的方法。和其它熵编码方法不同的地方在于,其他的熵编码方法通常是把输入的消息分割为符号,然后对每个符号进行编码,而算术编码是直接把整个输入的消息编码为一个数,一个满足
3、(0.0 n N (04-01-1) 式中k N表示x1,x2, x N的时序在xk之前,为所谓因果型(Causal)预测,否则为非因果型预测。 接收端把接收到的量化后的预测误差ek 与本地算出的xk相加,即得恢复信号xk。如果没有传输误差,则接收端重建信号xk与发送端原始信号xk之间的误差为: xk - x k = x k - ( xk + ek ) = ( xk - xk ) - ek = ek - ek = qk (04-01-2) 这正是发送端量化器产生的量化误差,即整个预测编码系统的失真完全由量化器产生。因此,当xk已经是数字信号时,如果去掉量化器,使ek = ek,则qk = 0,
4、即xk = xk 。这表明,这类不带量化器的DPCM系统也可用于无损编码。但如果量化误差qk 0,则xk xk,为有损编码。 如果预测方程式(04-01-2)的右方是各个xi的线性函数,即 N x k = ai(k) x i k N (04-01-3) i=1 即得常用的线性预测,又称线性预测编码(LPC,Linear Predictive Coding)。LPC在语音处理中得到广泛应用,并在此基础上发展了许多算法,典型的有:多脉冲线性预测编码(MPLPC),规则脉冲激励编码(RPE),码激励线性预测(CELP),代数激励线性预测(ACELP),矢量和激励线性预测(VSELP),QCELP(Q
5、ualcomm CELP,变速率CELP),低延时码激励线性预测(LD-CELP),共轭结构代数激励线性预测(CS-ACELP),混合激励线性预测(MELP),间隔同步更新码激励线性预测(PSI-CELP),松弛码激励线性预测(RCELP),残差激励线性预测(RELP),规则脉冲激励长时预测(RPE-LTP)等。 在DPCM中,“1位量化”的特殊情况称为增量调制(调制)。为了能够正确恢复被压缩的信号,不仅在接收端有一个与发送端相同的预测器,而且其输入信号也要相同(都是xk,而不是xk),动作也与发送端的预测器环路(即发送端本地的反量化和解码部分)完全相同。 在图像信号中应用DPCM时,用作预测
6、的像素和被预测的像素可以在同一行,也可以在不同行(同一帧),甚至在不同帧,分别称为一维预测、二维预测和三维预测。声音信号中的预测只是一维预测。 DPCM的优点是算法简单,容易硬件实现,缺点是对信道噪声很敏感,会产生误差扩散。即某一位码出错,对图像一维预测来说,将使该像素以后的同一行各个像素都产生误差;而对二维预测,该码引起的误差还将扩散到以下的各行。这样,将使图像质量大大下降。同时,DPCM的压缩率也比较低。随着变换编码的广泛应用,DPCM的作用已很有限。2.3最佳线性预测如果对一个随机效应(如个体育种值)的预测具有线性(预测量是样本观察值的线性函数)、无偏(预测量的数学期望等于随机效应本身的
7、数学期望)和预测误差方差最小等统计学性质,则称其为最佳线性无偏预测。2.4自适应预测编码预测参数的最佳化依赖信源的特征,要得到最佳预测参数显然是一件繁琐的工作。而采用固定的预测参数往往又得不到较好的性能。为了能使性能较佳,又不致于有太大的工作量,可以采用自适应预测。 为了减少计算工作量,预测参数仍采用固定的,但此时有多组预测参数可供选择,这些预测参数根据常见的信源特征求得。编码时具体采用哪组预测参数需根据特征来自适应地确定。为了自适应地选择最佳参数,通常将信源数据分区间编码,编码时自动地选择一组预测参数,使该实际值与预测值的均方误差最小。随着编码区间的不同,预测参数自适应地变化,以达到准最佳预
8、测。2.5自适应帧间预测帧间预测编码是利用视频图像帧间的相关性,即时间相关性,来达到图像压缩的目的,广泛用于普通电视、会议电视、视频电话、高清晰度电视的压缩编码。 在图像传输技术中,活动图像特别是电视图像是关注的主要对象。活动图像是由时间上以帧周期为间隔的连续图像帧组成的时间图像序列,它在时间上比在空间上具有更大的相关性。大多数电视图像相邻帧间细节变化是很小的,即视频图像帧间具有很强的相关性,利用帧所具有的相关性的特点进行帧间编码,可获得比帧内编码高得多的压缩比。对于静止图像或活动很慢的图像,可以少传一些帧,如隔帧传输,未传输的帧,利用接收端的帧存储器中前一帧的数据作为该帧数据,对视觉没有什么
9、影响。因为人眼对图像中静止或活动慢的部分,要求有较高的空间分辨率,而对时间分辨率的要求可低些。这种方法叫帧重复方法,广泛应用于视频电话、视频会议系统中,其图像帧速率一般为115帧/秒。 采用预测编码的方法消除序列图像在时间上的相关性,即不直接传送当前帧的像素值,而是传送x和其前一帧或后一帧的对应像素x 之间的差值,这称为帧间预测。当图像中存在着运动物体时,简单的预测不能收到好的效果,例如图象的当前帧与前一帧的背景完全一样,只是小球平移了一个位置,如果简单地以第k-1帧像素值作为k帧的预测值,则在实线和虚线所示的圆内的预测误差都不为零。如果已经知道了小球运动的方向和速度,可以从小球在k-1帧的位
10、置推算出它在k帧中的位置来,而背景图像(不考虑被遮挡的部分)仍以前一帧的背景代替,将这种考虑了小球位移的k-1帧图像作为k帧的预测值,就比简单的预测准确得多,从而可以达到更高的数据压缩比。这种预测方法称为具有运动补偿的帧间预测。 具有运动补偿的帧间预测编码是视频压缩的关键技术之一,它包括以下几个步骤:首先,将图像分解成相对静止的背景和若干运动的物体,各个物体可能有不同的位移,但构成每个物体的所有像素的位移相同,通过运动估值得到每个物体的位移矢量;然后,利用位移矢量计算经运动补偿后的预测值;最后对预测误差进行量化、编码、传输,同时将位移矢量和图像分解方式等信息送到接收端。 在具有运动补偿的帧间预
11、测编码系统中,对图像静止区和不同运动区的实时完善分解和运动矢量计算是较为复杂和困难的。在实际实现时经常采用的是像素递归法和块匹配法两种简化的办法。 像素递归法的具体作法是,仍需通过某种较为简单的方法首先将图像分割成运动区和静止区。在静止区内像素的位移为零,不进行递归运算;对运动区内的像素,利用该像素左边或正上方像素的位移矢量D作为本像素的位移矢量,然后用前一帧对应位置上经位移D后的像素值作为当前帧中该像素的预测值。如果预测误差小于某一阈值,则认为该像素可预测,无需传送信息;如果预测误差大于该阈值,编码器则需传送量化后的预测误差、以及该像素的地址,收、发双方各自根据量化后的预测误差更新位移矢量。
12、由此可见,像素递归法是对每一个像素根据预测误差递归地给出一个估计的位移矢量,因而不需要单独传送位移矢量给接收端。 块匹配法是另一种更为简单的运动估值方法。它将图像划分为许多子块,并认为子块内所有像素的位移量是相同的,这意味着将每个子块视为一个“运动物体”。对于某一时间t,图像帧中的某一子块如果在另一时间t-t1的帧中可以找到若干与其十分相似的子块,则称其中最为相似的子块为匹配块,并认为该匹配块是时间t-t1的帧中相应子块位移的结果。位移矢量由两帧中相应子块的坐标决定。 考虑到一定时间间隔内物体可能的运动速度、运动范围和匹配搜索所需的计算量,在匹配搜索时一般仅在一个有限范围内进行。假设在给定时间
13、间隔内最大可能的水平和垂直位移为d h和d v个像素,则搜索范围SR为 其中M、N为子块的水平和垂直像素数。 在块匹配方法中需要解决两个问题:一是确定判别两个子块匹配的准则;二是寻找计算量最少的匹配搜索算法。判断两个子块相似程度的准则可以利用两个块间归一化的二维互相关函数、两子块间亮度的均方差MSE或两子块间亮度差绝对值的均值MAD等。通过对不同判别准则的比较研究表明,各种判别准则对位移矢量的估值精度影响差别不是很大。由于MAD准则的计算不含有乘法和除法运算而成为最常使用的匹配判别准则。MAD准则定义如下: 其中Xk和Xk-1分别表示图像在第k帧和第k-1帧的像素值。当MAD最小时,表示两个子
14、块匹配。 对于匹配搜索算法,最简单和直接的方法就是全搜索方式,即将第k-1帧中的子块在整个搜索区内逐个像素移动,每移动一次计算一次判决函数。总的移动次数为 (2d h + 1)(2d v + 1)。当d h = d v = 6时,总的计算次数为169。显然,全搜索的运算量是相当大的。为了加快搜索过程,人们提出了许多不同的搜索方法,其中应用较广的有二维对数法、三步法、共轭方向法和正交搜索法。这几种方法都基于如下的假设:当偏离最小误差方向时,判决函数是单调上升的,搜索总沿着判决函数值减小的方向进行。上述几种方案所需的搜索步骤和计算点数略有差异,但基本思路是一致的。 通过上面介绍的两种运动矢量估值方
15、法可以看出,像素递归法对每一个像素给出一个估计的位移矢量,因而对较小面积物体的运动估值较为精确。但像素递归法在估值时需要进行叠代运算,从而存在着收敛速度和稳定性问题。块匹配法对同一子块内位移量不同的像素只能给出同一个位移估值,限制了对每一像素的估值精度。但对于面积较大的运动物体而言,采用块匹配法的预测要比采用像素递归法的预测效果好。另外,从软硬件实现角度看,块匹配算法相对简单,在实际活动图像压缩编码系统中得到较为普遍的应用。3 变换编码的基本原理、DCT变换、DWT变换等相关内容。3.1变换编码变换编码不是直接对空域图像信号进行编码,而是首先将空域图像信号映射变换到另一个正交矢量空间(变换域或
16、频域),产生一批变换系数,然后对这些变换系数进行编码处理。其中关键问题是在时域或空域描述时,数据之间相关性大,数据冗余度大,经过变换在变换域中描述,数据相关性大大减少,数据冗余量减少,参数独立,数据量少,这样再进行量化,编码就能得到较大的压缩比。目前常用的正交变换有:傅立叶 (Fouries)变换、沃尔什(Walsh)变换、哈尔(Haar)变换、斜(Slant)变换、余弦变换、正弦变换、K-L(Karhunen-Loeve)变换等。 在变幻编码中的比特分配中,分区编码是基于最大方差准则;阈值编码是基于最大幅度准则。3.2DCT变换离散余弦变换(DCT)是N.Ahmed等人在1974年提出的正交
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 视频 数据 基本 压缩 编码 技术 MPEG 系列 标准
限制150内