《静止图像编码精选文档.ppt》由会员分享,可在线阅读,更多相关《静止图像编码精选文档.ppt(37页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、静止图像编码本讲稿第一页,共三十七页静止图像的采样与量化本讲稿第二页,共三十七页静止图像采样空间轴上二维伸展,时间轴上一点。图像的色彩由人眼决定,三元色RGB。图像的数字化在二维平面上,将图像划分为一个个很小的方块,每个方块内近似具有同样的色彩。这样的方块称为像素。实际应用中,像素数决定于图像输出设备的分辨率。若分辨率较低,则每个像素对应的方块较大,就能明显看到块的结构,如大屏幕电视。本讲稿第三页,共三十七页静止图像采样,量化如果图像的细节很精致(如电视台专用的测试信号),则像素分割仍无法体现细节。类似时域的奈奎斯特采样定理。每个像素有对应的色彩,有不同的色彩分量。直接的色彩空间是RGB,每个
2、分量采用8bit量化,一共可以表示 种色彩,基本上可以接近原始的真实色彩。人眼实际上对亮度信号更敏感,因此可以将色彩空间进行变换,得到YUV分量,每个分量依旧采用8bit量化。本讲稿第四页,共三十七页电视信号测试图本讲稿第五页,共三十七页图像压缩分类本讲稿第六页,共三十七页图像为什么可以压缩?熵冗余像素间具有相关性不同的符号具有不同的概率视觉冗余不是所有的细节都可见不是所有的细节都需要看到人眼的视觉特性,比如对亮度比色度敏感,对黄、绿等颜色更敏感等等。本讲稿第七页,共三十七页图像压缩的分类对于一些特定要求的图像,如地图、遥感或航拍的图像,医疗图片,警用图片等,对细节要求很高,而且一旦出现失真,
3、影响极大,此时一般用无损压缩。对于娱乐用图片,如照片,广告,文字等,人们关心的重点是整体的视觉效果,因此可以使用有损压缩,以获得更好的压缩比。本讲稿第八页,共三十七页有损编码与无损编码无损编码(压缩比1.5-3)无失真完全可复原不利用人的视觉特性有损编码(压缩比10-200)有失真可复原利用了人的视觉特性本讲稿第九页,共三十七页无损编码,游程编码一般采用熵编码,包括Huffman编码,香农编码,LZW编码,算数编码,游程编码等。游程编码适用于二值图像,或者有大片同色部分的图像。典型应用是传真的图像。在二值图像中,一定是0,1交替出现,因此,如果假设每行都从0开始,则编码时只需记录连续像素的个数
4、,而不必记录像素的颜色。比如像素为000101110010001,游程编码后为31132131,然后可以对多元序列进行Huffman编码。本讲稿第十页,共三十七页香农编码(一)根据香农定理,对二进制码,码字长度满足下面公式,其中ti为该码字长度,Pi为该符号出现的概率香农编码步骤将信息符号按出现的概率由大到小顺序排列按上面公式计算各概率对应的码字长度ti计算各概率对应的累加概率aia1=0,a2=P2,a3=P2+P1,a4=P3+P2+P1,将累加概率转换为2进制小数,取前ti位,即为香农编码的结果本讲稿第十一页,共三十七页香农编码(二)举例Y1概率0.40 t1=2 a1=0 00Y2概率
5、0.18 t1=3 a1=0.4 011Y3概率0.10 t1=4 a1=0.58 1001Y4概率0.10 t1=4 a1=0.68 1010Y5概率0.07 t1=4 a1=0.78 1100Y6概率0.06 t1=5 a1=0.85 11011Y7概率0.05 t1=5 a1=0.91 11101Y8概率0.04 t1=5 a1=0.96 11110本讲稿第十二页,共三十七页算数编码(一)20世纪60年代由Elias提出,是信息保持型编码,无须为一个符号设定一个码字。举例说明信源4个符号,a-1/2,b-1/4,c-1/8,d-1/8.要对aabc进行编码利用单位长度的矩形来表示,指针起
6、点为0,宽度为1。第一个符号是a,指针指向0+1(宽度)*0.011(a的起始位置)=0.011,宽度变为1(宽度)*0.1(a的宽度)=0.1本讲稿第十三页,共三十七页算数编码(二)第二个符号是a,指针指向0.011+0.1(宽度)*0.011(a的起始位置)=0.1001,宽度变为0.1(宽度)*0.1(a的宽度)=0.01第三个符号是b,指针指向0.1001+0.01(宽度)*0.001(b的起始位置)=0.10011,宽度变为0.01(宽度)*0.01(b的宽度)=0.0001第四个符号是c,指针指向0.10011+0.0001(宽度)*0.111(c的起始位置)=0.1010011,
7、宽度变为0.0001(宽度)*0.001(c的宽度)=0.0000001本讲稿第十四页,共三十七页算数编码(三)解码过程,码字为0.1010011在0-1空间里定位,由于0.0110.10100110.111,所以第1个符号为a0.1010011-0.011(a的起点)/0.1(a的宽度)=0.0100011*2=0.100011,由于0.0110.1000110.111,所以第2个符号为a。0.100011-0.011(a的起点)/0.1(a的宽度)=0.001011*2=0.01011,由于0.0010.010110.011,所以第3个符号为b。0.01011-0.001(b的起点)/0.
8、01(b的宽度)=0.00111*4=0.111,由于0.111就是c的起点,因此第4个符号是c本讲稿第十五页,共三十七页有损编码对于大量图像,并不需要无损编码,只要人的视觉接收即可。此时重点在于压缩效率,故采用有损压缩。有损压缩常采用以下方法预测编码:点预测,帧内预测,帧间预测变换域编码:KL,DCT,小波量化编码:标量量化,矢量量化本讲稿第十六页,共三十七页变换域编码 DCT变换本讲稿第十七页,共三十七页变换域编码(1)在变换域(频率域)上利用信源的相关性进行数据压缩。变换的目的是寻找信号更有效的表示方式。简单来说,一个实际信号在信号空间中表示为一点,在各坐标方向上都有投影。对信号空间作线
9、性变换,可以让该信号只在一个坐标方向上有投影,而其他分量为0。以三维空间为例,蓝线表示原有坐标系,信号点在三个方向上都有投影。坐标系线性变换后(红色),信号点只在一个坐标轴上有分量。从而达到了压缩的目的。本讲稿第十八页,共三十七页变换域编码(2)上述方式,对每个信号都需要一个特定的坐标系变换,这是不现实的。对所有的信号,都要采用同样的坐标系变换,设该变换矩阵为T,是正交阵。设一个离散信号由N个采样值组成,则对应N维向量空间,该信号可表示为一个N维向量X。正交变换Y=TX。变换后,Y也是一个N维向量,但其中N-M个分量近似为零。此时Y被压缩为只有M个分量,这就是变换域编码的基本原理本讲稿第十九页
10、,共三十七页变换域编码(3)使MSE最小的条件是即变换矩阵是由X的协方差矩阵的特征向量构成,此最佳变换称为KLT变换。变换矩阵与信号的统计特性相关,具体问题具体分析。本讲稿第二十页,共三十七页离散余弦变换(1)离散余弦变换(DCT)是正交变换的一种,采用固定的基向量。当信号是一阶平稳马尔可夫过程,且相关系数接近1,则DCT十分接近KLT。一维DCT变换与反变换本讲稿第二十一页,共三十七页离散余弦变换(2)DCT的物理意义:空间频率的提取。回顾:傅立叶级数:连续周期性信号可以分解为若干正弦信号之和。傅立叶变换:连续非周期信号分解为连续谱。离散傅立叶变换:有限长度离散信号的傅里叶变换。通过离散傅立
11、叶变换,得到时域上的离散信号的各频率分量引入空间频率的概念,沿着某个空间方向信号幅度产生变化,这种变化的速度就是空间频率。本讲稿第二十二页,共三十七页离散余弦变换(3)斑马纹,木材横剖面,纵剖面的纹理具有典型的空间频率特性。与时域信号相似,任何图像都具有空间频率。因此,与时域的傅立叶变换相似,通过空间域的“傅立叶变换”,得到空间频率,也可以起到数据压缩的效果。DCT就是空间域的“傅立叶变换”,DCT变换后得到的系数,就代表了空间频率的分布情况。本讲稿第二十三页,共三十七页离散余弦变换(4)对图像而言,空间频率的高频部分代表其细节,低频部分代表其主体。因此DCT变换后,如果抛弃了图像的高频部分,
12、则损失图像细节。二维DCT变换的基函数图样。本讲稿第二十四页,共三十七页图像分块为什么图像处理要分块?DCT必须对一段数据进行操作,如果只对一点做DCT,则没有意义。分块操作,可以减小对存储器的需求分块操作,可以将图像细化,每个块内的图像细节将不再起主要作用。因此可以将每块的DCT变换后的高频部分丢弃,而不影响图像质量。如何分块:正方形?矩形?块的大小?块越小,图像细节保持的越好,编码用的比特越多;块越大,则相反。一般选择8*8像素大小的块。产生的问题马赛克效应。本讲稿第二十五页,共三十七页JPEG标准本讲稿第二十六页,共三十七页JPEG标准JPEG是Joint Photographic Ex
13、perts Group(联合图像专家小组)于1994年制定的一种图像编码格式,是在Web上最普遍的照片存储格式。在保证图像质量的前提下,可以将图像压缩为1/10到1/20。JPEG是图像和视频编码的基础。后面出现的JPEG2000,H.261,H.263等,都是以JPEG的框架作为基础的。本讲稿第二十七页,共三十七页JPEG流程色彩空间转换DownSamplingDCT量化熵编码本讲稿第二十八页,共三十七页JPEG流程(1)色彩空间转换一般来说,摄像头采集到的信号,是RGB格式,而我们需要YUV的分量进行处理,因此需要进行色彩空间转换。Y是像素的亮度,UV表示色调与饱和度转换公式如下:本讲稿第
14、二十九页,共三十七页JPEG流程(2)DownSampling人眼对亮度信号很敏感,而对色调与饱和度则相对不敏感。为了提高编码效率,可以减小UV的数目,从而减小UV所占的比特。从4:4:4到4:2:2或者4:2:0本讲稿第三十页,共三十七页JPEG流程(3)DCT原始图像像素52 55 61 66 70 61 64 7363 59 55 90 109 85 69 7262 59 68 113 144 104 66 7363 58 71 122 154 106 70 6967 61 68 104 126 88 68 7079 65 60 70 77 68 58 7585 71 64 59 55
15、61 65 8387 79 69 68 65 76 78 94经DCT变换后系数-415-30-61 27 56-20-2 0 4 -22-61 10 13 -7 -9 5-47 7 77-25-29 10 5 -6-49 12 34-15-10 6 2 2 12 -7 -13 -4 -2 2 -3 3 -8 3 2 -6 -2 1 4 2 -1 0 0 -2 -1 -3 4 -1 0 0 -1 -4 -1 0 1 2本讲稿第三十一页,共三十七页JPEG流程(4)量化量化矩阵16 11 10 16 24 40 51 6112 12 14 19 26 58 60 5514 13 16 24 40
16、 57 69 5614 17 22 29 51 87 80 6218 22 37 56 68 109 103 7724 35 55 64 81 104 113 9249 64 78 87 103 121 120 10172 92 95 98 112 100 103 99量化后的DCT系数-26-3-6 2 2-1 0 0 0-2-4 1 1 0 0 0 -3 1 5-1-1 0 0 0 -4 1 2-1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0量化矩阵的获得是经过对大量图像统计后得到的,是固定
17、的。经量化后的DCT系数,高频部分出现了大量的0值。本讲稿第三十二页,共三十七页JPEG流程(5)熵编码Zig-Zag扫描,将频率由低到高依次排列对排列后的数据进行熵编码,一般使用Huffman编码,也可使用算数编码。当序列中不再有非零元素时,不在将0逐个列出,而是用EOB表示结束,从而压缩编码比特。本讲稿第三十三页,共三十七页JPEG压缩实例在量化这一步中,量化矩阵直接决定了DCT系数的精度,也就决定了图像的质量。下面是三幅同样的图片,用不同的量化矩阵,得到不同的品质。本讲稿第三十四页,共三十七页JPEG2000简介本讲稿第三十五页,共三十七页JPEG2000JPEG2000同样是由JPEG组织在2000年底发布的,被认为是未来取代JPEG的下一代图像压缩标准。JPEG2000同时支持有损压缩和无损压缩,而JPEG只支持有损压缩高压缩比条件下(20:1),JPEG2000的图像失真要好于JPEG;低压缩比(10:1)时,JPEG质量可能会更好。JPEG2000支持更复杂的渐进式显示模式。和JPEG相比,主要是将DCT用小波分析进行替代。视觉效果上看,JPEG2000主要消除了马赛克效应。本讲稿第三十六页,共三十七页作业2对下面的8*8块进行DCT变换,估计系数矩阵的哪些位置上,系数不为零。本讲稿第三十七页,共三十七页
限制150内