《图像变换2离散余弦变换.ppt》由会员分享,可在线阅读,更多相关《图像变换2离散余弦变换.ppt(47页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1,3. 2 离散余弦变换,图像处理中常用的正交变换除了傅里叶变换外,还有其他一些有用的正交变换。其中离散余弦就是一种。离散余弦变换表示为DCT。,2,3.2.1 离散余弦变换的定义,一维离散余弦变换的定义由下式表示,(374),(375),3,式中 是第 个余弦变换系数, 是广义频率变量, ; 是时域N点序列,,一维离散余弦反变换由下式表示,(376),显然,式(374)式(375)和式(376)构成了一维离散余弦变换对。,4,二维离散余弦变换的定义由下式表示,(377),5,式(377)是正变换公式。其中 是空间域二维向量之元素。 , 是变换系数阵列之元素。式中表示的阵列为N N,6,二维
2、离散余弦反变换由下式表示,(378),7,8,9,10,余弦变换与傅里叶变换有什么关系?,11,式中的符号意义同正变换式一样。式(377)和式(378)是离散余弦变换的解析式定义。更为简洁的定义方法是采用矩阵式定义。如果令N4,那么由一维解析式定义可得如下展开式,(379),12,写成矩阵式,(380),若定义 为变换矩阵, 为变换系数矩阵, 为时域数据矩阵,则一维离散余弦变换的矩阵定义式可写成如下形式,(381),13,同理,可得到反变换展开式,(382),写成矩阵式,14,即,(384),当然,二维离散余弦变换也可以写成矩阵式,(385),式中 是空间数据阵列, 是变换系数阵列, 是变换矩
3、阵, 是 的转置。,15,3.2.2 离散余弦变换的正交性,由一维DCT的定义可知,它的基向量是,(386),16,在高等数学中,切比雪夫多项式的定义为,(387),17,式中 是 和 的多项式。它的第N个多项式为,如果,那么,将此式代入,18,显然,这与一维DCT的基向量是一致的。因为切比雪夫多项式是正交的,所以DCT也是正交的。另外,离散余弦变换的正交性也可以通过实例看出。如前所示,当N时,,(388),则,19,显然,这是满足正交条件的。从上述讨论可见,离散余弦变换是一类正交变换。,20,3.2.3 离散余弦变换的计算,与傅里叶变换一样,离散余弦变换自然可以由定义式出发进行计算。但这样的
4、计算量太大,在实际应用中很不方便。所以也要寻求一种快速算法。 首先,从定义出发,作如下推导,21,(389),22,式中 是取其实部的意思。如果把时域数据向量作下列延拓,即:,(390),则 的离散余弦变换可写成下式,23,(391),24,由式(391)可见,是2N点的离散傅里叶变换。所以,在作离散余弦变换时,可以把序列长度延拓为2N,然后作离散傅里叶变换,产生的结果取其实部便可得到余弦变换。,25,同样道理,在作反变换时,首先在变换空间,把 作如下下延拓,(392),那么,反变换也可用式(393)表示,26,(393),27,由式(393)可见,离散余弦反变换可以从 的2N点反傅里叶变换实
5、现。,28,3.3 离散K-L变换,又称为霍特林(Hotelling)变换 KL(Karhunen-Loeve)或DKT 以图像的统计性质为基础的 变换核矩阵由图像阵列的协方差矩阵的特征值和特征向量所决定又称为特征向量变换,29,当变量之间存在一定的相关关系时,可以通过原始变量的线性组合,构成数目较少的不相关的新变量代替原始变量,而每个新变量都含有尽量多的原始变量的信息。这种处理问题的方法,叫做主成分分析,新变量叫做原始变量的主成分。 目的是寻找任意统计分布的数据集合之主要分量的子集。相应的基向量组满足正交性且由它定义的子空间最优地考虑了数据的相关性。将原始数据集合变换到主分量空间使单一数据样
6、本的互相关性(cross-correlation)降低到最低点。,30,图像协方差矩阵,假设对某幅NN的图像f(x,y),在某个传输通道上传输了M次,因会受到各种因素的随机干扰,接收到是一个图像集合,将M次传送的图像集合写成M个N2维向量X1,X2,Xi,XM, 生成向量的方法可以采用行堆叠或列堆叠的方法,对第i次获得的图像fi(x,y),可用N2维向量Xi表示:,31,问题是:如何选取一个合适的正交变换A,使得变换后的图像Y=AX 1)是具有MN2个分量的向量 2)由Y经反变换而恢复的 (向量X的估值)和原始图像具有最小的均方误差,即,称满足这两个条件的正交变换A为K-L变换。如果能找到这样
7、一个变换,那么就意味着经过一个变换,不仅删除了N2-M个分量,并且由变换结果Y重新恢复的图像,是有效的过滤了随机干扰的原图像的最佳逼近。,32,X向量的协方差矩阵CX定义为,设ei和i是协方差矩阵CX对应的特征向量和特征值,将特征值按减序排列,即,则K-L变换核矩阵A的行用CX的特征值i所对应的特征向量ei构成:,33,直接求矩阵 CX的特征值和特征向量很困难。这是因为CX是N2N2维矩阵,尽管图像的大小N可能不是很大的,但N2却是很大的数据。这样求其特征向量和特征值速度较慢。但如果样本图象个数M不太多,可以先计算出MM维方阵LATA的特征值k和特征向量 vk,左乘矩阵A,则有,是矩阵CX的
8、特征向量,可以选择P(PM)个较大特征值对应的特征向量(主成分),构造新的P维主成分空间Q,因为CX是实对称矩阵,总能找到一个标准正交的特征向量集合,使A-1=AT,那么可得K-L反变换为,34,K-L变换的性质和特点,(1)Y的平均值向量my0,即为零向量0,(2)Y向量的协方差,35,(3)对角性,对角线上的元素是原始图像向量的协方差矩阵CX对应的特征值i,它也是Y向量的方差。而非对角线上的元素值为0,说明Y向量中各元素之间相关性小,而CX的非对角线上元素不为0,说明原始图像元素之间相关性强,这就是采用K-L变换进行编码,数据压缩比大的原因,显然K-L坐标系将矩阵CX对角化了,换句话说,通
9、过K-L变换,消除了原有向量X的各分量之间的相关性,从而可能去掉那些带有较少信息的坐标轴,以达到降低特征空间维数的目的。,36,在原来坐标系中,要用两个分量X1,X2来表示各个样本,而在K-L坐标系中,只要用e1就可以,去掉e2并不会带来很大的误差,假设矩阵CX只有少数几个数值大的特征值,而其余的特征值数值很小,K-L坐标系就可以有效的进行信息压缩,37,K-L变换的最大优点是去相关性好,可用于数据压缩和图像旋转 主要困难是由于协方差矩阵CX求特征值和特征向量解方程的计算量大,同时K-L变换是非分离的,二维不可分,一般情况下,K-L变换没有快速算法,38,实例,以K-L变换进行自动的人脸识别为
10、例说明,我们把一幅数字图像看成一个矩阵或一个数组,用B(i,j)或bij 表示,一幅NN大小的人脸图像按列相连构成一个N2维矢量,x=( b11 b21bN1 b12b22bN2 b1N b2NbNN),它可视为N2维空间中的一个点,假设N=128。由于人脸结构的相似性,当把很多这样的人脸图像归一化之后,这些图像在这一超高维空间中不是随机或散乱分布的,而是存在某种规律,因此可以通过K-L变换用一个低维子空间描述人脸图像,同时又能保存所需要的识别信息,39,图像的归一化,对于一个全自动的人脸识别系统,其首要的工作是人脸图像的分割以及主要器官的定位。另外,由于K-L变换本质上依赖于图像灰度在空间分
11、布上的相关性,因此还需要对人脸图像进行一系列的预处理,以达到位置校准和灰度归一化的目的,假设已根据分割及定位算法,得到了人脸正面图像左右两眼中心的位置,并分别记为Er和El,则可通过下述步骤达到图像校准的目的,40,1、进行图像旋转,以使Er和El的连线ErEl保持水平。这保证了人脸方向的一致性,体现了人脸在图像平面内的旋转不变性,2、根据图所示的比例关系,进行图像裁剪。图中,O点为ErEl的中点,且d=ErEl。经过裁剪,在2d2d的图像内,可保证O点固定于(0.5d,d)处。这保证了人脸位置的一致性,体现了人脸在图像平面内的平移不变性,3、进行图像缩小和放大变换,得到统一大小的标准图像,规
12、定标准图像的大小为128128象素点,则缩放倍数为=2d/128。这使得d=ErEl为定长(64个象素点),即保证了人脸大小的一致性,体现了人脸在图像平面内的尺度不变性,41,经过校准,不仅在一定程度上获得了人脸表示的几何不变性,而且还基本上消除了头发和背景的干扰。,完成了旋转、平移和尺度不变性后,需要对校准的图像做灰度拉伸,以改善图像的对比度,然后采用直方图修正技术使图像具有统一的均值和方差,一部分消除光照强度的影响,假设人脸数据库中,由20人,每人10幅人脸图像,42,K-L变换,以归一化后的标准图像做为训练样本集,以该样本集的总体散布矩阵为协方差矩阵,即,xi为第i个训练样本的图像向量,
13、 为训练样本集的平均图像,M为训练样本的总数,为了N2N2维矩阵的特征值和正交归一的特征向量,直接计算是困难的,因此引入一个定理,奇异值分解SVD,43,设A是一秩为r的nr维矩阵,则存在两个正交矩阵:,以及对角阵,满足,其中i为矩阵AAT和ATA的非0特征值,u和v分别为AAT和ATA对应于i的特征向量,上述分解称为矩阵A地奇异值分解,为A的奇异值,推论,44,由于可表示为:,故,构造矩阵:,容易求其特征值i及相应的正交归一特征向量vi( i=0,1,2M-1)。由推论可知,的正交归一化特征向量ui为,这就是图像的特征向量,它是通过计算较低维矩阵R的特征值与特征向量而间接求出的,45,将特征值从大到小排序:0 1 r-1,其对应的特征向量为ui。这样,每一幅人脸图像都可以投影到由u0,u1,uM-1张成的子空间中。因此每一幅人脸图像对应于子空间中的一个点,同样,子空间中的任一点也对应于一幅图像,46,特征脸,47,对于任一待识别样本f,可通过向“特征脸”子空间投影求出其系数向量: y=Utf 其重建图像 f=Uy 考虑重建图像的信噪比 RSN=10lg(|f|2/|f-f|2) 若其小于阈值,则 可判断f不是人脸图像。,
限制150内