图像变换离散余弦变换.pptx
13.2.1 离散余弦变换的定义 一维离散余弦变换的定义由下式表示(374)(375)第1页/共47页2式中 是第 个余弦变换系数,是广义频率变量,;是时域N点序列,一维离散余弦反变换由下式表示(376)显然,式(374)式(375)和式(376)构成了一维离散余弦变换对。第2页/共47页3二维离散余弦变换的定义由下式表示(377)第3页/共47页4式(377)是正变换公式。其中 是空间域二维向量之元素。,是变换系数阵列之元素。式中表示的阵列为N N 第4页/共47页5二维离散余弦反变换由下式表示(378)第5页/共47页6第6页/共47页7第7页/共47页8第8页/共47页9余弦变换与傅里叶变换有什么关系?第9页/共47页10式中的符号意义同正变换式一样。式(377)和式(378)是离散余弦变换的解析式定义。更为简洁的定义方法是采用矩阵式定义。如果令N4,那么由一维解析式定义可得如下展开式(379)第10页/共47页11写成矩阵式(380)若定义 为变换矩阵,为变换系数矩阵,为时域数据矩阵,则一维离散余弦变换的矩阵定义式可写成如下形式(381)第11页/共47页12同理,可得到反变换展开式(382)写成矩阵式第12页/共47页13即(384)当然,二维离散余弦变换也可以写成矩阵式(385)式中 是空间数据阵列,是变换系数阵列,是变换矩阵,是 的转置。第13页/共47页143.2.2 离散余弦变换的正交性 由一维DCT的定义可知 它的基向量是(386)第14页/共47页15在高等数学中,切比雪夫多项式的定义为(387)第15页/共47页16式中 是 和 的多项式。它的第N个多项式为如果 那么 将此式代入 第16页/共47页17 显然,这与一维DCT的基向量是一致的。因为切比雪夫多项式是正交的,所以DCT也是正交的。另外,离散余弦变换的正交性也可以通过实例看出。如前所示,当N时,(388)则 第17页/共47页18显然 这是满足正交条件的。从上述讨论可见,离散余弦变换是一类正交变换。第18页/共47页193.2.3 离散余弦变换的计算与傅里叶变换一样,离散余弦变换自然可以由定义式出发进行计算。但这样的计算量太大,在实际应用中很不方便。所以也要寻求一种快速算法。首先,从定义出发,作如下推导第19页/共47页20 (389)第20页/共47页21式中 是取其实部的意思。如果把时域数据向量作下列延拓,即:(390)则 的离散余弦变换可写成下式第21页/共47页22(391)第22页/共47页23由式(391)可见是2N点的离散傅里叶变换。所以,在作离散余弦变换时,可以把序列长度延拓为2N,然后作离散傅里叶变换,产生的结果取其实部便可得到余弦变换。第23页/共47页24 同样道理,在作反变换时,首先在变换空间,把 作如下下延拓(392)那么,反变换也可用式(393)表示第24页/共47页25(393)第25页/共47页26 由式(393)可见,离散余弦反变换可以从 的2N点反傅里叶变换实现。第26页/共47页273.3 离散K-L变换又称为霍特林(Hotelling)变换KL(Karhunen-Loeve)或DKT以图像的统计性质为基础的变换核矩阵由图像阵列的协方差矩阵的特征值和特征向量所决定又称为特征向量变换第27页/共47页28当变量之间存在一定的相关关系时,可以通过原始变量的线性组合,构成数目较少的不相关的新变量代替原始变量,而每个新变量都含有尽量多的原始变量的信息。这种处理问题的方法,叫做主成分分析,新变量叫做原始变量的主成分。目的是寻找任意统计分布的数据集合之主要分量的子集。相应的基向量组满足正交性且由它定义的子空间最优地考虑了数据的相关性。将原始数据集合变换到主分量空间使单一数据样本的互相关性(cross-correlation)降低到最低点。第28页/共47页29图像协方差矩阵假设对某幅NN的图像f(x,y),在某个传输通道上传输了M次,因会受到各种因素的随机干扰,接收到是一个图像集合将M次传送的图像集合写成M个N2维向量X1,X2,Xi,XM,生成向量的方法可以采用行堆叠或列堆叠的方法,对第i次获得的图像fi(x,y),可用N2维向量Xi表示:第29页/共47页30问题是:如何选取一个合适的正交变换A,使得变换后的图像Y=AX 1)是具有MN2个分量的向量2)由Y经反变换而恢复的 (向量X的估值)和原始图像具有最小的均方误差,即 称满足这两个条件的正交变换A为K-L变换。如果能找到这样一个变换,那么就意味着经过一个变换,不仅删除了N2-M个分量,并且由变换结果Y重新恢复的图像是有效的过滤了随机干扰的原图像的最佳逼近。第30页/共47页31X向量的协方差矩阵CX定义为设ei和i是协方差矩阵CX对应的特征向量和特征值,将特征值按减序排列,即则K-L变换核矩阵A的行用CX的特征值i所对应的特征向量ei构成:第31页/共47页32直接求矩阵 CX的特征值和特征向量很困难。这是因为CX是N2N2维矩阵,尽管图像的大小N可能不是很大的,但N2却是很大的数据。这样求其特征向量和特征值速度较慢。但如果样本图象个数M不太多,可以先计算出MM维方阵LATA的特征值k和特征向量 vk左乘矩阵A,则有 是矩阵CX的 特征向量可以选择P(PM)个较大特征值对应的特征向量(主成分),构造新的P维主成分空间Q 因为CX是实对称矩阵,总能找到一个标准正交的特征向量集合,使A-1=AT,那么可得K-L反变换为 第32页/共47页33K-L变换的性质和特点(1)Y的平均值向量my0,即为零向量0(2)Y向量的协方差第33页/共47页34(3)对角性对角线上的元素是原始图像向量的协方差矩阵CX对应的特征值i,它也是Y向量的方差。而非对角线上的元素值为0,说明Y向量中各元素之间相关性小,而CX的非对角线上元素不为0,说明原始图像元素之间相关性强,这就是采用K-L变换进行编码,数据压缩比大的原因显然K-L坐标系将矩阵CX对角化了,换句话说,通过K-L变换,消除了原有向量X的各分量之间的相关性,从而可能去掉那些带有较少信息的坐标轴,以达到降低特征空间维数的目的。第34页/共47页35X1X2e 1e 2在原来坐标系中,要用两个分量X1,X2来表示各个样本,而在K-L坐标系中,只要用e1就可以,去掉e2并不会带来很大的误差假设矩阵CX只有少数几个数值大的特征值,而其余的特征值数值很小,K-L坐标系就可以有效的进行信息压缩第35页/共47页36K-L变换的最大优点是去相关性好,可用于数据压缩和图像旋转主要困难是由于协方差矩阵CX求特征值和特征向量解方程的计算量大,同时K-L变换是非分离的,二维不可分,一般情况下,K-L变换没有快速算法第36页/共47页37实例以K-L变换进行自动的人脸识别为例说明我们把一幅数字图像看成一个矩阵或一个数组,用B(i,j)或bij 表示,一幅NN大小的人脸图像按列相连构成一个N2维矢量x=(b11 b21bN1 b12b22bN2 b1N b2NbNN)它可视为N2维空间中的一个点,假设N=128。由于人脸结构的相似性,当把很多这样的人脸图像归一化之后,这些图像在这一超高维空间中不是随机或散乱分布的,而是存在某种规律,因此可以通过K-L变换用一个低维子空间描述人脸图像,同时又能保存所需要的识别信息第37页/共47页38图像的归一化对于一个全自动的人脸识别系统,其首要的工作是人脸图像的分割以及主要器官的定位。另外,由于K-L变换本质上依赖于图像灰度在空间分布上的相关性,因此还需要对人脸图像进行一系列的预处理,以达到位置校准和灰度归一化的目的假设已根据分割及定位算法,得到了人脸正面图像左右两眼中心的位置,并分别记为Er和El,则可通过下述步骤达到图像校准的目的第38页/共47页391、进行图像旋转,以使Er和El的连线ErEl保持水平。这保证了人脸方向的一致性,体现了人脸在图像平面内的旋转不变性2、根据图所示的比例关系,进行图像裁剪。图中,O点为ErEl的中点,且d=ErEl。经过裁剪,在2d2d的图像内,可保证O点固定于(0.5d,d)处。这保证了人脸位置的一致性,体现了人脸在图像平面内的平移不变性3、进行图像缩小和放大变换,得到统一大小的标准图像,规定标准图像的大小为128128象素点,则缩放倍数为=2d/128。这使得d=ErEl为定长(64个象素点),即保证了人脸大小的一致性,体现了人脸在图像平面内的尺度不变性第39页/共47页40经过校准,不仅在一定程度上获得了人脸表示的几何不变性,而且还基本上消除了头发和背景的干扰。完成了旋转、平移和尺度不变性后,需要对校准的图像做灰度拉伸,以改善图像的对比度,然后采用直方图修正技术使图像具有统一的均值和方差,一部分消除光照强度的影响假设人脸数据库中,由20人,每人10幅人脸图像第40页/共47页41K-L变换以归一化后的标准图像做为训练样本集,以该样本集的总体散布矩阵为协方差矩阵,即xi为第i个训练样本的图像向量,为训练样本集的平均图像,M为训练样本的总数为了N2N2维矩阵的特征值和正交归一的特征向量,直接计算是困难的,因此引入一个定理,奇异值分解SVD第41页/共47页42设A是一秩为r的nr维矩阵,则存在两个正交矩阵:以及对角阵满足其中i为矩阵AAT和ATA的非0特征值,u和v分别为AAT和ATA对应于i的特征向量,上述分解称为矩阵A地奇异值分解,为A的奇异值推论第42页/共47页43由于可表示为:故,构造矩阵:容易求其特征值i及相应的正交归一特征向量vi(i=0,1,2M-1)。由推论可知,的正交归一化特征向量ui为这就是图像的特征向量,它是通过计算较低维矩阵R的特征值与特征向量而间接求出的第43页/共47页44将特征值从大到小排序:0 1 r-1,其对应的特征向量为ui。这样,每一幅人脸图像都可以投影到由u0,u1,uM-1张成的子空间中。因此每一幅人脸图像对应于子空间中的一个点,同样,子空间中的任一点也对应于一幅图像第44页/共47页45特征脸第45页/共47页46对于任一待识别样本f,可通过向“特征脸”子空间投影求出其系数向量:y=Utf其重建图像 f=Uy考虑重建图像的信噪比 RSN=10lg(|f|2/|f-f|2)若其小于阈值,则 可判断f不是人脸图像。第46页/共47页47谢谢您的观看!第47页/共47页