《有效图像块描绘子分析.docx》由会员分享,可在线阅读,更多相关《有效图像块描绘子分析.docx(13页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、有效图像块描绘子分析1图像特征表示方法概述设计图像的特征表示是计算机视觉中一项非常基本的研究内容,图像的分类、检索、标注等工作都是以提取图像特征为初始步骤,好的特征表示能够在相关图像分析中获得更佳的效果.因而,图像特征的设计与构造,直接影响算法的性能.而怎样定义一个好的图像特征却是非常困难的:一方面,设计的图像特征对于同一类别下列图像之间的变化(比方尺度、光照变化、对象位置变化等)要有足够的鲁棒性;另一方面,设计的图像特征要具备足够的判别性来处理不同类别间图像的变化.近年来,研究者提出了大量的底层特征用于各种图像分析任务,其中最具有代表性的是基于梯度朝向直方图的SIFT(scale-invar
2、iantfeaturetransform)1和HOG(histogramoforientedgradient)2.尽管这类特征获得了一定意义的成功,但研究者发现,这类单一的底层特征并缺乏以在某些应用上到达更好的效果,因而提出了一类中间层的图像特征表示方法.其中,BoW(bagofwords)3是这类图像特征表示方法的典型代表,该方法在场景分类中获得了较好的性能.BoW算法生成图像特征表示分为3个经过:图像底层特征的获取、学习过完备字典和计算图像的码字直方图表示.然而,BoW方式并没有考虑特征向量在图像空间上的位置关系,使得其特征描绘能力并没有到达最大化.为了弥补这一缺陷,空间金字塔匹配(spa
3、tialpyramidmatching,简称SPM)4方法通过在一幅图像的不同层次上计算码字直方图,构成了一个BoW多层特征,将BoW模型与图像空间进行合理融合.然而,由于SPM方法利用直方图交核函数来度量两幅图像间的类似度,导致无法产生低维度的图像特征表示,而且需要完好计算训练集图像间类似度的Gram矩阵,因而,其算法复杂度为O(n2)(其中,n为训练集中图像的个数).为了解决这一问题,有效匹配核算法(efficientmatchkernel,简称EMK)5在码字间类似性的基础上构造了一个低维特征映射空间,整个图像的特征能够表示为码字映射在这个低维特征空间后的平均,且能够采用线性SVM方法训
4、练分类器,在图像分类应用中获得了非常不错的效果.然而,有效匹配核算法仍然依靠于人为定义的图像局部特征(如SIFT或HOG),只不过是通过计算有限维空间的局部线性特征表示来推出整体图像的线性特征.Bo等人扩展了有效匹配核算法并提出了核描绘子(kerneldescriptor,简称KD)6方法.这种方法只需定义任意两个局部图像块之间的类似性,且该类似性函数知足核函数定义.由于每个核函数都隐性定义了一个映射,它将图像块映射为再生核希尔伯特空间(reproducingkernelHilbertspace,简称RKHS)中一个非常高维的向量,这样,核函数能够表示为RKHS中两个高维向量的内积,通过核主成
5、分分析(kernelprincipalcomponentanalysis,简称KPCA)7算法,能够由核函数推出图像块特征的有限维线性表示.这种低维空间中的表示就称为核描绘子,并且采用EMK算法将其推广到整个图像的特征表示.尽管核描绘子方法的设计思想较为新颖,但仍然存在计算复杂度过高这一缺陷,限制了其在大规模图像数据库上的应用.事实上,在KPCA方法的离线阶段,所有联合基向量对之间的类似性都需要计算,这是非常耗时的.更重要的是:在线阶段计算一个新图像块的特征映射时,该图像块与所有联合基向量之间的类似性也是需要计算的,而这实际上是不需要的.Xie等人8通过使用不完好Cholesky分解替代KPC
6、A算法,成功地解决了这个问题,并且通过迭代,应用不完好Cholesky分解算法表示整个图像特征9.但文献8,9中,通过不完好Cholesky分解得到的标志联合基向量并没有对应实际的图像块,因而,其产生的特征判别能力并没有最大化地得到利用.Wang等人提出了有监督的核描绘子方法10,该方法利用训练集中的图像类标来辅助设计底层图像块特征.尽管他们利用该特征获得了不错的分类效果,但这个算法运行经过中需要大量有类标的图像,并且对象优化函数求解经过复杂,时间复杂度过高.除了上述生成图像底层特征表示的方法以外,另外一类构成图像特征的方法基于深度学习理论.2006年,Hinton等人11,12提出了用于深度
7、信任网络(deepbeliefnetwork,简称DBN)的无监督学习算法,DBN的多层构造,使得它能够学习得到层次化的特征表示,实现自动特征抽象,文献12将DBN模型成功用于手写数字识别应用上.Bengio等人在文献13中提出了基于自编码器(auto-encoder)14的深度学习网络,在手写数字识别图像数据库上得到了类似的实验结果.另外,文献1517提出了一系列基于稀疏编码的深层学习网络,在图像应用中获得了一定的成功.LeCun等人用误差梯度设计并训练卷积神经网络(convolutionalneuralnetwork,简称CNN),其在图像分类,十分是手写体字符识别应用中得到优越的性能.在
8、此基础上,Krizhevsky等人21将CNN模型应用到分类大规模ImageNet图像数据库,愈加充分地显示了深度学习模型的表达能力.尽管在深度学习模型下获得的图像特征有很强的判别表示能力,但其要求计算机硬件条件较高,单机环境下很难实现.除此之外,愈加具体地介绍图像特征描绘子领域的综述能够参考文献23.本文在大数据时代背景下,为了能够快速得到图像块的线性特征表示,提出了有效图像块描绘子(efficientpatch-leveldescriptor,简称EPLd)方法.该方法在不完好Cholesky分解基础上,能够自动地进行图像块挑选,对于求解新图像块的线性特征表示,只需计算它和一小部分基图像块
9、的类似性就足够了.有了图像块的特征表示之后,一幅图像就对应着一个图像块特征的集合,该集合能够看作是特征空间中基于某个分布的样本集,这样,两幅图像之间的差异能够看作两个分布的距离.本文采用基于高维概率分布的MMD距离24进行估算,进而计算两幅图像间的类似性.本文首先介绍核描绘子方法,然后给出有效图像块描绘子算法的详细实现经过以及怎样利用MMD距离计算两幅图像的类似性,并在几个著名的图像分类数据库上进行实验,最后给出工作的结论和瞻望.2核描绘子方法简介核描绘子方法是对图像像素点属性(梯度/形状/颜色+位置)基础上生成的联合基向量应用KPCA方法,进而计算新图像块的有限维特征表示.为了方便叙述,本文
10、采用像素点的梯度属性来介绍核描绘子方法.通过公式(2)能够看到,核描绘子方法的主要缺陷有下面3点:(1)算法计算复杂度高,由于需要对dodp维的联合基向量构成的Gram矩阵计算特征值分解,假如联合基向量的维度过高或者个数太多,KPCA算法甚至无法施行;(2)对联合基向量进行KPCA获得的tij并不是稀疏的,这也就意味着在计算新图像块的特征表示时,需要和所有的联合基向量进行在线计算,所以算法需要存储全部的联合基向量;(3)算法无法进行特征选择,即,并不知道联合基向量中哪些样本最具代表性.3有效图像块描绘子算法针对核描绘子方法的3点缺乏之处,文献8解决了其主要缺陷的第一、第二两点,但是文献8在本质
11、上仍然使用联合基向量,所以没有明确地进行特征选择,即,找出哪些图像块是最具代表性的,使得其特征表示能力并没有到达最大化.为了愈加完善地解决核描绘子方法的缺陷,本文提出了一种新的图像块特征表示方法,称为有效图像块描绘子.该方法基于对图像块类似度矩阵执行不完好Cholesky分解。总体上来讲,有效图像块描绘子算法由两部分构成:1)首先从训练图像集中均匀抽取足够的图像块,然后在这些图像块构成的Gram矩阵上执行不完好Cholesky分解算法.假如设定N代表图像块的个数,M代表分解后矩阵的秩,通常情况下,MN.这样做的好处有两点:首先,在分解经过中只需要按需计算O(MN)个Gram矩阵元素的值;其次,
12、对Gram矩阵执行Cholesky分解的时间复杂度为O(M2N),远远低于KPCA算法的O(N3).2)经过第1步分解步骤之后,选择出了M个最具代表性的基图像块,新图像块的特征表示仅仅通过O(M)次计算就能够得到.算法的详细步骤将在下面部分具体介绍.3.1Gram矩阵的低秩近似半正定的Gram矩阵K能够分解为GGT,所以不完好Cholesky分解的目的就是找到一个矩阵G,其大小为NM,使得TGG在M足够小的情况下近似K.在执行不完好Cholesky分解算法的经过中,选择出M个最具代表性的基图像块,利用所有图像块和这M个基图像块之间的类似性,能够近似恢复Gram矩阵K.这里,M的值是能够通过算法
13、在线确定的,由算法中提早给定的近似精度参数来控制.关于不完好Cholesky分解的具体执行经过能够参考文献26,其中,作为输入参数的Gram矩阵K实际上是按需计算的,即,算法执行经过中需要用到哪两个训练图像块间的类似度,就根据公式(1)计算得到.算法执行后,就得到了一些具有代表性的基图像块,用向量P保存基图像块的索引序号,同时得到了矩阵G,使得.TGGK3.2构造图像块特征映射算法一旦获得了NM的矩阵G,新图像块的特征(有效图像块描绘子)就能够由G构造.其中,新图像块特征维度大小由M确定,每一维度i的值可由新图像块与P(i)所指示的基图像块间类似性K(newpatch,P(i)恢复得到。通过算
14、法1能够看到:选择出的M个最具代表性的基图像块能够看成是一系列局部图像块的非线性滤波器,将每个新图像块和这些基图像块进行类似性度量的经过,可以看成是对这个新图像块进行特征提取的经过.另外,针对图像块类似度矩阵执行不完好Cholesky分解往往能够保证获得精度非常高的低秩近似,且分解经过中只与某些训练样本(图像块)有关.也就是讲,利用这些训练样本就能够很好地近似恢复类似度矩阵,所以训练集中的图像块具有不同程度的重要性.因而,我们称重要性最高的前M个图像块为“最具代表性的基图像块.为了愈加形象地展示这些重要的基图像块,我们在Scene-15图像库上提取了最重要的前16个基图像块,如图1所示(每个图
15、像块由其像素点的梯度幅值来表示).能够看到,每个图像块都包含了丰富的边缘和纹理信息.本文提出的有效图像块描绘子算法不只继承了文献8的有效性,而且很好地解决了核描绘子算法中的第3点缺陷,最大限度地发挥了图像块特征的判别能力.4利用MMD距离计算图像间的类似性基于算法1,每一个图像块都能够用有效图像块描绘子来表示.一幅图像通过稠密采样确定很多关键点,每一个关键点都对应着一个局部的图像块,因而,一幅图像就对应着一个局部特征的集合.假定图像I1包含m个图像块,则其特征集合能够表示为Fp(patchp1,patchp2,patchpm),图像I2包含n个图像块,其特征集合表示为Fq(patchq1,pa
16、tchq2,patchqn).Fp能够看作特征空间中来自分布p的一个样本集,同样,Fq可以以看作是来自分布q的样本集.这样,图像I1与I2之间的差异性就能够由p和q两个分布的距离表示.当然,这两个概率分布之间的距离只能通过这两个样本集进行估算.为此,本文采用基于高维概率分布的MaximumMeanDiscrepancy(MMD)距离24进行估算.MMD距离能够看作是将两个概率分布,通过非线性核函数映射到再生核希尔伯特空间(RKHS)后均值的距离.对于上述分布p和q的MMD距离估计可由公式(3)计算。单纯地利用公式(3),并没有考虑局部特征在整幅图像上的空间分布信息.为了解决这个问题,本文首先采
17、用空间金字塔方法将整幅图像进行逐层划分;然后,在两幅图像每个层次对应的小图像上计算它们之间的MMD距离;最终,将所有层次的MMD距离根据其对应层次的权重进行汇总求和,然后度量两幅图像I1与I2之间的差异性.5实验本文使用像素点的梯度、形状和颜色属性分别构造基于梯度的有效图像块描绘子(EPLd-G)、基于形状的有效图像块描绘子(EPLd-S)和基于颜色的有效图像块描绘子(EPLd-C).为了测试有效图像块描绘子算法的性能,分别在3个著名的图像分类数据库(Scene-15,Caltech-10128和UIUC-829)上做了实验.在接下来的实验中,计算3个不同类型的有效图像块描绘子都是首先将图像根
18、据固定比率缩放到不超过300300像素点;十分地,在计算EPLd-G和EPLd-S时,将缩放后的图像中的像素点的灰度值标准化为0,1范围.图像块通过每隔8个像素点的稠密采样方式从训练集图像中进行抽取,大小为1616像素点.EPLd-All是将EPLd-G,EPLd-S和EPLd-C这3个描绘子串接起来构成的.训练线性SVM分类器使用LIBLINEAR30,其中,图像间的类似性利用MMD距离来定义.在计算MMD时,将图像根据11,22和33分为3个层次来汇总求和,尺度参数在不同的数据库上利用穿插验证方法确定.所有的实验均重复10次,每次的训练集和测试集都随机抽取确定,将10次分类准确率的平均值和
19、方差记录下来.实验中的其他参数从公平比拟的角度考虑,与文献6,8设置一样.5.1Scene-15Scene-15场景数据库包含4485张图片,这些图片分属15个类别,有室内场景和室外场景,每一个类别包含200张400张图片不等.根据惯例,从每个类别中随机抽取100张图片作为训练,剩余图片作为测试.在算法中设置Pivots的个数为200,即,利用不完好Cholesky分解选出200个最具代表性的基图像块来构造维度为200的有效图像块描绘子.实验结果列在表1中(其中,KD代表核描绘子方法6,EKD代表有效核描绘子方法8,EPLd代表本文提出的有效图像块描绘子方法),EPLd方法获得在这个数据库上的
20、最佳分类准确率(87.0%).另外,EPLd方法在所有4种不同情况(梯度、形状、颜色和上述3种属性的汇总)下的性能均超过了文献6,8.在实验中,除了测试分类准确率来体现EPLd的判别能力,还通过不同维度下测试分类准确率来体现EPLd的有效性.我们发现,在特征维度只要50维的情况下也获得了接近最优分类准确率的性能,这充分体现出EPLd算法的有效性和强健性.事实上,通过表2能够看到:特征维度从50维增加到300维,分类准确率并没有得到明显的提升.造成这一现象的原因是,不完好Cholesky分解容易获得高质量的低秩近似.表2中的数据表明:即便是50维的低秩近似也足以体现Gram矩阵中的关键信息,而这
21、些关键信息直接决定了分类的性能.在后面的实验中,从算法效率的角度考虑都使用了100维的特征表示.5.2Caltech-101Caltech-101图像数据库包含9144张图片.这9144张图片从属于101个对象类别外加一个背景类别,每个类别中的图片在31张800张不等.表3中,将EPLd与其他有代表性的描绘子算法进行了比照.同样根据惯例,每个类别随机挑出30张图片进行训练,从剩余图片中挑选不超过50张进行测试.能够看到:EPLd算法到达了最佳的分类准确率(77.1%),甚至在仅仅使用梯度属性的情况下(EPLd-G)也到达了非常不错的分类效果(73.7%).5.3UIUC-8UIUC-8图像数据
22、库包含1579张图片,这1579张图片从属于8个运动类别,每个类别下包含图片137张250张不等.根据惯例,随机从每个类别中抽取70张图片进行训练,从剩余图片中挑选60张进行测试.分类准确率结果列于表4中.通过表4能够看到,EPLd-All非常接近最佳分类准确率(87.2%vs.87.23%).在实验部分的最后,本文比照了构造3种不同描绘子(EPLdvs.KDvs.EKD)的计算效率.其中,最耗时的是形状特征,一幅标准图像(最大300300分辨率,图像块大小为1616像素点,图像块间隔8个像素点)上的EPLd-S与EKD-S描绘子在Matlab环境下计算需要耗时2s,而KD-S需要耗时2.5s
23、.对于梯度特征,EPLd-G与EKD-G描绘子耗时0.9s,KD-G耗时1s.以上比照结果列在表5中.表5中的比照结果是在生成100维特征情况下得到的,假如提高特征的维度,EPLd与EKD的计算效率提升相对于KD会表现得愈加明显.另外一点需要指出的是:EPLd与EKD的计算耗时固然基本一样,但EPLd描绘子的特征判别能力相对于EKD描绘子要强很多,这一点通过在3个图像数据库上的实验比照结果能够得到印证.所以,综合考虑,EPLd描绘子无论在计算效率还是在判别能力上都要优于EKD和KD描绘子.6结束语本文提出了有效图像块描绘子算法.该算法的主要思想是:通过不完好Cholesky分解对图像块的类似性进行逆向学习,选出具有代表性的基图像块.这些基图像块能够看成是一系列的非线性滤波器,将每个新图像块和这些基图像块进行类似性度量的经过,就是对这个新图像块进行特征提取的经过.另外,本文还设计了更为优秀的基于局部特征的整体图像类似性度量,也就是利用MMD距离计算两幅图像之间的类似性,该类似性度量方式不仅能够反映局部图像特征之间的类似性,而且能够有效地利用特征的空间分布信息,进而最大限度地提高整体图像类似性度量的准确度和敏感度.实验结果显示:EPLd方法相对于KD方法和其他一些代表性的方法,在3个著名图像分类数据库上都获得了非常不错的性能.
限制150内