主分量分析.ppt
关于主分量分析现在学习的是第1页,共52页 第一节 主分量分析l概概 述述l主分量分析的基本原理主分量分析的基本原理 l主分量分析的计算步骤主分量分析的计算步骤 l主分量分析主要的作用主分量分析主要的作用l主分量分析方法应用实例主分量分析方法应用实例现在学习的是第2页,共52页 许多系统是多要素的复杂系统,多变量问题是经常许多系统是多要素的复杂系统,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。定的相关关系的。 因此,人们会很自然地想到,能否在相关分析因此,人们会很自然地想到,能否在相关分析的基础上,用较少的新变量代替原来较多的旧变量的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地保留原来变,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息?量所反映的信息? 一、概述一、概述现在学习的是第3页,共52页 事实上,这种想法是可以实现的,主分量分事实上,这种想法是可以实现的,主分量分析方法就是综合处理这种问题的一种强有力的工析方法就是综合处理这种问题的一种强有力的工具。具。 主分量分析是把原来多个变量划为少数几个综主分量分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。合指标的一种统计分析方法。 从数学角度来看,这是一种降维处理技术从数学角度来看,这是一种降维处理技术。 现在学习的是第4页,共52页 在实际问题研究中,为了全面、系统地分析问题,我在实际问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。适应这一要求产生的,是解决这类题的理想工具。现在学习的是第5页,共52页 主成分概念首先由主成分概念首先由 Karl ParsonKarl Parson在在19011901年首先提出,年首先提出,当时只是对非随机变量来讨论的。当时只是对非随机变量来讨论的。19331933年年HotellingHotelling将这个概念推广到随机变量,作了进一将这个概念推广到随机变量,作了进一步发展。步发展。把从混合信号中求出主分量(能量最大把从混合信号中求出主分量(能量最大的成份)的方法的成份)的方法称为主分量分析(称为主分量分析(PCAPCA),而次分),而次分量(量(Minor Components, MCsMinor Components, MCs)与主分量)与主分量(Principal Components, PCsPrincipal Components, PCs)相对,它是混合信)相对,它是混合信号中能量最小的成分,被认为是不重要的或是噪声有号中能量最小的成分,被认为是不重要的或是噪声有关的信号,把确定次分量的方法称为次分量分析关的信号,把确定次分量的方法称为次分量分析(MCAMCA)。)。现在学习的是第6页,共52页v主分量分析又称主成分分析,也有称主分量分析又称主成分分析,也有称 经经验正交函数分解或特征向量分析。验正交函数分解或特征向量分析。 v分析对象:以网格点为空间点(多个变量)随时分析对象:以网格点为空间点(多个变量)随时间变化的样本间变化的样本 。v主分量分析与回归分析、差别分析不同,它是主分量分析与回归分析、差别分析不同,它是一种分析方法而不是一种预报方法一种分析方法而不是一种预报方法 。v我们希望可以通过某种线性组合的方法使某个变我们希望可以通过某种线性组合的方法使某个变量或者某些变量的解释方差变得比较大,这些具量或者某些变量的解释方差变得比较大,这些具有较大解释方差的变量就称为主分量。有较大解释方差的变量就称为主分量。 现在学习的是第7页,共52页 主成分分析是一种经典的统计方法,它主成分分析是一种经典的统计方法,它对多元统计观测数据的协方差结构进行对多元统计观测数据的协方差结构进行分析,以期求出能简约地表达这些数据分析,以期求出能简约地表达这些数据依赖关系的主成分,也是一种特征提取依赖关系的主成分,也是一种特征提取的方法。一般来说,主成分分析的实施的方法。一般来说,主成分分析的实施效果与评价指标间的相关程度高低成正效果与评价指标间的相关程度高低成正比。评价指标间相关程度越高,主成分比。评价指标间相关程度越高,主成分分析的效果就越好。分析的效果就越好。PCAPCA可以用于减少特可以用于减少特征空间维数、确定变量的线性组合、选征空间维数、确定变量的线性组合、选择最有用的变量、变量辨识、识别目标择最有用的变量、变量辨识、识别目标或是异常值分组等。主分量子空间提供或是异常值分组等。主分量子空间提供了从高维数据到低维数据在均方误差意了从高维数据到低维数据在均方误差意义下的数据压缩,它能最大程度地减少义下的数据压缩,它能最大程度地减少方差。方差。现在学习的是第8页,共52页 在统计学中,主成分分析(在统计学中,主成分分析(principal principal components analysis,PCAcomponents analysis,PCA)是一种简化数据)是一种简化数据集的技术。它是一个线性变换。这个变换把数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标的第一大方差在第一个坐标( (称为第一主成分称为第一主成分) )上,上,第二大方差在第二个坐标第二大方差在第二个坐标( (第二主成分第二主成分) )上,依上,依次类推。主成分分析经常用减少数据集的维次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,数据的最重要方面。但是,这也不是一定的,要视具体应用而定要视具体应用而定。 现在学习的是第9页,共52页vPCAPCA主要用于数据降维,对于一组样本的特征组主要用于数据降维,对于一组样本的特征组成的多维向量,多维向量里的某些元素本身没有成的多维向量,多维向量里的某些元素本身没有区分性,比如某个元素在所有的样本中都为区分性,比如某个元素在所有的样本中都为1 1,或者与或者与1 1差距不大,那么这个元素本身就没有区差距不大,那么这个元素本身就没有区分性,用它做特征来区分,贡献会非常小。所以分性,用它做特征来区分,贡献会非常小。所以我们的目的是找那些变化大的元素,即方差大的我们的目的是找那些变化大的元素,即方差大的那些维,而去除掉那些变化不大的维,从而使特那些维,而去除掉那些变化不大的维,从而使特征留下的都是最能代表此元素的征留下的都是最能代表此元素的“精品精品”,而且,而且计算量也变小了。计算量也变小了。v 对于一个对于一个k k维的特征来说,相当于它的每一维特征维的特征来说,相当于它的每一维特征与其他维都是正交的(相当于在多维坐标系中,与其他维都是正交的(相当于在多维坐标系中,坐标轴都是垂直的),那么我们可以变化这些维坐标轴都是垂直的),那么我们可以变化这些维的坐标系,从而使这个特征在某些维上方差大,的坐标系,从而使这个特征在某些维上方差大,而在某些维上方差很小。而在某些维上方差很小。现在学习的是第10页,共52页v例如,一个例如,一个4545度倾斜的椭圆,在第一坐标系,如果按度倾斜的椭圆,在第一坐标系,如果按照照x,yx,y坐标来投影,这些点的坐标来投影,这些点的x x和和y y的属性很难用于区的属性很难用于区分他们,因为他们在分他们,因为他们在x,yx,y轴上坐标变化的方差都差不轴上坐标变化的方差都差不多,我们无法根据这个点的某个多,我们无法根据这个点的某个x x属性来判断这个点是属性来判断这个点是哪个,而如果将坐标轴旋转,以椭圆长轴为哪个,而如果将坐标轴旋转,以椭圆长轴为x x轴,则椭圆轴,则椭圆在长轴上的分布比较长,方差大,而在短轴上的分布短,在长轴上的分布比较长,方差大,而在短轴上的分布短,方差小,所以可以考虑只保留这些点的长轴属性,来区分方差小,所以可以考虑只保留这些点的长轴属性,来区分椭圆上的点,这样,区分性比椭圆上的点,这样,区分性比x,yx,y轴的方法要好!轴的方法要好!v所以我们的做法就是求得一个所以我们的做法就是求得一个k k维特征的投影矩阵,这维特征的投影矩阵,这个投影矩阵可以将特征从高维降到低维。投影矩阵个投影矩阵可以将特征从高维降到低维。投影矩阵也可以叫做变换矩阵。新的低维特征必须每个维都也可以叫做变换矩阵。新的低维特征必须每个维都正交,特征向量都是正交的。通过求样本矩阵的协正交,特征向量都是正交的。通过求样本矩阵的协方差矩阵,然后求出协方差矩阵的特征向量,这些方差矩阵,然后求出协方差矩阵的特征向量,这些特征向量就可以构成这个投影矩阵了。特征向量的特征向量就可以构成这个投影矩阵了。特征向量的选择取决于协方差矩阵的特征值的大小。选择取决于协方差矩阵的特征值的大小。现在学习的是第11页,共52页 举一个例子:举一个例子: 对于一个训练集,对于一个训练集,100100个样本,特征是个样本,特征是1010维,那维,那么它可以建立一个么它可以建立一个100100* *1010的矩阵,作为样本。求这的矩阵,作为样本。求这个样本的协方差矩阵,得到一个个样本的协方差矩阵,得到一个1010* *1010的协方差矩阵,的协方差矩阵,然后求出这个协方差矩阵的特征值和特征向量,应然后求出这个协方差矩阵的特征值和特征向量,应该有该有1010个特征值和特征向量,我们根据特征值的大个特征值和特征向量,我们根据特征值的大小,取前四个特征值所对应的特征向量,构成一个小,取前四个特征值所对应的特征向量,构成一个1010* *4 4的矩阵,这个矩阵就是我们要求的特征矩阵,的矩阵,这个矩阵就是我们要求的特征矩阵,100100* *1010的样本矩阵乘以这个的样本矩阵乘以这个1010* *4 4的特征矩阵,就得的特征矩阵,就得到了一个到了一个100100* *4 4的新的降维之后的样本矩阵,每个的新的降维之后的样本矩阵,每个样本的维数下降了。样本的维数下降了。现在学习的是第12页,共52页二、主分量分析的基本原理 假定有n个样本,每个样本共有p个变量,构成一个np阶的数据矩阵npnnppxxxxxxxxxX212222111211(1.2.1) 现在学习的是第13页,共52页 当p较大时,在p维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。现在学习的是第14页,共52页 定义:记x1,x2,x P为原变量指标,z1,z2,z m(mp)为新变量指标pmpmmmppppxlxlxlzxlxlxlzxlxlxlz22112222121212121111.(1.2.2) 系数lij的确定原则: z i与zj(ij;i,j=1,2,m)相互无关;现在学习的是第15页,共52页 z1是x1,x2,xP的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,xP的所有线性组合中方差最大者; zm是与z1,z2,zm1都不相关的x1,x2,xP, 的所有线性组合中方差最大者。 则新变量指标z1,z2,zm分别称为原变量指标x1,x2,xP的第1,第2,第m主成分。 现在学习的是第16页,共52页 从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2 , p)在诸主成分zi(i=1,2,m)上的荷载 lij( i=1,2,m; j=1,2 ,p)。 从数学上可以证明,它们分别是相关矩阵m个较大的特征值所对应的特征向量。 现在学习的是第17页,共52页三、主分量分析的计算步骤 (一)计算相关系数矩阵一)计算相关系数矩阵 rij(i,j=1,2,p)为原变量xi与xj的相关系数, rij=rji,其计算公式为pppppprrrrrrrrrR212222111211(1.3.1) nknkjkjikinkjkjikiijxxxxxxxxr11221)()()((1.3.2) 现在学习的是第18页,共52页 (二)计算特征值与特征向量(二)计算特征值与特征向量 解特征方程,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列 ; 0RI021p 分别求出对应于特征值的特征向量 ,要求 =1,即,其中表示向量 的第j个分量。i), 2 , 1(pieiie112pjijeijeie现在学习的是第19页,共52页 计算主成分贡献率及累计贡献率 贡献率),2, 1(1pipkki累计贡献率 ),2, 1(11pipkkikk 一般取累计贡献率达85%95%的特征值所对应的第1、第2、第m(mp)个主成分。 m,21现在学习的是第20页,共52页 计算主成分载荷 主成分计算概括以下几点:主成分计算概括以下几点: ), 2 , 1,(),(pjiexzplijijiij(1.3.3) (1.5.4) 现在学习的是第21页,共52页三、主分量分析主要作用三、主分量分析主要作用 1 1主成分分析能降低所研究的数据空间的维数。即用主成分分析能降低所研究的数据空间的维数。即用研究研究m m维的维的Y Y空间代替空间代替p p维的维的X X空间空间(m(mp)p),而低维的,而低维的Y Y空间代替空间代替 高维的高维的x x空间所损失的信息很少。即:使空间所损失的信息很少。即:使只有一个主成分只有一个主成分Y1Y1( (即即 m m1)1)时,这个时,这个Y Y1 1仍是使用仍是使用全部全部X X变量变量(p(p个个) )得到的。例如要计算得到的。例如要计算Y1Y1的均值也得的均值也得使用全部使用全部x x的均值。在所选的前的均值。在所选的前m m个主成分中,如果个主成分中,如果某个某个X Xi i的系数全部近似于零的话,就可以把这个的系数全部近似于零的话,就可以把这个XiXi删除,这也是一种删除多余变量的方法。删除,这也是一种删除多余变量的方法。2 2有时可通过因子负荷有时可通过因子负荷a aijij的结论,弄清的结论,弄清X X变量变量间的某些关系。间的某些关系。 现在学习的是第22页,共52页 3 3、多维数据的一种图形表示方法。我、多维数据的一种图形表示方法。我们知道当维数大于们知道当维数大于3 3时便不能画出几何时便不能画出几何图形,多元统计研究的问题大都多于图形,多元统计研究的问题大都多于3 3个变量。要把研究的问题用图形表示个变量。要把研究的问题用图形表示出来是不可能的。然而,经过主成分出来是不可能的。然而,经过主成分分析后,我们可以选取前两个主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的或其中某两个主成分,根据主成分的得分,画出得分,画出n n个样品在二维平面上的分个样品在二维平面上的分布况,由图形可直观地看出各样品在布况,由图形可直观地看出各样品在主分量中的地位,进而还可以对样本主分量中的地位,进而还可以对样本进行分类处理,可以由图形发现远离进行分类处理,可以由图形发现远离大多数样本点的离群点。大多数样本点的离群点。现在学习的是第23页,共52页 4 4由主成分分析法构造回归模型。即由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变把各主成分作为新自变量代替原来自变量量x x做回归分析。做回归分析。5 5用主成分分析筛选回归变量。回归用主成分分析筛选回归变量。回归变量的选择有着重的实际意义,为了使变量的选择有着重的实际意义,为了使模型本身易于做结构分析、控制和预报,模型本身易于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。用主成分佳变量,构成最佳变量集合。用主成分分析筛选变量,可以用较少的计算量来分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集合的效选择量,获得选择最佳变量子集合的效果。果。 现在学习的是第24页,共52页四、 主分量分析方法应用实例 下面,我们根据表3.5.1给出的数据,对某农业生态经济系统做主成分分析。 表3.5.1 某农业生态经济系统各区域单元的有关数据 现在学习的是第25页,共52页现在学习的是第26页,共52页 步骤如下: (1)将表3.5.1中的数据作标准差标准化处理,然后将它们代入公式(3.5.4)计算相关系数矩阵(表3.5.2)。x1x2x3x4x5x6x7x8x9x11-0.327 -0.714 -0.3360.3090.4080.790.1560.744x2-0.331-0.0350.6440.420.2550.009-0.0780.094x3-0.71-0.03510.07-0.74-0.755-0.93-0.109-0.924x4-0.340.6440.0710.3830.069-0.05-0.0310.073x50.3090.42-0.740.38310.7340.6720.0980.747x60.4080.255-0.7550.0690.73410.6580.2220.707x70.790.009-0.93-0.0460.6720.6581-0.030.89x80.156-0.078 -0.109 -0.0310.0980.222-0.0310.29x90.7440.094-0.9240.0730.7470.7070.890.291表3.5.2相关系数矩阵 现在学习的是第27页,共52页 (2)由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率(表3.5.3)。由表3.5.3可知,第1,第2,第3主成分的累计贡献率已高达86.596%(大于85%),故只需要求出第1、第2、第3主成分z1,z2,z3即可。 现在学习的是第28页,共52页表3.5.3特征值及主成分贡献率 现在学习的是第29页,共52页 (3)对于特征值=4.661 0,=2.089 0,=1.0430分别求出其特征向量e1,e2,e3,再用公式(3.5.5)计算各变量x1,x2,x9在主成分z1,z2,z3上的载荷(表3.5.4)。 现在学习的是第30页,共52页表3.5.4 主成分载荷 上述计算过程,可以借助于SPSS或Matlab软件系统实现。现在学习的是第31页,共52页 (1)第1主成分z1与x1,x5,x6,x7,x9呈现出较强的正相关,与x3呈现出较强的负相关,而这几个变量则综合反映了生态经济结构状况,因此可以认为第1主成分z1是生态经济结构的代表。 (2)第2主成分z2与x2,x4,x5呈现出较强的正相关,与x1呈现出较强的负相关,其中,除了x1为人口总数外,x2,x4,x5都反映了人均占有资源量的情况,因此可以认为第2主成分z2代表了人均资源量。 分析:分析:现在学习的是第32页,共52页 显然,用3个主成分z1、z2、z3代替原来9个变量(x1,x2,x9)描述农业生态经济系统,可以使问题更进一步简化、明了。 (3)第3主成分z3与x8呈现出的正相关程度最高,其次是x6,而与x7呈负相关,因此可以认为第3主成分在一定程度上代表了农业经济结构。 (4)另外,表3.5.4中最后一列(占方差的百分数),在一定程度上反映了3个主成分z1、z2、z3包含原变量(x1,x2,x9)的信息量多少。 现在学习的是第33页,共52页第二节第二节 核主成分分析核主成分分析l概述概述l核主成分的算法核主成分的算法l核主成分的特性核主成分的特性l计算的复杂性计算的复杂性现在学习的是第34页,共52页一、概述一、概述 主分量分析法已经有许多成功的应用,但它的前主分量分析法已经有许多成功的应用,但它的前提是只对服从高斯分布的数据特征提取效果较好,提是只对服从高斯分布的数据特征提取效果较好,这就大大限制了它的应用范围。因为,如果数据这就大大限制了它的应用范围。因为,如果数据呈任意分布,那么不论在原数据空间中如何做正呈任意分布,那么不论在原数据空间中如何做正交变换,都不可能找到一组最优的特征方向,找交变换,都不可能找到一组最优的特征方向,找到的所谓到的所谓“主分量主分量”也就不能表达数据的特征结也就不能表达数据的特征结构了,而后续工作建立在这样的构了,而后续工作建立在这样的“主分量主分量”表示表示的新特征向量的基础上,效果可想而知。的新特征向量的基础上,效果可想而知。 PCA PCA 对数据分布有这样的苛刻要求,主要由于它是一对数据分布有这样的苛刻要求,主要由于它是一个线性方法,对于提取数据的非线性结构无能为个线性方法,对于提取数据的非线性结构无能为力。显然,不论在原空间中对力。显然,不论在原空间中对 PCA PCA 方法如何做方法如何做改进,都不可能摆脱这个前提的限制,从本质上改进,都不可能摆脱这个前提的限制,从本质上将其变为一个非线性算法将其变为一个非线性算法。现在学习的是第35页,共52页 核主成分分析是对主成分分析的一种改进,核主成分分析是对主成分分析的一种改进,主成分分析要求处理的数据服从高斯分布,主成分分析要求处理的数据服从高斯分布,因此其应用受到大大的限制。因此其应用受到大大的限制。 针对之一局针对之一局限性,核主成分分析首先利用非线性变换,限性,核主成分分析首先利用非线性变换,将数据映射到特征空间,使其近似服从高将数据映射到特征空间,使其近似服从高斯分布,然后在特征空间利用主成分分析,斯分布,然后在特征空间利用主成分分析,所以,核主成分分析能够处理较多类型的所以,核主成分分析能够处理较多类型的数据。数据。现在学习的是第36页,共52页 基于核函数的非线性主成分分析方法,简称为基于核函数的非线性主成分分析方法,简称为核主成分分析(核主成分分析(KPCAKPCA), ,于于19981998年由年由ScholkopfScholkopf首次提出。主要应用于模式识别、信号处理等。首次提出。主要应用于模式识别、信号处理等。如果选用适当的映射函数,输入空间线性不可如果选用适当的映射函数,输入空间线性不可分问题在特征空间将转化为线性可分问题。这分问题在特征空间将转化为线性可分问题。这种非线性映射函数被称之为核函数。将核函数种非线性映射函数被称之为核函数。将核函数与一般的主成分分析有机融合而形成的基于核与一般的主成分分析有机融合而形成的基于核的主成分分析,不仅具有优秀的主成分提取性的主成分分析,不仅具有优秀的主成分提取性能尤其适合于处理非线性问题,其应用前景更能尤其适合于处理非线性问题,其应用前景更为广泛。为广泛。现在学习的是第37页,共52页 基于核的主分量分析法基于核的主分量分析法 (KPCA)(KPCA)是对主分量是对主分量分析法的非线性推广,这一过程涉及许多重分析法的非线性推广,这一过程涉及许多重要的思想和技巧,深入理解这些理论和核技要的思想和技巧,深入理解这些理论和核技巧是进行核技巧工作的基础。核主成分是在巧是进行核技巧工作的基础。核主成分是在高维特征空间高维特征空间F F中做通常的线性主成分分析。中做通常的线性主成分分析。特征空间是输入空间非线性变换得到的。在特征空间是输入空间非线性变换得到的。在主向量上的连续投影的等高线在输入空间变主向量上的连续投影的等高线在输入空间变为非线性的,在输入空间画不出特征向量的为非线性的,在输入空间画不出特征向量的原象。对核主成分来说,其关键在于不必自原象。对核主成分来说,其关键在于不必自特征空间对经过映射后的数据直接进行计算。特征空间对经过映射后的数据直接进行计算。所有的计算将通过空间中的核函数来实现。所有的计算将通过空间中的核函数来实现。现在学习的是第38页,共52页二、核主成分的算法二、核主成分的算法 计算基于核的主成分,又称为核主成分,步骤计算基于核的主成分,又称为核主成分,步骤如下:如下:(1 1)计算矩阵)计算矩阵 , (2 2)通过将)通过将K K进行对角化变换,并通过使进行对角化变换,并通过使 来归一化特征向量相对应的系数来归一化特征向量相对应的系数 。(3 3)提取一个测试点)提取一个测试点x x的主成分(按照相应的的主成分(按照相应的核核K K),根据下式计算特征向量的映射。),根据下式计算特征向量的映射。ijjiij.YXKK1aannnRna现在学习的是第39页,共52页 常用的核函数:现在学习的是第40页,共52页三、核主成分的特性三、核主成分的特性 核主成分,实际上就是在特征空间做普核主成分,实际上就是在特征空间做普通的主成分。因此,所有有关主成分通的主成分。因此,所有有关主成分 的的数学的和统计的特性都适用于核主成分。数学的和统计的特性都适用于核主成分。只是在特征空间是对一组输入空间的数只是在特征空间是对一组输入空间的数据经过正交(据经过正交()变换后是数据)变换后是数据(i i),),i=1i=1,M M,进行操作。在特征空间,进行操作。在特征空间F F中,中,主成分是具有以下特征的正交变换。主成分是具有以下特征的正交变换。现在学习的是第41页,共52页(假定特征向量是按特征值的大小降序排假定特征向量是按特征值的大小降序排列):列):l各主成分之间不相关。各主成分之间不相关。l前前q q(qq1 1,M M)个主成分,也就)个主成分,也就是在特征向量上的投影,比其它任何正交是在特征向量上的投影,比其它任何正交方向上的投影所提供的方差贡献率要多。方向上的投影所提供的方差贡献率要多。l观测数据的前观测数据的前q q个主成分的均方误差最小。个主成分的均方误差最小。l前前q q个主成分包含了输入空间最大的信息。个主成分包含了输入空间最大的信息。(这一结论是在高斯性的假设之下,并依(这一结论是在高斯性的假设之下,并依赖于数据及所选择的特殊的核得到的)赖于数据及所选择的特殊的核得到的)现在学习的是第42页,共52页一个一个256256维输入空间的维输入空间的5 5次的多项式核可以生成一次的多项式核可以生成一个十亿维的特征空间。核主成分可以对这么高维的个十亿维的特征空间。核主成分可以对这么高维的特征空间进行计算。有两个原因:首先,不需要在特征空间进行计算。有两个原因:首先,不需要在整个特征空间整个特征空间F F中寻找特征向量,而是在观测值中寻找特征向量,而是在观测值 在特征空间在特征空间F F中所生成的映射所张成的子空间中进行。中所生成的映射所张成的子空间中进行。其次,当我们使用核函数时,不需要明确地计算特征其次,当我们使用核函数时,不需要明确地计算特征空间中向量之间的点积运算。(事实上,即使向量在空间中向量之间的点积运算。(事实上,即使向量在低纬度的子空间这一点也不可行。)因而与低纬度的子空间这一点也不可行。)因而与PCAPCA相比相比计算量的增加不会太大,对于特别复杂的问题甚至可计算量的增加不会太大,对于特别复杂的问题甚至可以不用计算全部特征值,只需用特别的算法计算最大以不用计算全部特征值,只需用特别的算法计算最大的一个或两个特征值即可。的一个或两个特征值即可。四、计算的复杂性四、计算的复杂性iX现在学习的是第43页,共52页现在学习的是第44页,共52页 核主成分分析在核主成分分析在MatlabMatlab软件中的实现软件中的实现步骤:步骤:输入数据输入数据S S,投影后数据维数,投影后数据维数k k;计算核矩阵;计算核矩阵;将核矩阵中心化;将核矩阵中心化;计算核矩阵的特征值和特征向量;计算核矩阵的特征值和特征向量;将特征向量规范化;将特征向量规范化;数据重建;数据重建;输出变换后的数据集。输出变换后的数据集。现在学习的是第45页,共52页现在学习的是第46页,共52页现在学习的是第47页,共52页现在学习的是第48页,共52页现在学习的是第49页,共52页现在学习的是第50页,共52页现在学习的是第51页,共52页感谢大家观看现在学习的是第52页,共52页