《主分量分析》PPT课件.ppt
《《主分量分析》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《主分量分析》PPT课件.ppt(52页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、主分量分析主分量分析与核主分量分析与核主分量分析第一节第一节 主分量分析主分量分析第二节第二节 核主分量分析核主分量分析 第一节 主分量分析l概概 述述l主分量分析的基本原理主分量分析的基本原理 l主分量分析的计算步骤主分量分析的计算步骤 l主分量分析主要的作用主分量分析主要的作用l主分量分析方法应用实例主分量分析方法应用实例 许多系统是多要素的复杂系统,多变量问题许多系统是多要素的复杂系统,多变量问题是经常会遇到的。变量太多,无疑会增加分析问是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关
2、关系的。个变量之间是具有一定的相关关系的。因此,人们会很自然地想到,能否在相关分因此,人们会很自然地想到,能否在相关分析的基础上,用较少的新变量代替原来较多的旧析的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地保留变量,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息?原来变量所反映的信息?一、概述一、概述 事实上,这种想法是可以实现的,主分量事实上,这种想法是可以实现的,主分量分析方法就是综合处理这种问题的一种强有力分析方法就是综合处理这种问题的一种强有力的工具。的工具。主分量分析是把原来多个变量划为少数几主分量分析是把原来多个变量划为少数几个综合指标的
3、一种统计分析方法。个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理技术从数学角度来看,这是一种降维处理技术。在实际问题研究中,为了全面、系统地分析问在实际问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的定的相关性,因而所得的统计数据统计数据反映的信息反映的信
4、息在一定程度上有重叠。在用在一定程度上有重叠。在用统计方法统计方法研究多变研究多变量问题时,变量太多会增加计算量和增加分析量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行问题的复杂性,人们希望在进行定量分析定量分析的过的过程中,涉及的变量较少,得到的程中,涉及的变量较少,得到的信息量信息量较多。较多。主成分分析正是适应这一要求产生的,是解决主成分分析正是适应这一要求产生的,是解决这类题的理想工具。这类题的理想工具。主成分概念首先由主成分概念首先由 Karl ParsonKarl Parson在在19011901年首先年首先提出,当时只是对非随机变量来讨论的。提出,当时只是对
5、非随机变量来讨论的。19331933年年HotellingHotelling将这个概念推广到随机变量,作了将这个概念推广到随机变量,作了进一步发展。进一步发展。把从混合信号中求出主分量(能把从混合信号中求出主分量(能量最大的成份)的方法量最大的成份)的方法称为主分量分析(称为主分量分析(PCAPCA),),而次分量(而次分量(Minor Components,MCsMinor Components,MCs)与主分量)与主分量(Principal Components,PCsPrincipal Components,PCs)相对,它是混)相对,它是混合信号中能量最小的成分,被认为是不重要的合信号
6、中能量最小的成分,被认为是不重要的或是噪声有关的信号,把确定次分量的方法称或是噪声有关的信号,把确定次分量的方法称为次分量分析(为次分量分析(MCAMCA)。)。v主分量分析又称主分量分析又称主成分分析主成分分析,也有称,也有称 经验正交函数分解或特征向量分析。经验正交函数分解或特征向量分析。v分析对象:以网格点为空间点(多个变量)分析对象:以网格点为空间点(多个变量)随时间变化的样本随时间变化的样本 。v主分量分析与回归分析、差别分析不同,主分量分析与回归分析、差别分析不同,它是一种分析方法而不是一种预报方法它是一种分析方法而不是一种预报方法 。v我们希望可以通过某种线性组合的方法使我们希望
7、可以通过某种线性组合的方法使某个变量或者某些变量的解释方差变得比某个变量或者某些变量的解释方差变得比较大,这些具有较大解释方差的变量就称较大,这些具有较大解释方差的变量就称为主分量。为主分量。主成分分析是一种经典的统计方法,它对多元主成分分析是一种经典的统计方法,它对多元统计观测数据的协方差结构进行分析,以期求统计观测数据的协方差结构进行分析,以期求出能简约地表达这些数据依赖关系的主成分。出能简约地表达这些数据依赖关系的主成分。主成分分析是一种特征提取的方法,也可以认主成分分析是一种特征提取的方法,也可以认为是一种数据降维的方法。一般来说,主成分为是一种数据降维的方法。一般来说,主成分分析的实
8、施效果与评价指标间的相关程度高低分析的实施效果与评价指标间的相关程度高低成正比。评价指标间相关程度越高,主成分分成正比。评价指标间相关程度越高,主成分分析的效果就越好。析的效果就越好。PCAPCA可以用于减少特征空间维可以用于减少特征空间维数、确定变量的线性组合、选择最有用的变量、数、确定变量的线性组合、选择最有用的变量、变量辨识、识别目标或是异常值分组等。主分变量辨识、识别目标或是异常值分组等。主分量子空间提供了从高维数据到低维数据在均方量子空间提供了从高维数据到低维数据在均方误差意义下的数据压缩,它能最大程度地减少误差意义下的数据压缩,它能最大程度地减少方差。方差。在统计学中,主成分分析(
9、在统计学中,主成分分析(principal principal components components analysis,PCAanalysis,PCA)是一种简化数)是一种简化数据集的技术。它是一个线性变换。这个变换据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标何数据投影的第一大方差在第一个坐标(称称为第一主成分为第一主成分)上,第二大方差在第二个坐上,第二大方差在第二个坐标标(第二主成分第二主成分)上,依次类推。主成分分析上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集经
10、常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定但是,这也不是一定的,要视具体应用而定。vPCAPCA主要用于数据降维,对于一组样本的特征主要用于数据降维,对于一组样本的特征组成的多维向量,多维向量里的某些元素本身组成的多维向量,多维向量里的某些元素本身没有区分性,比如某个元素在所有的样本中都没有区分性,比如某个元素在所有的样本中都为为1 1,
11、或者与,或者与1 1差距不大,那么这个元素本身就差距不大,那么这个元素本身就没有区分性,用它做特征来区分,贡献会非常没有区分性,用它做特征来区分,贡献会非常小。所以我们的目的是找那些变化大的元素,小。所以我们的目的是找那些变化大的元素,即方差大的那些维,而去除掉那些变化不大的即方差大的那些维,而去除掉那些变化不大的维,从而使特征留下的都是最能代表此元素的维,从而使特征留下的都是最能代表此元素的“精品精品”,而且计算量也变小了。,而且计算量也变小了。v对于一个对于一个k k维的特征来说,相当于它的每一维的特征来说,相当于它的每一维特征与其他维都是正交的(相当于在多维坐维特征与其他维都是正交的(相
12、当于在多维坐标系中,坐标轴都是垂直的),那么我们可以标系中,坐标轴都是垂直的),那么我们可以变化这些维的坐标系,从而使这个特征在某些变化这些维的坐标系,从而使这个特征在某些维上方差大,而在某些维上方差很小。维上方差大,而在某些维上方差很小。v例如,一个例如,一个4545度倾斜的椭圆,在第一坐标系,如度倾斜的椭圆,在第一坐标系,如果按照果按照x,yx,y坐标来投影,这些点的坐标来投影,这些点的x x和和y y的属性很难的属性很难用于区分他们,因为他们在用于区分他们,因为他们在x,yx,y轴上坐标变化的方轴上坐标变化的方差都差不多,我们无法根据这个点的某个差都差不多,我们无法根据这个点的某个x x
13、属性来属性来判断这个点是哪个,而如果将坐标轴旋转,以椭判断这个点是哪个,而如果将坐标轴旋转,以椭圆长轴为圆长轴为x x轴,则椭圆在长轴上的分布比较长,方轴,则椭圆在长轴上的分布比较长,方差大,而在短轴上的分布短,方差小,所以可以差大,而在短轴上的分布短,方差小,所以可以考虑只保留这些点的长轴属性,来区分椭圆上的考虑只保留这些点的长轴属性,来区分椭圆上的点,这样,区分性比点,这样,区分性比x,yx,y轴的方法要好!轴的方法要好!v所以我们的做法就是求得一个所以我们的做法就是求得一个k k维特征的投影矩阵,维特征的投影矩阵,这个投影矩阵可以将特征从高维降到低维。投影这个投影矩阵可以将特征从高维降到
14、低维。投影矩阵也可以叫做变换矩阵。新的低维特征必须每矩阵也可以叫做变换矩阵。新的低维特征必须每个维都正交,特征向量都是正交的。通过求样本个维都正交,特征向量都是正交的。通过求样本矩阵的协方差矩阵,然后求出协方差矩阵的特征矩阵的协方差矩阵,然后求出协方差矩阵的特征向量,这些特征向量就可以构成这个投影矩阵了。向量,这些特征向量就可以构成这个投影矩阵了。特征向量的选择取决于协方差矩阵的特征值的大特征向量的选择取决于协方差矩阵的特征值的大小。小。举一个例子:举一个例子:对于一个训练集,对于一个训练集,100100个样本,特征个样本,特征是是1010维,那么它可以建立一个维,那么它可以建立一个100*1
15、0100*10的矩阵,的矩阵,作为样本。求这个样本的协方差矩阵,得到一作为样本。求这个样本的协方差矩阵,得到一个个10*10*1010的协方差矩阵,然后求出这个协方差的协方差矩阵,然后求出这个协方差矩阵的特征值和特征向量,应该有矩阵的特征值和特征向量,应该有1010个特征值个特征值和特征向量,我们根据特征值的大小,取前四和特征向量,我们根据特征值的大小,取前四个特征值所对应的特征向量,构成一个个特征值所对应的特征向量,构成一个10*410*4的的矩阵,这个矩阵就是我们要求的特征矩阵,矩阵,这个矩阵就是我们要求的特征矩阵,100*10100*10的样本矩阵乘以这个的样本矩阵乘以这个10*410*
16、4的特征矩阵,的特征矩阵,就得到了一个就得到了一个100*4100*4的新的降维之后的样本矩的新的降维之后的样本矩阵,每个样本的维数下降了。阵,每个样本的维数下降了。二、主分量分析的基本原理 假定有n个样本,每个样本共有p个变量,构成一个np阶的数据矩阵(1.2.1)当p较大时,在p维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。定义:记x1,x2,x P为原变量指标,z1,z2,z m(mp)为新变量指标(1.2.2)系数lij的确定
17、原则:z i与zj(ij;i,j=1,2,m)相互无关;z1是x1,x2,xP的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,xP的所有线性组合中方差最大者;zm是与z1,z2,zm1都不相关的x1,x2,xP,的所有线性组合中方差最大者。则新变量指标z1,z2,zm分别称为原变量指标x1,x2,xP的第1,第2,第m主成分。从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2,p)在诸主成分zi(i=1,2,m)上的荷载 lij(i=1,2,m;j=1,2,p)。从数学上可以证明,它们分别是相关矩阵m个较大的特征值所对应的特征向量。三、主分量分析的计算步骤(一)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 主分量分析 分量 分析 PPT 课件
限制150内