主分量分析学习.pptx
《主分量分析学习.pptx》由会员分享,可在线阅读,更多相关《主分量分析学习.pptx(52页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 第一节 主分量分析概概 述述主分量分析的基本原理主分量分析的基本原理 主分量分析的计算步骤主分量分析的计算步骤 主分量分析主要的作用主分量分析主要的作用主分量分析方法应用实例主分量分析方法应用实例第1页/共52页 许多系统是多要素的复杂系统,多变量问题许多系统是多要素的复杂系统,多变量问题是经常会遇到的。变量太多,无疑会增加分析问是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。个变量之间是具有一定的相关关系的。因此,人们会很自然地想到,能否在相关分因此,人们会很自然地想到,能否在相
2、关分析的基础上,用较少的新变量代替原来较多的旧析的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地保留变量,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息?原来变量所反映的信息?一、概述一、概述第2页/共52页 事实上,这种想法是可以实现的,主分量事实上,这种想法是可以实现的,主分量分析方法就是综合处理这种问题的一种强有力分析方法就是综合处理这种问题的一种强有力的工具。的工具。主分量分析是把原来多个变量划为少数几主分量分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理技术从数学角度来看
3、,这是一种降维处理技术。第3页/共52页 在实际问题研究中,为了全面、系统地分析在实际问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变
4、量太多会增加计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。一要求产生的,是解决这类题的理想工具。第4页/共52页 主成分概念首先由主成分概念首先由 Karl ParsonKarl Parson在在19011901年首年首先提出,当时只是对非随机变量来讨论的。先提出,当时只是对非随机变量来讨论的。19331933年年HotellingHo
5、telling将这个概念推广到随机变量,将这个概念推广到随机变量,作了进一步发展。作了进一步发展。把从混合信号中求出主分把从混合信号中求出主分量(能量最大的成份)的方法量(能量最大的成份)的方法称为主分量分称为主分量分析(析(PCAPCA),而次分量(),而次分量(Minor Components,Minor Components,MCsMCs)与主分量()与主分量(Principal Components,Principal Components,PCsPCs)相对,它是混合信号中能量最小的成分,)相对,它是混合信号中能量最小的成分,被认为是不重要的或是噪声有关的信号,把被认为是不重要的或是
6、噪声有关的信号,把确定次分量的方法称为次分量分析(确定次分量的方法称为次分量分析(MCAMCA)。)。第5页/共52页主分量分析又称主成分分析,也有称主分量分析又称主成分分析,也有称 经验正交函数分解或特征向量分析。经验正交函数分解或特征向量分析。分析对象:以网格点为空间点(多个变量)分析对象:以网格点为空间点(多个变量)随时间变化的样本随时间变化的样本 。主分量分析与回归分析、差别分析不同,主分量分析与回归分析、差别分析不同,它是一种分析方法而不是一种预报方法它是一种分析方法而不是一种预报方法 。我们希望可以通过某种线性组合的方法使我们希望可以通过某种线性组合的方法使某个变量或者某些变量的解
7、释方差变得比某个变量或者某些变量的解释方差变得比较大,这些具有较大解释方差的变量就称较大,这些具有较大解释方差的变量就称为主分量。为主分量。第6页/共52页 主成分分析是一种经典的统计方法,它对多元统计观测数据的协方差结构主成分分析是一种经典的统计方法,它对多元统计观测数据的协方差结构进行分析,以期求出能简约地表达这些数据依赖关系的主成分,也是一种特进行分析,以期求出能简约地表达这些数据依赖关系的主成分,也是一种特征提取的方法。一般来说,主成分分析的实施效果与评价指标间的相关程度征提取的方法。一般来说,主成分分析的实施效果与评价指标间的相关程度高低成正比。评价指标间相关程度越高,主成分分析的效
8、果就越好。高低成正比。评价指标间相关程度越高,主成分分析的效果就越好。PCAPCA可可以用于减少特征空间维数、确定变量的线性组合、选择最有用的变量、变量以用于减少特征空间维数、确定变量的线性组合、选择最有用的变量、变量辨识、识别目标或是异常值分组等。主分量子空间提供了从高维数据到低维辨识、识别目标或是异常值分组等。主分量子空间提供了从高维数据到低维数据在均方误差意义下的数据压缩,它能最大程度地减少方差。数据在均方误差意义下的数据压缩,它能最大程度地减少方差。第7页/共52页 在统计学中,主成分分析(在统计学中,主成分分析(principal principal components analy
9、sis,PCAcomponents analysis,PCA)是一种简化)是一种简化数据集的技术。它是一个线性变换。这个数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个使得任何数据投影的第一大方差在第一个坐标坐标(称为第一主成分称为第一主成分)上,第二大方差在上,第二大方差在第二个坐标第二个坐标(第二主成分第二主成分)上,依次类推。上,依次类推。主成分分析经常用减少数据集的维数,同主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。时保持数据集的对方差贡献最大的特征。这是通过保留
10、低阶主成分,忽略高阶主成这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定数据的最重要方面。但是,这也不是一定的,要视具体应用而定的,要视具体应用而定。第8页/共52页PCAPCA主要用于数据降维,对于一组样本的特征主要用于数据降维,对于一组样本的特征组成的多维向量,多维向量里的某些元素本组成的多维向量,多维向量里的某些元素本身没有区分性,比如某个元素在所有的样本身没有区分性,比如某个元素在所有的样本中都为中都为1 1,或者与,或者与1 1差距不大,那么这个元素差距不大,那么这个元素本身就没有区分性,
11、用它做特征来区分,贡本身就没有区分性,用它做特征来区分,贡献会非常小。所以我们的目的是找那些变化献会非常小。所以我们的目的是找那些变化大的元素,即方差大的那些维,而去除掉那大的元素,即方差大的那些维,而去除掉那些变化不大的维,从而使特征留下的都是最些变化不大的维,从而使特征留下的都是最能代表此元素的能代表此元素的“精品精品”,而且计算量也变,而且计算量也变小了。小了。对于一个对于一个k k维的特征来说,相当于它的每一维的特征来说,相当于它的每一维特征与其他维都是正交的(相当于在多维维特征与其他维都是正交的(相当于在多维坐标系中,坐标轴都是垂直的),那么我们坐标系中,坐标轴都是垂直的),那么我们
12、可以变化这些维的坐标系,从而使这个特征可以变化这些维的坐标系,从而使这个特征在某些维上方差大,而在某些维上方差很小。在某些维上方差大,而在某些维上方差很小。第9页/共52页例如,一个例如,一个4545度倾斜的椭圆,在第一坐标系,如度倾斜的椭圆,在第一坐标系,如果按照果按照x,yx,y坐标来投影,这些点的坐标来投影,这些点的x x和和y y的属性很的属性很难用于区分他们,因为他们在难用于区分他们,因为他们在x,yx,y轴上坐标变化轴上坐标变化的方差都差不多,我们无法根据这个点的某个的方差都差不多,我们无法根据这个点的某个x x属性来判断这个点是哪个,而如果将坐标轴旋转,属性来判断这个点是哪个,而
13、如果将坐标轴旋转,以椭圆长轴为以椭圆长轴为x x轴,则椭圆在长轴上的分布比较轴,则椭圆在长轴上的分布比较长,方差大,而在短轴上的分布短,方差小,所长,方差大,而在短轴上的分布短,方差小,所以可以考虑只保留这些点的长轴属性,来区分椭以可以考虑只保留这些点的长轴属性,来区分椭圆上的点,这样,区分性比圆上的点,这样,区分性比x,yx,y轴的方法要好!轴的方法要好!所以我们的做法就是求得一个所以我们的做法就是求得一个k k维特征的投影矩维特征的投影矩阵,这个投影矩阵可以将特征从高维降到低维。阵,这个投影矩阵可以将特征从高维降到低维。投影矩阵也可以叫做变换矩阵。新的低维特征必投影矩阵也可以叫做变换矩阵。
14、新的低维特征必须每个维都正交,特征向量都是正交的。通过求须每个维都正交,特征向量都是正交的。通过求样本矩阵的协方差矩阵,然后求出协方差矩阵的样本矩阵的协方差矩阵,然后求出协方差矩阵的特征向量,这些特征向量就可以构成这个投影矩特征向量,这些特征向量就可以构成这个投影矩阵了。特征向量的选择取决于协方差矩阵的特征阵了。特征向量的选择取决于协方差矩阵的特征值的大小。值的大小。第10页/共52页 举一个例子:举一个例子:对于一个训练集,对于一个训练集,100100个样本,特个样本,特征是征是1010维,那么它可以建立一个维,那么它可以建立一个100*10100*10的矩的矩阵,作为样本。求这个样本的协方
15、差矩阵,阵,作为样本。求这个样本的协方差矩阵,得到一个得到一个10*1010*10的协方差矩阵,然后求出这个的协方差矩阵,然后求出这个协方差矩阵的特征值和特征向量,应该有协方差矩阵的特征值和特征向量,应该有1010个特征值和特征向量,我们根据特征值的大个特征值和特征向量,我们根据特征值的大小,取前四个特征值所对应的特征向量,构小,取前四个特征值所对应的特征向量,构成一个成一个10*410*4的矩阵,这个矩阵就是我们要求的矩阵,这个矩阵就是我们要求的特征矩阵,的特征矩阵,100*10100*10的样本矩阵乘以这个的样本矩阵乘以这个10*410*4的特征矩阵,就得到了一个的特征矩阵,就得到了一个1
16、00*4100*4的新的的新的降维之后的样本矩阵,每个样本的维数下降降维之后的样本矩阵,每个样本的维数下降了。了。第11页/共52页二、主分量分析的基本原理二、主分量分析的基本原理 假定有n个样本,每个样本共有p个变量,构成一个np阶的数据矩阵()第12页/共52页 当p较大时,在p维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。第13页/共52页 定义:记x1,x2,x P为原变量指标,z1,z2,z m(mp)为新变量指标(1.2.
17、2)系数lij的确定原则:z i与zj(ij;i,j=1,2,m)相互无关;第14页/共52页 z1是x1,x2,xP的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,xP的所有线性组合中方差最大者;zm是与z1,z2,zm1都不相关的x1,x2,xP,的所有线性组合中方差最大者。则新变量指标z1,z2,zm分别称为原变量指标x1,x2,xP的第1,第2,第m主成分。第15页/共52页 从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2,p)在诸主成分zi(i=1,2,m)上的荷载 lij(i=1,2,m;j=1,2,p)。从数学上可以证明,它们分别是相关矩阵m个
18、较大的特征值所对应的特征向量。第16页/共52页三、主分量分析的计算步骤三、主分量分析的计算步骤(一)计算相关系数矩阵 rij(i,j=1,2,p)为原变量xi与xj的相关系数,rij=rji,其计算公式为()()第17页/共52页 (二)计算特征值与特征向量 解特征方程,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列 ;分别求出对应于特征值的特征向量 ,要求=1,即,其中表示向量 的第j个分量。第18页/共52页 计算主成分贡献率及累计贡献率 贡献率累计贡献率 一般取累计贡献率达85%95%的特征值所对应的第1、第2、第m(mp)个主成分。第19页/共52页 计算主成分载荷 主
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分量 分析 学习
限制150内