主分量分析.ppt
《主分量分析.ppt》由会员分享,可在线阅读,更多相关《主分量分析.ppt(52页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于主分量分析现在学习的是第1页,共52页 第一节 主分量分析l概概 述述l主分量分析的基本原理主分量分析的基本原理 l主分量分析的计算步骤主分量分析的计算步骤 l主分量分析主要的作用主分量分析主要的作用l主分量分析方法应用实例主分量分析方法应用实例现在学习的是第2页,共52页 许多系统是多要素的复杂系统,多变量问题是经常许多系统是多要素的复杂系统,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。定的相关关系的。 因此,
2、人们会很自然地想到,能否在相关分析因此,人们会很自然地想到,能否在相关分析的基础上,用较少的新变量代替原来较多的旧变量的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地保留原来变,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息?量所反映的信息? 一、概述一、概述现在学习的是第3页,共52页 事实上,这种想法是可以实现的,主分量分事实上,这种想法是可以实现的,主分量分析方法就是综合处理这种问题的一种强有力的工析方法就是综合处理这种问题的一种强有力的工具。具。 主分量分析是把原来多个变量划为少数几个综主分量分析是把原来多个变量划为少数几个综合指标的一种统计分析
3、方法。合指标的一种统计分析方法。 从数学角度来看,这是一种降维处理技术从数学角度来看,这是一种降维处理技术。 现在学习的是第4页,共52页 在实际问题研究中,为了全面、系统地分析问题,我在实际问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据指标之间彼此有一定的相关性,因而所得的统计数据
4、反映的信息在一定程度上有重叠。在用统计方法研究反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。适应这一要求产生的,是解决这类题的理想工具。现在学习的是第5页,共52页 主成分概念首先由主成分概念首先由 Karl ParsonKarl Parson在在19011901年首先提出,年首
5、先提出,当时只是对非随机变量来讨论的。当时只是对非随机变量来讨论的。19331933年年HotellingHotelling将这个概念推广到随机变量,作了进一将这个概念推广到随机变量,作了进一步发展。步发展。把从混合信号中求出主分量(能量最大把从混合信号中求出主分量(能量最大的成份)的方法的成份)的方法称为主分量分析(称为主分量分析(PCAPCA),而次分),而次分量(量(Minor Components, MCsMinor Components, MCs)与主分量)与主分量(Principal Components, PCsPrincipal Components, PCs)相对,它是混合信
6、)相对,它是混合信号中能量最小的成分,被认为是不重要的或是噪声有号中能量最小的成分,被认为是不重要的或是噪声有关的信号,把确定次分量的方法称为次分量分析关的信号,把确定次分量的方法称为次分量分析(MCAMCA)。)。现在学习的是第6页,共52页v主分量分析又称主成分分析,也有称主分量分析又称主成分分析,也有称 经经验正交函数分解或特征向量分析。验正交函数分解或特征向量分析。 v分析对象:以网格点为空间点(多个变量)随时分析对象:以网格点为空间点(多个变量)随时间变化的样本间变化的样本 。v主分量分析与回归分析、差别分析不同,它是主分量分析与回归分析、差别分析不同,它是一种分析方法而不是一种预报
7、方法一种分析方法而不是一种预报方法 。v我们希望可以通过某种线性组合的方法使某个变我们希望可以通过某种线性组合的方法使某个变量或者某些变量的解释方差变得比较大,这些具量或者某些变量的解释方差变得比较大,这些具有较大解释方差的变量就称为主分量。有较大解释方差的变量就称为主分量。 现在学习的是第7页,共52页 主成分分析是一种经典的统计方法,它主成分分析是一种经典的统计方法,它对多元统计观测数据的协方差结构进行对多元统计观测数据的协方差结构进行分析,以期求出能简约地表达这些数据分析,以期求出能简约地表达这些数据依赖关系的主成分,也是一种特征提取依赖关系的主成分,也是一种特征提取的方法。一般来说,主
8、成分分析的实施的方法。一般来说,主成分分析的实施效果与评价指标间的相关程度高低成正效果与评价指标间的相关程度高低成正比。评价指标间相关程度越高,主成分比。评价指标间相关程度越高,主成分分析的效果就越好。分析的效果就越好。PCAPCA可以用于减少特可以用于减少特征空间维数、确定变量的线性组合、选征空间维数、确定变量的线性组合、选择最有用的变量、变量辨识、识别目标择最有用的变量、变量辨识、识别目标或是异常值分组等。主分量子空间提供或是异常值分组等。主分量子空间提供了从高维数据到低维数据在均方误差意了从高维数据到低维数据在均方误差意义下的数据压缩,它能最大程度地减少义下的数据压缩,它能最大程度地减少
9、方差。方差。现在学习的是第8页,共52页 在统计学中,主成分分析(在统计学中,主成分分析(principal principal components analysis,PCAcomponents analysis,PCA)是一种简化数据)是一种简化数据集的技术。它是一个线性变换。这个变换把数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标的第一大方差在第一个坐标( (称为第一主成分称为第一主成分) )上,上,第二大方差在第二个坐标第二大方差在第二个坐标( (第二主成分第二主成分) )上,依
10、上,依次类推。主成分分析经常用减少数据集的维次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,数据的最重要方面。但是,这也不是一定的,要视具体应用而定要视具体应用而定。 现在学习的是第9页,共52页vPCAPCA主要用于数据降维,对于一组样本的特征组主要用于数据降维,对于一组样本的特征组成的多维向量,多维向量里的某些元素本身没有成的多维向量,
11、多维向量里的某些元素本身没有区分性,比如某个元素在所有的样本中都为区分性,比如某个元素在所有的样本中都为1 1,或者与或者与1 1差距不大,那么这个元素本身就没有区差距不大,那么这个元素本身就没有区分性,用它做特征来区分,贡献会非常小。所以分性,用它做特征来区分,贡献会非常小。所以我们的目的是找那些变化大的元素,即方差大的我们的目的是找那些变化大的元素,即方差大的那些维,而去除掉那些变化不大的维,从而使特那些维,而去除掉那些变化不大的维,从而使特征留下的都是最能代表此元素的征留下的都是最能代表此元素的“精品精品”,而且,而且计算量也变小了。计算量也变小了。v 对于一个对于一个k k维的特征来说
12、,相当于它的每一维特征维的特征来说,相当于它的每一维特征与其他维都是正交的(相当于在多维坐标系中,与其他维都是正交的(相当于在多维坐标系中,坐标轴都是垂直的),那么我们可以变化这些维坐标轴都是垂直的),那么我们可以变化这些维的坐标系,从而使这个特征在某些维上方差大,的坐标系,从而使这个特征在某些维上方差大,而在某些维上方差很小。而在某些维上方差很小。现在学习的是第10页,共52页v例如,一个例如,一个4545度倾斜的椭圆,在第一坐标系,如果按度倾斜的椭圆,在第一坐标系,如果按照照x,yx,y坐标来投影,这些点的坐标来投影,这些点的x x和和y y的属性很难用于区的属性很难用于区分他们,因为他们
13、在分他们,因为他们在x,yx,y轴上坐标变化的方差都差不轴上坐标变化的方差都差不多,我们无法根据这个点的某个多,我们无法根据这个点的某个x x属性来判断这个点是属性来判断这个点是哪个,而如果将坐标轴旋转,以椭圆长轴为哪个,而如果将坐标轴旋转,以椭圆长轴为x x轴,则椭圆轴,则椭圆在长轴上的分布比较长,方差大,而在短轴上的分布短,在长轴上的分布比较长,方差大,而在短轴上的分布短,方差小,所以可以考虑只保留这些点的长轴属性,来区分方差小,所以可以考虑只保留这些点的长轴属性,来区分椭圆上的点,这样,区分性比椭圆上的点,这样,区分性比x,yx,y轴的方法要好!轴的方法要好!v所以我们的做法就是求得一个
14、所以我们的做法就是求得一个k k维特征的投影矩阵,这维特征的投影矩阵,这个投影矩阵可以将特征从高维降到低维。投影矩阵个投影矩阵可以将特征从高维降到低维。投影矩阵也可以叫做变换矩阵。新的低维特征必须每个维都也可以叫做变换矩阵。新的低维特征必须每个维都正交,特征向量都是正交的。通过求样本矩阵的协正交,特征向量都是正交的。通过求样本矩阵的协方差矩阵,然后求出协方差矩阵的特征向量,这些方差矩阵,然后求出协方差矩阵的特征向量,这些特征向量就可以构成这个投影矩阵了。特征向量的特征向量就可以构成这个投影矩阵了。特征向量的选择取决于协方差矩阵的特征值的大小。选择取决于协方差矩阵的特征值的大小。现在学习的是第1
15、1页,共52页 举一个例子:举一个例子: 对于一个训练集,对于一个训练集,100100个样本,特征是个样本,特征是1010维,那维,那么它可以建立一个么它可以建立一个100100* *1010的矩阵,作为样本。求这的矩阵,作为样本。求这个样本的协方差矩阵,得到一个个样本的协方差矩阵,得到一个1010* *1010的协方差矩阵,的协方差矩阵,然后求出这个协方差矩阵的特征值和特征向量,应然后求出这个协方差矩阵的特征值和特征向量,应该有该有1010个特征值和特征向量,我们根据特征值的大个特征值和特征向量,我们根据特征值的大小,取前四个特征值所对应的特征向量,构成一个小,取前四个特征值所对应的特征向量
16、,构成一个1010* *4 4的矩阵,这个矩阵就是我们要求的特征矩阵,的矩阵,这个矩阵就是我们要求的特征矩阵,100100* *1010的样本矩阵乘以这个的样本矩阵乘以这个1010* *4 4的特征矩阵,就得的特征矩阵,就得到了一个到了一个100100* *4 4的新的降维之后的样本矩阵,每个的新的降维之后的样本矩阵,每个样本的维数下降了。样本的维数下降了。现在学习的是第12页,共52页二、主分量分析的基本原理 假定有n个样本,每个样本共有p个变量,构成一个np阶的数据矩阵npnnppxxxxxxxxxX212222111211(1.2.1) 现在学习的是第13页,共52页 当p较大时,在p维
17、空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。现在学习的是第14页,共52页 定义:记x1,x2,x P为原变量指标,z1,z2,z m(mp)为新变量指标pmpmmmppppxlxlxlzxlxlxlzxlxlxlz22112222121212121111.(1.2.2) 系数lij的确定原则: z i与zj(ij;i,j=1,2,m)相互无关;现在学习的是第15页,共52页 z1是x1,x2,xP的一切线性组合中方差最大者,z2是与
18、z1不相关的x1,x2,xP的所有线性组合中方差最大者; zm是与z1,z2,zm1都不相关的x1,x2,xP, 的所有线性组合中方差最大者。 则新变量指标z1,z2,zm分别称为原变量指标x1,x2,xP的第1,第2,第m主成分。 现在学习的是第16页,共52页 从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2 , p)在诸主成分zi(i=1,2,m)上的荷载 lij( i=1,2,m; j=1,2 ,p)。 从数学上可以证明,它们分别是相关矩阵m个较大的特征值所对应的特征向量。 现在学习的是第17页,共52页三、主分量分析的计算步骤 (一)计算相关系数矩阵一)计算相关
19、系数矩阵 rij(i,j=1,2,p)为原变量xi与xj的相关系数, rij=rji,其计算公式为pppppprrrrrrrrrR212222111211(1.3.1) nknkjkjikinkjkjikiijxxxxxxxxr11221)()()((1.3.2) 现在学习的是第18页,共52页 (二)计算特征值与特征向量(二)计算特征值与特征向量 解特征方程,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列 ; 0RI021p 分别求出对应于特征值的特征向量 ,要求 =1,即,其中表示向量 的第j个分量。i), 2 , 1(pieiie112pjijeijeie现在学习的是第19
20、页,共52页 计算主成分贡献率及累计贡献率 贡献率),2, 1(1pipkki累计贡献率 ),2, 1(11pipkkikk 一般取累计贡献率达85%95%的特征值所对应的第1、第2、第m(mp)个主成分。 m,21现在学习的是第20页,共52页 计算主成分载荷 主成分计算概括以下几点:主成分计算概括以下几点: ), 2 , 1,(),(pjiexzplijijiij(1.3.3) (1.5.4) 现在学习的是第21页,共52页三、主分量分析主要作用三、主分量分析主要作用 1 1主成分分析能降低所研究的数据空间的维数。即用主成分分析能降低所研究的数据空间的维数。即用研究研究m m维的维的Y Y
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分量 分析
限制150内