《主成分分析方法精选课件.ppt》由会员分享,可在线阅读,更多相关《主成分分析方法精选课件.ppt(60页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于主成分分析方法关于主成分分析方法第一页,本课件共有60页问题的提出问题的提出v地理系统是多要素的复杂系统。变量太多,会增加分析问地理系统是多要素的复杂系统。变量太多,会增加分析问题的难度与复杂性,而且多个变量之间是具有一定的相关题的难度与复杂性,而且多个变量之间是具有一定的相关关系的关系的v能否在相关分析的基础上,用较少的新变量代替原来能否在相关分析的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地较多的旧变量,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息?保留原来变量所反映的信息?v主成分分析方法主成分分析方法就是综合处理这种问题的一种强有就是综合
2、处理这种问题的一种强有力的工具。主成分分析是把原来多个变量划为少数几个综力的工具。主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。从数学角度来看,这是一种合指标的一种统计分析方法。从数学角度来看,这是一种降维处理技术降维处理技术第二页,本课件共有60页1 主成分分析方法的基本原理主成分分析方法的基本原理 假定有假定有n个地理样本,每个样本共有个地理样本,每个样本共有p p个变个变量,构成一个量,构成一个np阶的地理数据矩阵阶的地理数据矩阵第三页,本课件共有60页v 当当p较大时,在较大时,在p维空间中考察问题比较麻烦。为了维空间中考察问题比较麻烦。为了克服这一困难,就需要进行
3、降维处理克服这一困难,就需要进行降维处理.要求要求:较少的几个综合指标尽量多地反映原来较:较少的几个综合指标尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼多变量指标所反映的信息,同时它们之间又是彼此独立的此独立的第四页,本课件共有60页例,成绩数据v100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。第五页,本课件共有60页v对对于于多多维维变变量量的的情情况况和和二二维维类类似似,也也有有高高维的椭球,只不过无法直观地看见维的椭球,只不过无法直观地看见v首首先先把把高高维维椭椭球球的的主主轴轴找找出出来来,再再用用代代表表大大多多数数数数据据信信息息的的最最长
4、长的的几几个个轴轴作作为为新新变变量;这样,主成分分析就基本完成量;这样,主成分分析就基本完成v注注意意,和和二二维维情情况况类类似似,高高维维椭椭球球的的主主轴轴也也是是互互相相垂垂直直的的。这这些些互互相相正正交交的的新新变变量量是原先变量的线性组合,叫做是原先变量的线性组合,叫做主成分主成分.第六页,本课件共有60页v正正如如二二维维椭椭圆圆有有两两个个主主轴轴,三三维维椭椭球球有有三三个个主主轴轴一一样样,有几个变量,就有几个主成分有几个变量,就有几个主成分v选选择择越越少少的的主主成成分分,降降维维就就越越好好。什什么么是是标标准准呢呢?那那就就是是这这些些被被选选的的主主成成分分所
5、所代代表表的的主主轴轴的的长长度度之之和和占占了了主主轴轴长长度度总总和和的的大大部部分分。有有些些文文献献建建议议,所所选选的的主主轴轴总总长长度度占占所所有有主主轴轴长长度度之之和和的的大大约约85%即即可可,其其实实,这这只只是是一一个个大大体体的的说说法法;具具体体选选几几个个,要要看看实实际际情情况况而而定定第七页,本课件共有60页定义:定义:记记x x1 1,x x2 2,x xP P为原变量指标,为原变量指标,z z1 1,z z2 2,z zmm(mmp p)为新变量指标)为新变量指标第八页,本课件共有60页v系数系数l lij ij的确定原则:的确定原则:z zi i与与z
6、zj j(i ij j;i i,j j=1=1,2 2,mm)相互无关)相互无关z z1 1是是x x1 1,x x2 2,x xP P的一切线性组合中方差最大者,的一切线性组合中方差最大者,z z2 2是与是与z z1 1不相关的不相关的x x1 1,x x2 2,x xP P的所有线性组合中方差最大者;的所有线性组合中方差最大者;z zmm是与是与z z1 1,z z2 2,z zmm1 1都不相关的都不相关的x x1 1,x x2 2,x xP P,的所有线性组合中方差最大者。则新变量指标的所有线性组合中方差最大者。则新变量指标z z1 1,z z2 2,z zmm分别称为原变量指标分别
7、称为原变量指标x x1 1,x x2 2,x xP P的第一,第二,的第一,第二,第第mm主成分主成分 第九页,本课件共有60页 v从以上的分析可以看出,主成分分析的实质就是确从以上的分析可以看出,主成分分析的实质就是确定原来变量定原来变量x xj j(j j=1=1,2 2,p p)在诸主成分)在诸主成分z zi i(i i=1=1,2 2,mm)上的荷载)上的荷载 l lij ij(i i=1=1,2 2,mm;j j=1=1,2 2,p p)v从几何上看从几何上看,找主成分的问题找主成分的问题,就是找出就是找出P P维空间中维空间中椭球体的主轴问题;从数学上容易知道,从数学上椭球体的主轴
8、问题;从数学上容易知道,从数学上可以证明,可以证明,它们分别是相关矩阵的它们分别是相关矩阵的mm个较大的特个较大的特征值所对应的特征向量征值所对应的特征向量第十页,本课件共有60页特征值与特征向量与特征值与特征向量与方差方差-协方差矩阵的联系协方差矩阵的联系v例如例如6个样方、个样方、2个种的多度数据是:个种的多度数据是:样方样方1 12 23 34 45 56 6物种物种X X1 15 56 64 46 60 03 3物种物种X X2 211118 87 76 62 22 2第十一页,本课件共有60页数据的中心化数据的中心化样方样方1 12 23 34 45 56 6总和总和物种物种X X1
9、 11 12 20 02 2-4-4-1-10 0物种物种X X2 25 52 21 10 0-4-4-4-40 0第十二页,本课件共有60页第十三页,本课件共有60页中心化后的原始数据矩阵中心化后的原始数据矩阵第十四页,本课件共有60页v把坐标轴把坐标轴X1、X2刚性地旋转刚性地旋转一个角度,得一个角度,得到图中新坐标到图中新坐标轴轴Y1和和Y2Y1Y2第十五页,本课件共有60页v6个样方点在新坐标系中位置的数据为:个样方点在新坐标系中位置的数据为:v与中心化后的原始数据有如下关系:与中心化后的原始数据有如下关系:第十六页,本课件共有60页v每个平方和都是每个平方和都是6个点在相应坐标轴上方
10、差的(个点在相应坐标轴上方差的(6-1)倍)倍 每一项都相当于数据的离每一项都相当于数据的离差平方和,因为差平方和,因为x x1j1j,x,x2j2j与与y y1j1j,y,y2j2j的平均值都为的平均值都为0 0?第十七页,本课件共有60页v由由v它的取值只依赖于坐标轴旋转角度一个变量,取极大值它的取值只依赖于坐标轴旋转角度一个变量,取极大值的必要条件是对的必要条件是对的导数为的导数为0。即。即 =0 =0第十八页,本课件共有60页v所以上述条件等同于所以上述条件等同于v因此,如果原坐标旋转后的因此,如果原坐标旋转后的Y1轴是我们要轴是我们要求的使求的使Var(Y1)最大的直线的话,则必然有
11、最大的直线的话,则必然有Var(Y2)最小,且最小,且 。这说明。这说明6个样方个样方点对新坐标的离差矩阵应为点对新坐标的离差矩阵应为 是是对角矩阵对角矩阵,并且,并且第十九页,本课件共有60页v 和和 是对称离差矩阵是对称离差矩阵S的两个特征根(的两个特征根(),而),而U的每一行是相应的特征向量的每一行是相应的特征向量 第二十页,本课件共有60页一、主成分的基本理论一、主成分的基本理论第二十一页,本课件共有60页第二十二页,本课件共有60页二、主成分分析的几何解释二、主成分分析的几何解释v进行主成分分析的目的,就是找出转换矩阵进行主成分分析的目的,就是找出转换矩阵U第二十三页,本课件共有6
12、0页2 主成分分析的解法主成分分析的解法一、用方差一、用方差协方差矩阵求解主成分例协方差矩阵求解主成分例v例例:设有一组古生物腕足动物贝壳标本的两个变量设有一组古生物腕足动物贝壳标本的两个变量:长度和宽度长度和宽度.所测量的数据列于表所测量的数据列于表8-1.第二十四页,本课件共有60页X X1 1X X2 2X X1 1X X2 23 32 2121210104 41010121211116 65 513136 66 68 8131314146 61010131315157 72 2131317177 7131314147 78 89 9151513139 95 5171713139 98
13、8171717179 914141818191910107 72020202011111212第二十五页,本课件共有60页1、方差、方差协方差的计算协方差的计算第二十六页,本课件共有60页v主成分分析的实质主成分分析的实质;就是要求出方差就是要求出方差协方差矩阵的特征向量及协方差矩阵的特征向量及其对应的特征值,即要找出方差其对应的特征值,即要找出方差协方差矩协方差矩阵所确定的椭球的主轴,交确定其长度阵所确定的椭球的主轴,交确定其长度第二十七页,本课件共有60页方差方差协方差矩阵为协方差矩阵为 求特征值求特征值第二十八页,本课件共有60页v特征向量的求解特征向量的求解v当当 时时,v化为联立方程
14、化为联立方程v求得求得 v同理求得同理求得 时的特征向量时的特征向量第二十九页,本课件共有60页v算出算出第一主成分第一主成分I:特征值为:特征值为37.9,特征向量为,特征向量为第二主成分第二主成分II:特征值为:特征值为6.5,特征向量为,特征向量为第三十页,本课件共有60页v特征向量的方向由特征向量的方向由I、II中包括的两个数字控中包括的两个数字控制制v第一主成分第一主成分Z1的方差为的方差为37.9,第二主成分,第二主成分Z2的方差为的方差为6.5。两者之和恰为。两者之和恰为X1和和X2的总方差的总方差44.4。可见,两个主成分。可见,两个主成分Z1、Z2所代表的信所代表的信息分别为
15、息分别为86%和和14%。如果用。如果用Z1代表原来的代表原来的数据数据,则仅损失信息则仅损失信息14%。但若用。但若用X1和和X2来代来代表原来的数据,则将损失信息表原来的数据,则将损失信息46%或或54%。第三十一页,本课件共有60页3、主成分得分的计算、主成分得分的计算v根据(根据(8-3)式,得到主成分的表达式为)式,得到主成分的表达式为第三十二页,本课件共有60页原原始始数数据据的的主主成成分分得得分分Z Z1 1Z Z2 2Z Z1 1Z Z2 23.483.480.930.9315.4215.422.42.410.1410.14-3.6-3.616.1716.171.741.74
16、7.717.711.21.213.0813.085.795.799.969.96-0.78-0.7819.0819.080.510.5111.4611.46-2.1-2.119.8319.83-0.15-0.156.126.123.933.9321.3321.33-1.47-1.4714.3714.37-3.33-3.3314.4914.495.885.8812.0312.030.060.0619.6519.652.672.679.699.693.453.4520.9720.974.174.1711.9411.941.471.4723.9723.971.531.5316.4416.44-2.4
17、9-2.4926.1326.130.960.9611.8511.852.882.8828.228.21.81.816.2616.260.330.33第三十三页,本课件共有60页二、主成分分析的步骤二、主成分分析的步骤v对原始地理数据对原始地理数据第三十四页,本课件共有60页v进行标准化处理进行标准化处理(标准标准差标准化差标准化),即),即v其中其中第三十五页,本课件共有60页v计算相关系数矩阵计算相关系数矩阵R第三十六页,本课件共有60页v计算特征值和特征向量计算特征值和特征向量根据特征方程根据特征方程 计算特征值,即解计算特征值,即解的特征多项式,求的特征多项式,求 并使特征值按从大到小并
18、使特征值按从大到小的顺序排列,即的顺序排列,即列出关于每个特征值的特征向量列出关于每个特征值的特征向量 第三十七页,本课件共有60页|计算主成分贡献率及累计贡献率计算主成分贡献率及累计贡献率 贡献率贡献率:累计贡献率累计贡献率:一般取累计贡献率达一般取累计贡献率达8595%8595%的特征值的特征值所对应的第一、第二、所对应的第一、第二、第、第mm(mpmp)个主成分)个主成分第三十八页,本课件共有60页v计算主成分载荷计算主成分载荷(主成分主成分Z Zk k与变量与变量x xi i之间的相关系数之间的相关系数)第三十九页,本课件共有60页v各主成分的得分:各主成分的得分:第四十页,本课件共有
19、60页3 特征值与特征向量的计算方法特征值与特征向量的计算方法v雅可比法雅可比法适合于对称矩阵适合于对称矩阵任一实对称矩阵任一实对称矩阵A,均存在一正交变换矩阵,均存在一正交变换矩阵T,使使那么那么 就是就是A的特征向量,的特征向量,T的列向量就是相应的特征向量的列向量就是相应的特征向量第四十一页,本课件共有60页二维情况二维情况v如令如令v 则则v将原始矩阵将原始矩阵A化成了对角矩阵化成了对角矩阵 。由于由于T是正交阵,是正交阵,A和和对角线元素之和都等于对角线元素之和都等于a11+a22第四十二页,本课件共有60页雅可比法的计算步骤雅可比法的计算步骤v1、选择对称矩阵中非对角线元素最大者,
20、记、选择对称矩阵中非对角线元素最大者,记为为v2、作正交变换、作正交变换第四十三页,本课件共有60页假设在原始矩阵的对角线以外元素中,以的绝对假设在原始矩阵的对角线以外元素中,以的绝对值为最大。设,作一个转轴变换值为最大。设,作一个转轴变换第四十四页,本课件共有60页第四十五页,本课件共有60页第四十六页,本课件共有60页第四十七页,本课件共有60页4 主成分分析方法应用实例主成分分析方法应用实例第四十八页,本课件共有60页第四十九页,本课件共有60页第五十页,本课件共有60页第五十一页,本课件共有60页例例2,2,根据表根据表1 1中给出的数据,对某农业生态经济系统中给出的数据,对某农业生态
21、经济系统做主成分分析做主成分分析表表1 1 某农业生态经济系统各区域单元的有关数据某农业生态经济系统各区域单元的有关数据 第五十二页,本课件共有60页第五十三页,本课件共有60页步步骤骤如如下下:将将表表中中的的数数据据作作标标准准差差标标准准化化处处理理,然后将它们代入公式计算相关系数矩阵然后将它们代入公式计算相关系数矩阵表表2 2相关系数矩阵相关系数矩阵 第五十四页,本课件共有60页 (2 2)由相关系数矩阵计算特征值,以及各)由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率(见表个主成分的贡献率与累计贡献率(见表3 3)。)。由表由表3 3可知,第一,第二,第三主成分的累计可
22、知,第一,第二,第三主成分的累计贡献率已高达贡献率已高达86.596%86.596%(大于(大于85%85%),故只需),故只需要求出第一、第二、第三主成分要求出第一、第二、第三主成分z z1 1,z z2 2,z z3 3即即可。可。第五十五页,本课件共有60页表表3 3特征值及主成分贡献率特征值及主成分贡献率 第五十六页,本课件共有60页 (3 3)对于特征值)对于特征值=4.6610=4.6610,=2.0890=2.0890,=1.0430=1.0430分别求出其特征向量分别求出其特征向量e e1 1,e e2 2,e e3 3,再用公,再用公式计算各变量式计算各变量x x1 1,x
23、x2 2,x x9 9在主成分在主成分z z1 1,z z2 2,z z3 3上的载荷(表上的载荷(表4 4)。)。第五十七页,本课件共有60页表表4 4 主成分载荷主成分载荷 第五十八页,本课件共有60页 第一主成分第一主成分z1与与x1,x5,x6,x7,x9呈显出较强的呈显出较强的正相关,与正相关,与x3呈显出较强的负相关,而这几个变呈显出较强的负相关,而这几个变量则综合反映了生态经济结构状况,因此可以量则综合反映了生态经济结构状况,因此可以认为第一主成分认为第一主成分z1是生态经济结构的代表。是生态经济结构的代表。第二主成分第二主成分z2与与x2,x4,x5呈显出较强的正相关,呈显出较强的正相关,与与x1呈显出较强的负相关,其中,除了呈显出较强的负相关,其中,除了x1为人口总为人口总数外,数外,x2,x4,x5都反映了人均占有资源量的情况,都反映了人均占有资源量的情况,因此可以认为第二主成分因此可以认为第二主成分z2代表了人均资源量代表了人均资源量 分析:分析:第五十九页,本课件共有60页感感谢谢大大家家观观看看第六十页,本课件共有60页
限制150内