《主成分分析方法讲稿.ppt》由会员分享,可在线阅读,更多相关《主成分分析方法讲稿.ppt(60页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于主成分分析方法关于主成分分析方法第一页,讲稿共六十页哦问题的提出问题的提出v地理系统是多要素的复杂系统。变量太多,会增加分析问题的难度与地理系统是多要素的复杂系统。变量太多,会增加分析问题的难度与复杂性,而且多个变量之间是具有一定的相关关系的复杂性,而且多个变量之间是具有一定的相关关系的v能否在相关分析的基础上,用较少的新变量代替原能否在相关分析的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能来较多的旧变量,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息?多地保留原来变量所反映的信息? v主成分分析方法主成分分析方法就是综合处理这种问题的一种强有力的工具
2、。就是综合处理这种问题的一种强有力的工具。主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理技术方法。从数学角度来看,这是一种降维处理技术第二页,讲稿共六十页哦1 主成分分析方法的基本原理主成分分析方法的基本原理 假定有假定有n个地理样本,每个样本共有个地理样本,每个样本共有p p个变个变量,构成一个量,构成一个np阶的地理数据矩阵阶的地理数据矩阵npnnppxxxxxxxxxX212222111211第三页,讲稿共六十页哦v 当当p较大时,在较大时,在p维空间中考察问题比较麻烦。为了维
3、空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理克服这一困难,就需要进行降维处理. . 要求要求:较少的几个综合指标尽量多地反映原来较多变:较少的几个综合指标尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的量指标所反映的信息,同时它们之间又是彼此独立的第四页,讲稿共六十页哦例,成绩数据v100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。 第五页,讲稿共六十页哦v对于多维变量的情况和二维类似,也有高对于多维变量的情况和二维类似,也有高维的椭球,只不过无法直观地看见维的椭球,只不过无法直观地看见v首先把高维椭球的主轴找出来,再用代表首先把高维椭球
4、的主轴找出来,再用代表大多数数据信息的最长的几个轴作为新变大多数数据信息的最长的几个轴作为新变量;这样,主成分分析就基本完成量;这样,主成分分析就基本完成v注意,和二维情况类似,高维椭球的主轴注意,和二维情况类似,高维椭球的主轴也是互相垂直的。这些互相正交的新变量也是互相垂直的。这些互相正交的新变量是原先变量的线性组合,叫做是原先变量的线性组合,叫做主成分主成分.第六页,讲稿共六十页哦v正如二维椭圆有两个主轴,三维椭球有三个主轴一样,有正如二维椭圆有两个主轴,三维椭球有三个主轴一样,有几个变量,就有几个主成分几个变量,就有几个主成分v选择越少的主成分,降维就越好。选择越少的主成分,降维就越好。
5、什么是标准呢?什么是标准呢?那就那就是这些被选的主成分所代表的主轴的长度之和占了主是这些被选的主成分所代表的主轴的长度之和占了主轴长度总和的大部分。有些文献建议,所选的主轴总轴长度总和的大部分。有些文献建议,所选的主轴总长度占所有主轴长度之和的长度占所有主轴长度之和的大约大约85%即可,其实,即可,其实,这这只是一个大体的说法只是一个大体的说法;具体选几个,要看实际情况而定;具体选几个,要看实际情况而定第七页,讲稿共六十页哦定义:定义:记记x x1 1,x x2 2,x xP P为原变量指标,为原变量指标,z z1 1,z z2 2,z zmm(mmp p)为新变量指标)为新变量指标pmpmm
6、mppppxlxlxlzxlxlxlzxlxlxlz22112222121212121111第八页,讲稿共六十页哦v系数系数l lij ij的确定原则:的确定原则: z zi i与与z zj j(i ij j;i i,j j=1=1,2 2,mm)相互无关)相互无关z z1 1是是x x1 1,x x2 2,x xP P的一切线性组合中方差最大者,的一切线性组合中方差最大者,z z2 2是与是与z z1 1不不相关的相关的x x1 1,x x2 2,x xP P的所有线性组合中方差最大者;的所有线性组合中方差最大者; z zmm是与是与z z1 1,z z2 2,z zmm1 1都不相关的都不
7、相关的x x1 1,x x2 2,x xP P, 的所有线性的所有线性组合中方差最大者。则新变量指标组合中方差最大者。则新变量指标z z1 1,z z2 2,z zmm分别称为原变分别称为原变量指标量指标x x1 1,x x2 2,x xP P的第一,第二,的第一,第二,第,第mm主成分主成分 第九页,讲稿共六十页哦 v从以上的分析可以看出,主成分分析的实质就是确从以上的分析可以看出,主成分分析的实质就是确定原来变量定原来变量x xj j(j j=1=1,2 2 , p p)在诸主成分)在诸主成分z zi i(i i=1=1,2 2,mm)上的荷载)上的荷载 l lij ij( i i=1=1
8、,2 2,mm; j j=1=1,2 2 ,p p)v从几何上看从几何上看, ,找主成分的问题找主成分的问题, ,就是找出就是找出P P维空间中椭球维空间中椭球体的主轴问题;从数学上容易知道,从数学上可以证明,体的主轴问题;从数学上容易知道,从数学上可以证明,它们分别是相关矩阵的它们分别是相关矩阵的mm个较大的特征值所对应的特征个较大的特征值所对应的特征向量向量第十页,讲稿共六十页哦特征值与特征向量与特征值与特征向量与方差方差-协方差矩阵的联系协方差矩阵的联系v例如例如6个样方、个样方、2个种的多度数据是:个种的多度数据是:样方样方1 12 23 34 45 56 6物种物种X X1 15 5
9、6 64 46 60 03 3物种物种X X2 211118 87 76 62 22 2第十一页,讲稿共六十页哦数据的中心化数据的中心化622678116143064656121xx样方样方1 12 23 34 45 56 6总和总和物种物种X X1 11 12 20 02 2-4-4-1-10 0物种物种X X2 25 52 21 10 0-4-4-4-40 0第十二页,讲稿共六十页哦-5-4-3-2-10123456-5-4-3-2-10123456X1X2-5-4-3-2-10123456-5-4-3-2-10123456X1X2第十三页,讲稿共六十页哦中心化后的原始数据矩阵中心化后的原
10、始数据矩阵414402102251X第十四页,讲稿共六十页哦v把坐标轴把坐标轴X1、X2刚性地旋转刚性地旋转一个角度,得一个角度,得到图中新坐标到图中新坐标轴轴Y1和和Y2-5-4-3-2-10123456-5-4-3-2-10123456X1X2-5-4-3-2-10123456-5-4-3-2-10123456X1X2Y1Y2第十五页,讲稿共六十页哦v6个样方点在新坐标系中位置的数据为:个样方点在新坐标系中位置的数据为:v与中心化后的原始数据有如下关系:与中心化后的原始数据有如下关系: 262524232221161514131211yyyyyyyyyyyyY6 , 2 , 1cos)si
11、n(sincos212211jxxyxxyjjjjjj第十六页,讲稿共六十页哦v每个平方和都是每个平方和都是6个点在相应坐标轴上方差的(个点在相应坐标轴上方差的(6-1)倍倍 6 , 2 , 1cos)sin(sincos212211jxxyxxyjjjjjj6122612161226121jjjjjjjjxxyy每一项都相当于数据的离差平每一项都相当于数据的离差平方和,因为方和,因为x x1j1j,x,x2j2j与与y y1j1j,y,y2j2j的的平均值都为平均值都为0 0?)()()()(2121XVarXVarYVarYVar21211niixxnS第十七页,讲稿共六十页哦612161
12、222612126121cossin2sincosjjjjjjjjjxxxxy61216161222161212cos2sincos2jjjijjjjjxxxxdydv由由v它的取值只依赖于坐标轴旋转角度一个变量,取极大值它的取值只依赖于坐标轴旋转角度一个变量,取极大值的必要条件是对的必要条件是对的导数为的导数为0。即。即 =0 =061216122612161212cossincosjjjjjjjjjjxxxxyy第十八页,讲稿共六十页哦v所以上述条件等同于所以上述条件等同于v因此,如果原坐标旋转后的因此,如果原坐标旋转后的Y1轴是我们要轴是我们要求的使求的使Var(Y1)最大的直线的话,则
13、必然有最大的直线的话,则必然有Var(Y2)最小,且最小,且 。这说明。这说明6个个样方点对新坐标的离差矩阵应为样方点对新坐标的离差矩阵应为 0),(5612121jjjyyYYCov0),(21YYCov2122121100)(),(),()(5YVarYYCovYYCovYVarYYT21是是对角矩阵对角矩阵,并且,并且第十九页,讲稿共六十页哦v 和和 是对称离差矩阵是对称离差矩阵S的两个特征根的两个特征根( ),而),而U的每一行是相应的特征向量的每一行是相应的特征向量 UUUS21001221第二十页,讲稿共六十页哦一、主成分的基本理论一、主成分的基本理论第二十一页,讲稿共六十页哦第二
14、十二页,讲稿共六十页哦二、主成分分析的几何解释二、主成分分析的几何解释v进行主成分分析的目的,就是找出转换矩阵进行主成分分析的目的,就是找出转换矩阵U第二十三页,讲稿共六十页哦2 主成分分析的解法主成分分析的解法一、用方差一、用方差协方差矩阵求解主成分例协方差矩阵求解主成分例v例例:设有一组古生物腕足动物贝壳标本的两个变量设有一组古生物腕足动物贝壳标本的两个变量:长度和宽度长度和宽度.所测量的数据列于表所测量的数据列于表8-1.第二十四页,讲稿共六十页哦05101520250510152025X1X2X X1 1X X2 2X X1 1X X2 23 32 2121210104 4101012
15、1211116 65 513136 66 68 8131314146 61010131315157 72 2131317177 7131314147 78 89 9151513139 95 5171713139 98 8171717179 914141818191910107 72020202011111212第二十五页,讲稿共六十页哦1、方差、方差协方差的计算协方差的计算58.15)267272(2513279(241)(1(11),(),(06.2428.20)73984251-3446(241)(1(112512512512121122122512512121221iiiiiiixiii
16、ixxxnxxnXXCovXXCovxnxn第二十六页,讲稿共六十页哦v主成分分析的实质主成分分析的实质; 就是要求出方差就是要求出方差协方差矩阵的特征向量及协方差矩阵的特征向量及其对应的特征值,即要找出方差其对应的特征值,即要找出方差协方差矩协方差矩阵所确定的椭球的主轴,交确定其长度阵所确定的椭球的主轴,交确定其长度第二十七页,讲稿共六十页哦方差方差协方差矩阵为协方差矩阵为 求特征值求特征值1 .246 .156 .153 .205 . 6, 9 .37087.2454 .4406 .156 .15)1 .24)(3 .20(1 .246 .156 .153 .20212第二十八页,讲稿共六
17、十页哦v特征向量的求解特征向量的求解v当当 时时, v化为联立方程化为联立方程v求得求得 v同理求得同理求得 时的特征向量时的特征向量9 .3715 . 6209 .371 .246 .156 .159 .373 .201211ll08 .136 .1506 .156 .1712111211llll75. 0,66. 01211ll1212211ll第二十九页,讲稿共六十页哦v算出算出第一主成分第一主成分I:特征值为:特征值为37.9,特征向量为,特征向量为第二主成分第二主成分II:特征值为:特征值为6.5,特征向量为,特征向量为75. 066. 0I66. 075. 0II第三十页,讲稿共六
18、十页哦v特征向量的方向由特征向量的方向由I、II中包括的两个数字控中包括的两个数字控制制v第一主成分第一主成分Z1的方差为的方差为37.9,第二主成分,第二主成分Z2的方差为的方差为6.5。两者之和恰为。两者之和恰为X1和和X2的总方差的总方差44.4。可见,两个主成分。可见,两个主成分Z1、Z2所代表的信所代表的信息分别为息分别为86%和和14%。如果用。如果用Z1代表原来的代表原来的数据数据,则仅损失信息则仅损失信息14%。但若用。但若用X1和和X2来代来代表原来的数据,则将损失信息表原来的数据,则将损失信息46%或或54%。第三十一页,讲稿共六十页哦3、主成分得分的计算、主成分得分的计算
19、v根据(根据(8-3)式,得到主成分的表达式为)式,得到主成分的表达式为21221166. 075. 075. 066. 0 xxZxxZ第三十二页,讲稿共六十页哦原原始始数数据据的的主主成成分分得得分分Z Z1 1Z Z2 2Z Z1 1Z Z2 23.483.480.930.9315.4215.422.42.410.1410.14-3.6-3.616.1716.171.741.747.717.711.21.213.0813.085.795.799.969.96-0.78-0.7819.0819.080.510.5111.4611.46-2.1-2.119.8319.83-0.15-0.15
20、6.126.123.933.9321.3321.33-1.47-1.4714.3714.37-3.33-3.3314.4914.495.885.8812.0312.030.060.0619.6519.652.672.679.699.693.453.4520.9720.974.174.1711.9411.941.471.4723.9723.971.531.5316.4416.44-2.49-2.4926.1326.130.960.9611.8511.852.882.8828.228.21.81.816.2616.260.330.33第三十三页,讲稿共六十页哦二、主成分分析的步骤二、主成分分析的步
21、骤v对原始地理数据对原始地理数据npnnppxxxxxxxxxX212222111211第三十四页,讲稿共六十页哦v进行标准化处理进行标准化处理(标准标准差标准化差标准化),即),即v其中其中jjjjxxx*212)(1jjNjjjxxxNx第三十五页,讲稿共六十页哦v计算相关系数矩阵计算相关系数矩阵R*1)(1jijijjiiijxxNxxxxNr第三十六页,讲稿共六十页哦v计算特征值和特征向量计算特征值和特征向量根据特征方程根据特征方程 计算特征值,即解计算特征值,即解的特征多项式,求的特征多项式,求 并使特征值按从大到小并使特征值按从大到小的顺序排列,即的顺序排列,即列出关于每个特征值的
22、特征向量列出关于每个特征值的特征向量 0 IR00111rrrrPnPnP,21021P0)(,21kkkTkpkkklERlRlllll), 2 , 1( , 112mklpjkj第三十七页,讲稿共六十页哦|计算主成分贡献率及累计贡献率计算主成分贡献率及累计贡献率 贡献率贡献率: :累计贡献率累计贡献率: : 一般取累计贡献率达一般取累计贡献率达8595%8595%的特征值的特征值所对应的第一、第二、所对应的第一、第二、第、第mm(mpmp)个主成分)个主成分m,21), 2 , 1(1pkpiikkjpiij11/第三十八页,讲稿共六十页哦v计算主成分载荷计算主成分载荷( (主成分主成分Z
23、 Zk k与变量与变量x xi i之间的相关系数之间的相关系数) ) ), 2 , 1;, 2 , 1,(),(mkpilxZPkikikmPmPPmmmmkillllllllllL221122221211212111)(第三十九页,讲稿共六十页哦v各主成分的得分:各主成分的得分: nmnnmmzzzzzzzzzZ212222111211*22*11*2*222*1212*1*212*1111pmpmmmppppxlxlxlzxlxlxlzxlxlxlz第四十页,讲稿共六十页哦3 特征值与特征向量的计算方法特征值与特征向量的计算方法v雅可比法雅可比法适合于对称矩阵适合于对称矩阵任一实对称矩阵任
24、一实对称矩阵A,均存在一正交变换矩阵,均存在一正交变换矩阵T,使,使那么那么 就是就是A的特征向量,的特征向量,T的列向量就是相应的特征向量的列向量就是相应的特征向量pATT21P21第四十一页,讲稿共六十页哦二维情况二维情况v如令如令v 则则v将原始矩阵将原始矩阵A化成了对角矩阵化成了对角矩阵 。由于由于T是正交阵,是正交阵,A和和对角线元素之和都等于对角线元素之和都等于a11+a2222211211aaaaAcossinsincosT2211121221aaatg2221221122212211coscossin2sin00sincossin2cosaaaaaaATT2100第四十二页,讲
25、稿共六十页哦雅可比法的计算步骤雅可比法的计算步骤v1、选择对称矩阵中非对角线元素最大者,记、选择对称矩阵中非对角线元素最大者,记为为v2、作正交变换、作正交变换)0(00)0(00)0(001221jjiijiaaatgijjijijiaaamax0000)0(第四十三页,讲稿共六十页哦假设在原始矩阵的对角线以外元素中,以的绝对假设在原始矩阵的对角线以外元素中,以的绝对值为最大。设,作一个转轴变换值为最大。设,作一个转轴变换0000000001cossin1sincos1jijiT第四十四页,讲稿共六十页哦第四十五页,讲稿共六十页哦第四十六页,讲稿共六十页哦第四十七页,讲稿共六十页哦4 主成分
26、分析方法应用实例主成分分析方法应用实例第四十八页,讲稿共六十页哦第四十九页,讲稿共六十页哦第五十页,讲稿共六十页哦第五十一页,讲稿共六十页哦例例2,2,根据表根据表1 1中给出的数据,对某农业生态经济系统做中给出的数据,对某农业生态经济系统做主成分分析主成分分析样本序号x1:人口密度(人/km2)x 2:人均耕地面积(ha)x 3:森林覆盖率(%)x 4:农民人均纯收入(元/人)x 5:人均粮食产量(kg/人)x 6:经济作物占农作物播面比例()x 7:耕地占土地面积比率()x 8:果园与林地面积之比()x 9:灌溉田占耕地面积之比()1363.9120.35216.101192.11295.
27、3426.72418.4922.23126.2622141.5031.68424.3011752.35452.2632.31414.4641.45527.0663100.6951.06765.6011181.54270.1218.2660.1627.47412.4894143.7391.33633.2051436.12354.2617.48611.8051.89217.5345131.4121.62316.6071405.09586.5940.68314.4010.30322.932表表1 1 某农业生态经济系统各区域单元的有关数据某农业生态经济系统各区域单元的有关数据 第五十二页,讲稿共六十
28、页哦668.3372.03276.2041540.29216.398.1284.0650.0114.861795.4160.80171.106926.35291.528.1354.0630.0124.862862.9011.65273.3071501.24225.2518.3522.6450.0343.201986.6240.84168.904897.36196.3716.8615.1760.0556.1671091.3940.81266.502911.24226.5118.2795.6430.0764.4771176.9120.85850.302103.52217.0919.7934.881
29、0.0016.1651251.2741.04164.609968.33181.384.0054.0660.0155.4021368.8310.83662.804957.14194.049.114.4840.0025.791477.3010.62360.102824.37188.0919.4095.7215.0558.4131576.9481.02268.0011255.42211.5511.1023.1330.013.4251699.2650.65460.7021251.03220.914.3834.6150.0115.59317118.5050.66163.3041246.47242.161
30、0.7066.0530.1548.70118141.4730.73754.206814.21193.4611.4196.4420.01212.94519137.7610.59855.9011124.05228.449.5217.8810.06912.65420117.6121.24554.503805.67175.2318.1065.7890.0488.46121122.7810.73149.1021313.11236.2926.7247.1620.09210.078第五十三页,讲稿共六十页哦步骤如下:将表中的数据作标准差标准化处理,然后步骤如下:将表中的数据作标准差标准化处理,然后将它们代入
31、公式计算相关系数矩阵将它们代入公式计算相关系数矩阵x1x2x3x4x5x6x7x8x9x11-0.327 -0.714 -0.3360.3090.4080.790.1560.744x2-0.331-0.0350.6440.420.2550.009-0.0780.094x3-0.71-0.03510.07-0.74-0.755-0.93-0.109-0.924x4-0.340.6440.0710.3830.069-0.05-0.0310.073x50.3090.42-0.740.38310.7340.6720.0980.747x60.4080.255-0.7550.0690.73410.6580
32、.2220.707x70.790.009-0.93-0.0460.6720.6581-0.030.89x80.156-0.078 -0.109 -0.0310.0980.222-0.0310.29x90.7440.094-0.9240.0730.7470.7070.890.291表表2 2相关系数矩阵相关系数矩阵 第五十四页,讲稿共六十页哦 (2 2)由相关系数矩阵计算特征值,以及各个)由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率(见表主成分的贡献率与累计贡献率(见表3 3)。由表)。由表3 3可知,第一,第二,第三主成分的累计贡献率已可知,第一,第二,第三主成分的累计贡献率已
33、高达高达86.596%86.596%(大于(大于85%85%),故只需要求出第),故只需要求出第一、第二、第三主成分一、第二、第三主成分z z1 1,z z2 2,z z3 3即可。即可。 第五十五页,讲稿共六十页哦主成分特征值贡献率(%)累积贡献率(%)z14.66151.79151.791z22.08923.21675.007z31.04311.58986.596z40.5075.63892.234z50.3153.50295.736z60.1932.1497.876z70.1141.27199.147z80.04530.50499.65z90.03150.35100表表3 3特征值及主成
34、分贡献率特征值及主成分贡献率 第五十六页,讲稿共六十页哦 (3 3)对于特征值)对于特征值=4.6610=4.6610,=2.0890=2.0890,=1.0430=1.0430分别求出其特征向量分别求出其特征向量e e1 1,e e2 2,e e3 3,再用公式计算各变量,再用公式计算各变量x x1 1,x x2 2,x x9 9在主成分在主成分z z1 1,z z2 2,z z3 3上的载荷(表上的载荷(表4 4)。 第五十七页,讲稿共六十页哦z1z2z3占方差的百分数(%)x10.739-0.532-0.006182.918x20.1230.887-0.002880.191x3-0.96
35、40.00960.009592.948x40.00420.8680.003775.346x50.8130.444-0.001185.811x60.8190.1790.12571.843x70.933-0.133-0.25195.118x80.197-0.10.9798.971x90.964-0.00250.009292.939上述计算过程,可以借助于SPSS或MATLAB软件系统实现。表表4 4 主成分载荷主成分载荷 第五十八页,讲稿共六十页哦 第一主成分第一主成分z1与与x1,x5,x6,x7,x9呈显出较强的正呈显出较强的正相关,与相关,与x3呈显出较强的负相关,而这几个变量则呈显出较强的负相关,而这几个变量则综合反映了生态经济结构状况,因此可以认为第一综合反映了生态经济结构状况,因此可以认为第一主成分主成分z1是生态经济结构的代表。是生态经济结构的代表。 第二主成分第二主成分z2与与x2,x4,x5呈显出较强的正相关,呈显出较强的正相关,与与x1呈显出较强的负相关,其中,除了呈显出较强的负相关,其中,除了x1为人口总数外,为人口总数外,x2,x4,x5都反映了人均占有资源量的情况,因此可都反映了人均占有资源量的情况,因此可以认为第二主成分以认为第二主成分z2代表了人均资源量代表了人均资源量 分析:分析:第五十九页,讲稿共六十页哦感谢大家观看第六十页,讲稿共六十页哦
限制150内