《最新多元统计学-2主成分分析精品课件.ppt》由会员分享,可在线阅读,更多相关《最新多元统计学-2主成分分析精品课件.ppt(24页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、多元统计学多元统计学-2主成分分析主成分分析1. 基本思想:用较少的变量表示原来的样本;2.目的:是样本数据信息损失最小的原则下,对高维变量进行降维。3.参数估计:一般是求相关矩阵的特征值和相应的特征向量(主成分分析法),取前几个计算主成分。4.应用:应用较少变量来解释各个样本的特征(数据降维、综合平价)。 (1) 基于相关系数矩阵主成分分析。 (2) 主成分分析的目的是简化变量,一般情况下主成分的个数应该小于原始变量的个数。关于保留几个主成分,应该权衡主成分个数和保留的信息。 (3) 如何解释主成分所包含的专业意义。 ppppppppppXuXuXuFXuXuXuFXuXuXuF221122
2、22112212211111 主成分分析数学模型 多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合Fi。2x1x1F2F主成分分析的几何解释平移、旋转坐标轴 主成分分析综合能力主成分分析综合能力 1)贡献率:第i个主成分的方差在全部方差中所占比重 ,称为贡献率 ,反映了原来P个指标多大的信息,有多大的综合能力 。piii1 2)累积贡献率:前k个主成分共有多大的综合能力,用这k个主成分的方差和在全部方差中所占比重来描述,称为累积贡献率。piikii11 我们进行主成分分析的目的之一是希望用尽可能少的主成分F1,F2,Fk(kp)代替原来的P个指
3、标。到底应该选择多少个主成分,在实际工作中,主成分个数的多少取决于能够反映原来变量80%以上的信息量为依据,即当累积贡献率80%时的主成分的个数就足够了。最常见的情况是主成分为2到3个。 根据主成分分析的定义及性质,我们已大体上能看出主成分分析的一些应用。概括起来说,主成分分析主要有以下几方面的应用。 1主成分分析能降低所研究的数据空间的维数。即用研究m维的Y空间代替p维的X空间(mp),而低维的Y空间代替 高维的x空间所损失的信息很少。即:使只有一个主成分Yl(即 m1)时,这个Yl仍是使用全部X变量(p个)得到的。例如要计算Yl的均值也得使用全部x的均值。在所选的前m个主成分中,如果某个X
4、i的系数全部近似于零的话,就可以把这个Xi删除,这也是一种删除多余变量的方法。主成分分析的应用 2. 多维数据的一种图形表示方法。我们知道当维数大于3时便不能画出几何图形,多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而,经过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出n个样品在二维平面上的分布况,由图形可直观地看出各样品在主分量中的地位。 3由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析。主成分分析例子x1-城镇单位在岗职工平均工资(元)x2-各市固定资产投资(万元)x3-各市进口总额(万美元
5、)x4-社会消费品零售总额(万元)x5-各市工业增加值(亿元)x6-财政收入(亿元)。 分析结果规格化特征向量因子1因子2因子3因子4因子5因子6x(1)0.26920.75790.38510.32060.18190.2625x(2)0.4550-0.0469-0.11420.5278-0.5763-0.4088x(3)0.4438-0.1602-0.62470.16740.25630.5417x(4)0.3536-0.57240.66670.0081-0.02560.3196x(5)0.43130.2606-0.0550-0.7482-0.41860.0897x(6)0.4610-0.046
6、90.0293-0.17560.6271-0.6003No特征值百分率%累计百分率%Chi方值dfp值14.641277.353977.3539155.7152200.000021.100718.344495.698390.1542140.000030.13132.187897.886132.846090.000140.10641.773899.659925.496550.000150.01150.191999.85180.218820.896460.00890.1482100001.0000主成分得分NoY(i,1)Y(i,2)Y(i,3)Y(i,4)Y(i,5)Y(i,6)N(1)7.33
7、17-1.0901-0.08340.4158-0.0138-0.0251N(2)-0.79680.8219-0.0956-0.3874-0.0749-0.1062N(3)-1.7221-0.87860.2299-0.0232-0.0382-0.0305N(4)-1.5958-0.45800.1309-0.05780.0057-0.0782N(5)0.2299-0.4045-0.05150.03090.30240.1029N(6)-0.8099-1.39410.5933-0.06890.07540.0072N(7)-0.13001.55200.69320.09700.1232-0.0551N(8
8、)-0.6325-0.7418-0.3340-0.36320.00710.0620N(9)-0.9396-0.91450.03850.0376-0.03560.1469N(10)1.90062.87110.3401-0.0596-0.05050.1192N(11)-0.8902-0.34660.10280.0772-0.14890.0410N(12)2.37710.3236-0.4202-0.66020.0178-0.1420N(13)-0.54180.0983-0.12610.4231-0.17420.0763N(14)-0.83430.6456-0.6975-0.14590.02520.1
9、475N(15)-1.84740.3812-0.47050.41200.0952-0.1058N(16)0.4329-0.87110.3573-0.3544-0.0969-0.0275N(17)-1.53180.4054-0.20730.6270-0.0191-0.13251miiiypy综系数正负号互换同样满足主成分分析结果的正交和单位化要求。这种正负号互换对该主成分所表达的统计含义没有影响,但是如果几个成分相加,情况就不一样了。如令本例中第二主成分y2=-y2,不同情况下按特征值加权相加可以得到:(4.6412y1+1.1007y2)/5.7419=0.363x1+0.359x2+0.32
10、8x3+0.176x4+0.399x5+0.364x6(4.6412y1+1.1007y2)/5.7419=0.072x1+0.377x2+0.389x3+0.396x4+0.299x5+0.382x6这里每个变量指标的权重发生了改变,计算处理的综合值也不一样。2y地区第一主成分y1y1+y2y1+y 2排序结果y1 y1+y2y1+y 2合肥7.3317 5.7172 6.1352 111芜湖2.3771 1.9835 1.8594 232马鞍山1.9006 2.0866 0.9859 323安庆0.4329 0.1830 0.5169 454蚌埠0.2299 0.1083 0.2634 5
11、65淮南-0.1300 0.1924 -0.4026 648宣城-0.5418 -0.4191 -0.4568 779滁州-0.6325 -0.6535 -0.3690 8106淮北-0.7968 -0.4865 -0.8016 9813阜阳-0.8099 -0.9219 -0.3874 10127铜陵-0.8343 -0.5506 -0.7981 11912巢湖-0.8902 -0.7860 -0.6532 121111六安-0.9396 -0.9348 -0.5841 131310黄山-1.5318 -1.1605 -1.3159 141416宿州-1.5958 -1.3777 -1.2021 151514亳州-1.7221 -1.5604 -1.2235 161715池州-1.8474 -1.4202 -1.5663 171617方差4.64123.07283.0728主成分回归分析 进行多元线性回归分析时,经常碰到自变量之间强相关,即多重共线性问题。这时可通过主成分回归求回归系数,解决自变量多重共线性问题。主成分既保留了原指标的绝大部分信息,又有主成分之间互不相关的特点。主成分回归的具体步骤是: 采用多重回归分析,进行共线性诊断; 进行主成分分析确定所需主成分数; 进行主成分回归分析
限制150内