统计学-主成分分析和因子分析.ppt





《统计学-主成分分析和因子分析.ppt》由会员分享,可在线阅读,更多相关《统计学-主成分分析和因子分析.ppt(58页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、统计学从数据到结论第十章主成分分析和因子分析主成分分析和因子分析 汇报什么?汇报什么?假定你是一个公司的财务经理,掌握假定你是一个公司的财务经理,掌握了公司的所有数据,这包括了公司的所有数据,这包括众多的变众多的变量量,如:,如:固定资产、流动资金、借贷固定资产、流动资金、借贷的数额和期限、各种税费、工资支出、的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工原料消耗、产值、利润、折旧、职工人数、分工和教育程度等等人数、分工和教育程度等等。如果让你向上级或有关方面介绍公司如果让你向上级或有关方面介绍公司状况,你能够把这些指标和数字都状况,你能够把这些指标和数字都原原封不动地摆出
2、去吗封不动地摆出去吗?需要高度概括需要高度概括在在如如此此多多的的变变量量之之中中,有有很很多多是是相相关关的的。人人们们希希望望能能够够找找出出它它们们的的少少数数“代代表表”来来对它们进行描述。对它们进行描述。需需要要把把这这种种有有很很多多变变量量的的数数据进行高度概括。据进行高度概括。本本章章介介绍绍两两种种把把变变量量维维数数降降低低以以便便于于描描述述、理理解解和和分分析析的的方方法法:主主成成分分 分分 析析(principal principal component component analysisanalysis)和和因因子子分分析析(factor factor anal
3、ysisanalysis)。)。实实际际上上主主成成分分分分析析可可以以说说是是因因子子分分析析的的一一个个特特例例。在在引引进进主主成成分分分分析析之前,先看下面的例子。之前,先看下面的例子。10.1主成分分析主成分分析成绩数据(成绩数据(student.txt)100个个学学生生的的数数学学、物物理理、化化学学、语语文文、历历史史、英语的成绩如下表(部分)。英语的成绩如下表(部分)。SPSS数据形式数据形式从本例可能提出的问题从本例可能提出的问题目目前前的的问问题题是是,能能否否把把这这个个数数据据的的6 6个个变变量量用用一一两两个个综综合合变变量量来来表示呢?表示呢?这这一一两两个个综
4、综合合变变量量包包含含有有多多少少原原来的信息呢?来的信息呢?能能否否利利用用找找到到的的综综合合变变量量来来对对学学生排序或据此进行其他分析呢?生排序或据此进行其他分析呢?空间的点空间的点例例中中数数据据点点是是六六维维的的;即即每每个个观观测测值值是是6维维空空间间中中的的一一个个点点。希希望望把把6维空间用低维空间表示。维空间用低维空间表示。先先假假定定只只有有二二维维,即即只只有有两两个个变变量量,由横坐标和纵坐标所代表;由横坐标和纵坐标所代表;每每个个观观测测值值都都有有相相应应于于这这两两个个坐坐标标轴的两个坐标值;轴的两个坐标值;空间的点空间的点如如果果这这些些数数据据形形成成一
5、一个个椭椭圆圆形形状状的的点点阵阵(这这在在二二维维正正态态的的假假定定下下是是可可能能的的)该该椭椭圆圆有有一一个个长长轴轴和和一一个个短短轴。在短轴方向上数据变化很少;轴。在短轴方向上数据变化很少;在在极极端端的的情情况况,短短轴轴如如退退化化成成一一点点,长长轴轴的的方方向向可可以以完完全全解解释释这这些些点点的的变变化化,由由二二维维到到一一维维的的降降维维就就自自然然完成了。完成了。椭圆的长短轴椭圆的长短轴当当坐坐标标轴轴和和椭椭圆圆的的长长短短轴轴平平行行,那那么么代代表表长长轴轴的的变变量量就就描描述述了了数数据据的的主主要要变变化化,而而代代表表短短轴轴的的变变量量就就描描述了
6、数据的次要变化。述了数据的次要变化。但但是是,坐坐标标轴轴通通常常并并不不和和椭椭圆圆的的长长短短轴轴平平行行。因因此此,需需要要寻寻找找椭椭圆圆的的长长短短轴轴,并并进进行行变变换换,使使得得新新变变量量和椭圆的长短轴平行。和椭圆的长短轴平行。椭圆的长短轴椭圆的长短轴如如果果长长轴轴变变量量代代表表了了数数据据包包含含的的大大部部分分信信息息,就就用用该该变变量量代代替替原原先先的的两两个个变变量量(舍舍去去次次要要的的一一维维),降降维就完成了。维就完成了。椭椭圆圆的的长长短短轴轴相相差差得得越越大大,降降维维也也越有道理。越有道理。主轴和主成分主轴和主成分多多维维变变量量的的情情况况和和
7、二二维维类类似似,也也有有高高维维的的椭椭球球,只只不不过过不不那那么么直直观观罢罢了。了。首首先先把把高高维维椭椭球球的的主主轴轴找找出出来来,再再用用代代表表大大多多数数数数据据信信息息的的最最长长的的几几个个轴轴作作为为新新变变量量;这这样样,主主成成分分分分析就基本完成了。析就基本完成了。主轴和主成分主轴和主成分正正如如二二维维椭椭圆圆有有两两个个主主轴轴,三三维维椭椭球球有有三三个个主主轴轴一一样样,有有几几个个变变量量,就有几个主轴。就有几个主轴。和和二二维维情情况况类类似似,高高维维椭椭球球的的主主轴轴也是互相垂直的。也是互相垂直的。这这些些互互相相正正交交的的新新变变量量是是原
8、原先先变变量量的的 线线 性性 组组 合合,叫叫 做做 主主 成成 分分(principalcomponent)。主成分之选取主成分之选取选选择择越越少少的的主主成成分分,降降维维就就越越好好。什什么是标准呢?么是标准呢?那那就就是是这这些些被被选选的的主主成成分分所所代代表表的的主主轴轴的的长长度度之之和和占占了了主主轴轴长长度度总总和和的的大大部分。部分。有有些些文文献献建建议议,所所选选的的主主轴轴总总长长度度占占所所有有主主轴轴长长度度之之和和的的大大约约85%即即可可,其其实实,这这只只是是一一个个大大体体的的说说法法;具具体体选几个,要看实际情况而定。选几个,要看实际情况而定。主成
9、分分析的数学要要寻寻找找方方差差最最大大的的方方向向。即即,使使向向量量X的线性组合的线性组合aX的方差最大的方向的方差最大的方向a.而而Var(aX)=aCov(X)a;由由于于Cov(X)未未知知;于于是是用用X的的样样本本相相关关阵阵R来来近近似似.要要寻寻找找向向量量a使使得得aRa最最大大(注注意意相相关关阵和协方差阵差一个常数)阵和协方差阵差一个常数)这涉及相关阵和特征值。这涉及相关阵和特征值。回顾一下吧回顾一下吧!选择几个主成分呢选择几个主成分呢?要看要看“贡献率贡献率.”对于我们的数据,对于我们的数据,SPSSSPSS输出为输出为这这里里的的InitialEigenvalues
10、就就是是这这里里的的六六个个主主轴轴长长度度,又又称称特特征征值值(数数据据相相关关阵阵的的特特征征值值)。头头两两个个成成分分特特征征值值累累积积占占了了总总方方差差的的81.142%。后后面面的的特特征征值值的的贡贡献献越越来来越越少。少。特征值的贡献还可以从特征值的贡献还可以从SPSS的所谓碎石图看出的所谓碎石图看出怎么解释这两个主成分。主成分是原始六怎么解释这两个主成分。主成分是原始六个变量的线性组合。这由下表给出。个变量的线性组合。这由下表给出。这这里里每每一一列列代代表表一一个个主主成成分分作作为为原原来来变变量量线线性性组组合合的的系系数数(比比例例)。比比如如第第一一主主成成分
11、分为为数数学学、物物理理、化化学学、语语文文、历历史史、英英语语这这六六个个变变量量的的线线性性组组合合,系系数数(比比例例)为为-0.806,-0.674,-0.675,0.893,0.825,0.836。如如用用x x1 1,x x2 2,x x3 3,x x4 4,x x5 5,x x6 6分分别别表表示示原原先先的的六六个个变变量量,而而用用y y1 1,y y2 2,y y3 3,y y4 4,y y5 5,y y6 6表表示示新新的的主主成成分分,那那么么,第第一一和和第第二二主主成成分为分为这这些些系系数数称称为为主主成成分分载载荷荷(loading),它它表表示示主主成成分分和
12、和相相应应的的原原先先变变量量的的相相关系数。关系数。比比如如y1表表示示式式中中x1的的系系数数为为-0.806,这这就就是是说说第第一一主主成成分分和和数数学学变变量量的的相相关关系数为系数为-0.806。相相关关系系数数(绝绝对对值值)越越大大,主主成成分分对对该该变变量量的的代代表表性性也也越越大大。可可以以看看得得出出,第第一一主主成成分分对对各各个个变变量量解解释释得得都都很很充充分分。而而最最后后的的几几个个主主成成分分和和原原先先的的变变量就不那么相关了。量就不那么相关了。可以把第一和第二主成可以把第一和第二主成分的载荷点出一个二维图分的载荷点出一个二维图以直观地显示它们如何解
13、以直观地显示它们如何解释原来的变量的。这个图释原来的变量的。这个图叫做载荷图。叫做载荷图。该图该图左面三个点是数学、物理、化学三科左面三个点是数学、物理、化学三科,右边三个点是语文、历史、外语三科。右边三个点是语文、历史、外语三科。图中图中的六个点由于比较挤,不易分清,但只要认的六个点由于比较挤,不易分清,但只要认识到这些点的坐标是前面的第一二主成分载识到这些点的坐标是前面的第一二主成分载荷,坐标是前面表中第一二列中的数目,还荷,坐标是前面表中第一二列中的数目,还是可以识别的。是可以识别的。10.2因子分析因子分析主主成成分分分分析析从从原原理理上上是是寻寻找找椭椭球球的的所所有有主主轴。原先
14、有几个变量,就有几个主成分。轴。原先有几个变量,就有几个主成分。而而因因子子分分析析是是事事先先确确定定要要找找几几个个成成分分,这这里里叫叫因因子子(factor)(比比如如两两个个),那那就就找找两个。两个。这这使使得得在在数数学学模模型型上上,因因子子分分析析和和主主成成分分分分析析有有不不少少区区别别。而而且且因因子子分分析析的的计计算算也也复复杂杂得得多多。根根据据因因子子分分析析模模型型的的特特点点,它它还还 多多 一一 道道 工工 序序:因因 子子 旋旋 转转(factorrotation);这个步骤可以使结果更好。);这个步骤可以使结果更好。10.2因子分析因子分析对于计算机,
15、因子分析并不费事。对于计算机,因子分析并不费事。从从输输出出的的结结果果来来看看,因因子子分分析析也也有有因因子子载载荷荷(factorloading)的的概概念念,代代表表了了因因子子和和原原先先变变量量的的相相关关系系数数。但但是是在在因因子子分分析析公公式式中中的的因因子子载载荷荷位置和主成分分析不同。位置和主成分分析不同。因因子子分分析析也也给给出出了了二二维维图图;其其解解释释和主成分分析的载荷图类似。和主成分分析的载荷图类似。主成分分析与因子分析的公式上的区别主成分分析与因子分析的公式上的区别主成分分析主成分分析因子分析因子分析(mp)因子得分因子得分因子分析的数学因子分析需要许多
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 成分 分析 因子分析

限制150内