《10主成分和因子分析.ppt》由会员分享,可在线阅读,更多相关《10主成分和因子分析.ppt(58页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、统计学从数据到结论第十章主成分分析和因子分析主成分分析和因子分析 汇报什么?汇报什么?假定你是一个公司的财务经理,掌握假定你是一个公司的财务经理,掌握了公司的所有数据,这包括了公司的所有数据,这包括众多的变众多的变量量,如:,如:固定资产、流动资金、借贷固定资产、流动资金、借贷的数额和期限、各种税费、工资支出、的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工原料消耗、产值、利润、折旧、职工人数、分工和教育程度等等人数、分工和教育程度等等。如果让你向上级或有关方面介绍公司如果让你向上级或有关方面介绍公司状况,你能够把这些指标和数字都状况,你能够把这些指标和数字都原原封不动地摆出
2、去吗封不动地摆出去吗?需要高度概括需要高度概括在在如如此此多多的的变变量量之之中中,有有很很多多是是相相关关的的。人人们们希希望望能能够够找找出出它它们们的的少少数数“代代表表”来来对它们进行描述。对它们进行描述。需需要要把把这这种种有有很很多多变变量量的的数数据进行高度概括。据进行高度概括。本本章章介介绍绍两两种种把把变变量量维维数数降降低低以以便便于于描描述述、理理解解和和分分析析的的方方法法:主主成成分分 分分 析析(principal principal component component analysisanalysis)和和因因子子分分析析(factor factor anal
3、ysisanalysis)。)。实实际际上上主主成成分分分分析析可可以以说说是是因因子子分分析析的的一一个个特特例例。在在引引进进主主成成分分分分析析之前,先看下面的例子。之前,先看下面的例子。10.1主成分分析主成分分析成绩数据(成绩数据(student.txt)100个个学学生生的的数数学学、物物理理、化化学学、语语文文、历历史史、英语的成绩如下表(部分英语的成绩如下表(部分)。)。SPSS数据形式数据形式从本例可能提出的问题从本例可能提出的问题目目前前的的问问题题是是,能能否否把把这这个个数数据据的的6 6个个变变量量用用一一两两个个综综合合变变量量来来表示呢?表示呢?这这一一两两个个综
4、综合合变变量量包包含含有有多多少少原原来的信息呢?来的信息呢?能能否否利利用用找找到到的的综综合合变变量量来来对对学学生排序或据此进行其他分析呢?生排序或据此进行其他分析呢?空间的点空间的点例例中中数数据据点点是是六六维维的的;即即每每个个观观测测值值是是6维维空空间间中中的的一一个个点点。希希望望把把6维空间用低维空间表示。维空间用低维空间表示。先先假假定定只只有有二二维维,即即只只有有两两个个变变量量,由横坐标和纵坐标所代表;由横坐标和纵坐标所代表;每每个个观观测测值值都都有有相相应应于于这这两两个个坐坐标标轴的两个坐标值;轴的两个坐标值;空间的点空间的点如如果果这这些些数数据据形形成成一
5、一个个椭椭圆圆形形状状的的点点阵阵(这这在在二二维维正正态态的的假假定定下下是是可可能能的的)该该椭椭圆圆有有一一个个长长轴轴和和一一个个短短轴。在短轴方向上数据变化很少;轴。在短轴方向上数据变化很少;在在极极端端的的情情况况,短短轴轴如如退退化化成成一一点点,长长轴轴的的方方向向可可以以完完全全解解释释这这些些点点的的变变化化,由由二二维维到到一一维维的的降降维维就就自自然然完成了。完成了。椭圆的长短轴椭圆的长短轴当当坐坐标标轴轴和和椭椭圆圆的的长长短短轴轴平平行行,那那么么代代表表长长轴轴的的变变量量就就描描述述了了数数据据的的主主要要变变化化,而而代代表表短短轴轴的的变变量量就就描描述了
6、数据的次要变化。述了数据的次要变化。但但是是,坐坐标标轴轴通通常常并并不不和和椭椭圆圆的的长长短短轴轴平平行行。因因此此,需需要要寻寻找找椭椭圆圆的的长长短短轴轴,并并进进行行变变换换,使使得得新新变变量量和椭圆的长短轴平行。和椭圆的长短轴平行。椭圆的长短轴椭圆的长短轴如如果果长长轴轴变变量量代代表表了了数数据据包包含含的的大大部部分分信信息息,就就用用该该变变量量代代替替原原先先的的两两个个变变量量(舍舍去去次次要要的的一一维维),降降维就完成了。维就完成了。椭椭圆圆的的长长短短轴轴相相差差得得越越大大,降降维维也也越有道理。越有道理。主轴和主成分主轴和主成分多多维维变变量量的的情情况况和和
7、二二维维类类似似,也也有有高高维维的的椭椭球球,只只不不过过不不那那么么直直观观罢罢了。了。首首先先把把高高维维椭椭球球的的主主轴轴找找出出来来,再再用用代代表表大大多多数数数数据据信信息息的的最最长长的的几几个个轴轴作作为为新新变变量量;这这样样,主主成成分分分分析就基本完成了。析就基本完成了。主轴和主成分主轴和主成分正正如如二二维维椭椭圆圆有有两两个个主主轴轴,三三维维椭椭球球有有三三个个主主轴轴一一样样,有有几几个个变变量量,就有几个主轴。就有几个主轴。和和二二维维情情况况类类似似,高高维维椭椭球球的的主主轴轴也是互相垂直的。也是互相垂直的。这这些些互互相相正正交交的的新新变变量量是是原
8、原先先变变量量的的 线线 性性 组组 合合,叫叫 做做 主主 成成 分分(principalcomponent)。主成分之选取主成分之选取选选择择越越少少的的主主成成分分,降降维维就就越越好好。什什么是标准呢?么是标准呢?那那就就是是这这些些被被选选的的主主成成分分所所代代表表的的主主轴轴的的长长度度之之和和占占了了主主轴轴长长度度总总和和的的大大部分。部分。有有些些文文献献建建议议,所所选选的的主主轴轴总总长长度度占占所所有有主主轴轴长长度度之之和和的的大大约约85%即即可可,其其实实,这这只只是是一一个个大大体体的的说说法法;具具体体选几个,要看实际情况而定。选几个,要看实际情况而定。主成
9、分分析的数学要要寻寻找找方方差差最最大大的的方方向向。即即,使使向向量量X的线性组合的线性组合aX的方差最大的方向的方差最大的方向a.而而Var(aX)=aCov(X)a;由由于于Cov(X)未未知知;于于是是用用X的的样样本本相相关关阵阵R来来近近似似.要要寻寻找找向向量量a使使得得aRa最最大大(注注意意相相关关阵和协方差阵差一个常数)阵和协方差阵差一个常数)这涉及相关阵和特征值。这涉及相关阵和特征值。回顾一下吧回顾一下吧!选择几个主成分呢选择几个主成分呢?要看要看“贡献率贡献率.”对于我们的数据,对于我们的数据,SPSSSPSS输出为输出为这这里里的的InitialEigenvalues
10、就就是是这这里里的的六六个个主主轴轴长长度度,又又称称特特征征值值(数数据据相相关关阵阵的的特特征征值值)。头头两两个个成成分分特特征征值值累累积积占占了了总总方方差差的的81.142%。后后面面的的特特征征值值的的贡贡献献越越来来越越少。少。特征值的贡献还可以从特征值的贡献还可以从SPSS的所谓碎石图看出的所谓碎石图看出怎么解释这两个主成分。主成分是原始六怎么解释这两个主成分。主成分是原始六个变量的线性组合。这由下表给出。个变量的线性组合。这由下表给出。这这里里每每一一列列代代表表一一个个主主成成分分作作为为原原来来变变量量线线性性组组合合的的系系数数(比比例例)。比比如如第第一一主主成成分
11、分为为数数学学、物物理理、化化学学、语语文文、历历史史、英英语语这这六六个个变变量量的的线线性性组组合合,系系数数(比比例例)为为-0.806,-0.674,-0.675,0.893,0.825,0.836。如如用用x x1 1,x x2 2,x x3 3,x x4 4,x x5 5,x x6 6分分别别表表示示原原先先的的六六个个变变量量,而而用用y y1 1,y y2 2,y y3 3,y y4 4,y y5 5,y y6 6表表示示新新的的主主成成分分,那那么么,第第一一和和第第二二主主成成分为分为这这些些系系数数称称为为主主成成分分载载荷荷(loading),它它表表示示主主成成分分和
12、和相相应应的的原原先先变变量量的的相相关系数。关系数。比比如如y1表表示示式式中中x1的的系系数数为为-0.806,这这就就是是说说第第一一主主成成分分和和数数学学变变量量的的相相关关系数为系数为-0.806。相相关关系系数数(绝绝对对值值)越越大大,主主成成分分对对该该变变量量的的代代表表性性也也越越大大。可可以以看看得得出出,第第一一主主成成分分对对各各个个变变量量解解释释得得都都很很充充分分。而而最最后后的的几几个个主主成成分分和和原原先先的的变变量就不那么相关了。量就不那么相关了。可以把第一和第二主成可以把第一和第二主成分的载荷点出一个二维图分的载荷点出一个二维图以直观地显示它们如何解
13、以直观地显示它们如何解释原来的变量的。这个图释原来的变量的。这个图叫做载荷图。叫做载荷图。该图该图左面三个点是数学、物理、化学三科左面三个点是数学、物理、化学三科,右边三个点是语文、历史、外语三科。右边三个点是语文、历史、外语三科。图中图中的六个点由于比较挤,不易分清,但只要认的六个点由于比较挤,不易分清,但只要认识到这些点的坐标是前面的第一二主成分载识到这些点的坐标是前面的第一二主成分载荷,坐标是前面表中第一二列中的数目,还荷,坐标是前面表中第一二列中的数目,还是可以识别的。是可以识别的。10.2因子分析因子分析主主成成分分分分析析从从原原理理上上是是寻寻找找椭椭球球的的所所有有主主轴。原先
14、有几个变量,就有几个主成分。轴。原先有几个变量,就有几个主成分。而而因因子子分分析析是是事事先先确确定定要要找找几几个个成成分分,这这里里叫叫因因子子(factor)(比比如如两两个个),那那就就找找两个。两个。这这使使得得在在数数学学模模型型上上,因因子子分分析析和和主主成成分分分分析析有有不不少少区区别别。而而且且因因子子分分析析的的计计算算也也复复杂杂得得多多。根根据据因因子子分分析析模模型型的的特特点点,它它还还 多多 一一 道道 工工 序序:因因 子子 旋旋 转转(factorrotation););这个步骤可以使结果更好。这个步骤可以使结果更好。10.2因子分析因子分析对于计算机,
15、因子分析并不费事。对于计算机,因子分析并不费事。从从输输出出的的结结果果来来看看,因因子子分分析析也也有有因因子子载载荷荷(factorloading)的的概概念念,代代表表了了因因子子和和原原先先变变量量的的相相关关系系数数。但但是是在在因因子子分分析析公公式式中中的的因因子子载载荷荷位置和主成分分析不同。位置和主成分分析不同。因因子子分分析析也也给给出出了了二二维维图图;其其解解释释和主成分分析的载荷图类似。和主成分分析的载荷图类似。主成分分析与因子分析的公式上的区别主成分分析与因子分析的公式上的区别主成分分析主成分分析因子分析因子分析(mp)因子得分因子得分因子分析的数学因子分析需要许多
16、假定才能够解.具体公式.对于我们的数据,对于我们的数据,SPSSSPSS因子分析输出为因子分析输出为这个表说明六个变量和因子的关系。这个表说明六个变量和因子的关系。为简单记,我们用为简单记,我们用x1,x2,x3,x4,x5,x6来表示来表示math(数学),数学),phys(物物理),理),chem(化学),化学),literat(语文)语文),history(历史),历史),english(英语)英语)等变量。这样因子等变量。这样因子f1和和f2与这些原变与这些原变量之间的关系是(注意,和主成分分量之间的关系是(注意,和主成分分析不同,这里把成分(因子)写在方析不同,这里把成分(因子)写在
17、方程的右边,把原变量写在左边;但相程的右边,把原变量写在左边;但相应的系数还是主成分和各个变量的线应的系数还是主成分和各个变量的线性相关系数,也称为因子载荷):性相关系数,也称为因子载荷):这里,这里,第一个因子主要和语文、历史、第一个因子主要和语文、历史、英语三科有很强的正相关;英语三科有很强的正相关;而第二个而第二个因子主要和数学、物理、化学三科有因子主要和数学、物理、化学三科有很强的正相关很强的正相关。因此可以给第一个因子起名为因此可以给第一个因子起名为“文科文科因子因子”,而给第二个因子起名为,而给第二个因子起名为“理理科因子科因子”。从这个例子可以看出,因子分析的结从这个例子可以看出
18、,因子分析的结果比主成分分析解释性更强。果比主成分分析解释性更强。这这些些系系数数所所形形成成的的散散点点图图(在在SPSS中中也也称称载荷图)为载荷图)为可以直观看出每个因子代表了一类学科可以直观看出每个因子代表了一类学科计算因子得分计算因子得分可以根据输出可以根据输出算出每个学生的第一个因子和第二个因子的大小,算出每个学生的第一个因子和第二个因子的大小,即算出即算出每个学生每个学生的因子得分的因子得分f1和和f2。该输出说明第一和第二主因子为(习该输出说明第一和第二主因子为(习惯上用字母惯上用字母f来表示因子)可以按照如来表示因子)可以按照如下公式计算,该函数称为因子得分下公式计算,该函数
19、称为因子得分(factorscore)。)。人们可以根据这两套因子得分对学生分人们可以根据这两套因子得分对学生分别按照文科和理科排序。当然得到因子别按照文科和理科排序。当然得到因子得分只是得分只是SPSS软件的一个选项。软件的一个选项。10.3因子分析和主成分分析的一些注意事项因子分析和主成分分析的一些注意事项可可以以看看出出,因因子子分分析析和和主主成成分分分分析析都都依依赖赖于于原原始始变变量量,也也只只能能反反映映原原始始变变量量的的信信息息。所所以以原原始始变变量量的的选选择很重要。择很重要。另另外外,如如果果原原始始变变量量都都本本质质上上独独立立,那那么么降降维维就就可可能能失失败
20、败,这这是是因因为为很很难难把把很很多多独独立立变变量量用用少少数数综综合合的的变变量量概概括括。数数据据越越相相关关,降降维维效效果果就就越好。越好。10.3因子分析和主成分分析的一些注意事项因子分析和主成分分析的一些注意事项在在得得到到分分析析的的结结果果时时,并并不不一一定定会会都都得得到到如如我我们们例例子子那那样样清清楚楚的的结结果果。这这与与问问题题的的性性质质,选选取取的的原原始始变变量量以及数据的质量等都有关系以及数据的质量等都有关系在在用用因因子子得得分分进进行行排排序序时时要要特特别别小小心心,特特别别是是对对于于敏敏感感问问题题。由由于于原原始始变变量量不不同同,因因子子
21、的的选选取取不不同同,排排序可以很不一样。序可以很不一样。SPSSSPSS实现实现(因子分析与主成分分析因子分析与主成分分析)拿拿student.sav为例,选为例,选AnalyzeDataReductionFactor进入主进入主对话框;对话框;把把math、phys、chem、literat、history、english选入选入Variables,然后点击然后点击Extraction,在在Method选择一个方法(如果是主成分分析,则选选择一个方法(如果是主成分分析,则选PrincipalComponents),),下面的选项可以随意,比如要画碎石图就选下面的选项可以随意,比如要画碎石图
22、就选Screeplot,另外在另外在Extract选项可以按照特征值的大小选主成分(或因子),也可以选项可以按照特征值的大小选主成分(或因子),也可以选定因子的数目;选定因子的数目;之后回到主对话框(用之后回到主对话框(用Continue)。)。然后点击然后点击Rotation,再在该再在该对话框中的对话框中的Method选择一个旋转方法(如果是主成分分析就选选择一个旋转方法(如果是主成分分析就选None),),在在Display选选Rotatedsolution(以输出和旋转有关的结果)和以输出和旋转有关的结果)和Loadingplot(以输出载荷图);之后回到主对话框(用以输出载荷图);之
23、后回到主对话框(用Continue)。)。如果要计算因子得分就要点击如果要计算因子得分就要点击Scores,再选择再选择Saveasvariables(因子得分就会作为变量存在数据中的附加列上)和计算因子得因子得分就会作为变量存在数据中的附加列上)和计算因子得分的方法(比如分的方法(比如Regression););要想输出要想输出ComponentScoreCoefficientMatrix表,就要选择表,就要选择Displayfactorscorecoefficientmatrix;之后回到主对话框(用之后回到主对话框(用Continue)。)。这时点这时点OK即可。即可。附录附录的的pp矩
24、阵矩阵.而对于观测值而对于观测值X=(x1,xp),其其中中xi=(x1i,xni),i=1,p,的样本相关阵第的样本相关阵第(ij)-元素为元素为X=(X1,Xp)的的相关阵为第相关阵为第(ij)-元素为元素为的的pp矩阵矩阵,其中其中sij为第为第i和第和第j观测的样本相观测的样本相关系数关系数关于特征值和特征向量关于特征值和特征向量特征方程特征方程|R-l lI|=0的解为特征值的解为特征值l l,这这里里B为为一个一个p维正定方阵维正定方阵.l l通常有通常有p个个根根l l1l l2l lp.满足满足(R-l liI)xi=0的的向量向量xi为为l li的的特征向量特征向量.对任意向
25、量对任意向量a有性质有性质头头m个主成分的累积贡献率个主成分的累积贡献率:这里这里R为为X的样本相关阵的样本相关阵,第第i个特征值个特征值l li=aiRai=V(aix);ai为第为第i个特征个特征向量向量.Cov(aix,ajx)=0.这里这里a aijij为第为第i i个特征向量的第个特征向量的第j j个分量个分量;第第i i个主成分的载荷平方和为该主成分的个主成分的载荷平方和为该主成分的方差方差,等于其特征值等于其特征值l li i.所选的所选的m m个主成分个主成分对变量对变量x xj j的的总方差贡献总方差贡献为为主成分负荷主成分负荷(载荷载荷,loading):Yi与与Xj的的相
26、关系数相关系数:正交因子模型:正交因子模型:X-m m=AF+e em mi=变量变量i的均值的均值e ei=第第i个特殊因子个特殊因子Fi=第第i个公共因子个公共因子aij=第第i个变量在个变量在第第j个因子上的载荷个因子上的载荷不能观测的值满足下列条件:不能观测的值满足下列条件:F和和e e独立独立E(F)=0,Cov(F)=IE(e e)=0,Cov(e e)=Y Y,Y Y是对角矩阵是对角矩阵F为公共因子向量为公共因子向量,每个公共因子每个公共因子(如如Fi)是对模型中每个变量都起是对模型中每个变量都起作用的因子作用的因子;而而e e为特殊因子向量为特殊因子向量,每个特殊因子每个特殊因
27、子(如如e ei)只对一个变只对一个变量量(第第i个个)起作用起作用.因子分析的方法在于估计因子分析的方法在于估计S S=AA+Y Y和和Y Y,再分解以得到再分解以得到A.X的协方差阵的协方差阵S S可以可以分解成分解成这里这里l l1l l2l lp为为S S的特征值的特征值;而而e1,ep为相应的特征向量为相应的特征向量(e1,ep为为主成分的系数主成分的系数,因此称为主成分法因此称为主成分法).上上面分解总是取和数的重要的头几项来近面分解总是取和数的重要的头几项来近似似.X的协方差阵的协方差阵S S可以近似为可以近似为(如如Y Y忽略忽略)如如Y Y不忽略不忽略,S S可以近似为可以近
28、似为应用中应用中,S,S可以用样本相关阵可以用样本相关阵R代替代替.正交模型正交模型X=m m+AF+e e的协方差结构的协方差结构根据前面模型,可得出下面结果:根据前面模型,可得出下面结果:上面上面s sii2=S Sjaij2+y yi2中中,S Sjaij2称为称为共性方共性方差差(公共方差公共方差或或变量共同度变量共同度commonvariance,communalities),而,而y yi2称为称为特殊方差特殊方差.变变量共同度刻画全部公共因子对变量量共同度刻画全部公共因子对变量Xi的的总方差所做的贡献总方差所做的贡献.的统计意义就是第的统计意义就是第i个变量与第个变量与第j个公共
29、个公共因子的相关系数因子的相关系数,表示表示Xi依赖依赖Fj的的份量份量,这里这里eij是相应于特征值是相应于特征值l li的特征向量的特征向量ei的的第第j个分量个分量.因子载荷阵中各列元素的平方和因子载荷阵中各列元素的平方和Sj=S Siaij2称为公共因子称为公共因子Fj对对X诸变量的方差贡诸变量的方差贡献之总和献之总和因子载荷因子载荷除主成分法外还有最大似然法来估计除主成分法外还有最大似然法来估计A,m m和和Y Y(在多元正态分布的假定下在多元正态分布的假定下).当然当然,还有其他方法还有其他方法(有些互相类似有些互相类似).).令令T为为任意任意m正交方阵正交方阵(TT=TT=I)
30、,则则X-m m=AF+e=e=ATTF+e=Ae=A*F*+e,e,这里这里A A*=AT,F*=TF.因此因此S S=AA+Y Y=ATTA+Y Y=(A*)(A*)+Y Y因此因此,因子载荷因子载荷A只由一个正交阵只由一个正交阵T决定决定.载荷载荷A A*=AT与与A都给出同一个都给出同一个表示表示.由由AA=(A*)(A*)对角元给出对角元给出的共性方差的共性方差,也不因也不因T的选择而改变的选择而改变.正交变换正交变换T相当于相当于刚体刚体旋转旋转(或反射或反射),因子载荷因子载荷A的正的正交变换交变换AT称为称为因子旋转因子旋转估计的协方差阵或相关阵估计的协方差阵或相关阵,残差阵残
31、差阵,特殊方差及共性方特殊方差及共性方差都不随旋转而变差都不随旋转而变.这里这里“残差阵残差阵”为协方差阵或相关阵为协方差阵或相关阵与估计的与估计的AA+Y Y之差之差.因子旋转的因子旋转的一个一个准则为最大方差准则准则为最大方差准则.它使旋转后的因子载荷的总方差达到它使旋转后的因子载荷的总方差达到最大最大.如如即要选变换即要选变换T使下式最大使下式最大(计算机循环算法计算机循环算法)需要由需要由X=AF变成变成F=b bX.或或Fj=b bj1X1+b bjpXp j=1,m,称为称为因子得分因子得分(函数函数).这通常用加权最小二乘法或回归法等这通常用加权最小二乘法或回归法等来求得来求得.总结总结模型模型X=m m+AF+e e因子分析的步骤因子分析的步骤1根据问题选取原始变量;根据问题选取原始变量;2求其相关阵求其相关阵R,探讨其相关性;探讨其相关性;3从从R求解初始公共因子求解初始公共因子F及因子及因子载荷矩阵载荷矩阵A(主成分法或最大似然法主成分法或最大似然法)4因子旋转;因子旋转;5由由X=AF到到F=bX(因子得分函数因子得分函数)6根据因子得分值进行进一步分析根据因子得分值进行进一步分析.回到数值例子回到我们成绩例子.
限制150内