北京大学统计学经典课件第七章——主成分分析和因子分析.ppt
《北京大学统计学经典课件第七章——主成分分析和因子分析.ppt》由会员分享,可在线阅读,更多相关《北京大学统计学经典课件第七章——主成分分析和因子分析.ppt(89页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、主主成成分分分分析析和和因因子子分分析析 汇报什么?汇报什么?假定你是一个公司的财务经理,掌握了公司的所假定你是一个公司的财务经理,掌握了公司的所有数据,比如有数据,比如固定资产、流动资金、每一笔借贷固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教产值、利润、折旧、职工人数、职工的分工和教育程度等等育程度等等。如果让你向上面介绍公司状况,你能够把这些指如果让你向上面介绍公司状况,你能够把这些指标和数字都标和数字都原封不动地摆出去吗原封不动地摆出去吗?当然不能。当然不能。你必须要把各个
2、方面作出高度概括,你必须要把各个方面作出高度概括,用一两个指用一两个指标简单明了地把情况说清楚。标简单明了地把情况说清楚。主成分分析主成分分析每个人都会遇到有每个人都会遇到有很多变量很多变量的数据。的数据。比比如如全全国国或或各各个个地地区区的的带带有有许许多多经经济济和和社社会会变变量量的的数数据据;各各个个学学校校的的研研究究、教教学学等等各各种种变变量量的的数数据等等。据等等。这这些些数数据据的的共共同同特特点点是是变变量量很很多多,在在如如此此多多的的变变量量之之中中,有有很很多多是是相相关关的的。人人们们希希望望能能够够找找出出它它们的们的少数少数“代表代表”来对它们进行描述。来对它
3、们进行描述。本本章章就就介介绍绍两两种种把把变变量量维维数数降降低低以以便便于于描描述述、理理解解和和分分析析的的方方法法:主主成成分分分分析析(principal principal component component analysisanalysis)和和因因子子分分析析(factor factor analysisanalysis)。实实际际上上主主成成分分分分析析可可以以说说是是因因子子分分析析的的一一个个特特例例。在在引引进进主主成成分分分分析析之之前前,先先看看下下面的例子。面的例子。成绩数据(成绩数据(student.sav)100个个学学生生的的数数学学、物物理理、化化学学
4、、语语文文、历历史史、英语的成绩如下表(部分英语的成绩如下表(部分)。)。从本例可能提出的问题从本例可能提出的问题目目前前的的问问题题是是,能能不不能能把把这这个个数数据据的的6 6个个变变量量用用一一两两个个综综合合变变量量来来表表示呢?示呢?这这一一两两个个综综合合变变量量包包含含有有多多少少原原来来的信息呢?的信息呢?能能不不能能利利用用找找到到的的综综合合变变量量来来对对学学生生排排序序呢呢?这这一一类类数数据据所所涉涉及及的的问问题题可可以以推推广广到到对对企企业业,对对学学校校进进行行分析、排序、判别和分类等问题。分析、排序、判别和分类等问题。主成分分析主成分分析例例中中的的的的数
5、数据据点点是是六六维维的的;也也就就是是说说,每每个个观观测测值值是是6维维空空间间中中的的一一个个点点。我我们们希希望望把把6维维空空间间用用低维空间表示。低维空间表示。先先假假定定只只有有二二维维,即即只只有有两两个个变变量量,它它们们由由横横坐坐标标和和纵纵坐坐标标所所代代表表;因因此此每每个个观观测测值值都都有有相相应应于于这这两两个个坐坐标标轴轴的的两两个个坐坐标标值值;如如果果这这些些数数据据形形成成一一个个椭椭圆圆形形状状的的点点阵阵(这这在在变变量量的的二二维维正正态态的的假假定下是可能的)定下是可能的)那那么么这这个个椭椭圆圆有有一一个个长长轴轴和和一一个个短短轴轴。在在短短
6、轴轴方方向向上上,数数据据变变化化很很少少;在在极极端端的的情情况况,短短轴轴如如果果退退化化成成一一点点,那那只只有有在在长长轴轴的的方方向向才才能能够够解解释释这这些些点点的的变变化化了了;这这样样,由由二二维维到到一一维维的的降降维维就就自自然完成了。然完成了。主成分分析主成分分析当当坐坐标标轴轴和和椭椭圆圆的的长长短短轴轴平平行行,那那么么代代表表长长轴轴的的变变量量就就描描述述了了数数据据的的主主要要变变化化,而而代代表表短短轴轴的的变变量就描述了数据的次要变化。量就描述了数据的次要变化。但但是是,坐坐标标轴轴通通常常并并不不和和椭椭圆圆的的长长短短轴轴平平行行。因因此此,需需要要寻
7、寻找找椭椭圆圆的的长长短短轴轴,并并进进行行变变换换,使使得得新变量和椭圆的长短轴平行。新变量和椭圆的长短轴平行。如如果果长长轴轴变变量量代代表表了了数数据据包包含含的的大大部部分分信信息息,就就用用该该变变量量代代替替原原先先的的两两个个变变量量(舍舍去去次次要要的的一一维维),降维就完成了。,降维就完成了。椭椭圆圆(球球)的的长长短短轴轴相相差差得得越越大大,降降维维也也越越有有道道理。理。主成分分析主成分分析对对于于多多维维变变量量的的情情况况和和二二维维类类似似,也也有有高高维维的的椭椭球球,只只不不过过无无法法直直观观地地看看见罢了。见罢了。首首先先把把高高维维椭椭球球的的主主轴轴找
8、找出出来来,再再用用代代表表大大多多数数数数据据信信息息的的最最长长的的几几个个轴轴作作为为新新变变量量;这这样样,主主成成分分分分析析就就基基本完成了。本完成了。注注意意,和和二二维维情情况况类类似似,高高维维椭椭球球的的主主轴轴也也是是互互相相垂垂直直的的。这这些些互互相相正正交交的的新新变变量量是是原原先先变变量量的的线线性性组组合合,叫叫做主成分做主成分(principalcomponent)。主成分分析主成分分析正正如如二二维维椭椭圆圆有有两两个个主主轴轴,三三维维椭椭球球有有三三个个主主轴轴一一样样,有有几几个个变变量量,就就有有几个主成分。几个主成分。选选择择越越少少的的主主成成
9、分分,降降维维就就越越好好。什什么么是是标标准准呢呢?那那就就是是这这些些被被选选的的主主成成分分所所代代表表的的主主轴轴的的长长度度之之和和占占了了主主轴轴长长度度总总和和的的大大部部分分。有有些些文文献献建建议议,所所选选的的主主轴轴总总长长度度占占所所有有主主轴轴长长度度之之和和的的大大约约85%即即可可,其其实实,这这只只是是一一个个大大体体的的说说法法;具具体体选选几几个个,要要看看实实际情况而定。际情况而定。对于我们的数据,对于我们的数据,SPSSSPSS输出为输出为这这里里的的InitialEigenvalues就就是是这这里里的的六六个个主主轴轴长长度度,又又称称特特征征值值(
10、数数据据相相关关阵阵的的特特征征值值)。头头两两个个成成分分特特征征值值累累积积占占了了总总方方差差的的81.142%。后后面面的的特特征征值值的的贡贡献献越越来来越越少。少。特征值的贡献还可以从特征值的贡献还可以从SPSS的所谓碎石图看出的所谓碎石图看出怎么解释这两个主成分。前面说过主成分怎么解释这两个主成分。前面说过主成分是原始六个变量的线性组合。是怎么样的是原始六个变量的线性组合。是怎么样的组合呢?组合呢?SPSSSPSS可以可以输出下面的表。输出下面的表。这这里里每每一一列列代代表表一一个个主主成成分分作作为为原原来来变变量量线线性性组组合合的的系系数数(比比例例)。比比如如第第一一主
11、主成成分分为为数数学学、物物理理、化化学学、语语文文、历历史史、英英语语这这六六个个变变量量的的线线性性组组合合,系系数数(比比例例)为为-0.806,-0.674,-0.675,0.893,0.825,0.836。如如用用x x1 1,x x2 2,x x3 3,x x4 4,x x5 5,x x6 6分分别别表表示示原原先先的的六六个个变变量量,而而用用y y1 1,y y2 2,y y3 3,y y4 4,y y5 5,y y6 6表表示示新新的的主主成成分,那么,第一和第二主成分为分,那么,第一和第二主成分为这这些些系系数数称称为为主主成成分分载载荷荷(loading),它它表表示示主
12、主成分和相应的原先变量的相关系数。成分和相应的原先变量的相关系数。比比如如y1表表示示式式中中x1的的系系数数为为-0.806,这这就就是是说说第第一主成分和数学变量的相关系数为一主成分和数学变量的相关系数为-0.806。相相关关系系数数越越大大,主主成成分分对对该该变变量量的的代代表表性性也也越越大大。可可以以看看得得出出,第第一一主主成成分分对对各各个个变变量量解解释释得得都都很很充充分分。而而最最后后的的几几个个主主成成分分和和原原先先的的变变量量就就不不那那么相关了。么相关了。可以把第一和第二主成可以把第一和第二主成分的载荷点出一个二维图分的载荷点出一个二维图以直观地显示它们如何解以直
13、观地显示它们如何解释原来的变量的。这个图释原来的变量的。这个图叫做载荷图。叫做载荷图。该图该图左面三个点是数学、物理、化学三科左面三个点是数学、物理、化学三科,右边三个点右边三个点是语文、历史、外语三科。是语文、历史、外语三科。图中的六个点由于比较挤,图中的六个点由于比较挤,不易分清,但只要认识到这些点的坐标是前面的第一二不易分清,但只要认识到这些点的坐标是前面的第一二主成分载荷,坐标是前面表中第一二列中的数目,还是主成分载荷,坐标是前面表中第一二列中的数目,还是可以识别的。可以识别的。因子分析因子分析主主成成分分分分析析从从原原理理上上是是寻寻找找椭椭球球的的所所有有主主轴轴。因因此此,原原
14、先有几个变量,就有几个主成分。先有几个变量,就有几个主成分。而而因因子子分分析析是是事事先先确确定定要要找找几几个个成成分分,这这里里叫叫因因子子(factor)()(比如两个),那就找两个。比如两个),那就找两个。这这使使得得在在数数学学模模型型上上,因因子子分分析析和和主主成成分分分分析析有有不不少少区区别别。而而且且因因子子分分析析的的计计算算也也复复杂杂得得多多。根根据据因因子子分分析析模模型型的的特特点点,它它还还多多一一道道工工序序:因因子子旋旋转转(factorrotation););这个步骤可以使结果更好。这个步骤可以使结果更好。当当然然,对对于于计计算算机机来来说说,因因子子
15、分分析析并并不不比比主主成成分分分分析析多多费多少时间。费多少时间。从从输输出出的的结结果果来来看看,因因子子分分析析也也有有因因子子载载荷荷(factorloading)的的概概念念,代代表表了了因因子子和和原原先先变变量量的的相相关关系系数数。但但是是在在输输出出中中的的因因子子和和原原来来变变量量相相关关系系数数的的公公式式中中的的系系数数不不是是因因子子载载荷荷,也也给给出出了了二二维维图图;该该图图虽虽然然不不是是载载荷荷图,但解释和主成分分析的载荷图类似。图,但解释和主成分分析的载荷图类似。主成分分析与因子分析的公式上的区别主成分分析与因子分析的公式上的区别主成分分析主成分分析因子
16、分析因子分析(m1(默认默认)Rotation:(我加入我加入loadingplot)Options:特征值、累积贡献率特征值、累积贡献率特征值图特征值图二主成分因二主成分因子负荷图子负荷图主成分的因子负荷主成分的因子负荷(每列平方和为相应特征值每列平方和为相应特征值,而而每列除以相应特征值的平方根为相应的特征向量每列除以相应特征值的平方根为相应的特征向量)这是主成分与各个变量的相关系数这是主成分与各个变量的相关系数有的书把它当成特征向量了有的书把它当成特征向量了SPSS没有给出特征向量没有给出特征向量(?!)销售人员数据销售人员数据(salesmen.sav)(50个观测值)个观测值)销售增
17、长销售增长销售利润销售利润新客户销售额新客户销售额创造力创造力机械推理机械推理抽象推理抽象推理数学推理数学推理93.0096.0097.809.0012.009.0020.0088.8091.8096.807.0010.0010.0015.0095.00100.3099.008.0012.009.0026.00101.30103.80106.8013.0014.0012.0029.00102.00107.80103.0010.0015.0012.0032.0095.8097.5099.3010.0014.0011.0021.0095.5099.5099.009.0012.009.0025.00
18、110.80122.00115.3018.0020.0015.0051.00102.80108.30103.8010.0017.0013.0031.00106.80120.50102.0014.0018.0011.0039.00103.30109.80104.0012.0017.0012.0032.0099.50111.80100.3010.0018.008.0031.00103.50112.50107.0016.0017.0011.0034.0099.50105.50102.308.0010.0011.0034.00特征值、累积贡献率特征值、累积贡献率特征值图特征值图二主成分因二主成分因子负
19、荷图子负荷图主成分的因子负荷主成分的因子负荷(每列平方和为相应特征值每列平方和为相应特征值,而而每列除以相应特征值的平方根为相应的特征向量每列除以相应特征值的平方根为相应的特征向量)这是主成分与各个变量的相关系数这是主成分与各个变量的相关系数有书把它当成特征向量了有书把它当成特征向量了SPSS没有给出特征向量没有给出特征向量The SAS System Eigenvalues of the Correlation Matrix Eigenvalue Difference Proportion Cumulative PRIN1 5.03460 4.10108 0.719228 0.71923 P
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 北京大学 统计学 经典 课件 第七 成分 分析 因子分析
限制150内