因子分析与主成分分析讲稿.ppt
因子分析与主成分分析第一页,讲稿共二十六页哦主成分分析主成分分析每个人都会遇到有每个人都会遇到有很多变量很多变量的数据。的数据。比比如如全全国国或或各各个个地地区区的的带带有有许许多多经经济济和和社社会会变变量量的的数数据;各个学校的研究、教学等各种变量的数据等等。据;各个学校的研究、教学等各种变量的数据等等。这这些些数数据据的的共共同同特特点点是是变变量量很很多多,在在如如此此多多的的变变量量之之中中,有有很很多多是是相相关关的的。人人们们希希望望能能够够找找出出它它们们的的少少数数“代代表表”来对它们进行描述。来对它们进行描述。第二页,讲稿共二十六页哦在多数实际问题中,不同指标之间是有一定相关性。由于指标较多及指标间有一定的相关性,势必增加分析问题的复杂性。因子分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标。同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来的指标的信息。第三页,讲稿共二十六页哦因子分析是考察多个数值变量间相关性的一种多元统计方法,它是研究如何通过少数几个主成分来解释多变量的方差协方差结构。导出几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间不相关。第四页,讲稿共二十六页哦本章就介绍两种把变量维数降低以便于描述、理解和本章就介绍两种把变量维数降低以便于描述、理解和分析的方法:分析的方法:主成分分析主成分分析(principal component principal component analysisanalysis)和)和因子分析因子分析(factor analysisfactor analysis)。实际上)。实际上主主成分分析可以说是因子分析的一个特例成分分析可以说是因子分析的一个特例。在引进主成分。在引进主成分分析之前,先看下面的例子。分析之前,先看下面的例子。第五页,讲稿共二十六页哦成绩数据(成绩数据(student.sav)100个个学学生生的的数数学学、物物理理、化化学学、语语文文、历历史史、英语的成绩如下表(部分)。英语的成绩如下表(部分)。第六页,讲稿共二十六页哦 从本例可能提出的问题从本例可能提出的问题目目前前的的问问题题是是,能能不不能能把把这这个个数数据据的的6 6个个变变量量用用一两个综合变量来表示呢?一两个综合变量来表示呢?这一两个综合变量包含有多少原来的信息呢?这一两个综合变量包含有多少原来的信息呢?能能不不能能利利用用找找到到的的综综合合变变量量来来对对学学生生排排序序呢呢?这这一一类类数数据据所所涉涉及及的的问问题题可可以以推推广广到到对对企企业业,对对学学校校进进行分析、排序、判别和分类等问题。行分析、排序、判别和分类等问题。第七页,讲稿共二十六页哦主成分分析主成分分析例例中中的的的的数数据据点点是是六六维维的的;也也就就是是说说,每每个个观观测测值值是是6维维空间中的一个点。我们希望把空间中的一个点。我们希望把6维空间用低维空间表示。维空间用低维空间表示。先先假假定定只只有有二二维维,即即只只有有两两个个变变量量,它它们们由由横横坐坐标标和和纵纵坐坐标标所所代代表表;因因此此每每个个观观测测值值都都有有相相应应于于这这两两个个坐坐标标轴轴的的两两个个坐坐标标值值;如如果果这这些些数数据据形形成成一一个个椭椭圆圆形形状状的的点点阵阵(这在变量的二维正态的假定下是可能的)(这在变量的二维正态的假定下是可能的)那那么么这这个个椭椭圆圆有有一一个个长长轴轴和和一一个个短短轴轴。在在短短轴轴方方向向上上,数数据据变变化化很很少少;在在极极端端的的情情况况,短短轴轴如如果果退退化化成成一一点点,那那只只有有在在长长轴轴的的方方向向才才能能够够解解释释这这些些点点的的变化了;这样,由二维到一维的降维就自然完成了。变化了;这样,由二维到一维的降维就自然完成了。第八页,讲稿共二十六页哦主成分分析主成分分析当当坐坐标标轴轴和和椭椭圆圆的的长长短短轴轴平平行行,那那么么代代表表长长轴轴的的变变量量就就描描述述了了数数据据的的主主要要变变化化,而而代代表表短短轴轴的变量就描述了数据的次要变化。的变量就描述了数据的次要变化。但但是是,坐坐标标轴轴通通常常并并不不和和椭椭圆圆的的长长短短轴轴平平行行。因因此此,需需要要寻寻找找椭椭圆圆的的长长短短轴轴,并并进进行行变变换换,使使得得新新变变量量和椭圆的长短轴平行。和椭圆的长短轴平行。如如果果长长轴轴变变量量代代表表了了数数据据包包含含的的大大部部分分信信息息,就就用用该该变变量量代代替替原原先先的的两两个个变变量量(舍舍去去次次要要的的一维),降维就完成了。一维),降维就完成了。椭椭圆圆(球球)的的长长短短轴轴相相差差得得越越大大,降降维维也也越越有有道理。道理。第九页,讲稿共二十六页哦第十页,讲稿共二十六页哦主成分分析主成分分析对对于于多多维维变变量量的的情情况况和和二二维维类类似似,也也有有高高维维的的椭椭球,只不过无法直观地看见罢了。球,只不过无法直观地看见罢了。首首先先把把高高维维椭椭球球的的主主轴轴找找出出来来,再再用用代代表表大大多多数数数数据据信信息息的的最最长长的的几几个个轴轴作作为为新新变变量;这样,主成分分析就基本完成了。量;这样,主成分分析就基本完成了。注注意意,和和二二维维情情况况类类似似,高高维维椭椭球球的的主主轴轴也也是是互互相相垂垂直直的的。这这些些互互相相正正交交的的新新变变量量是是原原先先变变量量的的线线性性组组合合,叫叫做做主主成成分分(principalcomponent)。第十一页,讲稿共二十六页哦主成分分析主成分分析正正如如二二维维椭椭圆圆有有两两个个主主轴轴,三三维维椭椭球球有有三三个个主主轴轴一一样样,有有几个变量,就有几个主成分。几个变量,就有几个主成分。选选择择越越少少的的主主成成分分,降降维维就就越越好好。什什么么是是标标准准呢呢?那那就就是是这这些些被被选选的的主主成成分分所所代代表表的的主主轴轴的的长长度度之之和和占占了了主主轴轴长长度度总总和和的的大大部部分分。有有些些文文献献建建议议,所所选选的的主主轴轴总总长长度度占占所所有有主主轴轴长长度度之之和和的的大大约约85%即即可可,其其实实,这这只只是是一个大体的说法一个大体的说法;具体选几个,要看实际情况而定。;具体选几个,要看实际情况而定。第十二页,讲稿共二十六页哦 对于我们的数据,对于我们的数据,SPSSSPSS输出为输出为这这里里的的Initial Eigenvalues就就是是这这里里的的六六个个主主轴轴长长度度,又又称称特特征征值值(数数据据相相关关阵阵的的特特征征值值)。头头两两个个成成分分特特征征值值累累积积占占了了总总方方差差的的81.142%。后后面面的的特特征征值值的的贡献越来越少。贡献越来越少。第十三页,讲稿共二十六页哦 特征值的贡献还可以从特征值的贡献还可以从SPSS的所谓碎石图看出的所谓碎石图看出第十四页,讲稿共二十六页哦怎么解释这两个主成分。前面说过主成分是原始六个变怎么解释这两个主成分。前面说过主成分是原始六个变量的线性组合。是怎么样的组合呢?量的线性组合。是怎么样的组合呢?SPSSSPSS可以可以输出下面输出下面的表。的表。这这里里每每一一列列代代表表一一个个主主成成分分作作为为原原来来变变量量线线性性组组合合的的系系数数(比比例例)。比比如如第第一一主主成成分分作作为为数数学学、物物理理、化化学学、语语文文、历历史史、英英语语这这六六个个原原先先变变量量的的线线性性组组合合,系系数数(比比例例)为为-0.806,-0.674,-0.675,0.893,0.825,0.836。第十五页,讲稿共二十六页哦如如用用x x1 1,x x2 2,x x3 3,x x4 4,x x5 5,x x6 6分分别别表表示示原原先先的的六六个个变变量量,而而用用y y1 1,y y2 2,y y3 3,y y4 4,y y5 5,y y6 6表表示示新新的的主主成成分分,那那么么,原原先先六六个个变变量量x x1 1,x x2 2,x x3 3,x x4 4,x x5 5,x x6 6与第一和第二主成分与第一和第二主成分y y1 1,y y2 2的关系为:的关系为:X X1 1=-0.806=-0.806y y1 1+0.353y+0.353y2 2X X2 2=-0.674=-0.674y y1 1+0.531y+0.531y2 2X X3 3=-0.675=-0.675y y1 1+0.513y+0.513y2 2X X4 4=0.893=0.893y y1 1+0.306y+0.306y2 2x x5 5=0.825=0.825y y1 1+0.435y+0.435y2 2x x6 6=0.836=0.836y y1 1+0.425y+0.425y2 2这这些些系系数数称称为为主主成成分分载载荷荷(loading),它它表表示示主主成成分分和和相应的原先变量的相关系数。相应的原先变量的相关系数。比比如如x1表表示示式式中中y1的的系系数数为为-0.806,这这就就是是说说第第一一主主成成分分和和数数学变量的相关系数为学变量的相关系数为-0.806。相相关关系系数数(绝绝对对值值)越越大大,主主成成分分对对该该变变量量的的代代表表性性也也越越大大。可可以以看看得得出出,第第一一主主成成分分对对各各个个变变量量解解释释得得都都很很充充分分。而而最最后后的的几几个个主主成成分分和和原原先先的的变变量量就就不不那那么么相相关了。关了。第十六页,讲稿共二十六页哦可以把第一和第二主成分的载荷点出一个二维图以直观地可以把第一和第二主成分的载荷点出一个二维图以直观地显示它们如何解释原来的变量的。这个图叫做载荷图。显示它们如何解释原来的变量的。这个图叫做载荷图。第十七页,讲稿共二十六页哦该图该图左面三个点是数学、物理、化学三科左面三个点是数学、物理、化学三科,右边三个点是语文、右边三个点是语文、历史、外语三科。历史、外语三科。图中的六个点由于比较挤,不易分清,但只要认图中的六个点由于比较挤,不易分清,但只要认识到这些点的坐标是前面的第一二主成分载荷,坐标是前面表中第一识到这些点的坐标是前面的第一二主成分载荷,坐标是前面表中第一二列中的数目,还是可以识别的。二列中的数目,还是可以识别的。第十八页,讲稿共二十六页哦因子分析因子分析主主成成分分分分析析从从原原理理上上是是寻寻找找椭椭球球的的所所有有主主轴轴。因因此此,原原先有几个变量,就有几个主成分。先有几个变量,就有几个主成分。而而因因子子分分析析是是事事先先确确定定要要找找几几个个成成分分,这这里里叫叫因因子子(factor)(比如两个),那就找两个。)(比如两个),那就找两个。这这使使得得在在数数学学模模型型上上,因因子子分分析析和和主主成成分分分分析析有有不不少少区区别别。而而且且因因子子分分析析的的计计算算也也复复杂杂得得多多。根根据据因因子子分分析析模模型型的的特特点点,它它还还多多一一道道工工序序:因因子子旋旋转转(factorrotation);这个步骤可以使结果更好。);这个步骤可以使结果更好。当当然然,对对于于计计算算机机来来说说,因因子子分分析析并并不不比比主主成成分分分分析多费多少时间。析多费多少时间。从从输输出出的的结结果果来来看看,因因子子分分析析也也有有因因子子载载荷荷(factorloading)的的概概念念,代代表表了了因因子子和和原原先先变变量量的的相相关关系系数数。但但是是在在输输出出中中的的因因子子和和原原来来变变量量相相关关系系数数的的公公式式中中的的系系数数不不是是因因子子载载荷荷,也也给给出出了了二二维维图图;该该图图虽虽然然不不是是载载荷荷图图,但但解解释释和和主主成成分分分分析析的的载载荷荷图图类似。类似。第十九页,讲稿共二十六页哦主成分分析与因子分析的公式上的区别主成分分析与因子分析的公式上的区别主成分分析主成分分析 因子分析因子分析(mp)因子得分因子得分 第二十页,讲稿共二十六页哦 对于我们的数据,对于我们的数据,SPSSSPSS因子分析输出为因子分析输出为这里,这里,第一个因子主要和语文、历史、英语三科有很第一个因子主要和语文、历史、英语三科有很强的正相关;强的正相关;而第二个因子主要和数学、物理、化学三科而第二个因子主要和数学、物理、化学三科有很强的正相关有很强的正相关。因此可以给第一个因子起名为。因此可以给第一个因子起名为“文科因文科因子子”,而给第二个因子起名为,而给第二个因子起名为“理科因子理科因子”。从这个例。从这个例子可以看出,因子分析的结果比主成分分析解释性更强。子可以看出,因子分析的结果比主成分分析解释性更强。第二十一页,讲稿共二十六页哦这这两两个个因因子子的的系系数数所所形形成成的的散散点点图图(虽虽然然不不是是载载荷荷,在在SPSS中也称载荷图,中也称载荷图,可以直观看出每个因子代表了一类学科可以直观看出每个因子代表了一类学科 第二十二页,讲稿共二十六页哦计算因子得分计算因子得分可可以以根根据据前前面面的的因因子子得得分分公公式式(因因子子得得分分系系数数和和原原始始变变量量的的标标准准化化值值的的乘乘积积之之和和),算算出出每每个个学学生生的的第第一一个个因因子子和和第第二二个个因因子子的的大大小小,即即算算出出每每个个学学生生的的因因子子得得分分f1和和f2。人人们们可可以以根根据据这这两两套套因因子子得得分分对对学学生生分分别别按按照照文文科科和和理理科科排排序序。当当然然得得到到因因子子得得分分只只是是SPSS软软件件的的一一个个选选项项(可可将将因因子子得得分分存存为为新新变变量量、显显示示因因子子得得分分系系数数矩矩阵)阵)第二十三页,讲稿共二十六页哦因子分析和主成分分析的一些注意事项因子分析和主成分分析的一些注意事项可可以以看看出出,因因子子分分析析和和主主成成分分分分析析都都依依赖赖于于原原始始变变量量,也也只能反映原始变量的信息。所以原始变量的选择很重要。只能反映原始变量的信息。所以原始变量的选择很重要。另另外外,如如果果原原始始变变量量都都本本质质上上独独立立,那那么么降降维维就就可可能能失失败败,这这是是因因为为很很难难把把很很多多独独立立变变量量用用少少数数综综合合的的变变量量概概括括。数数据越相关,降维效果就越好。据越相关,降维效果就越好。在在得得到到分分析析的的结结果果时时,并并不不一一定定会会都都得得到到如如我我们们例例子子那那样样清清楚楚的的结结果果。这这与与问问题题的的性性质质,选选取取的的原原始始变变量量以以及及数数据据的的质质量量等等都都有有关系关系在在用用因因子子得得分分进进行行排排序序时时要要特特别别小小心心,特特别别是是对对于于敏敏感感问问题题。由由于原始变量不同,因子的选取不同,排序可以很不一样。于原始变量不同,因子的选取不同,排序可以很不一样。第二十四页,讲稿共二十六页哦因子分析与主成分分析的基本步骤及spss实现 1.将原始数据进行标准化处理 2.计算样本相关矩阵R 3.求相关矩阵R的特征值与特征向量,并计算贡献率 4.选择主成分 5.对所选主成分做经济解释第二十五页,讲稿共二十六页哦Spss实现实现:1.analyze-description statistic-description-save standardized as variables 2.analyze-data reduction-factor 3.指定参与分析的变量 4.运行factor 过程第二十六页,讲稿共二十六页哦