统计学主成分分析和因子分析.pptx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《统计学主成分分析和因子分析.pptx》由会员分享,可在线阅读,更多相关《统计学主成分分析和因子分析.pptx(58页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、会计学1统计学主成分分析和因子分析统计学主成分分析和因子分析第十章第十章主成分分析和因子分析主成分分析和因子分析 第1页/共58页汇报什么?汇报什么?n n假定你是一个公司的财务经理,掌握假定你是一个公司的财务经理,掌握了公司的所有数据,这包括了公司的所有数据,这包括众多的变众多的变量量,如:,如:固定资产、流动资金、借贷固定资产、流动资金、借贷的数额和期限、各种税费、工资支出、的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工原料消耗、产值、利润、折旧、职工人数、分工和教育程度等等人数、分工和教育程度等等。n n如果让你向上级或有关方面介绍公司如果让你向上级或有关方面介绍公司
2、状况,你能够把这些指标和数字都状况,你能够把这些指标和数字都原原封不动地摆出去吗封不动地摆出去吗?第2页/共58页需要高度概括需要高度概括n在在如如此此多多的的变变量量之之中中,有有很很多多是是相相关关的的。人人们们希希望望能能够够找找出出它它们们的的少少数数“代代表表”来来对它们进行描述。对它们进行描述。n需需要要把把这这种种有有很很多多变变量量的的数数据进行高度概括。据进行高度概括。第3页/共58页n n本本章章介介绍绍两两种种把把变变量量维维数数降降低低以以便便于于描描述述、理理解解和和分分析析的的方方法法:主主成成分分分分析析(principal principal component
3、 component analysisanalysis)和和因因子子分分析析(factor factor analysisanalysis)。)。n n实实际际上上主主成成分分分分析析可可以以说说是是因因子子分分析析的的一一个个特特例例。在在引引进进主主成成分分分分析析之前,先看下面的例子。之前,先看下面的例子。10.1 主成分分析主成分分析第4页/共58页成绩数据(成绩数据(student.txt)n n100个个学学生生的的数数学学、物物理理、化化学学、语语文文、历历史史、英英语语的的成成绩绩如如下下表表(部部分)。分)。第5页/共58页SPSS数据形式数据形式第6页/共58页从本例可能提
4、出的问题从本例可能提出的问题n n目目前前的的问问题题是是,能能否否把把这这个个数数据据的的6 6个个变变量量用用一一两两个个综综合合变变量量来表示呢?来表示呢?n n这这一一两两个个综综合合变变量量包包含含有有多多少少原来的信息呢?原来的信息呢?n n能能否否利利用用找找到到的的综综合合变变量量来来对对学学生生排排序序或或据据此此进进行行其其他他分分析析呢?呢?第7页/共58页空间的点空间的点n n例例中中数数据据点点是是六六维维的的;即即每每个个观观测测值值是是6维维空空间间中中的的一一个个点点。希希望望把把6维空间用低维空间表示。维空间用低维空间表示。n n先先假假定定只只有有二二维维,
5、即即只只有有两两个个变变量量,由横坐标和纵坐标所代表;由横坐标和纵坐标所代表;n n每每个个观观测测值值都都有有相相应应于于这这两两个个坐坐标标轴的两个坐标值;轴的两个坐标值;第8页/共58页空间的点空间的点n n如如果果这这些些数数据据形形成成一一个个椭椭圆圆形形状状的的点点阵阵(这这在在二二维维正正态态的的假假定定下下是是可可能能的的)该该椭椭圆圆有有一一个个长长轴轴和和一一个个短短轴。在短轴方向上数据变化很少;轴。在短轴方向上数据变化很少;n n在在极极端端的的情情况况,短短轴轴如如退退化化成成一一点点,长长轴轴的的方方向向可可以以完完全全解解释释这这些些点点的的变变化化,由由二二维维到
6、到一一维维的的降降维维就就自自然然完成了。完成了。第9页/共58页第10页/共58页椭圆的长短轴椭圆的长短轴n n当当坐坐标标轴轴和和椭椭圆圆的的长长短短轴轴平平行行,那那么么代代表表长长轴轴的的变变量量就就描描述述了了数数据据的的主主要要变变化化,而而代代表表短短轴轴的的变变量就描述了数据的次要变化。量就描述了数据的次要变化。n n但但是是,坐坐标标轴轴通通常常并并不不和和椭椭圆圆的的长长短短轴轴平平行行。因因此此,需需要要寻寻找找椭椭圆圆的的长长短短轴轴,并并进进行行变变换换,使使得得新变量和椭圆的长短轴平行。新变量和椭圆的长短轴平行。第11页/共58页椭圆的长短轴椭圆的长短轴n n如如果
7、果长长轴轴变变量量代代表表了了数数据据包包含含的的大大部部分分信信息息,就就用用该该变变量量代代替替原原先先的的两两个个变变量量(舍舍去去次次要要的的一一维维),降维就完成了。,降维就完成了。n n椭椭圆圆的的长长短短轴轴相相差差得得越越大大,降降维维也越有道理。也越有道理。第12页/共58页第13页/共58页主轴和主成分主轴和主成分n n多多维维变变量量的的情情况况和和二二维维类类似似,也也有有高高维维的的椭椭球球,只只不不过过不不那那么么直直观观罢罢了。了。n n首首先先把把高高维维椭椭球球的的主主轴轴找找出出来来,再再用用代代表表大大多多数数数数据据信信息息的的最最长长的的几几个个轴轴作
8、作为为新新变变量量;这这样样,主主成成分分分分析就基本完成了。析就基本完成了。第14页/共58页主轴和主成分主轴和主成分n n正正如如二二维维椭椭圆圆有有两两个个主主轴轴,三三维维椭椭球球有有三三个个主主轴轴一一样样,有有几几个个变变量量,就有几个主轴。就有几个主轴。n n和和二二维维情情况况类类似似,高高维维椭椭球球的的主主轴轴也是互相垂直的。也是互相垂直的。n n这这些些互互相相正正交交的的新新变变量量是是原原先先变变量量的的 线线 性性 组组 合合,叫叫 做做 主主 成成 分分(principal component)。第15页/共58页主成分之选取主成分之选取n n选选择择越越少少的的
9、主主成成分分,降降维维就就越越好好。什什么是标准呢?么是标准呢?n n那那就就是是这这些些被被选选的的主主成成分分所所代代表表的的主主轴轴的的长长度度之之和和占占了了主主轴轴长长度度总总和和的的大大部分。部分。n n有有些些文文献献建建议议,所所选选的的主主轴轴总总长长度度占占所所有有主主轴轴长长度度之之和和的的大大约约85%即即可可,其其实实,这这只只是是一一个个大大体体的的说说法法;具具体体选几个,要看实际情况而定。选几个,要看实际情况而定。第16页/共58页主成分分析的数学主成分分析的数学n n要要寻寻找找方方差差最最大大的的方方向向。即即,使使向向量量X的线性组合的线性组合aX的方差最
10、大的方向的方差最大的方向a.n n而而Var(aX)=aCov(X)a;由由于于Cov(X)未未知知;于于是是用用X的的样样本本相相关关阵阵R来来近近似似.要要寻寻找找向向量量a使使得得aRa最最大大(注注意意相相关关阵和协方差阵差一个常数)阵和协方差阵差一个常数)n n这涉及相关阵和特征值。这涉及相关阵和特征值。回顾一下吧回顾一下吧!n n选择几个主成分呢选择几个主成分呢?要看要看“贡献率贡献率.”第17页/共58页对于我们的数据,对于我们的数据,SPSSSPSS输出为输出为这这里里的的Initial Eigenvalues就就是是这这里里的的六六个个主主轴轴长长度度,又又称称特特征征值值(
11、数数据据相相关关阵阵的的特特征征值值)。头头两两个个成成分分特特征征值值累累积积占占了了总总方方差差的的81.142%。后后面面的的特特征征值值的的贡贡献献越越来越少。来越少。第18页/共58页特征值的贡献还可以从特征值的贡献还可以从SPSS的所谓碎石图看出的所谓碎石图看出第19页/共58页怎么解释这两个主成分。主成分是原始六怎么解释这两个主成分。主成分是原始六个变量的线性组合。这由下表给出。个变量的线性组合。这由下表给出。这这里里每每一一列列代代表表一一个个主主成成分分作作为为原原来来变变量量线线性性组组合合的的系系数数(比比例例)。比比如如第第一一主主成成分分为为数数学学、物物理理、化化学
12、学、语语文文、历历史史、英英语语这这六六个个变变量量的的线线性性组组合合,系系数数(比比例例)为为-0.806,-0.674,-0.675,0.893,0.825,0.836。第20页/共58页如如用用x x1 1,x x2 2,x x3 3,x x4 4,x x5 5,x x6 6分分别别表表示示原原先先的的六六个个变变量量,而而用用y y1 1,y y2 2,y y3 3,y y4 4,y y5 5,y y6 6表表示示新新的的主主成成分分,那那么么,第第一一和和第第二二主主成成分为分为这这些些系系数数称称为为主主成成分分载载荷荷(loading),它它表表示示主主成成分分和和相相应应的的
13、原原先先变变量量的的相相关系数。关系数。第21页/共58页比比如如y1表表示示式式中中x1的的系系数数为为-0.806,这这就就是是说说第第一一主主成成分分和和数数学学变变量量的的相相关系数为关系数为-0.806。相相关关系系数数(绝绝对对值值)越越大大,主主成成分分对对该该变变量量的的代代表表性性也也越越大大。可可以以看看得得出出,第第一一主主成成分分对对各各个个变变量量解解释释得得都都很很充充分分。而而最最后后的的几几个个主主成成分分和和原原先先的的变变量就不那么相关了。量就不那么相关了。第22页/共58页可以把第一和第二主成可以把第一和第二主成分的载荷点出一个二维图分的载荷点出一个二维图
14、以直观地显示它们如何解以直观地显示它们如何解释原来的变量的。这个图释原来的变量的。这个图叫做载荷图。叫做载荷图。第23页/共58页该图该图左面三个点是数学、物理、化学三科左面三个点是数学、物理、化学三科,右边三个点是语文、历史、外语三科。右边三个点是语文、历史、外语三科。图中图中的六个点由于比较挤,不易分清,但只要认的六个点由于比较挤,不易分清,但只要认识到这些点的坐标是前面的第一二主成分载识到这些点的坐标是前面的第一二主成分载荷,坐标是前面表中第一二列中的数目,还荷,坐标是前面表中第一二列中的数目,还是可以识别的。是可以识别的。第24页/共58页10.2 因子分析因子分析n n主主主主成成成
15、成分分分分分分分分析析析析从从从从原原原原理理理理上上上上是是是是寻寻寻寻找找找找椭椭椭椭球球球球的的的的所所所所有有有有主主主主轴。原先有几个变量,就有几个主成分。轴。原先有几个变量,就有几个主成分。轴。原先有几个变量,就有几个主成分。轴。原先有几个变量,就有几个主成分。n n而而而而因因因因子子子子分分分分析析析析是是是是事事事事先先先先确确确确定定定定要要要要找找找找几几几几个个个个成成成成分分分分,这这这这里里里里叫叫叫叫因因因因子子子子(factorfactor)(比比比比如如如如两两两两个个个个),那那那那就就就就找找找找两个。两个。两个。两个。n n这这这这使使使使得得得得在在在
16、在数数数数学学学学模模模模型型型型上上上上,因因因因子子子子分分分分析析析析和和和和主主主主成成成成分分分分分分分分析析析析有有有有不不不不少少少少区区区区别别别别。而而而而且且且且因因因因子子子子分分分分析析析析的的的的计计计计算算算算也也也也复复复复杂杂杂杂得得得得多多多多。根根根根据据据据因因因因子子子子分分分分析析析析模模模模型型型型的的的的特特特特点点点点,它它它它还还还还 多多多多 一一一一 道道道道 工工工工 序序序序:因因因因 子子子子 旋旋旋旋 转转转转(factor factor rotationrotation);这个步骤可以使结果更好。);这个步骤可以使结果更好。);这
17、个步骤可以使结果更好。);这个步骤可以使结果更好。第25页/共58页10.2 因子分析因子分析n n对于计算机,因子分析并不费事。对于计算机,因子分析并不费事。n n从从输输出出的的结结果果来来看看,因因子子分分析析也也有有因因子子载载荷荷(factor loading)的的概概念念,代代表表了了因因子子和和原原先先变变量量的的相相关关系系数数。但但是是在在因因子子分分析析公公式式中中的的因因子子载载荷荷位置和主成分分析不同。位置和主成分分析不同。n n因因子子分分析析也也给给出出了了二二维维图图;其其解解释释和主成分分析的载荷图类似。和主成分分析的载荷图类似。第26页/共58页主成分分析与因
18、子分析的公式上的区别主成分分析与因子分析的公式上的区别主成分分析主成分分析因子分析因子分析(mp)因子得分因子得分第27页/共58页因子分析的数学因子分析的数学n因子分析需要许多假定才能够解.n具体公式.第28页/共58页对于我们的数据,对于我们的数据,SPSSSPSS因子分析输出为因子分析输出为第29页/共58页这个表说明六个变量和因子的关系。这个表说明六个变量和因子的关系。为简单记,我们用为简单记,我们用x1,x2,x3,x4,x5,x6来表示来表示math(数学),(数学),phys(物理),(物理),chem(化学),(化学),literat(语文),(语文),history(历史),
19、(历史),english(英语)等变量。这样因子(英语)等变量。这样因子f1和和f2与这些原变量之间的关系是与这些原变量之间的关系是(注意,和主成分分析不同,这里(注意,和主成分分析不同,这里把成分(因子)写在方程的右边,把成分(因子)写在方程的右边,把原变量写在左边;但相应的系数把原变量写在左边;但相应的系数还是主成分和各个变量的线性相关还是主成分和各个变量的线性相关系数,也称为因子载荷):系数,也称为因子载荷):第30页/共58页第31页/共58页这里,这里,第一个因子主要和语文、历第一个因子主要和语文、历史、英语三科有很强的正相关;史、英语三科有很强的正相关;而而第二个因子主要和数学、物
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 成分 分析 因子分析
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内