主成分分析实例及含义讲解PPT讲稿.ppt
《主成分分析实例及含义讲解PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《主成分分析实例及含义讲解PPT讲稿.ppt(105页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、主成分分析实例及含义讲解1第1页,共105页,编辑于2022年,星期四汇报什么?汇报什么?假定你是一个公司的财务经理,掌握了公司的所有数据,比如假定你是一个公司的财务经理,掌握了公司的所有数据,比如固定资产、流固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等值、利润、折旧、职工人数、职工的分工和教育程度等等。如果让你向上面介绍公司状况,你能够把这些指标和数字都如果让你向上面介绍公司状况,你能够把这些指标和数字都原封不动地摆出原封不动地摆出去吗去吗?当然不
2、能。当然不能。你必须要把各个方面作出高度概括,你必须要把各个方面作出高度概括,用一两个指标简单明了地把情况说清楚。用一两个指标简单明了地把情况说清楚。2第2页,共105页,编辑于2022年,星期四主成分分析主成分分析每个人都会遇到有每个人都会遇到有很多变量很多变量的数据。的数据。比比如如全全国国或或各各个个地地区区的的带带有有许许多多经经济济和和社社会会变变量量的的数数据据;各各个个学学校校的的研研究究、教教学学等等各种变量的数据等等。各种变量的数据等等。这这些些数数据据的的共共同同特特点点是是变变量量很很多多,在在如如此此多多的的变变量量之之中中,有有很很多多是是相相关关的的。人人们希望能够
3、找出它们的们希望能够找出它们的少数少数“代表代表”来对它们进行描述。来对它们进行描述。本本章章就就介介绍绍两两种种把把变变量量维维数数降降低低以以便便于于描描述述、理理解解和和分分析析的的方方法法:主主成成分分分分析析(principal principal component component analysisanalysis)和和因因子子分分析析(factor factor analysisanalysis)。实实际际上上主主成成分分分分析析可可以以说说是是因因子子分分析析的的一一个个特特例例。在在引引进进主主成成分分分分析析之之前前,先先看下面的例子。看下面的例子。3第3页,共105页
4、,编辑于2022年,星期四成绩数据(成绩数据(student.sav)100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。4第4页,共105页,编辑于2022年,星期四从本例可能提出的问题从本例可能提出的问题目目前前的的问问题题是是,能能不不能能把把这这个个数数据据的的6 6个个变变量量用用一一两两个个综综合合变变量来表示呢?量来表示呢?这一两个综合变量包含有多少原来的信息呢?这一两个综合变量包含有多少原来的信息呢?能能不不能能利利用用找找到到的的综综合合变变量量来来对对学学生生排排序序呢呢?这这一一类类数数据据
5、所所涉涉及及的的问问题题可可以以推推广广到到对对企企业业,对对学学校校进进行行分分析析、排排序序、判判别别和和分类等问题。分类等问题。5第5页,共105页,编辑于2022年,星期四空间的点空间的点例例中中的的的的数数据据点点是是六六维维的的;也也就就是是说说,每每个个观观测测值值是是6维维空空间间中中的的一一个个点点。我我们们希希望把望把6维空间用低维空间表示。维空间用低维空间表示。先先假假定定只只有有二二维维,即即只只有有两两个个变变量量,它它们们由由横横坐坐标标和和纵纵坐坐标标所所代代表表;因因此此每每个个观观测测值值都都有有相相应应于于这这两两个个坐坐标标轴轴的的两两个个坐坐标标值值;如
6、如果果这这些些数数据据形形成成一一个个椭椭圆圆形形状状的的点点阵阵(这这在变量的二维正态的假定下是可能的)在变量的二维正态的假定下是可能的)那那么么这这个个椭椭圆圆有有一一个个长长轴轴和和一一个个短短轴轴。在在短短轴轴方方向向上上,数数据据变变化化很很少少;在在极极端端的的情情况况,短短轴轴如如果果退退化化成成一一点点,那那只只有有在在长长轴轴的的方方向向才才能能够够解解释释这这些些点点的的变变化化了了;这这样样,由由二二维到一维的降维就自然完成了。维到一维的降维就自然完成了。6第6页,共105页,编辑于2022年,星期四7第7页,共105页,编辑于2022年,星期四椭球的长短轴椭球的长短轴当
7、当坐坐标标轴轴和和椭椭圆圆的的长长短短轴轴平平行行,那那么么代代表表长长轴轴的的变变量量就就描描述述了了数数据据的的主主要要变变化化,而而代代表短轴的变量就描述了数据的次要变化。表短轴的变量就描述了数据的次要变化。但但是是,坐坐标标轴轴通通常常并并不不和和椭椭圆圆的的长长短短轴轴平平行行。因因此此,需需要要寻寻找找椭椭圆圆的的长长短短轴轴,并并进行变换,使得新变量和椭圆的长短轴平行。进行变换,使得新变量和椭圆的长短轴平行。如如果果长长轴轴变变量量代代表表了了数数据据包包含含的的大大部部分分信信息息,就就用用该该变变量量代代替替原原先先的的两两个个变变量量(舍去次要的一维),降维就完成了。(舍去
8、次要的一维),降维就完成了。椭圆(球)的长短轴相差得越大,降维也越有道理。椭圆(球)的长短轴相差得越大,降维也越有道理。8第8页,共105页,编辑于2022年,星期四9第9页,共105页,编辑于2022年,星期四主轴和主成分主轴和主成分对对于于多多维维变变量量的的情情况况和和二二维维类类似似,也也有有高高维维的的椭椭球球,只只不不过过无无法法直直观观地地看看见见罢了。罢了。首首先先把把高高维维椭椭球球的的主主轴轴找找出出来来,再再用用代代表表大大多多数数数数据据信信息息的的最最长长的的几几个个轴轴作作为为新新变量;这样,主成分分析就基本完成了。变量;这样,主成分分析就基本完成了。注注意意,和和
9、二二维维情情况况类类似似,高高维维椭椭球球的的主主轴轴也也是是互互相相垂垂直直的的。这这些些互互相相正正交交的新变量是原先变量的线性组合,叫做主成分的新变量是原先变量的线性组合,叫做主成分(principalcomponent)。10第10页,共105页,编辑于2022年,星期四主成分之选取主成分之选取正正如如二二维维椭椭圆圆有有两两个个主主轴轴,三三维维椭椭球球有有三三个个主主轴轴一一样样,有有几几个个变变量量,就就有几个主成分。有几个主成分。选选择择越越少少的的主主成成分分,降降维维就就越越好好。什什么么是是标标准准呢呢?那那就就是是这这些些被被选选的的主主成成分分所所代代表表的的主主轴轴
10、的的长长度度之之和和占占了了主主轴轴长长度度总总和和的的大大部部分分。有有些些文文献献建建议议,所所选选的的主主轴轴总总长长度度占占所所有有主主轴轴长长度度之之和和的的大大约约85%即即可可,其实,其实,这只是一个大体的说法这只是一个大体的说法;具体选几个,要看实际情况而定。;具体选几个,要看实际情况而定。11第11页,共105页,编辑于2022年,星期四主成分分析的数学要要寻寻找找方方差差最最大大的的方方向向。即即使使得得向向量量X的的线线性性组组合合aX的的方方差差最最大大的的方向方向a.而而Var(aX)=aCov(X)a;由由于于Cov(X)未未知知;于于是是用用X的的样样本本相相关关
11、阵阵R来来近近似似.因因此此,要要寻寻找找向向量量a使使得得aRa最最大大(注注意意相相关关阵阵和和协协方方差差阵阵差差一个常数一个常数记得相关阵和特征值问题吗记得相关阵和特征值问题吗?回顾一下吧回顾一下吧!选择几个主成分呢选择几个主成分呢?要看要看“贡献率贡献率.”12第12页,共105页,编辑于2022年,星期四对于我们的数据,对于我们的数据,SPSSSPSS输出为输出为这这里里的的InitialEigenvalues就就是是这这里里的的六六个个主主轴轴长长度度,又又称称特特征征值值(数数据据相相关关阵阵的的特特征征值值)。头头两两个个成成分分特特征征值值累累积积占占了了总总方方差差的的8
12、1.142%。后后面面的的特特征征值值的的贡献越来越少。贡献越来越少。13第13页,共105页,编辑于2022年,星期四特征值的贡献还可以从特征值的贡献还可以从SPSS的所谓碎石图看出的所谓碎石图看出14第14页,共105页,编辑于2022年,星期四怎么解释这两个主成分。前面说过主成分是原始六个变量的线性组合。是怎么样的组合呢?怎么解释这两个主成分。前面说过主成分是原始六个变量的线性组合。是怎么样的组合呢?SPSSSPSS可以可以输出下面输出下面的表。的表。这这里里每每一一列列代代表表一一个个主主成成分分作作为为原原来来变变量量线线性性组组合合的的系系数数(比比例例)。比比如如第第一一主主成成
13、分分为为数数学学、物物理理、化化学学、语语文文、历历史史、英英语语这这六六个个变变量量的的线线性性组组合合,系系数数(比比例例)为为-0.806,-0.674,-0.675,0.893,0.825,0.836。15第15页,共105页,编辑于2022年,星期四如如用用x x1 1,x x2 2,x x3 3,x x4 4,x x5 5,x x6 6分分别别表表示示原原先先的的六六个个变变量量,而而用用y y1 1,y y2 2,y y3 3,y y4 4,y y5 5,y y6 6表表示示新新的的主成分,那么,第一和第二主成分为主成分,那么,第一和第二主成分为这些系数称为主成分载荷(这些系数称
14、为主成分载荷(loading),它表示主成分和相应的原先变量的相关系数。),它表示主成分和相应的原先变量的相关系数。比如比如y1表示式中表示式中x1的系数为的系数为-0.806,这就是说第一主成分和数学变量的相关系数为,这就是说第一主成分和数学变量的相关系数为-0.806。相相关关系系数数(绝绝对对值值)越越大大,主主成成分分对对该该变变量量的的代代表表性性也也越越大大。可可以以看看得得出出,第第一一主主成成分分对对各各个个变量解释得都很充分。而最后的几个主成分和原先的变量就不那么相关了。变量解释得都很充分。而最后的几个主成分和原先的变量就不那么相关了。16第16页,共105页,编辑于2022
15、年,星期四可以把第一和第二主成分的载荷点出一个二维图以直观可以把第一和第二主成分的载荷点出一个二维图以直观地显示它们如何解释原来的变量的。这个图叫做载荷图。地显示它们如何解释原来的变量的。这个图叫做载荷图。17第17页,共105页,编辑于2022年,星期四该图该图左面三个点是数学、物理、化学三科左面三个点是数学、物理、化学三科,右边三个点是语文、历史、外语三科。右边三个点是语文、历史、外语三科。图中的六个图中的六个点由于比较挤,不易分清,但只要认识到这些点的坐标是前面的第一二主成分载荷,坐标是点由于比较挤,不易分清,但只要认识到这些点的坐标是前面的第一二主成分载荷,坐标是前面表中第一二列中的数
16、目,还是可以识别的。前面表中第一二列中的数目,还是可以识别的。18第18页,共105页,编辑于2022年,星期四因子分析因子分析主主成成分分分分析析从从原原理理上上是是寻寻找找椭椭球球的的所所有有主主轴轴。因因此此,原原先先有有几几个个变变量量,就就有有几几个个主成分。主成分。而而因因子子分分析析是是事事先先确确定定要要找找几几个个成成分分,这这里里叫叫因因子子(factor)(比比如如两两个个),那就找两个。那就找两个。这这使使得得在在数数学学模模型型上上,因因子子分分析析和和主主成成分分分分析析有有不不少少区区别别。而而且且因因子子分分析析的的计计算算也也复复杂杂得得多多。根根据据因因子子
17、分分析析模模型型的的特特点点,它它还还多多一一道道工工序序:因因子子旋旋转转(factorrotation);这这个步骤可以使结果更好。个步骤可以使结果更好。当然,对于计算机来说,因子分析并不比主成分分析多费多少时间。当然,对于计算机来说,因子分析并不比主成分分析多费多少时间。从从输输出出的的结结果果来来看看,因因子子分分析析也也有有因因子子载载荷荷(factorloading)的的概概念念,代代表表了了因因子子和和原原先先变变量量的的相相关关系系数数。但但是是在在因因子子分分析析公公式式中中的的因因子子载载荷荷和和主主成成分分分分析析中中的的因因子载荷位置不同。因子分析也给出了二维图;但解释
18、和主成分分析的载荷图类似。子载荷位置不同。因子分析也给出了二维图;但解释和主成分分析的载荷图类似。19第19页,共105页,编辑于2022年,星期四主成分分析与因子分析的公式上的区别主成分分析与因子分析的公式上的区别主成分分析主成分分析因子分析因子分析(m ex=eigen(cor(z);ex$values1 2.87331359 1.79666009 0.21483689 0.09993405 0.01525537$vectors house services employ school poppop 0.3427304-0.60162927 0.05951715-0.20403274 0.
19、6894972617school 0.4525067 0.40641449 0.68882245 0.35357060 0.1748611748employ 0.3966948-0.54166500 0.24795775-0.02293716-0.6980136963services 0.5500565 0.07781686-0.66407565 0.50038572-0.0001235807house 0.4667384 0.41642892-0.13964890-0.76318182-0.0824254824sweep(ex$ve,2,sqrt(ex$va),*)载荷载荷 house se
20、rvices employ school poppop 0.5809571-0.8064212 0.02758650-0.064499538 8.516163e-02school 0.7670373 0.5447561 0.31927265 0.111771968 2.159757e-02employ 0.6724314-0.7260453 0.11492966-0.007250974-8.621352e-02services 0.9323926 0.1043054-0.30780239 0.158183675-1.526378e-05house 0.7911612 0.5581795-0.0
21、6472796-0.241259690-1.018059e-0254第54页,共105页,编辑于2022年,星期四正交性验证正交性验证t(ex$ve)%*%ex$vehouseservicesemployschoolpophouse1.00e+00-5.55e-176.9e-17-1.11e-160.00e+00services-5.55e-171.00e+004.16e-170.00e+00-8.33e-17employ6.94e-174.16e-171.00e+002.78e-175.38e-17school-1.11e-160.00e+002.78e-171.00e+00-1.39e-1
22、7pop0.00e+00-8.33e-175.38e-17-1.39e-171.00e+0055第55页,共105页,编辑于2022年,星期四相关阵的特征值相关阵的特征值:(R输出输出)2.87331.79670.21480.09990.0153特征向量矩阵特征向量矩阵(列向量列向量)A(R输出输出)0.343-0.60160.0595-0.20400.6894970.4530.40640.68880.35360.1748610.397-0.54170.2480-0.0229-0.6980140.5500.0778-0.66410.5004-0.0001240.4670.4164-0.1396
23、-0.7632-0.08242556第56页,共105页,编辑于2022年,星期四57第57页,共105页,编辑于2022年,星期四The SAS System 11:15 Sunday,September 22,2002Eigenvalues of the Correlation Matrix Eigenvalue Difference Proportion Cumulative PRIN1 2.87331 1.07665 0.574663 0.57466 PRIN2 1.79666 1.58182 0.359332 0.93399 PRIN3 0.21484 0.11490 0.04296
24、7 0.97696 PRIN4 0.09993 0.08468 0.019987 0.99695 PRIN5 0.01526 .0.003051 1.00000 Eigenvectors PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 X1 0.342730 0.601629 0.059517 0.204033 0.689497 X2 0.452507 -.406414 0.688822 -.353571 0.174861 X3 0.396695 0.541665 0.247958 0.022937 -.698014 X4 0.550057 -.077817 -.664076 -.
25、500386 -.000124 X5 0.466738 -.416429 -.139649 0.763182 -.082425(SAS输出输出)58第58页,共105页,编辑于2022年,星期四销售人员数据销售人员数据(salesmen.sav)(50个观测值)个观测值)销售增长销售增长销售利润销售利润新客户销售额新客户销售额创造力创造力机械推理机械推理抽象推理抽象推理数学推理数学推理93.0096.0097.809.0012.009.0020.0088.8091.8096.807.0010.0010.0015.0095.00100.3099.008.0012.009.0026.00101.3
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成分 分析 实例 含义 讲解 PPT 讲稿
限制150内