主成份与因子分析.ppt
《主成份与因子分析.ppt》由会员分享,可在线阅读,更多相关《主成份与因子分析.ppt(91页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程关于主成份和因子分析第一张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程n6.1 6.1 主成分分析主成分分析n6.1.1 主成分分析的概念与步骤主成分分析的概念与步骤n6.1.2 使用使用INSIGHT模块作主成分分析模块作主成分分析n6.1.3 使用使用“分析家分析家”作主成分分析作主成分分析n6.1.4 使用使用PRINCOMP过程进行主成分分析过程进行主成分分析第二张,PPT共九十一页,创作于2022年6月STATSTATSTATST
2、ATSASSAS软件与统计应用教程软件与统计应用教程6.1.1 主成分分析的概念与步骤主成分分析的概念与步骤1.1.主成分分析基本思想主成分分析基本思想 主主成成分分分分析析是是数数学学上上对对数数据据降降维维的的一一种种方方法法。其其基基本本思思想想是是设设法法将将原原来来众众多多的的具具有有一一定定相相关关性性的的指指标标(比比如如p个个指指标标),重重新新组组合合成成一一组组新新的的互互不不相相关关的的综综合合指指标标来来代代替替原原来来指指标标。通通常常数数学学上上的的处处理理就就是是将将原原来来p个个指指标标作作线线性性组组合合,作作为为新新的的综综合合指指标标。但但是是这这种种线线
3、性性组组合合,如果不加限制,则可以有很多,应该如何去选取呢?如果不加限制,则可以有很多,应该如何去选取呢?第三张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 在在所所有有的的线线性性组组合合中中所所选选取取的的F1应应该该是是方方差差最最大大的的,故故称称F1为为第第一一主主成成分分。如如果果第第一一主主成成分分不不足足以以代代表表原原来来p个个指指标标的的信信息息,再再考考虑虑选选取取F2即即选选第第二二个个线线性性组组合合。为为了了有有效效地地反反映映原原有有信信息息,F1已已有有的的信信息息就就不不需需要要再再出
4、出现现在在F2中中,用用数数学学语语言言表表达达就就是是要要求求Cov(F1,F2)0。称称F2为为第第二二主主成成分分,依依此此类类推推可可以以构构造造出出第第三三、第第四四、第、第p个主成分。个主成分。第四张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.主成分分析的数学模型主成分分析的数学模型 设设有有n个个样样品品(多多元元观观测测值值),每每个个样样品品观观测测p项项指指标标(变量):(变量):X1,X2,Xp,得到原始数据资料阵:,得到原始数据资料阵:其中其中Xi=(x1i,x2i,xni),i=1,2
5、,p。第五张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 用用数数据据矩矩阵阵X的的p个个列列向向量量(即即p个个指指标标向向量量)X1,X2,Xp作线性组合,得综合指标向量:作线性组合,得综合指标向量:简写成:简写成:Fi=a1iX1+ai2X2+apiXp i=1,2,p第六张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 为为了了加加以以限限制制,对对组组合合系系数数ai=(a1i,a2i,api)作作如下要求:如下要求:即:即:ai为单位
6、向量:为单位向量:aiai=1,且由下列原则决定:,且由下列原则决定:1)Fi与与Fj(ij,i,j=1,p)互互不不相相关关,即即Cov(Fi,Fj)=ai ai=0,其中,其中是是X的协方差阵。的协方差阵。2)F1是是X1,X2,Xp的的一一切切线线性性组组合合(系系数数满满足足上上述要求)中方差最大的,即述要求)中方差最大的,即 ,其中,其中c=(c1,c2,cp)F2是是与与F1不不相相关关的的X1,X2,Xp一一切切线线性性组组合合中中方方差差最最大大的的,Fp是是与与F1,F2,Fp-1都都不不相相关关的的X1,X2,Xp的一切线性组合中方差最大的。的一切线性组合中方差最大的。第七
7、张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 满满足足上上述述要要求求的的综综合合指指标标向向量量F1,F2,Fp就就是是主主成成分分,这这p个个主主成成分分从从原原始始指指标标所所提提供供的的信信息息总总量量中中所所提提取取的的信信息息量量依依次次递递减减,每每一一个个主主成成分分所所提提取取的的信信息息量量用用方方差差来来度度量量,主主成成分分方方差差的的贡贡献献就就等等于于原原指指标标相相关关系系数矩阵相应的特征值数矩阵相应的特征值 i,每一个主成分的组合系数,每一个主成分的组合系数ai=(a1i,a2i,ap
8、i)就就是是相相应应特特征征值值 i所所对对应应的的单单位位特特征征向向量量ti。方方差差的的贡贡献献率率为为 ,i越越大大,说说明明相相应应的的主主成成分分反反映映综综合合信息的能力越强。信息的能力越强。第八张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程3.3.主成分分析的步骤主成分分析的步骤(1)计算协方差矩阵计算协方差矩阵 计算样品数据的协方差矩阵:计算样品数据的协方差矩阵:=(sij)p p,其中,其中 i,j=1,2,p(2)求出求出的特征值及相应的特征向量的特征值及相应的特征向量 求求出出协协方方差差矩矩阵
9、阵的的特特征征值值 1 2 p0及及相相应应的的正正交化单位特征向量:交化单位特征向量:则则X的第的第i个主成分为个主成分为Fi=aiX i=1,2,p。第九张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(3)选择主成分选择主成分 在在已已确确定定的的全全部部p个个主主成成分分中中合合理理选选择择m个个来来实实现现最最终终的评价分析。一般用方差贡献率的评价分析。一般用方差贡献率解解释释主主成成分分Fi所所反反映映的的信信息息量量的的大大小小,m的的确确定定以以累累计计贡献率贡献率达到足够大(一般在达到足够大(一般在85
10、%以上)为原则。以上)为原则。第十张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(4)计算主成分得分计算主成分得分 计算计算n个样品在个样品在m个主成分上的得分:个主成分上的得分:i=1,2,m(5)标准化标准化 实实际际应应用用时时,指指标标的的量量纲纲往往往往不不同同,所所以以在在主主成成分分计计算算之之前前应应先先消消除除量量纲纲的的影影响响。消消除除数数据据的的量量纲纲有有很很多多方方法,常用方法是将原始数据标准化,即做如下数据变换:法,常用方法是将原始数据标准化,即做如下数据变换:其其中中 ,j=1,2,p。
11、标标准准化化后后的的数数据据阵阵记记为为X*,其其中中每每个个列列向向量量(标标准准化化变变量)的均值为量)的均值为0,标准差为,标准差为1,数据无量纲。,数据无量纲。第十一张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 标标准准化化后后变变量量的的协协方方差差矩矩阵阵(Covariance Matrix)=(sij)p p,即即原原变变量量的的相相关关系系数数矩矩阵阵(Correlation Matrix)R=(rij)p p:i,j=1,2,p 此时此时n个样品在个样品在m个主成分上的得分应为:个主成分上的得分应为
12、:Fj=a1jX1*+a2jX2*+.+apjXp*j=1,2,m第十二张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程6.1.2 使用使用INSIGHT模块作主成分分析模块作主成分分析【例例6-1】全国沿海】全国沿海10个省市经济指标的主成分分析个省市经济指标的主成分分析表6-1 全国沿海10个省市经济综合指标假假设设表表6-1中中数数据据已已经经存存放放在在数数据据集集Mylib.jjzb中中,试试对对各地区的经济发展水平进行主成分分析。各地区的经济发展水平进行主成分分析。地区GDPx1人均GDPx2工业增加值x3第
13、三产业增加值x4固定资产投资x5基本建设投资x6社会消费品零售总额x7海关出口总额x8地方财政收入x9辽宁5458.2130001376.22258.41315.95292258.4123.7399.7山东10550116433502.538512288.71070.73181.9211.1610.2河北6076.690471406.72092.61161.6597.11968.345.9302.3天津2022.622068822.8960703.7361.9941.4115.7171.8江苏10636.3143973536.33967.223201141.33215.8384.7643.7上
14、海5408.8406272196.22755.81970.2779.32035.2320.5709浙江7670165702356.530652296.61180.62877.5294.2566.9福建4682135101047.11859964.5397.91663.3173.7272.9广东11769.7150304224.64793.63022.91275.55013.61843.71201.6广西2455.45062367995.7542.2352.71025.515.1186.7第十三张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教
15、程软件与统计应用教程1.1.使用使用INSIGHTINSIGHT模块做主成分分析的步骤模块做主成分分析的步骤 使用使用INSIGHT模块做主成分分析的步骤如下:模块做主成分分析的步骤如下:1)在在INSIGHT模模块块中中打打开开数数据据集集Mylib.jjzb;选选择择菜菜单单“Analyze”“Multivariate(Y X)(多多元元分分析析)”,打开打开“Multivariate(Y X)”对话框;对话框;2)将将做做主主成成分分分分析析的的变变量量x1x9选选为为Y变变量量,将将变变量量diqu选为选为Label变量,如图所示。变量,如图所示。第十四张,PPT共九十一页,创作于20
16、22年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程图6-1 多元分析对话框 3)单单击击“Method”按按钮钮,在在打打开开的的对对话话框框中中可可以以选选择择计计算算协协方方差差矩矩阵阵的的特特征征值值或或是是计计算算相相关关系系数数矩矩阵阵的的特特征征值值。系系统统默默认认计计算算相相关关系系数数矩矩阵阵的的特特征征值值和和特特征征向向量量,单击单击“OK”按钮返回。按钮返回。第十五张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 4)单单击击“Output”按按钮钮,在在打
17、打开开的的对对话话框框(图图左左)中中包包 括括“Descriptive Statistics”选选 项项、“Bivariate Plots”选选项项以以及及各各种种多多元元分分析析的的选选项项。选选中中“Principal Component Analysis”复复选选框框,单单击击下下面面的的“Principal Component Options”按按 钮钮,打打 开开“Principal Component Options”对对话话框框,选选中中“Eigenvectors”复复选选框框,取取消消“Correlations(Structure)”复复选选框框,如如图右所示。图右所示。第十
18、六张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.主成分的结果分析主成分的结果分析 输输出出的的数数字字分分析析结结果果有有4个个部部分分:简简单单统统计计量量、相相关关系系数数矩矩阵阵、相相关关系系数数矩矩阵阵的的特特征征值值以以及及相相关关系系数数矩矩阵阵的的特征向量。特征向量。第十七张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 3)图图6-5给给出出相相关关系系数数矩矩阵阵的的特特征征值值(Eigenvalue)、上上下下特特征征
19、值值之之差差(Difference)、各各主主成成分分的的方方差差贡贡献献率(率(Proportion)以及累积贡献率()以及累积贡献率(Cumulative)。)。相相关关系系数数矩矩阵阵的的特特征征值值即即各各主主成成分分的的方方差差,可可以以看看出出,第第一一主主成成分分的的方方差差贡贡献献率率为为80.11%,前前两两个个主主成成分分的的累累积积贡贡献献率率已已达达92.33%,因因此此,只只需需用用前前面面2个个主主成成分就可以概括这组数据。分就可以概括这组数据。第十八张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应
20、用教程 4)图图6-6给给出出相相关关系系数数矩矩阵阵的的两两个个最最大大特特征征值值的的特特征征向量,据此可以写出第一和第二主成分得分:向量,据此可以写出第一和第二主成分得分:PCR1=0.35x1*+0.04x2*+0.36x3*+0.37x4*+0.37x5*+0.35x6*+0.36x7*+0.30 x8*+0.36x9*PCR2=-0.21x1*+0.94x2*0.01x3*0.05x4*+0.10 x5*0.02x6*0.14x7*+0.05x8*+0.18x9*对对于于第第一一主主成成分分而而言言,除除了了x2(人人均均GDP)外外,各各变变量量所所占占比比重重均均在在0.3左左
21、右右以以上上,因因此此第第一一主主成成分分(Prin1)主主要要由由x1、x3x9八八个个变变量量解解释释;而而第第二二主主成成分分则则主主要要由由x2这一个变量解释。这一个变量解释。第十九张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 5)选选择择菜菜单单“Edit(编编辑辑)”“Observations(观观测测)”“Label in Plots”,在在弹弹出出的的对对话话框框中中选选中中所所有有diqu变变量量值值,单单击击“OK”按按钮钮返返回回,显显示示结结果果中中的的散散点图上出现地区名;点图上出现地区名;
22、图图中中看看出出,上上海海在在第第二二主主成成分分PCR2的的得得分分远远远远高高于于其其他他省省市市,而而在在第第一一主主成成分分PCR1的的得得分分则则处处于于中中间间。广广东东、江江苏苏、山山东东和和浙浙江江则则在在第第1主主成成分分的的得得分分上上位位于于前列。前列。第二十张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 6)回回到到INSIGHT的的数数据据窗窗口口,可可以以看看到到前前两两个个主主成成分的得分情况(如图分的得分情况(如图6-8左)。左)。单单击击数数据据窗窗口口左左上上角角的的箭箭头头,在在弹
23、弹出出的的菜菜单单中中选选择择“Sort(排排序序)”选选项项,在在打打开开的的对对话话框框中中选选定定排排序序变变量量 PCR1,并并 单单 击击“Asc/Des”按按 钮钮 将将 其其 设设 为为 降降 序序(Des),如图),如图6-8所示。所示。第二十一张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 单单击击“OK”按按钮钮返返回回,得得到到按按第第一一主主成成分分排排序序的的结结果果如如图图6-9左左所所示示。同同样样方方法法可可以以得得到到按按第第二二主主成成分分排排序序的结果如图的结果如图6-9右所示。右
24、所示。从从第第一一主主成成分分排排序序情情况况来来看看,沿沿海海19省省市市经经济济发发展展状状况况综综合合排排名名前前5位位的的省省市市依依次次为为:广广东东、江江苏苏、山山东东、浙浙江江、上上海海;从从第第二二主主成成分分排排序序情情况况来来看看,人人均均GDP排排名名前前5位的省市依次是:上海、天津、浙江、广东、福建。位的省市依次是:上海、天津、浙江、广东、福建。第二十二张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程6.1.3 使用使用“分析家分析家”作主成分分析作主成分分析【例例6-2】某某企企业业为为了了了了
25、解解其其客客户户的的信信用用程程度度,评评价价客客户户的的信信用用等等级级,采采用用信信用用评评估估常常用用的的5C方方法法,5C的的目目的是说明顾客违约的可能性。的是说明顾客违约的可能性。1)品格品格x1,指客户的信誉。,指客户的信誉。2)能力能力x2,指客户的偿还能力。,指客户的偿还能力。3)资本资本x3,指客户的财务势力和财务状况。,指客户的财务势力和财务状况。4)附带的担保品附带的担保品x4。5)环境条件环境条件x5,指客户的外部因素。,指客户的外部因素。第二十三张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成份 因子分析
限制150内