《Chp因子分析》PPT课件.ppt
Chp.8 Chp.8 因子分析因子分析(FactorAnalysis)概述概述 因子分析的基本原理因子分析的基本原理 初始因子矩初始因子矩阵阵及其及其计计算方法算方法 因子旋因子旋转转 因子计量因子计量Chp.8 Chp.8 因子分析因子分析8.1 8.1 概述概述 在科学研究中,需要对反在科学研究中,需要对反映事物的多个变量进行大量的映事物的多个变量进行大量的观测,收集大量数据以便进行观测,收集大量数据以便进行分析寻找规律。分析寻找规律。多变量大样本在提供丰富多变量大样本在提供丰富信息的同时,一定程度上也增信息的同时,一定程度上也增加了数据采集的工作量,更重加了数据采集的工作量,更重要的是在大多数情况下,许多要的是在大多数情况下,许多变量之间可能存在相关性而增变量之间可能存在相关性而增加了问题分析的复杂性,对分加了问题分析的复杂性,对分析带来不便。析带来不便。如果分别分析每个指标,如果分别分析每个指标,分析又可能是孤立的,而不是分析又可能是孤立的,而不是综合的。综合的。盲目减少指标会损失很多盲目减少指标会损失很多信息,容易产生错误的结论。信息,容易产生错误的结论。出路:出路:找到一种方法,在减少找到一种方法,在减少分析指标的同时,尽量减少原分析指标的同时,尽量减少原指标包含信息的损失,对所收指标包含信息的损失,对所收集的资料作全面的分析。集的资料作全面的分析。由于各变量间存在一定的由于各变量间存在一定的相关关系,因此有可能用较少相关关系,因此有可能用较少的综合指标分别综合存在于各的综合指标分别综合存在于各变量中的各类信息。变量中的各类信息。因子分析就是从多个变量因子分析就是从多个变量指标中选择出少数几个综合变指标中选择出少数几个综合变量指标的一种降维的多元统计量指标的一种降维的多元统计分析方法。分析方法。Chp.8 Chp.8 因子分析因子分析8.1 8.1 概述概述 固定资产利税率固定资产利税率资金利税率资金利税率销售收入利税率销售收入利税率资金利税率资金利税率固定资产产值率固定资产产值率流动资金周转天数流动资金周转天数万元产值能耗万元产值能耗全员劳动生产率全员劳动生产率观测变量观测变量盈利能力盈利能力产值能耗产值能耗 资金和人资金和人力利用力利用公共因子公共因子Chp.8 Chp.8 因子分析因子分析8.1 8.1 概述概述 1 1一个分类问题一个分类问题 在碳酸岩的分类研究中,用在碳酸岩的分类研究中,用其中其中C C、O O、CaCa、MgMg、SiSi等元素等元素的含量,而不考虑各元素相互的含量,而不考虑各元素相互间的内在联系,分类效果不好。间的内在联系,分类效果不好。如果考虑元素间的内在联系,如果考虑元素间的内在联系,例如用例如用CaCOCaCO3 3、MgCOMgCO3 3、SiOSiO2 2三个三个因素来进行研究,则可取得很因素来进行研究,则可取得很好的效果。好的效果。Chp.8 Chp.8 因子分析因子分析8.1 8.1 概述概述 2 2问题的延伸问题的延伸 用三个用三个组组合比用合比用5 5个元素研究碳酸个元素研究碳酸岩岩合理,易于解合理,易于解释释。可以把可以把C C、O O、CaCa、MgMg、SiSi看成原始看成原始变变量,把量,把CaCOCaCO3 3、MgCOMgCO3 3、SiOSiO2 2看成是原始看成是原始变变量的量的组组合,它合,它们们是新是新变变量量(公共因子)(公共因子),更反映事物的本,更反映事物的本质质。从多个从多个变变量(量(5 5个)减少个)减少为为少数少数变变量(量(3 3个)有利于研个)有利于研究。究。Chp.8因子分析因子分析8.1概述概述 新新变变量的量的组组合可表示合可表示为为:Fj=j1x1+j2x2+jpxpF1(CaCO3)=11Ca+12C+13O+14Mg+15Si F2(MgCO3)=21Ca+22C+23O+24Mg+25Si F3(SiO2)=31Ca+32C+33O+34Mg+35Si反反过过来,也可用三个来,也可用三个组组合表示原始合表示原始变变量,来研究量,来研究组组合与原始合与原始变变量的关系:量的关系:Zj=aj1F1+aj2F2+ajmFm+j jUj如如对对Si,可用可用Si=a51F1+a52F2+a53F3Chp.8 Chp.8 因子分析因子分析8.1 8.1 概述概述 因子分析的任务,就是分析、表征事物的属性与因子分析的任务,就是分析、表征事物的属性与其影响因素之间的数据结构和关系,达到简化问其影响因素之间的数据结构和关系,达到简化问题、突出事物本质的目的。题、突出事物本质的目的。Chp.8 Chp.8 因子分析因子分析8.1 8.1 概述概述 因子分析主要是由心理学家发展起来的,由因子分析主要是由心理学家发展起来的,由ChalesSpearman于于1904年提出,主要用于智力测验年提出,主要用于智力测验得分的统计分析。得分的统计分析。19571957年年,KrumbeinKrumbein将因子分析方法将因子分析方法从心理学研究从心理学研究引入岩石学,它是把一些具有复引入岩石学,它是把一些具有复杂杂关系的关系的样样品或品或变变量量归结为归结为少数几个少数几个综综合因合因子,然后进行进一步的研究。子,然后进行进一步的研究。目前因子分析在心理学、社会学、经济学、人口目前因子分析在心理学、社会学、经济学、人口学、地质学和教育学中都取得了成功的应用。学、地质学和教育学中都取得了成功的应用。3 3因子分析的基本思想因子分析的基本思想Chp.8 Chp.8 因子分析因子分析8.1 8.1 概述概述 从数学角度而言,因子分析是一种寻找潜在支配从数学角度而言,因子分析是一种寻找潜在支配因子的模型分析方法,其实质就是因子的模型分析方法,其实质就是一种降一种降维维的多元的多元统统计计方法方法。其特点包括:。其特点包括:3 3因子分析的基本思想因子分析的基本思想 通通过过数学方法把数目数学方法把数目较较多的原始多的原始变变量量进进行行变换变换,找到一些新找到一些新变变量(量(组组合);合);新新变变量量较较原始原始变变量数目少得多,且使原来复量数目少得多,且使原来复杂杂的关系相的关系相对简单对简单化,有助于了解自然化,有助于了解自然现现象的象的规规律,在律,在变变量多、数据量大量多、数据量大时时更具更具优优点。点。少数少数组组合能尽量反映原来多合能尽量反映原来多变变量的信息,它量的信息,它们们又彼此正交,便于又彼此正交,便于对变对变量量进进行分行分类类解解释释。Chp.8 Chp.8 因子分析因子分析8.1 8.1 概述概述 有两种主要的分析方法:有两种主要的分析方法:R R型因子分析:型因子分析:研究研究变变量之量之间间的相互关系,通的相互关系,通过对变过对变量量间间的相关系数的相关系数阵阵的内部的内部结结构的研究,找出控制着所有构的研究,找出控制着所有变变量的几个主成分,所以又称量的几个主成分,所以又称主成分分析主成分分析(PrincipalComponentAnalysis)。Q Q型因子分析:型因子分析:研究研究样样品品间间的相关关系,通的相关关系,通过对样过对样品品间间的相似系数的相似系数阵阵的内部的内部结结构的研究,找出控制着所有构的研究,找出控制着所有样样品的几个主要因素,所以又称品的几个主要因素,所以又称主因素分析主因素分析。4 4因子分析的主要方法因子分析的主要方法 Chp.8 Chp.8 因子分析因子分析8.1 8.1 概述概述 归归纳纳综综合合地地质质现现象象,剔剔除除原原始始观观测测值值中中重重复的成分,用更简练的形式描述地质现象。复的成分,用更简练的形式描述地质现象。用于研究用于研究诸诸如成因、成岩、共生如成因、成岩、共生组组合、指合、指示元素等地示元素等地质问题质问题。5 5因子分析的因子分析的地质学地质学用途用途 Chp.8 Chp.8 因子分析因子分析8.1 8.1 概述概述 进行因子分析进行因子分析前前,必必须对须对数据数据进进行初始化行初始化:6 6进进行因子分析行因子分析的前提的前提标准化后数据的均值为标准化后数据的均值为0 0,标准差为,标准差为1 1。这时,变量这时,变量j j与与k k之间的相关系数为之间的相关系数为 设原始数据为设原始数据为x xjiji,j,j=1,=1,n(,n(变量变量),i=1,i=1,N(,N(样品样品)标准化后的数据为:标准化后的数据为:其中其中:Chp.8因子分析因子分析8.2因子分析的基本原理因子分析的基本原理 设设有有N个个样样品,每个品,每个样样品有品有n个个变变量(量(x1,xn),它它们们有有m个个综综合因子,合因子,记为记为F1,F2,Fm(m=n)1主因子(主成分、主因素)的几何意主因子(主成分、主因素)的几何意义义F1F2为为了方便,了方便,现设现设有两个有两个变变量量x1,x2对对于二元正于二元正态态分布分布变变量,量,N个点的散个点的散布点大致布点大致为为一一椭圆椭圆,若在,若在椭圆长轴椭圆长轴方向取坐方向取坐标标F1,短短轴轴方向取方向取F2,相当,相当于作了一个坐于作了一个坐标变换标变换(x1F1,x2F2)Chp.8因子分析因子分析8.2因子分析的基本原理因子分析的基本原理 变换变换后的坐后的坐标标有如下性有如下性质质:)N个个样样品点的坐品点的坐标标F1,F2的相关性的相关性0)N个点的波个点的波动动(方差)大部分可以(方差)大部分可以归结为归结为F1轴轴上上的波的波动动,而,而F2上波上波动动趋近于趋近于0。)F1,F2为为x1,x2的的综综合因子合因子X1=a11F1+a12F2X2=a21F1+a22F21主因子(主成分、主因素)的几何意主因子(主成分、主因素)的几何意义义当当图图中中椭圆椭圆很扁平很扁平时时,可可只考只考虑虑F1上的波上的波动动,忽略,忽略F2上的波上的波动动,这样这样,二,二维维可以降可以降为为一一维维。Chp.8因子分析因子分析8.2因子分析的基本原理因子分析的基本原理 把两个把两个变变量推广到量推广到n个个变变量量(x1,x2,xn),将它将它们综们综合成合成m个个综综合因子合因子时时,则则原始原始变变量:量:Zj=aj1F1+aj2F2+ajmFm+j jUj而综合因子:而综合因子:F1=11x1+12x2+1nxnF2=21x1+22x2+2nxnFm=m1x1+m2x2+mnxn而且要求:而且要求:k12+k22+kn2=11主因子(主成分、主因素)的几何意主因子(主成分、主因素)的几何意义义Chp.8因子分析因子分析8.2因子分析的基本原理因子分析的基本原理 确定上式中系数确定上式中系数ij的原的原则则)Fi与与Fj(ij,j=1,2,m)互相无关互相无关(正交正交);)F1是是x1,x2,xn的所有的所有线线性性组组合中方差最小的,即合中方差最小的,即F1提取了最多的信息量,提取了最多的信息量,F2提取了次大信息量,提取了次大信息量,F3再次之,再次之,。)F1,F2,Fm称第称第1,2,m主因子,主因子,实际实际工作中工作中只只选选前几个因子。前几个因子。1主因子(主成分、主因素)的几何意主因子(主成分、主因素)的几何意义义Chp.8因子分析因子分析8.2因子分析的基本原理因子分析的基本原理 信息(或方差)的分解信息(或方差)的分解各各变变量的量的统计统计信息来源于方差,可以把信息来源于方差,可以把n个个变变量提供量提供的信息分解的信息分解为为:2因子模型(因子分析的数学模型)因子模型(因子分析的数学模型)1)由所有变量共同具有的少数几个因子构成的部分由所有变量共同具有的少数几个因子构成的部分,即即所谓公共因素部分所谓公共因素部分公共因子公共因子(m个,且个,且m1的即可。的即可。Chp.8因子分析因子分析8.3初始因子矩初始因子矩阵阵及其及其计计算方法算方法3.求初始因子求初始因子阵阵A的方法的方法求特征求特征值值及特征向量及特征向量4)计计算因子算因子负负荷荷jp为第第p个个特征特征值对应的第的第j个个特征向量特征向量对应对应1=2.87:对应对应2=0.128:于是,初始因子矩阵于是,初始因子矩阵Chp.8因子分析因子分析8.3初始因子矩初始因子矩阵阵及其及其计计算方法算方法3.求初始因子求初始因子阵阵A的方法的方法求特征求特征值值及特征向量及特征向量5)公因子方差公因子方差h12=a112+a122=0.9932+0.1122=0.999h22=0.998h32=0.9976)公因子公因子Fp的方差的方差贡贡献献S1=0.9932+0.9552+0.9842=2.87=1S2=0.1132+(-0.293)2+0.1702=0.128=2Chp.8因子分析因子分析8.3初始因子矩初始因子矩阵阵及其及其计计算方法算方法3.求初始因子求初始因子阵阵A的方法的方法求特征求特征值值及特征向量及特征向量7)给给出正交因子模型出正交因子模型FpajiXjF1F2hj2X10.9930.1130.999X20.955-0.2930.998X30.9840.1700.997Sp2.870.128Chp.8 Chp.8 因子分析因子分析8.4 8.4 因子旋因子旋转转 1.1.概述概述 建建立立因因子子分分析析模模型型的的目目的的不不仅仅是是找找出出主主因因子子,更更重重要要的的是是知知道道每每个个主主因因子子的的意意义义,以以便便对对实实际际问问题进行分析。题进行分析。如如果果求求出出主主因因子子解解后后,各各个个主主因因子子的的典典型型代代表表变变量量不不很很突突出出,还还需需要要进进行行因因子子旋旋转转,以以便便得得到比较满意的主因子。到比较满意的主因子。Chp.8因子分析因子分析8.4因子旋因子旋转转1.概述概述进进行行因因子子旋旋转转,就就是是要要使使因因子子载载荷荷矩矩阵阵中中因因子子载载荷荷向向0和和1两两个个方方向向分分化化,使使大大的的载载荷荷更更大大,小小的载荷更小。的载荷更小。如有两个如有两个变变量量x1,x2,在在F1,F2上的投影上的投影值值相似,当把相似,当把F1,F2旋旋转为转为F,F后,就后,就变变得清晰了。得清晰了。Chp.8因子分析因子分析8.4因子旋因子旋转转1.概述概述因子旋转过程中,如果因子对应轴相互正交,则称因子旋转过程中,如果因子对应轴相互正交,则称为正交旋转;为正交旋转;旋旋 转转 的的 方方 法法 有有 很很 多多,正正 交交 旋旋 转转(orthogonalrotation)和和斜斜交交旋旋转转(obliquerotation)是是因因子子旋旋转转的的两两类方法。最常用的方法是最大方差正交旋转法类方法。最常用的方法是最大方差正交旋转法(Varimax)。如果因子对应轴相互间不是正交的,则称为斜交旋转。如果因子对应轴相互间不是正交的,则称为斜交旋转。常用的斜交旋转方法有常用的斜交旋转方法有Promax法等。法等。Chp.8因子分析因子分析8.4因子旋因子旋转转2.判断因子解好坏的判断因子解好坏的Thurstone简单结简单结构准构准则则每一因子每一因子Fp仅仅有少数研究有少数研究对对象(象(变变量、量、样样品)品)在它上面有高在它上面有高值值(或集中分布);(或集中分布);任一研究任一研究对对象(象(变变量、量、样样品)只能在极少数因品)只能在极少数因子上有高子上有高值值(不(不计计正正负负)。)。即:每一即:每一变变量尽可能只与一个因子有关,因子量尽可能只与一个因子有关,因子负负荷荷ajp尽可能尽可能趋趋于于0、+1、-1。Chp.8 Chp.8 因子分析因子分析8.4 8.4 因子旋因子旋转转 3.3.简单示例简单示例 煤炭中除常量元素外,还含有多种潜在毒害元素,如煤炭中除常量元素外,还含有多种潜在毒害元素,如Hg、Se、Pb、Cd、As、Zn、Sb和和Ti等。等。煤在燃烧过程中,这些元素呈气态或吸附在烟气中细小颗煤在燃烧过程中,这些元素呈气态或吸附在烟气中细小颗粒物中呈气溶胶态,并能通过各种烟气污染控制设施而释放到粒物中呈气溶胶态,并能通过各种烟气污染控制设施而释放到大气环境中,成为大气环境的主要污染源。大气环境中,成为大气环境的主要污染源。为了了解和有效地控制煤炭使用过程引起的这些潜在毒害为了了解和有效地控制煤炭使用过程引起的这些潜在毒害元素的环境污染程度,不仅要弄清煤中这些元素的分布规律,元素的环境污染程度,不仅要弄清煤中这些元素的分布规律,更重要的是要弄清这些元素在煤中的赋存状态。更重要的是要弄清这些元素在煤中的赋存状态。Chp.8 Chp.8 因子分析因子分析8.4 8.4 因子旋因子旋转转 3.3.简单示例简单示例 只有只有As、Fe比较理想!比较理想!Chp.8 Chp.8 因子分析因子分析8.4 8.4 因子旋因子旋转转 3.3.简单示例简单示例 对比:对比:旋转前:旋转前:初始因子解难以对各因子作出合理的解释。初始因子解难以对各因子作出合理的解释。旋转后:旋转后:F1中中As、Hg、Sb、Fe、S等有高的因子载荷;等有高的因子载荷;F2与与Se和和Zn有较大的相关性;有较大的相关性;F3中中Cd有较高的因子载荷;有较高的因子载荷;F4中只有中只有Pb有较高的因子载荷;有较高的因子载荷;F5只与只与Ti相关。相关。Chp.8 Chp.8 因子分析因子分析8.4 8.4 因子旋因子旋转转 3.3.简单示例简单示例 v煤层中煤层中As、Hg、Sb、Fe主要赋存于次生黄铁矿中;主要赋存于次生黄铁矿中;vZn和和Se主要赋存于闪锌矿中;主要赋存于闪锌矿中;vPb以方铅矿形式存在于煤中;以方铅矿形式存在于煤中;v从元素地球化学性质上讲,从元素地球化学性质上讲,Cd应赋存于闪锌矿中,应赋存于闪锌矿中,但由于其在煤中的含量较低,造成分析数据的误差但由于其在煤中的含量较低,造成分析数据的误差较大,从而掩盖了它与较大,从而掩盖了它与Zn之间的相关关系;之间的相关关系;v煤中煤中Ti的的赋存状态较为复杂。赋存状态较为复杂。Chp.8因子分析因子分析8.5因子因子计量计量(FactorScore)1.计量的目的计量的目的因子分析因子分析有有两两大大任任务务:将将变变量表示量表示为为公因子的公因子的线线性性组组合(因子解)合(因子解)Zj=aj1F1+aj2F2+ajmFm因子模型建立后,一个重要的作用是因子模型建立后,一个重要的作用是应应用用它它去去评评价每个价每个样样品在整个模型中的地位,即品在整个模型中的地位,即进进行行综综合合评评价。价。由此,引出了因子分析的第二项任务:由此,引出了因子分析的第二项任务:Chp.8因子分析因子分析8.5因子因子计量计量(FactorScore)1.计量的目的计量的目的把公因子用把公因子用变变量的量的线线性性组组合表示(因子合表示(因子计计量)量)Fm=m1x1+m2x2+mnxn它是从所有变量中将某一特定因子的有关原始它是从所有变量中将某一特定因子的有关原始信息集中起来,并看成是一个样品中信息集中起来,并看成是一个样品中n个变量个变量的综合指标(然后进行其它研究及统计,如趋的综合指标(然后进行其它研究及统计,如趋势分析、判别分析、聚类分析、综合评价等)。势分析、判别分析、聚类分析、综合评价等)。任务一仅仅是手段,任务二才是其真正目的!任务一仅仅是手段,任务二才是其真正目的!Chp.8因子分析因子分析8.5因子因子计量计量(FactorScore)2.计计量量方法及实例方法及实例方法方法关关键键是求解上式中系数是求解上式中系数ji,可用下列正可用下列正规规方程式:方程式:变量间相变量间相关系数阵关系数阵变量变量xi与因子与因子Fj的相关系数的相关系数阵阵Chp.8因子分析因子分析8.5因子因子计量计量(FactorScore)2.计计量量单单位位方法及实例方法及实例方法方法因因诸诸因子独立,故因子独立,故rij=aij(i变变量在因子量在因子j上的上的负负荷)荷)所以,上式可所以,上式可变为变为:j=R-1aij将将j代入代入Fj,即可求得第即可求得第j因子因子Fj的因子得分:的因子得分:X-第第i样样品的品的变变量量观测值观测值Chp.8因子分析因子分析8.5因子因子计量计量(FactorScore)2.计计量量方法及实例方法及实例计计算算实实例例1)原始数据及其)原始数据及其标标准化准化2)计计算相关系数算相关系数阵阵Chp.8因子分析因子分析8.5因子因子计量计量(FactorScore)2.计计量量方法及实例方法及实例计计算算实实例例3)计算初始因子模型)计算初始因子模型F1的因子的因子负负荷平方和占荷平方和占总总因子方差因子方差:0.9222/(0.9222+(-0.386)2)=85%F2的因子的因子负负荷平方和占荷平方和占总总因子方差因子方差:(-0.3862/(0.9222+(-0.386)2)=15%所以,第所以,第1因子因子F1即可表达即可表达x1,x2的信息。的信息。Chp.8因子分析因子分析8.5因子因子计量计量(FactorScore)2.计计量量方法及实例方法及实例计计算算实实例例4)因子)因子计计量量a)由前可知,由前可知,这里只有一个公因子,所以这里只有一个公因子,所以b)对对1号号样样,因子,因子计计量量:同样,对同样,对2号样进行处理。号样进行处理。