Chp因子分析实用.pptx
Chp.8 Chp.8 因子分析8.1 8.1 概述 固定资产利税率资金利税率销售收入利税率资金利税率固定资产产值率流动资金周转天数万元产值能耗全员劳动生产率观测变量观测变量盈利能力盈利能力产值能耗产值能耗 资金和人力资金和人力利用利用公共因子公共因子第1页/共51页Chp.8 Chp.8 因子分析8.1 8.1 概述 1 1一个分类问题 在碳酸岩的分类研究中,用其中C C、O O、CaCa、MgMg、SiSi等元素的含量,而不考虑各元素相互间的内在联系,分类效果不好。如果考虑元素间的内在联系,例如用CaCOCaCO3 3、MgCOMgCO3 3、SiOSiO2 2三个因素来进行研究,则可取得很好的效果。第2页/共51页Chp.8 Chp.8 因子分析8.1 8.1 概述 2 2问题的延伸 用三个组合比用5 5个元素研究碳酸岩合理,易于解释。可以把C C、O O、CaCa、MgMg、SiSi看成原始变量,把CaCOCaCO3 3、MgCOMgCO3 3、SiOSiO2 2看成是原始变量的组合,它们是新变量(公共因子),更反映事物的本质。从多个变量(5 5个)减少为少数变量(3 3个)有利于研究。第3页/共51页Chp.8 因子分析8.1 概述 新变量的组合可表示为:Fj=j1x1+j2x2+jpxpF1(CaCO3)=11Ca+12C+13O+14Mg+15Si F2(MgCO3)=21Ca+22C+23O+24Mg+25Si F3(SiO2)=31Ca+32C+33O+34Mg+35Si反过来,也可用三个组合表示原始变量,来研究组合与原始变量的关系:Zj=aj1F1+aj2F2+ajmFm+j jUj如对Si,可用Si=a51F1+a52F2+a53F3第4页/共51页Chp.8 Chp.8 因子分析8.1 8.1 概述 因子分析的任务,就是分析、表征事物的属性与其影响因素之间的数据结构和关系,达到简化问题、突出事物本质的目的。第5页/共51页Chp.8 Chp.8 因子分析8.1 8.1 概述 因子分析主要是由心理学家发展起来的,由ChalesSpearman于1904年提出,主要用于智力测验得分的统计分析。19571957年,KrumbeinKrumbein将因子分析方法从心理学研究引入岩石学,它是把一些具有复杂关系的样品或变量归结为少数几个综合因子,然后进行进一步的研究。目前因子分析在心理学、社会学、经济学、人口学、地质学和教育学中都取得了成功的应用。3 3因子分析的基本思想第6页/共51页Chp.8 Chp.8 因子分析8.1 8.1 概述 从数学角度而言,因子分析是一种寻找潜在支配因子的模型分析方法,其实质就是一种降维的多元统计方法。其特点包括:3 3因子分析的基本思想 通过数学方法把数目较多的原始变量进行变换,找到一些新变量(组合);新变量较原始变量数目少得多,且使原来复杂的关系相对简单化,有助于了解自然现象的规律,在变量多、数据量大时更具优点。少数组合能尽量反映原来多变量的信息,它们又彼此正交,便于对变量进行分类解释。第7页/共51页Chp.8 Chp.8 因子分析8.1 8.1 概述 有两种主要的分析方法:R R型因子分析:研究变量之间的相互关系,通过对变量间的相关系数阵的内部结构的研究,找出控制着所有变量的几个主成分,所以又称主成分分析(PrincipalComponentAnalysis)。Q Q型因子分析:研究样品间的相关关系,通过对样品间的相似系数阵的内部结构的研究,找出控制着所有样品的几个主要因素,所以又称主因素分析。4 4因子分析的主要方法 第8页/共51页Chp.8 Chp.8 因子分析8.1 8.1 概述 归纳综合地质现象,剔除原始观测值中重复的成分,用更简练的形式描述地质现象。用于研究诸如成因、成岩、共生组合、指示元素等地质问题。5 5因子分析的地质学用途 第9页/共51页Chp.8 Chp.8 因子分析8.1 8.1 概述 进行因子分析前,必须对数据进行初始化:6 6进行因子分析的前提标准化后数据的均值为0 0,标准差为1 1。这时,变量j j与k k之间的相关系数为 设原始数据为x xjiji,j=1,n(,j=1,n(变量),i=1,N(i=1,N(样品)标准化后的数据为:其中:第10页/共51页Chp.8 因子分析8.2 因子分析的基本原理 设有N个样品,每个样品有n个变量(x1,xn),它们有m个综合因子,记为F1,F2,Fm(m=n)1主因子(主成分、主因素)的几何意义F1F2为了方便,现设有两个变量x1,x2对于二元正态分布变量,N个点的散布点大致为一椭圆,若在椭圆长轴方向取坐标F1,短轴方向取F2,相当于作了一个坐标变换(x1F1,x2F2)第11页/共51页Chp.8 因子分析8.2 因子分析的基本原理 变换后的坐标有如下性质:)N个样品点的坐标F1,F2的相关性0)N个点的波动(方差)大部分可以归结为F1轴上的波动,而F2上波动趋近于0。)F1,F2为x1,x2的综合因子X1=a11F1+a12F2X2=a21F1+a22F21主因子(主成分、主因素)的几何意义当图中椭圆很扁平时,可只考虑F1上的波动,忽略F2上的波动,这样,二维可以降为一维。第12页/共51页Chp.8 因子分析8.2 因子分析的基本原理 把两个变量推广到n个变量(x1,x2,xn),将它们综合成m个综合因子时,则原始变量:Zj=aj1F1+aj2F2+ajmFm+j jUj而综合因子:F1=11x1+12x2+1nxnF2=21x1+22x2+2nxnFm=m1x1+m2x2+mnxn而且要求:k12+k22+kn2=11主因子(主成分、主因素)的几何意义第13页/共51页Chp.8 因子分析8.2 因子分析的基本原理 确定上式中系数ij的原则)Fi与Fj(ij,j=1,2,m)互相无关(正交);)F1是x1,x2,xn的所有线性组合中方差最小的,即F1提取了最多的信息量,F2提取了次大信息量,F3再次之,。)F1,F2,Fm称第1,2,m主因子,实际工作中只选前几个因子。1主因子(主成分、主因素)的几何意义第14页/共51页Chp.8 因子分析8.2 因子分析的基本原理 信息(或方差)的分解各变量的统计信息来源于方差,可以把n个变量提供的信息分解为:2因子模型(因子分析的数学模型)1)由所有变量共同具有的少数几个因子构成的部分,即所谓公共因素部分公共因子(m个,且m1的即可。第32页/共51页Chp.8 因子分析8.3 初始因子矩阵及其计算方法 3.求初始因子阵A的方法求特征值及特征向量4)计算因子负荷jp为第第p个个特征特征值对应的第的第j个个特征向量特征向量对应1=2.87:对应2=0.128:于是,初始因子矩阵第33页/共51页Chp.8 因子分析8.3 初始因子矩阵及其计算方法 3.求初始因子阵A的方法求特征值及特征向量5)公因子方差h12=a112+a122=0.9932+0.1122=0.999h22=0.998h32=0.9976)公因子Fp的方差贡献S1=0.9932+0.9552+0.9842=2.87=1S2=0.1132+(-0.293)2+0.1702=0.128=2第34页/共51页Chp.8 因子分析8.3 初始因子矩阵及其计算方法 3.求初始因子阵A的方法求特征值及特征向量7)给出正交因子模型FpajiXjF1F2hj2X10.9930.1130.999X20.955-0.2930.998X30.9840.1700.997Sp2.870.128第35页/共51页Chp.8 Chp.8 因子分析8.4 8.4 因子旋转 1.1.概述 建立因子分析模型的目的不仅是找出主因子,更重要的是知道每个主因子的意义,以便对实际问题进行分析。如果求出主因子解后,各个主因子的典型代表变量不很突出,还需要进行因子旋转,以便得到比较满意的主因子。第36页/共51页Chp.8 因子分析8.4 因子旋转 1.概述进行因子旋转,就是要使因子载荷矩阵中因子载荷向0和1两个方向分化,使大的载荷更大,小的载荷更小。如有两个变量x1,x2,在F1,F2上的投影值相似,当把F1,F2旋转为F,F后,就变得清晰了。第37页/共51页Chp.8 因子分析8.4 因子旋转 1.概述因子旋转过程中,如果因子对应轴相互正交,则称为正交旋转;旋转的方法有很多,正交旋转(orthogonal rotation)和斜交旋转(obliquerotation)是因子旋转的两类方法。最常用的方法是最大方差正交旋转法(Varimax)。如果因子对应轴相互间不是正交的,则称为斜交旋转。常用的斜交旋转方法有Promax法等。第38页/共51页Chp.8 因子分析8.4 因子旋转 2.判断因子解好坏的Thurstone简单结构准则每一因子Fp仅有少数研究对象(变量、样品)在它上面有高值(或集中分布);任一研究对象(变量、样品)只能在极少数因子上有高值(不计正负)。即:每一变量尽可能只与一个因子有关,因子负荷ajp尽可能趋于0、+1、-1。第39页/共51页Chp.8 Chp.8 因子分析8.4 8.4 因子旋转 3.3.简单示例 煤炭中除常量元素外,还含有多种潜在毒害元素,如Hg、Se、Pb、Cd、As、Zn、Sb和Ti等。煤在燃烧过程中,这些元素呈气态或吸附在烟气中细小颗粒物中呈气溶胶态,并能通过各种烟气污染控制设施而释放到大气环境中,成为大气环境的主要污染源。为了了解和有效地控制煤炭使用过程引起的这些潜在毒害元素的环境污染程度,不仅要弄清煤中这些元素的分布规律,更重要的是要弄清这些元素在煤中的赋存状态。第40页/共51页Chp.8 Chp.8 因子分析8.4 8.4 因子旋转 3.3.简单示例 只有As、Fe比较理想!第41页/共51页Chp.8 Chp.8 因子分析8.4 8.4 因子旋转 3.3.简单示例 对比:旋转前:初始因子解难以对各因子作出合理的解释。旋转后:F1中As、Hg、Sb、Fe、S等有高的因子载荷;F2与Se和Zn有较大的相关性;F3中Cd有较高的因子载荷;F4中只有Pb有较高的因子载荷;F5只与Ti相关。第42页/共51页Chp.8 Chp.8 因子分析8.4 8.4 因子旋转 3.3.简单示例 v煤层中As、Hg、Sb、Fe主要赋存于次生黄铁矿中;vZn和Se主要赋存于闪锌矿中;vPb以方铅矿形式存在于煤中;v从元素地球化学性质上讲,Cd应赋存于闪锌矿中,但由于其在煤中的含量较低,造成分析数据的误差较大,从而掩盖了它与Zn之间的相关关系;v煤中Ti的赋存状态较为复杂。第43页/共51页Chp.8 因子分析8.5 因子计量(Factor Score)1.计量的目的因子分析有两大任务:将变量表示为公因子的线性组合(因子解)Zj=aj1F1+aj2F2+ajmFm因子模型建立后,一个重要的作用是应用它去评价每个样品在整个模型中的地位,即进行综合评价。由此,引出了因子分析的第二项任务:第44页/共51页Chp.8 因子分析8.5 因子计量(Factor Score)1.计量的目的把公因子用变量的线性组合表示(因子计量)Fm=m1x1+m2x2+mnxn它是从所有变量中将某一特定因子的有关原始信息集中起来,并看成是一个样品中n个变量的综合指标(然后进行其它研究及统计,如趋势分析、判别分析、聚类分析、综合评价等)。任务一仅仅是手段,任务二才是其真正目的!第45页/共51页Chp.8 因子分析8.5 因子计量(Factor Score)2.计量方法及实例方法关键是求解上式中系数ji,可用下列正规方程式:变量间相关系数阵变量xi与因子Fj的相关系数阵第46页/共51页Chp.8 因子分析8.5 因子计量(Factor Score)2.计量单位方法及实例方法因诸因子独立,故rij=aij(i变量在因子j上的负荷)所以,上式可变为:j=R-1aij将j代入Fj,即可求得第j因子Fj的因子得分:X-第i样品的变量观测值第47页/共51页Chp.8 因子分析8.5 因子计量(Factor Score)2.计量方法及实例计算实例1)原始数据及其标准化2)计算相关系数阵第48页/共51页Chp.8 因子分析8.5 因子计量(Factor Score)2.计量方法及实例计算实例3)计算初始因子模型F1的因子负荷平方和占总因子方差:0.9222/(0.9222+(-0.386)2)=85%F2的因子负荷平方和占总因子方差:(-0.3862/(0.9222+(-0.386)2)=15%所以,第1因子F1即可表达x1,x2的信息。第49页/共51页Chp.8 因子分析8.5 因子计量(Factor Score)2.计量方法及实例计算实例4)因子计量a)由前可知,这里只有一个公因子,所以b)对1号样,因子计量:同样,对2号样进行处理。第50页/共51页感谢您的欣赏!第51页/共51页