因子分析法预测.pptx
YOUR SITE HERE第一节 引言第1页/共111页YOUR SITE HERE回归分析因果因子分析由因索果执果析因第2页/共111页YOUR SITE HERE方阵的特征值和特征向量对于对于n阶方阵阶方阵AA x=l l x特征值特征值实数实数(也可以是复数)(也可以是复数)特征向量特征向量n维非零向量维非零向量可以用从一点指向可以用从一点指向另一点的箭头来表另一点的箭头来表示示 缩放因子矩阵乘法对应了一个变换,把一个向量变成同维数的另一个向量 第3页/共111页YOUR SITE HERE一个变换的特征向量是这样一种向量,一个变换的特征向量是这样一种向量,它它经过这种特定的变换后保持方向不变经过这种特定的变换后保持方向不变,只是进行只是进行长度上的伸缩而已长度上的伸缩而已。特征向量特征向量所指示的方向所指示的方向是更本质的东西,特征值是更本质的东西,特征值只不过反映了特征向量在变换时的伸缩倍数。只不过反映了特征向量在变换时的伸缩倍数。特征方程特征方程|A-l lI|=0 的解为特征值的解为特征值l l;满足满足(A-l liI)xi=0 的向量的向量xi为为l li的特的特征量。征量。第4页/共111页YOUR SITE HEREn阶方阵阶方阵A有且恰有有且恰有n个特征个特征值;值;AT与与A有相同的特征值;有相同的特征值;n阶方阵阶方阵A=(aij)nxn的迹等于的迹等于其特征值之和;其特征值之和;实对称矩阵实对称矩阵A的特征值都是的特征值都是实数;实数;实对称矩阵实对称矩阵A的不同特征值的不同特征值所对应的特征向量都正交。所对应的特征向量都正交。因此,其特征值可以排序:因此,其特征值可以排序:l l1 l l2 l lp因此,存在正交矩阵因此,存在正交矩阵P,使,使得得P-1AP=(以以A的的n个特个特征值为对角元素的对角阵征值为对角元素的对角阵)第5页/共111页YOUR SITE HERE地质成因是地质学研究的根本问题之一。地质成因是地质学研究的根本问题之一。理性认识理性认识感性认识感性认识内在本质内在本质外在表象外在表象从定量角度对各地质变量进行成因分析,所建立的从定量角度对各地质变量进行成因分析,所建立的数学模型一般有数学模型一般有主成分分析(又称主分量分析)因子分析(R型、Q型)对应分析第6页/共111页YOUR SITE HERE在如此多的地质变量之中,有很多是相关的。在如此多的地质变量之中,有很多是相关的。人们希望能够找出它们的人们希望能够找出它们的少数少数“代表代表”来对它来对它们进行描述。们进行描述。需要把这种有需要把这种有很多变量很多变量的数据进行的数据进行高度概括高度概括。一般情形下,每个变量都会提供一定的信息,一般情形下,每个变量都会提供一定的信息,但其重要程度与侧重有所不同,且这些变量所但其重要程度与侧重有所不同,且这些变量所提供的信息在一定程度上有所重叠。提供的信息在一定程度上有所重叠。把所有指标和数字都原封不动地摆出去吗?把所有指标和数字都原封不动地摆出去吗?第7页/共111页YOUR SITE HERE利用相关性来对所涉及的变量加以“改造”和“组合”。用为数较少的、互不相关(或基本不相关)的新变量来“代表”原来多个变量所提供的信息。通过对新变量的分析达到合理分析和数据解释的目的。相关相关互不相关互不相关第8页/共111页YOUR SITE HERE潜在的、可导出的潜在的、可导出的(latent、derived)少量少量不相关不相关取主舍次取主舍次识别、分离识别、分离隐性的隐性的基因的基因的可观测的(observed)大量相关主次杂乱混合、叠加显性的多样化的地质资料观测变量地质资料观测变量因子因子两类变量的不同特性两类变量的不同特性执果析因第9页/共111页YOUR SITE HERE最早提出:最早提出:J.Person(皮尔逊皮尔逊),主成分分析,主成分分析,1901、S.Spearman(斯卑尔曼斯卑尔曼),真因子分析,真因子分析,1904年,用于心年,用于心理学研究;理学研究;Benzeci(贝尔凯斯贝尔凯斯),对应分析,对应分析,1970。因子分析最早引入地质领域:因子分析最早引入地质领域:W.C.Krumbren(克伦(克伦宾),宾),1957年,研究沉积学。年,研究沉积学。应用发展的重要地质人物:应用发展的重要地质人物:J.Imbrie(英布里英布里)发展简史已成为地质学等领域中传播最快、应用最广的多元统计方法之一。第10页/共111页YOUR SITE HERE基本概念是一种常用的处理高维数据的多元统计分是一种常用的处理高维数据的多元统计分析方法。析方法。是一种化繁为简,将指标尽可能压缩的降是一种化繁为简,将指标尽可能压缩的降维(即空间压缩)技术。维(即空间压缩)技术。把数目较多的变量作线性组合,组合成几把数目较多的变量作线性组合,组合成几个主要的新变量个主要的新变量主成分,少数几个主主成分,少数几个主成分代表了原有变量变化的主要信息。成分代表了原有变量变化的主要信息。又称主分量分析。又称主分量分析。主成分分析(Principal Component Analysis)作用:降维作用:降维第11页/共111页YOUR SITE HERE信息的大小如何度量?信息的大小如何度量?从统计分析角度看,一个指标(看作随机变从统计分析角度看,一个指标(看作随机变量)或一串数据所包含的信息,可以用差异量)或一串数据所包含的信息,可以用差异的大小的大小方差来度量。方差来度量。方差越大,所包含的信息量就越大;方差越大,所包含的信息量就越大;方差越小,所包含的信息量就越小。方差越小,所包含的信息量就越小。数学物理化学总分甲807060210乙707060200丙607060200第12页/共111页YOUR SITE HEREx1x2y2y1第13页/共111页YOUR SITE HERE是一种常用的处理高维数据的多元统计分析方法。是一种常用的处理高维数据的多元统计分析方法。是一种探索不易观测或不能观测的潜在因素,用有限是一种探索不易观测或不能观测的潜在因素,用有限个隐变量来解释原始变量之间相关关系的技术。个隐变量来解释原始变量之间相关关系的技术。是通过对地质观测数据的分析来建立一个成因系统。是通过对地质观测数据的分析来建立一个成因系统。它能把原来具有一定程度相关联系的地质变量转换为它能把原来具有一定程度相关联系的地质变量转换为数量较少的由原始地质变量组合而成的新变量数量较少的由原始地质变量组合而成的新变量因因子,用它们来代替原始变量,各因子之间基本上是不子,用它们来代替原始变量,各因子之间基本上是不相关的(基本独立)。相关的(基本独立)。又称析因分析。又称析因分析。因子分析(Factor Analysis)基本概念第14页/共111页YOUR SITE HERE相关性度量:变量间的方差相关性度量:变量间的方差-协方差、相关系数协方差、相关系数相关性度量:夹角余弦和各种距离系数相关性度量:夹角余弦和各种距离系数R型因子分析R型因子分析是主成分分析的发展Q型因子分析研究变量之间的成因分类研究样品之间的成因分类因子分析分类第15页/共111页YOUR SITE HERECIMFEABDKLGJN形状因子1 因子2 因子3 2 +0 +0CHH 2 +1 +1第16页/共111页YOUR SITE HERE沉积盆地与剥蚀区示意图F1F2F3xj=f(F1,F2,F3,)第17页/共111页YOUR SITE HEREMgCO3SiO2CaCO3COMgCaSi碳酸盐演示分类三角图解第18页/共111页YOUR SITE HERER2R1R14Si-11(Na+K)-2(Fe+Ti)R2(Al+2Mg+6Ca)侵入岩分类R1-R2图解(De la Roche等,1980)第19页/共111页YOUR SITE HERE因子分析典型应用问题因子分析典型应用问题沉积盆地蚀源区的研究沉积盆地蚀源区的研究沉积物粒度分析沉积物粒度分析沉积相研究沉积相研究地层分析地层分析古生物与古环境的研究古生物与古环境的研究岩石化学成分的研究岩石化学成分的研究变质岩原岩恢复变质岩原岩恢复矿床成因研究矿床成因研究矿物的类质同象研究矿物的类质同象研究地球化学地球化学等等识别矿化活动的阶段和类型识别矿化活动的阶段和类型分析成矿控制因素分析成矿控制因素识别地层剖面上发生的气候、水体识别地层剖面上发生的气候、水体深度、物质来源,水动力学条件等深度、物质来源,水动力学条件等沉积环境因素的细微变化。沉积环境因素的细微变化。识别在同一时间点上不同空间过程识别在同一时间点上不同空间过程的叠加过程;识别蚀源区的个数、的叠加过程;识别蚀源区的个数、岩石类型、分布岩石类型、分布识别岩浆岩的形成过程,识别岩浆岩的形成过程,诸如岩浆的诸如岩浆的异源叠加,或同源多期侵入,分异作用,交异源叠加,或同源多期侵入,分异作用,交代作用,同化作用,交代识别作用,矿化活代作用,同化作用,交代识别作用,矿化活动等动等;岩浆岩的分类;岩浆岩的分类识别在同一空间点上不同时间识别在同一空间点上不同时间过程的叠加过程过程的叠加过程第20页/共111页YOUR SITE HERE作用:作用:用最精炼的形式描述地质对象用最精炼的形式描述地质对象(压缩原始(压缩原始数据,降维技术)数据,降维技术)指示成因推理方向指示成因推理方向(探索潜在因素、进行(探索潜在因素、进行成因分类、思考成因结论)成因分类、思考成因结论)分解叠加的地质过程分解叠加的地质过程(例如:得到矿物共(例如:得到矿物共生组合变量生组合变量划分不同成矿阶段划分不同成矿阶段不同地质不同地质过程分解、时空分解)过程分解、时空分解)等等第21页/共111页YOUR SITE HERE是在是在R型因子分析和型因子分析和Q型因子分析的基础上发型因子分析的基础上发展起来的,能够揭示变量与样品之间双重关系展起来的,能够揭示变量与样品之间双重关系的一种多元统计方法。的一种多元统计方法。又称又称R-Q型因子分析。型因子分析。对应分析(Correspondence Analysis)基本概念第22页/共111页因子分析是研究系统分类、成因分因子分析是研究系统分类、成因分类的重要手段,在地质研究中的作类的重要手段,在地质研究中的作用:用:第一、压缩原始数据。第一、压缩原始数据。第二、指示成因推理方向。第二、指示成因推理方向。第三、分解叠加的地质过程。第三、分解叠加的地质过程。第23页/共111页因子分析因子分析是研究变量间相关关系、样品间相似关是研究变量间相关关系、样品间相似关系、变量与样品间成因联系以及探索它们之间产系、变量与样品间成因联系以及探索它们之间产生上述关系之内在原因的一些多元统计分析方法生上述关系之内在原因的一些多元统计分析方法的总称的总称.根据它们的的研究对象可分为:根据它们的的研究对象可分为:(1 1)、)、主成分分析;主成分分析;(2 2)、)、R R型因子分析;型因子分析;(3 3)、)、Q Q型因子分析;型因子分析;(4 4)、)、对应分析;对应分析;第24页/共111页因子分析在地质研究中的应用:因子分析在地质研究中的应用:第25页/共111页YOUR SITE HERE第二节 主成分分析第26页/共111页2 2 主成分分析主成分分析地质中经常要作多变量的综合分析,这些变量经常是不独立的,存在复杂的相关关系。为了化繁为简,用一种数学方法把数目较多的变量作线性组合,组合成几个主要的新变量主成分。第27页/共111页YOUR SITE HERE一、主成分分析的基本思想一、主成分分析的基本思想构造构造关于原始变量的适当的线性组合关于原始变量的适当的线性组合,形成几,形成几个新变量(即所谓的主成分),它们是我们用个新变量(即所谓的主成分),它们是我们用来代替原始变量进行资料解释的综合性指标。来代替原始变量进行资料解释的综合性指标。这一分析过程应使得这一分析过程应使得每个新变量都是各原始变量的线性组合每个新变量都是各原始变量的线性组合新变量的数目大大少于原始变量的数据新变量的数目大大少于原始变量的数据新变量保留了原始变量所包含的绝大部分信息新变量保留了原始变量所包含的绝大部分信息新变量之间互不相关,即各自含义的信息不重叠。新变量之间互不相关,即各自含义的信息不重叠。第28页/共111页主成分的几何意义:(1)N个点的新坐标F1和F2的相关很小,几乎为零。(2)在新坐标系中N个点的波动(方差)大部分归结为F1的波动,F2的波动很小,故用F1就可以反映变化的大部分信息。(3)由于是正交坐标系,坐标(F1,F2)与(x1,x2)间的关系可用下式表示:x1x2F1F2A是正交矩阵,满足第29页/共111页第30页/共111页计算步骤计算步骤:(1 1)作数据标准化。)作数据标准化。(2 2)计算变量之间的相关系数矩阵)计算变量之间的相关系数矩阵(3 3)用)用JacobiJacobi法计算相关系数矩阵法计算相关系数矩阵R R的特征值的特征值j j及及对应的特征向量对应的特征向量u uj j(j=1,2,p)(j=1,2,p)即可得主成分即可得主成分F Fj j,其表达式为其表达式为:第31页/共111页(4 4)计算前)计算前m m个特征值所占的累计百分比:个特征值所占的累计百分比:(5 5)计算各个样品在)计算各个样品在m m个主成分上的得分,第个主成分上的得分,第i i个样个样品的第品的第j j个主成分为个主成分为:(6 6)利用前)利用前m m个主成分作地质解释或利用样品在主成分上的得分对样品进行个主成分作地质解释或利用样品在主成分上的得分对样品进行分类。分类。第32页/共111页第33页/共111页第34页/共111页第35页/共111页第36页/共111页第37页/共111页第38页/共111页第39页/共111页YOUR SITE HERE二、主成分分析的数学提法二、主成分分析的数学提法观测资料矩阵观测资料矩阵x1x2 xpCaseVar.12n确定应该构造多少个综合指标(主成分),并确定应该构造多少个综合指标(主成分),并如何构造出各主成分的表达式(用如何构造出各主成分的表达式(用x1,x2,xp表表示)示)第40页/共111页YOUR SITE HEREx1x2y2y1方差越大,所包含的信息量就越大主成分分析主成分分析第41页/共111页YOUR SITE HERE我们希望用我们希望用y1来代替原来来代替原来p个变量个变量x1,x2,xp,这,这就要求在向量就要求在向量l1的正则化条件下,的正则化条件下,y1的方差尽可的方差尽可能大,由此确定的随机变量能大,由此确定的随机变量y1称为第一主成分。称为第一主成分。如果第一主成分还不足以反映原来如果第一主成分还不足以反映原来p个变量的信个变量的信息,那么考虑第二主成分。为了有效反映原变量息,那么考虑第二主成分。为了有效反映原变量的信息,新变量的信息,新变量y1和和y2所包含的信息不应重叠,所包含的信息不应重叠,即要求即要求y1和和y2不相关。前述两个约束条件下求不相关。前述两个约束条件下求l2使使Var(y2)达到最大,从而得到第二主成分。达到最大,从而得到第二主成分。第42页/共111页YOUR SITE HERE以此类推,我们最多可以找出以此类推,我们最多可以找出p个个yi出来。出来。然而我们最多只选择然而我们最多只选择k个个yi(i=1,2,k,k0。第43页/共111页YOUR SITE HERE对对p个指标,经过适当线性组个指标,经过适当线性组合,合,p个新变量为个新变量为这里这里y1,y2,yp分分别别称称为为第第一一主主成成分分、第第二二主主成成分分、第第p主主成分。成分。lij 称为第称为第 i 个主成分个主成分 yi 在第在第 j 个原始变量个原始变量 xj 上的上的载荷载荷(主成分载荷),是(主成分载荷),是第第i个特征向量的第个特征向量的第j个分量个分量。第44页/共111页YOUR SITE HERE其中,其中,样本协方差矩阵样本协方差矩阵样本相关矩阵样本相关矩阵对标准化数据矩阵:对标准化数据矩阵:新变量(随机变量)新变量(随机变量)yi的方差与协方差的方差与协方差第45页/共111页YOUR SITE HERE一般地,在约束条件一般地,在约束条件(向量l的正则化)(yi和yk所包含的信息不应重叠,即yi和yk不相关)之下求向量之下求向量li,使使Var(yi)达到达到最大,由此向最大,由此向量量li所确定的所确定的称为称为x1,x2,xp的第的第i个主成分。个主成分。第46页/共111页YOUR SITE HERE三、主成分的性质三、主成分的性质 Y=LX,LL=I。这里,这里,L为为X的协差阵的的协差阵的特征向量(单位化的)组特征向量(单位化的)组成的正交阵。成的正交阵。y 的各分量之间是互不的各分量之间是互不相关的。相关的。y 的的 p 个分量是按方差个分量是按方差大小、由大到小排列的。大小、由大到小排列的。y 的协差阵为对角阵。的协差阵为对角阵。第47页/共111页YOUR SITE HERE第第k个主成分个主成分的方差贡献率的方差贡献率前前k个主成分个主成分的累积方差贡的累积方差贡献率献率(一般取一般取80%,85%)这里,这里,a(yi,xj)表示第表示第 i 个主成分个主成分 yi 和第和第 j 个原始变量个原始变量 xj 之间的线之间的线性相关系数,称为因子载荷。矩性相关系数,称为因子载荷。矩阵阵A=(aij)称为因子载荷矩阵称为因子载荷矩阵标准化:消除量纲和数标准化:消除量纲和数量级上的影响,量级上的影响,sii=1(kp)系统总方差不变系统总方差不变(i,j=1,2,p)第48页/共111页YOUR SITE HERE对原始数据进行标准化变换对原始数据进行标准化变换计算个变量间的相关系数,形成相关系数矩阵计算个变量间的相关系数,形成相关系数矩阵R。求出求出R的特征值并按大小排列及相应于的单位特征向的特征值并按大小排列及相应于的单位特征向量。即可得主成分的表达式。量。即可得主成分的表达式。将特征值按大小降序排列,计算前将特征值按大小降序排列,计算前k个特征值之和占个特征值之和占特征值总和的百分数,一般按累积方差贡献率大于特征值总和的百分数,一般按累积方差贡献率大于85%(或(或80%)的准则,来确定)的准则,来确定k,从而建立前,从而建立前k个主个主成分:成分:四、主成分的计算步骤四、主成分的计算步骤第49页/共111页YOUR SITE HERE计算各个样品在计算各个样品在k个主成分上的得分。第个主成分上的得分。第i个样品的第个样品的第j个主成分得分为个主成分得分为:从而可得新指标(主成分)样本值从而可得新指标(主成分)样本值(yij)nxk以代替原样本以代替原样本值值(xij)nxp作统计分析。作统计分析。对前对前k个主成分进行地质解释并对样品进行分类。个主成分进行地质解释并对样品进行分类。四、主成分的计算步骤四、主成分的计算步骤第50页/共111页YOUR SITE HERE(A)Sn,(B)As,(C)Cu,(D)Pb,(E)Zn,(E)Cd.三角符号表示锡三角符号表示锡矿床,粗黑线条矿床,粗黑线条表示断层表示断层四、应用实例四、应用实例第51页/共111页YOUR SITE HERE第52页/共111页YOUR SITE HERE第一主成分第一主成分第53页/共111页YOUR SITE HERE第三节 因子分析第54页/共111页YOUR SITE HERE一、因子分析的基本思想一、因子分析的基本思想对于直接可观测的随机变量,根据其相关性大对于直接可观测的随机变量,根据其相关性大小,使得同组内的变量之间相关性较高,不同小,使得同组内的变量之间相关性较高,不同组的变量相关性较低。每组变量代表一个基本组的变量相关性较低。每组变量代表一个基本结构,用一个结构,用一个不可观测不可观测的综合变量表示,这个的综合变量表示,这个基本结构称为基本结构称为公因子公因子。于是,原始观测的随机变量于是,原始观测的随机变量X可分解为不可观测可分解为不可观测(或未做观测)的两个随机向量的线性组合:(或未做观测)的两个随机向量的线性组合:一是对整个一是对整个X有影响的公共因素有影响的公共因素公因子;公因子;二是只对各对应分量有影响的特殊因素二是只对各对应分量有影响的特殊因素特特殊因子。殊因子。第55页/共111页YOUR SITE HEREF1F2第56页/共111页YOUR SITE HERE建立因子载荷矩阵建立因子载荷矩阵给出各公共因子的合理解释及命名给出各公共因子的合理解释及命名若有必要(当难以招到合理解释的公共因子)时,若有必要(当难以招到合理解释的公共因子)时,进一步作因子旋转。进一步作因子旋转。因子分析的基本任务是:因子分析就是寻找这些公共因子的模型分析方法,它是在主成分的基础上构筑若干意义较为明确的公因子,以它们为框架分解原变量,以此考察原变量间的联系与区别。第57页/共111页百米跑成绩X X1 1跳远成绩X X2 2铅球成绩X X3 3跳高成绩X X4 4400米跑成绩X X5 5百米跨栏X X6 6铁饼成绩X X7 7撑杆跳远成绩X X8 8标枪成绩X X9 91500米跑成绩X X1010 奥运会十项全能运动项目奥运会十项全能运动项目得分数据的因子分析得分数据的因子分析 第58页/共111页 因子载荷矩阵可以看出,除第一因子在所有的变量在公共因子上有较大的正载荷,可因子载荷矩阵可以看出,除第一因子在所有的变量在公共因子上有较大的正载荷,可以称为一般运动因子。其他的以称为一般运动因子。其他的3 3个因子不太容易解释。似乎是跑和投掷的能力对比,似乎个因子不太容易解释。似乎是跑和投掷的能力对比,似乎是长跑耐力和短跑速度的对比。于是考虑旋转因子,得下表是长跑耐力和短跑速度的对比。于是考虑旋转因子,得下表 第59页/共111页 通过旋转通过旋转,因子有了较为明确的含义因子有了较为明确的含义:X1百百米米跑跑,X2跳跳远远和和X5 400米米跑跑,需需要要爆爆发发力力的的项项目目在在F1有较大的载荷有较大的载荷,F1可以称为可以称为短跑速度因子短跑速度因子;X3铅铅球球,X7铁铁饼饼和和 X9 标标枪枪在在 F2上上有有较较大大的的载载荷荷,可可以以称为称为爆发性臂力因子爆发性臂力因子;X6百百米米跨跨栏栏,X8撑撑杆杆跳跳远远,X2跳跳远远和和X4跳跳高高在在F3上上有有较大的载荷,较大的载荷,F3爆发腿力因子爆发腿力因子;F4 长跑耐力因子长跑耐力因子第60页/共111页设对研究对象的设对研究对象的n个样品测试了个样品测试了p个变量个变量x1,x2,xp,可认为这,可认为这p个变量共同起个变量共同起因于因于m因子因子(即因素即因素)F1,F2,Fm.假定这假定这m个公因子个公因子(可理解为新的变量可理解为新的变量)对每个指标对每个指标(变量变量)的影响或作用是线性的影响或作用是线性的的(我们总是讨论线性模型我们总是讨论线性模型),那么,因,那么,因子分析模型可以表示为:子分析模型可以表示为:二、二、R型因子分析的数学提法型因子分析的数学提法第61页/共111页YOUR SITE HERE称为因子模型。称为因子模型。矩阵形式矩阵形式第62页/共111页YOUR SITE HERE(1)x=(x1,x2,xp)是可观测随机向量,均值是可观测随机向量,均值向量向量E(x)=0,协方差阵,协方差阵 Cov(X)=,且,且协方差阵协方差阵与相关矩阵相等与相关矩阵相等(因子分析通常要先对观(因子分析通常要先对观测资料数据作标准化处理);测资料数据作标准化处理);(2)F=(F1,F2,Fm)(mp)是不可测的向量,是不可测的向量,其均值向量其均值向量E(F)=0,协方差矩阵,协方差矩阵 Cov(F)=I,即向量的各分量是相互独立的即向量的各分量是相互独立的;(3)=(1,2,p)与与F相互独立相互独立Cov(F,)=0,且且E()=0,e的协方差阵的协方差阵是对角阵是对角阵,即各分量,即各分量e之间是相互独立的。之间是相互独立的。假定条件假定条件第63页/共111页YOUR SITE HERE因子载荷因子载荷第第i个变量在第个变量在第j个公因子上的载荷个公因子上的载荷 A中元素中元素aij称为称为第64页/共111页YOUR SITE HERE主成分模型主成分模型特征向量约束条件特征向量约束条件从而,每个原始变量亦可用各主成分从而,每个原始变量亦可用各主成分F1,F2,Fp的线性的线性组合来表示组合来表示实际上,我们不需要实际上,我们不需要p个主成分,按累积个主成分,按累积方差贡献取前方差贡献取前m个主成分。个主成分。从主成分分析模型到因子分析模型从主成分分析模型到因子分析模型第65页/共111页YOUR SITE HERE这这m个主成分对应的数据矩阵就是将特征向量矩阵剖分成:个主成分对应的数据矩阵就是将特征向量矩阵剖分成:(i=1,2,p)于是于是使得模型中使得模型中FA和和FB因子中各变量都是标准化,因子中各变量都是标准化,即即均值为均值为0,方差为,方差为1,可得,可得R型因子模型:型因子模型:从主成分分析模型到因子分析模型从主成分分析模型到因子分析模型第66页/共111页YOUR SITE HERE称为因子模型。称为因子模型。矩阵形式矩阵形式因子分析因子分析二、二、R型因子分析的数学提法型因子分析的数学提法公因子、公共公因子、公共因子或潜因子因子或潜因子特殊因子特殊因子唯一因子唯一因子原始观测变量原始观测变量共性共性个性个性第67页/共111页YOUR SITE HERE因子载荷因子载荷第第i个变量在第个变量在第j个个公因子上的载荷公因子上的载荷 A中元素中元素aij称为称为略去特殊因子部分,略去特殊因子部分,因子分析的简化模型因子分析的简化模型(m0)和相应的标准正交的特征向量li;八、因子分析的步骤第83页/共111页YOUR SITE HERE确定公共因子数m(按前m个特征值之和占特征值总和的百分比来确定);求出主因子载荷矩阵A=aij;计算公共因子的共性方差hi2,是否接近于1;对载荷矩阵进行旋转,以求能更好地解释公共因子;计算因子得分;对公共因子作出专业性的解释。第84页/共111页YOUR SITE HERE相关性度量:变量间的方差相关性度量:变量间的方差-协方差、相关系数协方差、相关系数相关性度量:夹角余弦和各种距离系数相关性度量:夹角余弦和各种距离系数R型因子分析控矿地质因素分析R型因子分析是主成分分析的发展Q型因子分析圈定远景区研究变量之间的成因分类研究样品之间的成因分类第85页/共111页焦家金矿矿化元素因子分析焦家金矿矿化元素因子分析地质找矿论丛,2008年 02期 焦家金矿位于胶东西北部,是“焦家式破碎带热液蚀变岩型”金矿的命名地。它以规模巨大、矿体形态简单、矿化连续、稳定等特点明显有别于石英脉金矿。第86页/共111页在水平上,以断面为中心向外依次出现绢英岩化带、钾化-绢英岩化-硅化带、硅化-钾化带、正常花岗岩带;在垂向上,蚀变分带不是很发育,随着深部韧性变形作用加强,蚀变的强度和规模都逐渐减小。第87页/共111页第88页/共111页第89页/共111页第90页/共111页第91页/共111页第92页/共111页第93页/共111页第94页/共111页第95页/共111页第96页/共111页第97页/共111页YOUR SITE HERE第四节 对应分析第98页/共111页YOUR SITE HERE对应分析是在对应分析是在R型因子分析和型因子分析和Q型因子分析型因子分析的基础上发展起来的、能够揭示变量与样的基础上发展起来的、能够揭示变量与样品之间双重关系的一种多元统计方法。品之间双重关系的一种多元统计方法。第99页/共111页YOUR SITE HERE可提供以下信息:可提供以下信息:变量间的关系:空间上邻近的一些变量点,表变量间的关系:空间上邻近的一些变量点,表示这些变量紧密相关,即它们具有成因上的联系,示这些变量紧密相关,即它们具有成因上的联系,指示某一特定的地质作用;指示某一特定的地质作用;样品间的关系:邻近的样品点具有相似的性质,样品间的关系:邻近的样品点具有相似的性质,属同一类型,是同样地质作用的产物;属同一类型,是同样地质作用的产物;变量与样品之间的关系:同一类型的样品点将变量与样品之间的关系:同一类型的样品点将为邻近的变量点所表征。也就是说,同类样品点为邻近的变量点所表征。也就是说,同类样品点为其邻近变量点所指示的地质作用下的产物。为其邻近变量点所指示的地质作用下的产物。更重要的是,可在同一图上表示出上述三种信息,更重要的是,可在同一图上表示出上述三种信息,从而可同时进行分类及地质推断解释。从而可同时进行分类及地质推断解释。第100页/共111页YOUR SITE HERER型和Q型对应关系的对偶定理 第101页/共111页YOUR SITE HERE第102页/共111页YOUR SITE HEREG2 F2G2 F20 0.2-0.20.20.4-0.2-0.412345678111012913123456789图3.2.3 对应分析的R型因子载荷和Q型因子载荷图(圆点为样品点,三角为变量点)第103页/共111页YOUR SITE HERE主成分分析是将主分量表示为原观测变量的线性组合,主成分分析是将主分量表示为原观测变量的线性组合,而因子分析是将原观测变量表示为公共因子的线性组合;而因子分析是将原观测变量表示为公共因子的线性组合;主成分分析的主成分数主成分分析的主成分数m和原变量数和原变量数p相等,它是将一组相等,它是将一组具有相关性的变量变换为一组独立的变量,而因子分析的具有相关性的变量变换为一组独立的变量,而因子分析的目的是要使公共因子数。目的是要使公共因子数。m比原变量数比原变量数p小,而且要尽可小,而且要尽可能地选取小的能地选取小的m,以便尽可能地构造一个结构简单的模型。,以便尽可能地构造一个结构简单的模型。在主成分分析中,原观测变量对某一主成分的影响大小,在主成分分析中,原观测变量对某一主成分的影响大小,由该主成分相应的特征向量确定,而在因子分析中,原观由该主成分相应的特征向量确定,而在因子分析中,原观测变量在某一主因子上的载荷,由该主因子相应的特征向测变量在某一主因子上的载荷,由该主因子相应的特征向量确定。量确定。因子分析与主成分分析的差别第104页/共111页主成分分析和因子分析的区别 主成分分析的重点在于解释各变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。主成分分析中不需要有假设(assumptions),(assumptions),因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factorspecific factor)之间也不相关,共同因子和特殊因子之间也不相关在因子分析中,因子个数需要分析者指定(spssspss根据一定的条件自动设定,只要是特征值大于1 1的因子进入分析),而指 定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。第105页/共111页和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这中情况也可以使用因子得分做到。所以这中区分不是绝对的。第106页/共111页总得来说,主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a a,了解数据。b,b,和cluster analysiscluster analysis一起使用,c c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化.d,d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。第107页/共111页 因子分析是十分主观的,在许多出版的资料中,因子分析模型都用少数因子分析是十分主观的,在许多出版的资料中,因子分析模型都用少数可阐述因子提供了合理解释。实际上,绝大多数因子分析并没有产生如此明确可阐述因子提供了合理解释。实际上,绝大多数因子分析并没有产生如此明确的结果。不幸的是,评价因子分析质量的法则尚未很好量化,质量问题只好依的结果。不幸的是,评价因子分析质量的法则尚未很好量化,质量问题只好依赖一个赖一个“哇!”准则 如果在仔细检查因子分析的时候,研究人如果在仔细检查因子分析的时候,研究人员能够喊出员能够喊出“哇,我明白这些因子哇,我明白这些因子”的时候,的时候,就可看着是成功运用了因子分析方法。就可看着是成功运用了因子分析方法。第108页/共111页YOUR SITE HEREF1x1x2x3F2主成分分析主成分分析 V.S.因子分析因子分析归纳综合F1x1x2x3F2133分解演绎第109页/共111页YOUR SITE HERE第110页/共111页感谢您的观看!第111页/共111页