因子分析法预测.pptx
《因子分析法预测.pptx》由会员分享,可在线阅读,更多相关《因子分析法预测.pptx(111页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、YOUR SITE HERE第一节 引言第1页/共111页YOUR SITE HERE回归分析因果因子分析由因索果执果析因第2页/共111页YOUR SITE HERE方阵的特征值和特征向量对于对于n阶方阵阶方阵AA x=l l x特征值特征值实数实数(也可以是复数)(也可以是复数)特征向量特征向量n维非零向量维非零向量可以用从一点指向可以用从一点指向另一点的箭头来表另一点的箭头来表示示 缩放因子矩阵乘法对应了一个变换,把一个向量变成同维数的另一个向量 第3页/共111页YOUR SITE HERE一个变换的特征向量是这样一种向量,一个变换的特征向量是这样一种向量,它它经过这种特定的变换后保持
2、方向不变经过这种特定的变换后保持方向不变,只是进行只是进行长度上的伸缩而已长度上的伸缩而已。特征向量特征向量所指示的方向所指示的方向是更本质的东西,特征值是更本质的东西,特征值只不过反映了特征向量在变换时的伸缩倍数。只不过反映了特征向量在变换时的伸缩倍数。特征方程特征方程|A-l lI|=0 的解为特征值的解为特征值l l;满足满足(A-l liI)xi=0 的向量的向量xi为为l li的特的特征量。征量。第4页/共111页YOUR SITE HEREn阶方阵阶方阵A有且恰有有且恰有n个特征个特征值;值;AT与与A有相同的特征值;有相同的特征值;n阶方阵阶方阵A=(aij)nxn的迹等于的迹等
3、于其特征值之和;其特征值之和;实对称矩阵实对称矩阵A的特征值都是的特征值都是实数;实数;实对称矩阵实对称矩阵A的不同特征值的不同特征值所对应的特征向量都正交。所对应的特征向量都正交。因此,其特征值可以排序:因此,其特征值可以排序:l l1 l l2 l lp因此,存在正交矩阵因此,存在正交矩阵P,使,使得得P-1AP=(以以A的的n个特个特征值为对角元素的对角阵征值为对角元素的对角阵)第5页/共111页YOUR SITE HERE地质成因是地质学研究的根本问题之一。地质成因是地质学研究的根本问题之一。理性认识理性认识感性认识感性认识内在本质内在本质外在表象外在表象从定量角度对各地质变量进行成因
4、分析,所建立的从定量角度对各地质变量进行成因分析,所建立的数学模型一般有数学模型一般有主成分分析(又称主分量分析)因子分析(R型、Q型)对应分析第6页/共111页YOUR SITE HERE在如此多的地质变量之中,有很多是相关的。在如此多的地质变量之中,有很多是相关的。人们希望能够找出它们的人们希望能够找出它们的少数少数“代表代表”来对它来对它们进行描述。们进行描述。需要把这种有需要把这种有很多变量很多变量的数据进行的数据进行高度概括高度概括。一般情形下,每个变量都会提供一定的信息,一般情形下,每个变量都会提供一定的信息,但其重要程度与侧重有所不同,且这些变量所但其重要程度与侧重有所不同,且这
5、些变量所提供的信息在一定程度上有所重叠。提供的信息在一定程度上有所重叠。把所有指标和数字都原封不动地摆出去吗?把所有指标和数字都原封不动地摆出去吗?第7页/共111页YOUR SITE HERE利用相关性来对所涉及的变量加以“改造”和“组合”。用为数较少的、互不相关(或基本不相关)的新变量来“代表”原来多个变量所提供的信息。通过对新变量的分析达到合理分析和数据解释的目的。相关相关互不相关互不相关第8页/共111页YOUR SITE HERE潜在的、可导出的潜在的、可导出的(latent、derived)少量少量不相关不相关取主舍次取主舍次识别、分离识别、分离隐性的隐性的基因的基因的可观测的(o
6、bserved)大量相关主次杂乱混合、叠加显性的多样化的地质资料观测变量地质资料观测变量因子因子两类变量的不同特性两类变量的不同特性执果析因第9页/共111页YOUR SITE HERE最早提出:最早提出:J.Person(皮尔逊皮尔逊),主成分分析,主成分分析,1901、S.Spearman(斯卑尔曼斯卑尔曼),真因子分析,真因子分析,1904年,用于心年,用于心理学研究;理学研究;Benzeci(贝尔凯斯贝尔凯斯),对应分析,对应分析,1970。因子分析最早引入地质领域:因子分析最早引入地质领域:W.C.Krumbren(克伦(克伦宾),宾),1957年,研究沉积学。年,研究沉积学。应用发
7、展的重要地质人物:应用发展的重要地质人物:J.Imbrie(英布里英布里)发展简史已成为地质学等领域中传播最快、应用最广的多元统计方法之一。第10页/共111页YOUR SITE HERE基本概念是一种常用的处理高维数据的多元统计分是一种常用的处理高维数据的多元统计分析方法。析方法。是一种化繁为简,将指标尽可能压缩的降是一种化繁为简,将指标尽可能压缩的降维(即空间压缩)技术。维(即空间压缩)技术。把数目较多的变量作线性组合,组合成几把数目较多的变量作线性组合,组合成几个主要的新变量个主要的新变量主成分,少数几个主主成分,少数几个主成分代表了原有变量变化的主要信息。成分代表了原有变量变化的主要信
8、息。又称主分量分析。又称主分量分析。主成分分析(Principal Component Analysis)作用:降维作用:降维第11页/共111页YOUR SITE HERE信息的大小如何度量?信息的大小如何度量?从统计分析角度看,一个指标(看作随机变从统计分析角度看,一个指标(看作随机变量)或一串数据所包含的信息,可以用差异量)或一串数据所包含的信息,可以用差异的大小的大小方差来度量。方差来度量。方差越大,所包含的信息量就越大;方差越大,所包含的信息量就越大;方差越小,所包含的信息量就越小。方差越小,所包含的信息量就越小。数学物理化学总分甲807060210乙707060200丙607060
9、200第12页/共111页YOUR SITE HEREx1x2y2y1第13页/共111页YOUR SITE HERE是一种常用的处理高维数据的多元统计分析方法。是一种常用的处理高维数据的多元统计分析方法。是一种探索不易观测或不能观测的潜在因素,用有限是一种探索不易观测或不能观测的潜在因素,用有限个隐变量来解释原始变量之间相关关系的技术。个隐变量来解释原始变量之间相关关系的技术。是通过对地质观测数据的分析来建立一个成因系统。是通过对地质观测数据的分析来建立一个成因系统。它能把原来具有一定程度相关联系的地质变量转换为它能把原来具有一定程度相关联系的地质变量转换为数量较少的由原始地质变量组合而成的
10、新变量数量较少的由原始地质变量组合而成的新变量因因子,用它们来代替原始变量,各因子之间基本上是不子,用它们来代替原始变量,各因子之间基本上是不相关的(基本独立)。相关的(基本独立)。又称析因分析。又称析因分析。因子分析(Factor Analysis)基本概念第14页/共111页YOUR SITE HERE相关性度量:变量间的方差相关性度量:变量间的方差-协方差、相关系数协方差、相关系数相关性度量:夹角余弦和各种距离系数相关性度量:夹角余弦和各种距离系数R型因子分析R型因子分析是主成分分析的发展Q型因子分析研究变量之间的成因分类研究样品之间的成因分类因子分析分类第15页/共111页YOUR S
11、ITE HERECIMFEABDKLGJN形状因子1 因子2 因子3 2 +0 +0CHH 2 +1 +1第16页/共111页YOUR SITE HERE沉积盆地与剥蚀区示意图F1F2F3xj=f(F1,F2,F3,)第17页/共111页YOUR SITE HEREMgCO3SiO2CaCO3COMgCaSi碳酸盐演示分类三角图解第18页/共111页YOUR SITE HERER2R1R14Si-11(Na+K)-2(Fe+Ti)R2(Al+2Mg+6Ca)侵入岩分类R1-R2图解(De la Roche等,1980)第19页/共111页YOUR SITE HERE因子分析典型应用问题因子分析
12、典型应用问题沉积盆地蚀源区的研究沉积盆地蚀源区的研究沉积物粒度分析沉积物粒度分析沉积相研究沉积相研究地层分析地层分析古生物与古环境的研究古生物与古环境的研究岩石化学成分的研究岩石化学成分的研究变质岩原岩恢复变质岩原岩恢复矿床成因研究矿床成因研究矿物的类质同象研究矿物的类质同象研究地球化学地球化学等等识别矿化活动的阶段和类型识别矿化活动的阶段和类型分析成矿控制因素分析成矿控制因素识别地层剖面上发生的气候、水体识别地层剖面上发生的气候、水体深度、物质来源,水动力学条件等深度、物质来源,水动力学条件等沉积环境因素的细微变化。沉积环境因素的细微变化。识别在同一时间点上不同空间过程识别在同一时间点上不同
13、空间过程的叠加过程;识别蚀源区的个数、的叠加过程;识别蚀源区的个数、岩石类型、分布岩石类型、分布识别岩浆岩的形成过程,识别岩浆岩的形成过程,诸如岩浆的诸如岩浆的异源叠加,或同源多期侵入,分异作用,交异源叠加,或同源多期侵入,分异作用,交代作用,同化作用,交代识别作用,矿化活代作用,同化作用,交代识别作用,矿化活动等动等;岩浆岩的分类;岩浆岩的分类识别在同一空间点上不同时间识别在同一空间点上不同时间过程的叠加过程过程的叠加过程第20页/共111页YOUR SITE HERE作用:作用:用最精炼的形式描述地质对象用最精炼的形式描述地质对象(压缩原始(压缩原始数据,降维技术)数据,降维技术)指示成因
14、推理方向指示成因推理方向(探索潜在因素、进行(探索潜在因素、进行成因分类、思考成因结论)成因分类、思考成因结论)分解叠加的地质过程分解叠加的地质过程(例如:得到矿物共(例如:得到矿物共生组合变量生组合变量划分不同成矿阶段划分不同成矿阶段不同地质不同地质过程分解、时空分解)过程分解、时空分解)等等第21页/共111页YOUR SITE HERE是在是在R型因子分析和型因子分析和Q型因子分析的基础上发型因子分析的基础上发展起来的,能够揭示变量与样品之间双重关系展起来的,能够揭示变量与样品之间双重关系的一种多元统计方法。的一种多元统计方法。又称又称R-Q型因子分析。型因子分析。对应分析(Corres
15、pondence Analysis)基本概念第22页/共111页因子分析是研究系统分类、成因分因子分析是研究系统分类、成因分类的重要手段,在地质研究中的作类的重要手段,在地质研究中的作用:用:第一、压缩原始数据。第一、压缩原始数据。第二、指示成因推理方向。第二、指示成因推理方向。第三、分解叠加的地质过程。第三、分解叠加的地质过程。第23页/共111页因子分析因子分析是研究变量间相关关系、样品间相似关是研究变量间相关关系、样品间相似关系、变量与样品间成因联系以及探索它们之间产系、变量与样品间成因联系以及探索它们之间产生上述关系之内在原因的一些多元统计分析方法生上述关系之内在原因的一些多元统计分析
16、方法的总称的总称.根据它们的的研究对象可分为:根据它们的的研究对象可分为:(1 1)、)、主成分分析;主成分分析;(2 2)、)、R R型因子分析;型因子分析;(3 3)、)、Q Q型因子分析;型因子分析;(4 4)、)、对应分析;对应分析;第24页/共111页因子分析在地质研究中的应用:因子分析在地质研究中的应用:第25页/共111页YOUR SITE HERE第二节 主成分分析第26页/共111页2 2 主成分分析主成分分析地质中经常要作多变量的综合分析,这些变量经常是不独立的,存在复杂的相关关系。为了化繁为简,用一种数学方法把数目较多的变量作线性组合,组合成几个主要的新变量主成分。第27
17、页/共111页YOUR SITE HERE一、主成分分析的基本思想一、主成分分析的基本思想构造构造关于原始变量的适当的线性组合关于原始变量的适当的线性组合,形成几,形成几个新变量(即所谓的主成分),它们是我们用个新变量(即所谓的主成分),它们是我们用来代替原始变量进行资料解释的综合性指标。来代替原始变量进行资料解释的综合性指标。这一分析过程应使得这一分析过程应使得每个新变量都是各原始变量的线性组合每个新变量都是各原始变量的线性组合新变量的数目大大少于原始变量的数据新变量的数目大大少于原始变量的数据新变量保留了原始变量所包含的绝大部分信息新变量保留了原始变量所包含的绝大部分信息新变量之间互不相关
18、,即各自含义的信息不重叠。新变量之间互不相关,即各自含义的信息不重叠。第28页/共111页主成分的几何意义:(1)N个点的新坐标F1和F2的相关很小,几乎为零。(2)在新坐标系中N个点的波动(方差)大部分归结为F1的波动,F2的波动很小,故用F1就可以反映变化的大部分信息。(3)由于是正交坐标系,坐标(F1,F2)与(x1,x2)间的关系可用下式表示:x1x2F1F2A是正交矩阵,满足第29页/共111页第30页/共111页计算步骤计算步骤:(1 1)作数据标准化。)作数据标准化。(2 2)计算变量之间的相关系数矩阵)计算变量之间的相关系数矩阵(3 3)用)用JacobiJacobi法计算相关
19、系数矩阵法计算相关系数矩阵R R的特征值的特征值j j及及对应的特征向量对应的特征向量u uj j(j=1,2,p)(j=1,2,p)即可得主成分即可得主成分F Fj j,其表达式为其表达式为:第31页/共111页(4 4)计算前)计算前m m个特征值所占的累计百分比:个特征值所占的累计百分比:(5 5)计算各个样品在)计算各个样品在m m个主成分上的得分,第个主成分上的得分,第i i个样个样品的第品的第j j个主成分为个主成分为:(6 6)利用前)利用前m m个主成分作地质解释或利用样品在主成分上的得分对样品进行个主成分作地质解释或利用样品在主成分上的得分对样品进行分类。分类。第32页/共1
20、11页第33页/共111页第34页/共111页第35页/共111页第36页/共111页第37页/共111页第38页/共111页第39页/共111页YOUR SITE HERE二、主成分分析的数学提法二、主成分分析的数学提法观测资料矩阵观测资料矩阵x1x2 xpCaseVar.12n确定应该构造多少个综合指标(主成分),并确定应该构造多少个综合指标(主成分),并如何构造出各主成分的表达式(用如何构造出各主成分的表达式(用x1,x2,xp表表示)示)第40页/共111页YOUR SITE HEREx1x2y2y1方差越大,所包含的信息量就越大主成分分析主成分分析第41页/共111页YOUR SIT
21、E HERE我们希望用我们希望用y1来代替原来来代替原来p个变量个变量x1,x2,xp,这,这就要求在向量就要求在向量l1的正则化条件下,的正则化条件下,y1的方差尽可的方差尽可能大,由此确定的随机变量能大,由此确定的随机变量y1称为第一主成分。称为第一主成分。如果第一主成分还不足以反映原来如果第一主成分还不足以反映原来p个变量的信个变量的信息,那么考虑第二主成分。为了有效反映原变量息,那么考虑第二主成分。为了有效反映原变量的信息,新变量的信息,新变量y1和和y2所包含的信息不应重叠,所包含的信息不应重叠,即要求即要求y1和和y2不相关。前述两个约束条件下求不相关。前述两个约束条件下求l2使使
22、Var(y2)达到最大,从而得到第二主成分。达到最大,从而得到第二主成分。第42页/共111页YOUR SITE HERE以此类推,我们最多可以找出以此类推,我们最多可以找出p个个yi出来。出来。然而我们最多只选择然而我们最多只选择k个个yi(i=1,2,k,k0。第43页/共111页YOUR SITE HERE对对p个指标,经过适当线性组个指标,经过适当线性组合,合,p个新变量为个新变量为这里这里y1,y2,yp分分别别称称为为第第一一主主成成分分、第第二二主主成成分分、第第p主主成分。成分。lij 称为第称为第 i 个主成分个主成分 yi 在第在第 j 个原始变量个原始变量 xj 上的上的
23、载荷载荷(主成分载荷),是(主成分载荷),是第第i个特征向量的第个特征向量的第j个分量个分量。第44页/共111页YOUR SITE HERE其中,其中,样本协方差矩阵样本协方差矩阵样本相关矩阵样本相关矩阵对标准化数据矩阵:对标准化数据矩阵:新变量(随机变量)新变量(随机变量)yi的方差与协方差的方差与协方差第45页/共111页YOUR SITE HERE一般地,在约束条件一般地,在约束条件(向量l的正则化)(yi和yk所包含的信息不应重叠,即yi和yk不相关)之下求向量之下求向量li,使使Var(yi)达到达到最大,由此向最大,由此向量量li所确定的所确定的称为称为x1,x2,xp的第的第i
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 因子分析 预测
限制150内