《探索性因子分析》PPT课件.ppt
因子分析介绍因子分析介绍1探索性因子分析的基本理论探索性因子分析的基本理论2探索性因子分析的结构及步骤探索性因子分析的结构及步骤34目目 录录实例演示实例演示因子分析因子分析 概念概念 用于分析影响变量、支配变量的共同因子有几个且各因子本质为何的一种统计方法。它是一类降维的相关分析技术,用来考察一组变量之间的协方差或相关系数结构,并用以解释这些变量与为数较少的因子之间的关联。基本思想基本思想 通过分析变量间的相关系数矩阵内部结构,将原变量进行重新组合,利用数学工具将众多的原变量组成少数的独立的新变量。探索性因子分析法(Exploratory Factor Analysis,EFA)是一项用来找出多元观测变量的本质结构、并进行处理降维的技术。特点:(1)利用因子分析来确定因子个数降维(2)完全依赖资料数据探索性因子分析的理论假设探索性因子分析的理论假设主要包括:所有的公共因子都相关(或都不相关);所有的公共因子都直接影响所有的观测变量;特殊(唯一性)因子之间相互独立;所有观测变量只受一个特殊(唯一性)因子的影响;公共因子与特殊因子(唯一性)相互独立。探索性因子分析基本原理探索性因子分析基本原理探索性因子分析模型的一般表达式为 其中,Xn表示观测变量,FM代表公因子,它是各个观测变量所共有的因子,解释变量之间的相关;Un代表特殊因子,它是每个观测变量所特有的因子,只对一个原始变量起作用;WM代表因子载荷,是每个变量在公因子上的相关系数;而en代表了每一观测变量的随机误差。探索性因子分析模型 应用范围应用范围探索性因子分析主要应用于三个方面探索性因子分析主要应用于三个方面寻求基本结构,解决多元统计分析中的变量间强相关问题数据化简,将具有错综复杂关系的变量综合为少数几个因子(不可观测的、相互独立的随机变量)发展测量量表探索性因子分析探索性因子分析步骤步骤收集观测变量收集观测变量 判断是否适合作因子分析判断是否适合作因子分析构造相关矩阵构造相关矩阵确定因子个数确定因子个数因子旋转因子旋转提取因子提取因子解释因子结构解释因子结构计算因子得分计算因子得分 便于对因子结构进行合理解释便于对因子结构进行合理解释做进一步的研究,如聚类分析、评价做进一步的研究,如聚类分析、评价特征值大小、因子累计贡献率、碎石图特征值大小、因子累计贡献率、碎石图判断变量是否适合做因子分析判断变量是否适合做因子分析1.KMO(Kaiser-meyer-olkin)检验)检验 KMO统计量是用来比较各变量间简单相关系数和偏相关系数的大小。在01之间取值,越接近1,越适合作因子分析。2.巴特利特球形检验巴特利特球形检验 巴特利特球形检验原假设H0为:相关阵是单位阵,既各变量各自独立。3.反映象相关矩阵检验反映象相关矩阵检验 反映象相关矩阵检验是将偏相关系数矩阵的每个元素取反得到的。如果变量中确实能够提取出公共因子,那么偏相关系数必然很小,则反映象相关矩阵中的有些元素的绝对值比较大,则说明这些变量可能不适合作因子分析。确定因子个数确定因子个数主成分分析的主要统计量确定因子个数的方法(一)确定因子个数的方法(一)特征根特征根 特征根可以看成是表示公因子影响力度大小的指标,一般取特征值大于1的成分作为主成分,特征根小于1,不引入公因子的累积方差贡献率公因子的累积方差贡献率 根据累计贡献率达到的百分比确定实际上累积贡献率是一个次要指标。主要指标是特征值,在前一指标达到的情况下,只要累计贡献率不是太差都可以接受。即使70%也不是太大的问题。实际处理中,很少碰到累计贡献率太低的情况,如果问卷设计和数据收集没有太大问题的前提下。确定因子个数的方法(二)确定因子个数的方法(二)碎石图碎石图 碎石图是按特征值大小排列因子,横轴表示因子序号,纵轴表示特征值大小。确定因子个数的方法(三)确定因子个数的方法(三)公因子提取方法公因子提取方法主成分分析法主成分分析法 假设变量是因子的纯线性组合,第一成分有较大的方差,后续成分其可解释的方差逐个递减。最大似然法最大似然法 该方法不要求多元正态分布,给出参数估计。因子命名因子命名因子载荷阵显示了原始变量与各主成分之间的相关程度。根据他们的相关程度的大小,综合出各因子的含义。如果每个因子与原始变量相关系数没有很明显的差异,对因子命名就比较困难。Example 因子分析的一个重要目的在于对原始变量进行分门别类的综合评价。如果因子分析结果保证了因子之间的正交性,但对因子不易命名,可以通过对因子模型的旋转,得到容易解释的结果。因子旋转(一)因子旋转(一)所谓旋转就是一种坐标变换。因子旋转的目的是为了便于理解和解释因子的实际意义,在旋转后的新坐标系中,因子载荷将得到重新分配,使得对公因子的命名和解释更加容易。因子旋转通常分为两类因子旋转通常分为两类:正交旋转 Varimax方差最大旋转,它使每个因子上的具有最高载荷的变量数最小,可简化对因子的解释。斜交旋转正交旋转的基本假定是,因子分析中被提取出来的因子之间是相互独立的,因子间并不相关。它的目的是要获得因子的简单结构,即使每个变量在尽可能少的因子上有较高的负载;而斜交旋转中,因子间的夹角是任意的,也就是说斜交旋转对因子间是否相关并无限定,这种因子旋转的结果就会使各因子所解释的变量的方差出现一定程度的重叠。因子旋转(二)因子旋转(二)因子得分因子得分因子得分就是每个观测量的公共因子的值。根据因子得分系数和原始变量的标准化值,可以计算每个观测量的各因子的得分数,并可以据此对观测量进行进一步的分析。计算因子得分的基本思想是将因子变量表现为原有变量的线性组合,即通过以下的因子得分函数计算:(j=1,2p)回归法 因子得分的均值为0,方差等于估计因子得分与实际得分之间的多元相关的平方Bartlett法 因子得分均值为0,超出变量范围的特殊因子平方和被最小化Anderson-Rubin法 因子得分的均值为0,标准差为1,且彼此不相关。是为了保证因子的正交性而对Bartlett因子的调整。估计因子得分的方法估计因子得分的方法Example旋转后的因子表达式可以写成:探索性因子分析只能用来寻找和发现模型,不能用它来确定一下特定的模型是否合理。EFA后,要通过CFA进行交叉证实。实际应用中,做因子分析要求观测量数至少应该是变量数的5倍以上。实例演示实例演示中国西部10省经济生活水平研究