SPSS因子分析法比较的好一样的东西分值少.pdf
《SPSS因子分析法比较的好一样的东西分值少.pdf》由会员分享,可在线阅读,更多相关《SPSS因子分析法比较的好一样的东西分值少.pdf(36页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 S PS S 因 子 分 析 法-比 较 的 好-一 样 的 东 西 分 值 少 精品好资料-如有侵权请联系网站删除 精品好资料-如有侵权请联系网站删除 实验课:因子分析 实验目的 理解主成分(因子)分析的基本原理,熟悉并掌握 SPSS 中的主成分(因子)分析方法及其主要应用。因子分析 一、基 础理论知识 1 概念 因子分析(Factor analysis):就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。从数学角度来看,主成分分析是一种化繁为简的降维处理技术。主成分分析(Principal component analysis):是
2、因子分析的一个特例,是使用最多的因子提取方法。它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。两者关系:主成分分析(PCA)和因子分析(FA)是两种把变量维数降低以便于描述、理解和分析的方法,而实际上 主成分分析可以说是因子分析的一个特例。精品好资料-如有侵权请联系网站删除 精品好资料-如有侵权请联系网站删除 2 特点(1)因子变量的 数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。(2)因子变量不是对原始变量的取舍
3、,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。(3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。(4)因 子变量具有命名解释 性,即该变量是对某些原始变量信息的综合和反映。在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。显然,在一个低维空间解释系统要比在高维系统容易的多。3 类型 根据研究对象的不同,把因子分析分 为 R 型和 Q 型两种。当研究对象是变量时,属于 R 型因子分析;当研究对象是样品时,属于 Q 型因子分析。但有的因子分析方法兼有 R 型和 Q 型因子分析的
4、一些特点,如因子分析中的对应分析方法,有的学者称之为双重型因子分析,以示与其他两类的区别。精品好资料-如有侵权请联系网站删除 精品好资料-如有侵权请联系网站删除 4 分析原理 假定:有 n 个地理样本,每个样本共有 p 个变量,构成一个 n p 阶的地理数据矩阵:当 p 较大时,在 p 维空间中考察问题比较麻烦。这就需要进行降维处理,即用较少几个综合指标代替原来指标,而且使这些综合指标既能尽量多地反映原来指标所反映的信息,同时它们之间又是彼此独立的。线性组合:记 x1,x2,xP 为原变量指标,z1,z2,zm(m p)为新变量指标(主成分),则其线性组合为:Lij 是 原变量在各主成分上 的
5、载荷 无论是哪一种因子分析方法,其相应的因子解都不是唯一的,主因子解仅仅是无数因子解中之一。zi与 zj 相互无关;np n nppx x xx x xx x xX 2 12 22 211 12 11 p mp m m mp pp px l x l x l zx l x l x l zx l x l x l z2 2 1 12 2 22 1 21 21 2 12 1 11 1 p mp m m mp pp px l x l x l zx l x l x l zx l x l x l z2 2 1 12 2 22 1 21 21 2 12 1 11 1精品好资料-如有侵权请联系网站删除 精品好资
6、料-如有侵权请联系网站删除 z1 是 x1,x2,xp 的一切线性组合中方差最大者,z2 是与 z1 不相关的x1,x2,的所有线性组合中方差最大者。则,新变量指标 z1,z2,分别称为原变量指标的第一,第二,主成分。Z 为因子变量或公共因子,可以理解为在高维空间中互相垂直的 m 个坐标轴。主成分分析实质就是确定原来变量 xj(j=1,2,p)在各主成分 zi(i=1,2,m)上的荷载 lij。从数学上容易知道,从数学上也可以证明,它们分别是相关矩阵的 m 个较大的特征值所对应的特征向量。5 分析步骤 5.1 确定 待分析的原有若干变量 是否适合进行因子分析(第一步)因子分析是 从众多的原始变
7、量中重构少数几个具有代表意义的因子变量的过程。其潜在的要求:原有变量之间要具有比较强的相关性。因此,因子分析需要先进行相关分析,计算原始变量之间的相关系数矩阵。如果相关系数矩阵在进行统计检验时,大部分相关系数均 小于 0.3且未通过检验,则这些原始变量就不太适合进行因子分析。精品好资料-如有侵权请联系网站删除 精品好资料-如有侵权请联系网站删除 进行原始变量的相关分析 之前,需要对输入的原始数据进行标准化计算(一般采用标准差标准化方法,标准化后的数据均值为 0,方差为 1)。SPSS 在因子分析中还提供了几种判定是否适合因子分析的检验方法。主要有以下 3 种:巴特利特球形检验(Bartlett
8、 Test of Sphericity)反映象相关矩阵检验(Anti-image correlation matrix)KMO(Kaiser-Meyer-Olkin)检验(1)巴特利特球形检验 该检验以变量的相关系数矩阵作为出发点,它的零假设 H0 为相关系数矩阵是一个单位阵,即相关系数矩阵对角线上的所有元素都为 1,而所有非对角线上的元素都为 0,也即原始变量两两之间不相关。巴特利特球形检验的统计量是根据相关系数矩阵的行列式得到。如果该值较大,且其对应的相伴概率值小于用户指定的显著性水平,那么就应拒绝零假设 H0,认为相关系数不可能是单位阵,也即原始变量间存在相关性。(2)反映象相关矩阵检验
9、 pp p pppr r rr r rr r rR 2 12 22 211 12 11 nknkj kj i kinkj kj i kiijx x x xx x x xr1 12 21)()()(精品好资料-如有侵权请联系网站删除 精品好资料-如有侵权请联系网站删除 该检验以变量的偏相关系数矩阵作为出发点,将偏相关系数矩阵的每个元 素取反,得到反映象相关矩阵。偏相关系数是在控制了其他变量影响的条件下计算出来的相关系数,如果 变量之间存在较多的重叠影响,那么偏相关系数就会较小,这些变量越适合进 行因子分析。(3)KMO(Kaiser-Meyer-Olkin)检验 该检验的统计量用于比较变量之间的
10、简单相关和偏相关系数。KMO 值介于 0-1,越接近 1,表明所有变量之间简单相关系数平方和远大于偏相关系数平方和,越适合因子分析。其中,Kaiser 给出一个 KMO 检验标准:KMO0.9,非常适合;0.8KMO0.9,适合;0.7KMO0.8,一般;0.6KMO0.7,不太适合;KMO0)和相应的标准正交的特征向量 li;根据相关系数矩阵的特征根,即公共因子 Zj 的方差贡献(等精品好资料-如有侵权请联系网站删除 精品好资料-如有侵权请联系网站删除 于因子载荷矩阵 L 中第 j 列各元素的平方和),计算公共因子 Zj 的方差贡献率与累积贡献率。主成分分析是在一个多维坐标轴中,将原始变量组
11、成的坐标系进行平移变换,使得新的坐标原点和数据群点的重心重合。新坐标第一轴与数据变化最大方向对应。通过计算特征根(方差贡献)和方差贡献率与累积方差贡献率等指标,来判断选取公共因子的数量和公共因子(主成分)所能代表的原始变量信息。公共因子个数的确定准则:1)根据特征值的大小来确定,一般取大于 1 的特征值对应的几个公共因子/主成分。2)根据因子的累积方差贡献率来确定,一般取累计贡献率达 85-95%的特征值所对应的第一、第二、第 m(m p)个主成分。也有学者认为累积方差贡献率应在 80以上。5.3 因子变量的命名解释 因子变量的命名解释是因子分析的另一个核心问题。经过主成分分析得到的公共因子/
12、主成分 Z1,Z2,Zm 是对原有变量的综合。原有变量是有物理含义的变量,对它们进行线性变换后,得到的新的综合变量的物理含义到底是什么?),2,1(1p ipkki),2,1(11 p ipkkikk 精品好资料-如有侵权请联系网站删除 精品好资料-如有侵权请联系网站删除 在实际的应用分析中,主要通过对载荷矩阵进行分析,得到因子变量和原 有变量之间的关系,从而对新的因子变量进行命名。利用因子旋转方法能使因 子变量更具有可解释性。计算主成分载荷,构建载荷矩阵 A。计算主成分载荷,构建载荷矩阵 A。载荷矩阵 A 中某一行表示原有变量 Xi与公共因子/因子变量的相关关系。载荷矩阵 A 中某一列表示某
13、一个公共因子/因子变量能够解释的原有变量 Xi 的信息量。有时 因子载荷矩阵的解释性不太好,通常需要进行因子旋转,使原有因子变量更具有可解释性。因子旋转的主要方法:正交旋转、斜交旋转。正交旋转和斜交旋转是因子旋转的两类方法。前者由于保持了坐标轴的正交性,因此使用最多。正交旋转的方法很多,其中以方差最大化法最为常用。),2,1,(p j i l aij i ij m pm p pm mm mpm p pmml l ll l ll l la a aa a aa a aA.2 1 1 12 2 21 1 211 2 12 1 111 12 21 211 12 11 p mp m m mp pp pz
14、 a z a z a xz a z a z a xz a z a z a x2 2 1 12 2 22 1 21 21 2 12 1 11 1 p mp m m mp pp px l x l x l zx l x l x l zx l x l x l z2 2 1 12 2 22 1 21 21 2 12 1 11 1m pm p pm mm mpm p pmml l ll l ll l la a aa a aa a aA.2 1 1 12 2 21 1 211 2 12 1 111 12 21 211 12 11精品好资料-如有侵权请联系网站删除 精品好资料-如有侵权请联系网站删除 方差最大
15、正交旋转(varimax orthogonal rotation)基本思想:使公共因子的相对负荷的方差之和最大,且保持原公共因子的正交性和公共方差总和不 变。可使每个因子上的具有最大载荷的变量数最小,因此可以简化对因子的解 释。斜交旋转(oblique rotation)因子斜交旋转后,各因子负荷发生了变化,出现了两极分化。各因子间不再相互独立,而是彼此相关。各因子对各变 量的贡献的总和也发生了改变。斜交旋转因为因子间的相关性而不受欢迎。但如果总体中各因子间存在明 显的相关关系则应该考虑斜交旋转。适用于大数据集的因子分析。无论是正交旋转还是斜交旋转,因子旋转的目的:是使因子负荷两极分 化,要么
16、接近于 0,要么接近于 1。从而使原有因子变量更具有可解释性。5.4 计算因子变量得分 因子变量确定以后,对于每一个样本数据,我们希望得到它们在不同因子 上的具体数据值,即因子得分。估 计因子得分的方法主要有:回归法、Bartlette法等。计算因子得分应首先将因子变量表示为原始变量的线性组合。即:回归法,即 Thomson 法:得分是由贝叶斯 Bayes 思想导出的,得到的因子得分是有偏的,但计算结果误差较小。贝叶斯(BAYES)判别思想是根据先验概率求出后验概率,并依据后验概率分布作出统计推断。p mp m m mp pp px l x l x l zx l x l x l zx l x
17、l x l z2 2 1 12 2 22 1 21 21 2 12 1 11 1精品好资料-如有侵权请联系网站删除 精品好资料-如有侵权请联系网站删除 Bartlett 法:Bartlett 因子得分是极大似然估计,也是加权最小二乘回归,得到的因子得分是无偏的,但计算结果误差较大。因子得分可用于模型诊断,也可用作进一步分析如聚类分析、回归分析等的原始资料。关于因子得分的进一步应用将在案例介绍一节分析。5.5 结果的分析解释 此部分详细见案例分析 二、案例分析 1 研究问题 石家庄 18 个县市 14 个指标因子,具体来说有人均 GDP(元/人)、人均全社会固定资产投资额、人均城镇固定资产投资额
18、、人均一般预算性财政收入、第三产业占 GDP 比重(%)、人均社会消费品零售额、人均实际利用外资额(万美元/人)、人均城乡居民储蓄存款、农民人均纯收入、在岗职工平均工资、人才密度指数、科技支出占财政支出比重(%)、每万人拥有执业医师数量、每千人拥有病床数。要求根据这 14 项内容进行因子分析,得到维度较少的几个因子。2 实现步骤【1】在“Analyze”菜单“Data Reduction”中选择“Factor”命令,如下图所示。精品好资料-如有侵权请联系网站删除 精品好资料-如有侵权请联系网站删除【2】在弹出的下图所示的 Factor Analysis 对话框中,从对话框左侧的变量列表中选择这
19、 14 个变量,使之添加到 Variables 框中。精品好资料-如有侵权请联系网站删除 精品好资料-如有侵权请联系网站删除【3】点击“Descriptives”按钮,弹出“Factor Analysis:Descriptives”对话框,如图所示。Statistics 框用于选择哪些相关的统计量,其中:Univariate descriptives(变量描述):输出变量均值、标准差;Initial solution(初始结果)Correlation Matrix 框中提供了几种检验变量是否适 合做引子分析的检验方法,其中:Coefficients(相关系数矩阵)Significance le
20、ves(显著性水平)Determinant(相关系数矩阵的行列式)Inverse(相关系数矩阵的逆矩阵)Reproduced(再生相关矩阵,原始相关与再生相关的差值)Anti-image(反影像相关矩阵检验)KMO and Bartlett s test of sphericity(KMO 检验和巴特利特球形检验)精品好资料-如有侵权请联系网站删除 精品好资料-如有侵权请联系网站删除 本例中,选中该对话框中所有选项,单击 Continue 按钮返回 Factor Analysis 对话框。【4】单击“Extraction”按钮,弹出“Factor Analysis:Extraction”对话框
21、,选择因子提取方法,如下图所示:因子提取方法在 Method 下拉框中选取,SPSS 共提供了 7 种方法:Principle Components Analysis(主成分分析)Unweighted least squares(未加权最小平方法)Generalized least squares(综合最小平方法)Maximum likelihood(最大似然估价法)Principal axis factoring(主轴因子法)Alpha factoring(因子)Image factoring(影像因子)Analyze 框中用于选择 提取变量依据,其中:精品好资料-如有侵权请联系网站删除 精
22、品好资料-如有侵权请联系网站删除 Correlation matrix(相关系数矩阵)Covariance matrix(协方差矩阵)Extract 框用于指定因子个数的标准,其中:Eigenvaluse over(大于特征值)Number of factors(因子个数)Display 框用于选择输出哪些与因子提取有关的信息,其中:Unrotated factor solution(未经旋转的因子载荷矩阵)Screen plot(特征值排列图)Maximun interations for Convergence 框用于指定因子分析收敛 的最大迭代次数,系统默认的最大迭代次数为 25。本例选
23、用 Principal components 方法,选择相关系数矩阵作为提取因子变量的依据,选中 Unrotated factor solution 和 Scree plot 项,输出未经过旋转的因子载荷矩阵与其特征值的碎石图;选择 Eigenvaluse over 项,在该选项后面可以输入1,指定提取特征值大于 1 的因子。单击 Continue 按钮返回 Factor Analysis 对话框。【5】单击 Factor Analysis 对话框中的 Rotation 按钮,弹出 Factor Analysis:Rotation 对话框,如下图所示:精品好资料-如有侵权请联系网站删除 精品好
24、资料-如有侵权请联系网站删除 该对话框用于选择因子载荷矩阵的旋转方法。旋转目的是为了简化结构,以帮助我们解释因子。SPSS 默认不进行旋转(None)。Method 框用于选择因子旋转方法,其中:None(不旋转)Varimax(正交旋转)Direct Oblimin(直接斜交旋转)Quanlimax(四分最大正交旋转)Equamax(平均正交旋转)Promax(斜交旋转)Display 框用于选择输出哪些与因子旋转有关的信息,其中:Rotated solution(输出旋转后的因子载荷矩阵)Loading plots(输出载荷散点图)本例选择方差极大法旋转 Varimax,并选中 Rotat
25、ed solution 和 Loading plot项,表示输出旋转后的因子载荷矩阵和载荷散点图,单击 Continue 按钮返回Factor Analysis 对话框。精品好资料-如有侵权请联系网站删除 精品好资料-如有侵权请联系网站删除【6】单击 Factor Analysis 对话框中的 Scores 按钮,弹出 Factor Analysis:Scores对话框,如下图所示:该对话框用以选择对因子得分进行设置,其中:Regression(回归法):因子得分均值为 0,采用多元相关平方;Bartlett(巴特利法):因子得分均值为 0,采用超出变量范围各因子平方和被最小化;Anderso
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 因子分析 比较 一样 东西 分值
限制150内