《探索性因素分析幻灯片.ppt》由会员分享,可在线阅读,更多相关《探索性因素分析幻灯片.ppt(41页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、探索性因素分析第1页,共41页,编辑于2022年,星期六主要内容因素分析简介因素分析模型因素分析中的基本概念求共因素的主要方法因素旋转方法因素得分应用因素分析应该注意的问题因素分析应用举例第2页,共41页,编辑于2022年,星期六因素分析简介行为科学和社会科学研究中多变量之间的统计分析方法主要有:1.将多个变量与某种称为准则变量的外部变量联系起来进行分析。回归分析、方差分析等。2.不使用外部准则而同等地对待所有变量,分析它们之间的相互关系。相关分析、因素分析等。第3页,共41页,编辑于2022年,星期六探索性因素分析探索性因素分析(ExploratoryFactorAnalysis)是一种常用
2、的多元数据分析方法,它是从众多可观测“变量”中,概括和推论出少数不可观测的“潜变量”(又称因素),目的在于用最少的因素去概括和解释大量的观测事实,并建立起最简洁的,基本的概念系统,以揭示事物之间的本质联系的一种统计分析方法。这种方法的原则是在尽可能保存原有资料信息的前提下,用较少的维度去表示原来的数据结构。第4页,共41页,编辑于2022年,星期六因素分析模型因素分析假定个体在某一变量上的反应由两部分组成:一是各个变量共有的部分,称为共同因素(CommonFactor);另一部分是各变量所特有的部分,称为独特因素(UniqueFactor),可用下式表示:是第i个体在第j观测变量上的得分,(j
3、 k)是因素对观测变量的加权系数,(Fik)是个体i在因素F k上的得分,Uij为特殊因素,dj为特殊因素对观测变量的加权系数;N为样本容量,n为观测变量的个数,m为共因素的个数。因素分析的模型主要有全分量模型和公因子模型两个。第5页,共41页,编辑于2022年,星期六全分量模型(主成分分析模型)是指用n个新的因素来线性表示n个观测变量的因素分析模型(m=n)。此模型希望从一组相关观测变量中每次取得的一个公共因素的方差在观测变量的全部方差(或剩余方差)中所占的比例最大,这一思想也是全分量模型确定公共因素的一种数学准则。但在实际应用中,人们总是只取少数几个对观测变量的方差贡献较大的即为首的几个因
4、素。于是得到截分量模型 第6页,共41页,编辑于2022年,星期六截分量模型(主成分分析模型)在实际应用中,人们总是只取少数几个对观测变量的方差贡献较大的即为首的几个因素。有些人把几个方差贡献较小的因素看作误差项。于是全分量模型就成为:(j=1,2,3,nmn)这一模型确切地说应称为截分量模型(truncated component model),但经常被称作主成分分析模型。误差项ajej表示被忽略的几项因素之和。第7页,共41页,编辑于2022年,星期六公共因素模型 指所有观测变量中每个观测变量均可被表示为m个公共因素和一个唯一性因素的线性加权之和:(j=1,2,3,nmn)其中公共因素可以
5、解释观测变量之间的相关,唯一性因素则用以解释观测变量除去公共因素的影响后所剩下的那部分方差。第8页,共41页,编辑于2022年,星期六公共因素模型 这一模型希望从观测变量中抽取到的因素能尽可能好地再生观测变量之间 的相关。在这一模型中将观测变量、公共因素和唯一性因素都假定为标准变量,平均数为0,标准差为1,而且n个唯一因素uj之间相互独立,每个唯一性因素与各个公共因素Fp(p=1,2,m)之间相互独立。各公共因素Fp是随机变量。若假定各公共因素为互相独立的正态分布,则观测变量Zj就服从多元正态分布。在实际应用公共因素分析方法时,通常把唯一性因素看作不包括模型误差,也就是说因素分析没有考虑抽样误
6、差。因此,抽样就必须足够大,以使抽样误差被忽视,样本究竟多大合适,一般至少要大于100,或者是变量数目的 510倍。第9页,共41页,编辑于2022年,星期六因素分析中的基本概念因素载荷(Factorloading)公共因素方差(Communality)唯一性方差(uniqueness)特征值(Eigenvalue)贡献率(ExplainofVariance)第10页,共41页,编辑于2022年,星期六因素载荷(Factor loading)因素载荷指因素分析模型中各公共因素对观测变量的加权系数jk。一般情况下,称共因素的系数为因素载荷。即因素分析模型中的系数。将所有的因素载荷以矩阵的形式表示
7、即为因素载荷以矩阵。第11页,共41页,编辑于2022年,星期六公共因素方差公共因素方差一般用h2表示,又称作“共同度”或“公共性”,公共因素方差是指被公共因素所决定的方差在观测变量总方差中所占的比例。在对观测数据进行标准化的情况下,一个观测变量的总方差Sj2为:其中由公共因素决定的方差为:第12页,共41页,编辑于2022年,星期六公共因素方差在测验或特质行为的研究方面主要有以下用途:1.公共因素方差能反映该测验对所要测量行为属性的测量程度,公共因素方差越大,该因素所能反映的行为属性程度就越强,某一因素的方差贡献率越大,说明该因素在他所测量的特质中,它所起的作用就越大。2.如果在构成一个测验
8、的诸多项目中,某些项目构成的因素的公共方差大,说明这些项目测定被试的个别差异的功能强,也说明该组项目的区分度好,鉴别力高,同理公共因素方差越小,该项目的鉴别力越低。因此项目的公共因素方差,可用作评价项目区分度的一种指标。第13页,共41页,编辑于2022年,星期六唯一性方差(uniqueness)归因于唯一性因素的那部分方差称为唯一性方差,唯一性方差表示m个公共因素对观测变量的方差不能作出解释的部分,一部分归因于所选变量的特殊性,称为特殊性方差;剩余部分归因于测量的不完备性。第14页,共41页,编辑于2022年,星期六特征值特征值:对于一个n阶矩阵A,如果存在一个n维向量v和一个常数,满足条件
9、则称为矩阵A的一个特征值,称v为对应于特征值的一个特征向量。第15页,共41页,编辑于2022年,星期六特征值在因素分析中,特征值表示每个因素在所有变量上的因素负荷的平方之和,它反映某一公共因素对各观测变量的影响程度,也说明该公共因素的重要性。特征值越大,说明该公共因素相对重要。第16页,共41页,编辑于2022年,星期六贡献率各因素的特征值(j)在总的公共因素方差之和中所占的比例。反映该因素对所有观测变量变异影响的大小。第j个共因素的方差贡献率为:第17页,共41页,编辑于2022年,星期六变量共同度的估计在全分量模型中可以直接用相关矩阵求解因素载荷矩阵,在公共因素模型中,由于考虑特殊因素对
10、变量的影响,求解因素载荷矩阵则以约相关矩阵为出发点。估计变量的共同度是得到约相关矩阵估计的关键,第18页,共41页,编辑于2022年,星期六最大相关系数估计法最大相关系数估计法是把原相关矩阵每一行(或每一列)绝对值最大的一个元素作为该行(或该列)变量共同度的估计。第19页,共41页,编辑于2022年,星期六复相关系数平方估计法ZJ变量的复相关系数的平方为:其中RJJ为对角线元素为1的相关矩阵R的逆矩阵中第j个变量对角线的元素,SMC是共同度估计的下限。第20页,共41页,编辑于2022年,星期六公共因素个数的确定根据累计贡献率确定因子个数以特征值是否大于等于1为标准碎石检验第21页,共41页,
11、编辑于2022年,星期六根据累积贡献率确定因子个数将约相关矩阵(在主成分分析中,用相关矩阵)的特征值从大到小排列,根据前面若干个共同因素所对应的特征值之和的百分比来确定。一般来说,这一比例要达到80%以上,但根据问题的复杂程度可做适当调整。第22页,共41页,编辑于2022年,星期六.以特征值是否大于等于1为标准特征值大于等于1的选为共因素,小于1的不选。第23页,共41页,编辑于2022年,星期六碎石检验(screen test)以特征值为纵坐标,以因素个数为横坐标,按照因子被提取的顺序,画出因子的特征值随因子个数变化的散点图,根据图的形状来判断抽取因子的个数。从第一个因子开始,曲线逐渐下降
12、,然后变得平缓,最后近似于一条直线,曲线变平的前一点被认为是提取的最大因子数。第24页,共41页,编辑于2022年,星期六初始因素载荷矩阵求解对于全分量模型来说,直接从变量相关矩阵入手求解因素载荷矩阵;而对于公共因素模型,则从约相关矩阵出发来求解因素载荷矩阵A。目前,求解因素载荷矩阵使用较为普遍的一种方法是主因素解法(在全分量模型中称为主成分分析法)。它的基本思想是,考虑第一共同因素的方差对所有变量的方差贡献最大,第二共同因素对所有变量的方差贡献次之,依次将全部变量的方差分解为各共同因素方差,最终求得因素载荷矩阵。第25页,共41页,编辑于2022年,星期六求初始因素载荷矩阵的一般方法Prin
13、cipalComponentsUnweightedLeastSquaresGeneralizedLeastSquaresMaximumLikelihoodPrincipalAxisFactoringAlphaFactoringImageFactoring第26页,共41页,编辑于2022年,星期六旋转变换初始因子解达到了数据化简的目的。在求初始因子这一步中,我们既确定了共因素个数,又确定了每个变量的公因子方差。可是根据初始因子解,往往很难解释因子的意义,大多数因子都和很多变量相关,但是在实际研究中,我们往往关心每个因子的实际意义是什么。因子旋转是寻求这一实际意义的有效工具,因子旋转的目的是通过
14、改变坐标轴的位置,重新分配各个因子所解释的方差的比例,使因子结构简单并易于解释。因子旋转不改变模型对数据的拟合程度,不改变每个变量的公因子方差。第27页,共41页,编辑于2022年,星期六因子旋转的方式因子旋转的方式有两种,一种是正交旋转,另一种是斜交旋转。正交旋转是使因子轴之间仍然保持90度角,即因子之间是不相关的,而在斜交旋转中,因子之间的夹角可以是任意的,即因子之间可以相关。第28页,共41页,编辑于2022年,星期六正交旋转第29页,共41页,编辑于2022年,星期六四次方最大法(QUARTIMAX)通过使因子载荷矩阵中每一行因子负荷平方的方差达到最大求得因子解。最终的简化准则为:第3
15、0页,共41页,编辑于2022年,星期六方差最大法(VARIMAX)四次方最大法的不同是它从简化因子负荷矩阵的每一列出发,使和每个因子有关的负荷平方的方差最大。方差最大法通过使下式达到最大求得因子解:第31页,共41页,编辑于2022年,星期六等量最大法(EQUIMAX)等量最大法把四次方最大法和方差最大法结合起来,取V和Q的加权平均作为简化准则,通过使下式达到最大:权数等于m/2,和因子数有关,当因子数为2时,等量旋转法结果与方差最大法旋转结果相同。第32页,共41页,编辑于2022年,星期六斜交旋转常见的为OBLIMIN,该方法应用斜交参考轴求解。所谓的斜交参考轴是指斜主因子轴的垂直线。斜
16、交因子解应使变量尽可能落在主轴附近,变量落在主轴附近和变量在参考轴上的投影近似为零这两个条件是相同的。OBLIMIN方法首先求出斜交参考矩阵,斜交因子负荷矩阵等于斜交参考阵的逆矩阵再按行进行规范化处理,使矩阵中每一行的元素的平方和等于1。参数控制因子斜交的程度,其取值一般小于等于零,等于零时,因子之间的斜交程度最大,小于零时因子之间的斜交程度减小。另外还有Promax法。第33页,共41页,编辑于2022年,星期六6因子得分及应用在公式中可以将变量表示成公共因素的线性组合。但在有些场合,需要考虑通过变量Z的值来获得共因素指标F的值。这种由变量的观测值来估计各公共因素值的方法称为因素得分。第34
17、页,共41页,编辑于2022年,星期六因素得分及其应用求因素得分涉及到用观测变量来描述因素,第p个因子在第i个个案上的值可以表示为:其中,zji是第j个变量在第i个个体上的值,wpj是第p个因子和第j个变量之间的因子值系数。第35页,共41页,编辑于2022年,星期六因素得分及其应用因子分析模型中是用因子的线性组合来表示一个观测变量,因子负荷实际是该线性组合的权数。求因子得分的过程正好相反,它是通过观测变量的线性组合来表示因子,因子得分是观测变量的加权平均。因为各个变量在因子上的负荷不同,所以不能把变量简单相加,权数的大小表示了变量对因子的重要程度。第36页,共41页,编辑于2022年,星期六
18、因素得分及其应用对于主成分分析法得到的因子解,可以直接得到因子值系数,对于其他方法得到的因子解,只能得到因子值系数的估计值,通过用回归法得到因子得分系数的估计值。有了因子得分,就可以把因子作为变量来用,进行其他的统计分析。第37页,共41页,编辑于2022年,星期六应用因素分析应该注意的问题1.对数据的要求(1)数据类型(2)数据分布(3)对变量之间相关的检验SPSS提供了三个统计量帮助判断观测数据是否适合作因素分析第38页,共41页,编辑于2022年,星期六对变量之间相关的检验v反映象相关矩阵(Anti-imagecorrelationmatrix)其元素等于负的偏相关系数。v巴特利特球体检
19、验(Bartletttestofsphericity)对应的零假设为相关矩阵为单位矩阵。vKMO(Kaiser-Meyer-OlkinMeasureofSamplingAdequacy)测度。该测度从比较观测变量之间的简单相关系数和偏相关系数的相对大小出发,其值的变化从0到1。当所有变量之间的偏相关系数的平方和,远远小于简单相关系数平方和时,KMO值接近于1,一般,大于0.9说明适合作因素分析。第39页,共41页,编辑于2022年,星期六应用因素分析应该注意的问题2.样本容量ThenumberofvariablesThepotentialnumberoffactorsThevariabletofactorsratioThedegreeoffactorloadingsThedegreeofinterfactorcorrelation第40页,共41页,编辑于2022年,星期六探索性因素分析应用举例Holzinger和Harman(1941)年所测量的24种心理测验的数据,这里选出16种测验。16种测验描述性信息如下表:第41页,共41页,编辑于2022年,星期六
限制150内