《使用SPSS进行探索式因素分析的教程.doc》由会员分享,可在线阅读,更多相关《使用SPSS进行探索式因素分析的教程.doc(27页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流使用SPSS进行探索式因素分析的教程.精品文档.第4章 探索式因素分析在社会与为科学研究中,研究者经常会搜集实证性的化资做验证,而要证明这些资的可靠性与正确性,则必须依靠测或调查工具的信或效(杨国枢等,2002b)。一份好的量表应该要能够将欲研究的主题构念(Construct,它是心理学上的一种理论构想或特质,无法直接观测得到)清楚且正确的呈现出来,而且还需具有效度,即能真正衡量到我们欲量测的特性,此外还有信度,即该量表所衡量的结果应具有一致性、稳定性,因此为达成良好之衡量的目标,必须有以下两个步骤:第一个步骤是针对量表的题项作项目分析,以判
2、定各项目的区别效果好坏;第二步骤则是建立量表的信度与效度。量表之项目分析、信度检验已于第2、3章有所说明,本章将探讨量表之效度问题。4-1 效度效即为正确性,也就是测工具确实能测出其所欲测的特质或功能之程。一般的研究中最常使用内容效度(Content Validity)与建构效度(Construct Validity)来检视该份研究之效度。所谓内容效度,是指该衡量工具能足够涵盖主题的程度,此程度可从量表内容的代表性或取样的适切性来加以评估。若测量内容涵盖所有研究计划所要探讨的架构及内容,就可说是具有优良的内容效度。在一般论文中,常使用如下的描述来交代内容效度:在内容效度方面,主要是根据文献探讨
3、及专家研究者的经验。然因本研究问卷设计之初,考虑目前相关的文献中,尚未对本研究议题提出实证性问卷,故只能自行设计量表,对于内容效度是否达成,尚有疑虑。本研究之各研究变项皆经先前学者之实证,衡量工具内容均能足够地涵盖欲探讨的研究主题。另外,本研究于正式施测前,亦针对问卷之各题项与相关领域的学者、专家进行内容适切度之讨论,因此,研究采用之衡量工具应具内容效度。本研究问卷系以理论为基础,参考多数学者的问卷内容及衡量项目,并针对研究对象的特性加以修改,并经由相关专业人员与学者对其内容审慎检视,继而进行预试及修正,因此本研究所使用之衡量工具应能符合内容效度的要求。而所谓建构效度系指测量工具的内容,即各问
4、项是否能够测量到理论上的构念或特质的程度。建构效度包含收敛效度(Convergent Validity)与区别效度(Discriminant Validity),收敛效度主要测试以一个变量(构念)发展出的多项问项,最后是否会收敛于一个因素中(同一构念不同题目相关性很高);而区别效度为判别问项可以与其它构念之问项区别的程度(不同构念不同题目相关性很低)。衡量收敛效度的统计方式可使用探索式因素分析法(Exploratory factor analysis),简称因素分析。进行因素分析时,若发现各构念的衡量项目皆可收敛于同一个共同因素之下,则表示该量表的收敛效度是可被接受的。至于区别效度,则可采用因
5、素分析与皮尔森相关分析,首先,必须在因素分析法中,各构念的衡量项目皆没有与其它构念的衡量项目收敛于同一个共同因素之下,此外,在皮尔森相关系数矩阵中,不同构念的衡量项目彼此之间关联性很低,如皮尔森系数皆小于0.3,若出现上述两现象显示不同构念的衡量项目间彼此皆不具有强烈的关连性,据此,即可显示出区别效度是可以被接受的。进行量表之建构效度评估时,虽理应同时检视收敛效度与区别效度,然审视国内之硕士论文或一些期刊论文都可发现,大部分都只以因素分析进行收敛效度之评估,并据以说明量表的建构效度,其方法如:同一构念中,若因素负荷量的值愈大(通常取0.5以上者才保留该项目,否则删除后再重新执行一次因素分析),
6、表示收敛效度愈高。此外,也可使用属线性结构方程(Linear Structural Equation)领域的验证性因素分析(Confirmatory Factor Analysis),以进行模式的适合度检定,并检定各构念是否具有足够的收敛效度与区别效度。4-1因素分析的意义因素分析(Factor Analysis)属于多元统计分析技术的一种,其主要目的是浓缩数据。它透过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想的变量来表示其基本的数据结构。这些假想变量能够反映原来众多的观测变量所代表的主要信息,并解释这些观测变量之间的相互依存关系,我们把这些假想变量称之为基础变
7、量,即因素(Factors)。因素分析就是研究如何以最少的信息遗失,而能把众多的观测变量浓缩为少数几个因素。一般在对实际问题做研究时,研究者往往希望尽可能地多多收集与研究主题相关的变量,以期能针对问题有比较全面性的、完整性的掌握和认识。虽然收集这些数据需投入许多的人力、物力与时间成本,虽然它们能够较为整体而精确地描述研究主题,但将这些资料实际用在分析、建模时,这些变量未必能真正发挥研究者预期的作用,也就是说研究者的投入和产出并非呈合理的正比,相反的,这样的搜集资料行为反而会给研究者于统计分析时带来许多问题,这些问题如下: 计算量的问题由于研究者所收集的变量相当多,如果这些变量都投入数据的分析与
8、建模,无疑的,这将会增加分析过程中于计算上的工作量。虽然,目前计算机运用普遍且其计算能力亦相当优异,然而对于此种高维的变量和庞大的数据仍是于计算上所不容忽视的。 变数间的相关性问题由于研究者针对特定之主题所收集到的诸多变量之间通常或多或少都会存在着相关性。也就是说,变量之间往往具有信息的高度重迭性和高度相关性,这些特质将会给统计方法的应用带来许多不便。例如,在多元线性回归分析中,如果这些众多的解释变量之间,存在着较强且显着的相关性,即存在着高度的多重共线性,那么于回归方程的参数估计时,将带来许多麻烦,致使回归方程参数不准确甚至模型不可用等。为解决上述的问题,最简单且最直接的解决方法即是精减变量
9、之个数,但是这又必然会导致信息的漏失和信息不完整等现象产生,这是一个Trade-off的问题。为此,研究者无不希望探索一种更有效的解决方法,期盼它既能大大减少参与数据分析、建模的变量个数,也同时不会造成信息的大量漏失。而因素分析正是这样一种能够有效降低变量维数(个数),并已得到广泛应用的分析方法。因素分析是由心理学家所发展出来的,最初心理学家借助因素分析模型来解释人类的行为和能力,1904年Charles Spearman在美国心理学杂志上发表了第一篇有关因素分析的文章,在往后的三四十年里,因素分析的理论和数学基础理论逐步获得发展和改善,也因此,这个统计分析工具逐渐被人们所认识和接受。50年代
10、以来,随着计算机的普及和各种统计软件的出现,因素分析在社会学、经济学、医学、地质学、气象学和市场营销等越来越多的领域得到了应用。因素分析以最少的信息漏失为前提,试图将众多的原始变量综合成较少几个综合指标,这些综合指标即名为因素(factor)。一般而言,因素具有以下几个特点: 因素个数远少于原始变量的个数原始变量综合成少数几个因素后,因素将可以替代原始变量参与数据建模,这将大大减少分析过程中的计算工作量。 因素能够反映原始变量的绝大部分信息因素并不是原始变量的简单取舍,而是原始变量重组后的结果,因此不会造成原始变量信息的大量遗失,并能够代表原始变量的绝大部分信息。 因素之间的线性关系不显着由原
11、始变量重组出来的因素之间的线性关系较弱,因素参与数据建模能够有效地解决变量多重共线性等给分析应用带来的诸多问题。 因素具有命名解释性通常,因素分析产生的因素能够透过各种方式最终获得命名解释性。因素的命名解释性有助于对因素分析结果的解释评价,对因素的进一步应用有重要意义。例如,对高校科研情况的因素分析中,如果能够得到两个因素,且其中一个因素是对科研人力投入、经费投入、立项项目数等变量的综合,而另一个是对结项项目数、发表论文数、获奖成果数等变量的综合,那么,该因素分析就是较为理想的。因为这两个因素均有命名可解释性,其中一个反映了科研投入方面的情况,可命名为科研投入因素,另一个反映了科研产出方面的情
12、况,可命名为科研产出因素。总之,因素分析是研究如何以最少的信息遗失将众多原始变量浓缩成少数几个因素,如何使因素具有一定的命名解释性的多元统计分析方法。4-2 因素分析的数学模型因素分析的核心价值在于它能使用较少且相互独立的因素来反映原始变量的绝大部分信息。由于任何一个变量都可以透过(为的平均数,为标准差)的转换而变成标准化变量,经标准化后的变量并不会改变原始变量之间的相关系数,也就是说不失其一般性。在此我们所讨论的变量都是标准化变量。设原有个变数且每个变量的平均数为0,标准差均为1。现将每个原始变数用个因素的线性组合来表示,即: (4-1)式(4-1)就是因素分析的数学模型,此模型在型式上和多
13、元回归模型很相似,也可用矩阵的型式表示为。其中称为因素,由于它们出现在每个原始变量的线性表达式中,因此又称为共同因素(Common factors),它们是各个原始变量所共同拥有的因素,解释了变量之间的相关程度。因素也可被想象成是高维空间中互相垂直的个坐标轴。称为因素负荷矩阵,称为因素负荷(Factor loading),它是第个原始变数在第个因素上的负荷,相当于多元回归分析中的标准回归系数。称为特殊因素(Unique factor),它是每个原始变量所特有的因素,相当于多元回归中的残差项,它表示了原始变量不能被因素所解释的部分,其平均数为0。因素分析模型中假设个特殊因素之间是彼此独立的,特殊
14、因素和共同因素之间也是彼此独立的。此外该模型中,每一个原始变量都是由个共同因素和一个特殊因素的线性组合来表示,而我们所感兴趣的只是这些能够代表较多信息的共同因素,因此往后如果没有特殊说明的话,本书中所经常提到的因素一词,实际上所指的就是共同因素。共同因素的个数最多可以等于原始变量的数量。因为在求因素解时,通常都会使第一个因素之代表性最高(即拥有最多的信息),之后的其它因素之代表性日益衰减,因此,如果忽略掉最后几个因素,则对原始变量的代表性也不会有什么损失。所以,因素分析模型中,共同因素的个数,往往远远小于原始变量的个数。如果把特殊因素当作是残差项看待,那么因素分析模型和多元线性回归模型在型式上
15、非常相近,他们都是用其它变量的线性组合加上一个残差项来表示一个变量,但是回归模型中的自变量是可观测的,而因素分析模型中的因素是假想变量,是不可观测的,这就使得它有别于一般的线性模型。4-3 因素分析的相关概念因素分析之数学模型中蕴藏着几个重要的相关概念,搞懂这些概念不仅有助于因素分析之意义的理解,更有利于明暸因素与原始变量间的关系、因素的重要程度以及辅助评估因素分析的效果。为了进一步了解该模型所蕴含的意义,下面我们将讨论因素分析中常用的几个统计量。 因素负荷因素负荷可说是因素分析模型中最重要的一个统计量,它连接了原始变量和共同因素。当共同因素之间完全不相关时,我们可以很容易的证明出因素负荷其实
16、就是第个变数和第个因素之间的相关系数。在大部分的情况下,我们通常会假设共同因素之间是彼此正交的(Orthogonal),也就是说假设共同因素之间不相关。因此,因素负荷不仅说明了原始变量是如何由因素线性组合而成,而且也反映了因素和变量之间的相关程度,的绝对值越大,表示共同因素与变数的关系越紧密。假设有一个五个原始变量、两个共同因素的模型:从这个因素分析模型中,可以很容易看出,共同因素与变数的关系密切,因为其间的因素负荷较大,这说明了共同因素代表了这些变量所共同散发出来的信息,共同因素与变数关系密切,因此共同因素主要代表了这两个变量所共同的信息。此外,因素负荷还可以用来估计原始变量之间的相关系数,
17、当共同因素之间彼此不相关时,由因素分析模型很容易可以推导出变量之间的相关系数为:即任何两个原始变量之间的相关系数等于所对应的因素负荷乘积之和。这说明了因素分析模型假设原始变量之间的潜在关系可以透过共同因素来加以描述,如果我们把变量和因素之间的负荷想象为路径系数,则变量和变数之间的关系可以透过图4-1明确地表示出来。图4-1 变数和变数之间的关系图由因素模型所导出的变量间的相关系数可以用来辅助判断因素解是否合适,如果由原始观测资料所计算出的相关系数和从模型中所导出的变量间的相关系数相差很小,那么我们可以认为模型非常适切的拟合了原始观测资料,因素解是合适的。因素分析模型是从解释变量之间的相关关系出
18、发的,他的最佳解即是原始变量之间的实际相关关系。 共通性(Communality)所谓共通性是指原始变量的变异数中由共同因素所决定之部分所占的比例。变数的共通性记做。当共同因素之间彼此正交时,共通性等于和该变量有关的因素负荷的平方和,用方程式可表示为:(4-2)由式4-2可轻易理解,变数的共通性即是因素负荷矩阵中第列中所有元素的平方和。读者对4-2的公式也可这样来记忆,共通性通常是以来代表,为何要使用这个字母,因为水平这个字的英文为horizontal,引申到矩阵中的话即代表一列,故第个变量的共通性即为负荷矩阵中第列中所有元素的平方和。由于变量是标准化变量,所以变量的变异数可以表示成,也就是说
19、原始变量的变异数可由两个部分来加以解释:第一部分为共同因素所决定,即共通性,它是变数之变异数能被共同因素所能解释说明的部份,其说明了所有因素对变量的解释贡献程度。共通性越大,代表变量能被因素说明的程度也越高。共通性越接近1,代表因素解释说明了变量的大部分变异数,也就是说,如果我们使用因素来描述变量时,则变数的信息遗失较少,第二部分则由特殊因素所决定,即特殊因素的平方,它反映了变量的变异数中不能由所有因素解释说明的部份,越小则说明变量的信息遗失越少。总之,变数的共通性描述了所有因素对变量所蕴含之信息的解释程度,是评价变量之信息遗失程度的重要指针。如果大部份之原始变量的共通性均较高(如高于0.8)
20、,则代表所萃取出的因素确实能够反映原始变量的大部分(80%以上)的信息,而仅有较少的信息遗失,因此因素分析的效果较好。所以,共通性是衡量因素分析效果的重要依据。对于上面所举的五个原始变量、两个共同因素的例子,可计算出每个变量的共通性见表4-1。表示和两个因素解释了变量之信息量的96.16%。共通性这个指针以原始变量为中心,它的意义在于说明如果用共同因素替代原始变量后,原来每个变量的信息被保留的程度。表4-1 因素负荷矩阵、特征值、共通性与因素贡献度0.960.20.96160.870.290.84100.170.880.80330.570.760.90250.860.340.8552特征值()
21、2.771.590.550.32 因素的贡献程度每个共同因素对数据的解释能力,可以用该因素所解释的总变异数来衡量,通常称此为该因素的贡献度(Contributions),记为。它等于和该因素有关的因素负荷的平方和,即(4-3)因素分析中的特征值是每个变量在某一共同因素之因素负荷量的平方和,因此特征值其实就等于,而所有共同因素的总贡献度则为:(4-4)然而在实际的研究中更常用相对性的指标,即每个因素所解释的变异数占所有变量总变异数的比例。相对指标衡量了共同因素的相对重要性。假设是表示原始变量之数量,则表示了第个因素所解释的变异数的比例,而则表示所有共同因素累积解释的变异数比例,它可以用来作为因素
22、分析结束的判断指标。如表4-1,在上例中,、这代表第一个因素解释了所有变量总变异数的55%,第二个因素解释了上述总变异数的32%,两个因素一共解释了总变异数的87%。的值越高,代表相对应因素的重要性越高。因此,因素的变异数贡献和变异数贡献率是衡量因素重要性的关键指标。4-4 因素分析的基本步骤进行因素分析时,通常包括以下四个主要步骤:1、因素分析的前提条件由于因素分析的主要目的是简化数据或者找出基本的数据结构,此即将原始变量中的信息重迭部分萃取出来并整合成因素,进而最终实现减少变量个数与萃取出因素的目的。因此要能够进行因素分析,必须要求原始变量之间应存在较强的相关关系。否则,如果原始变量间是相
23、互独立、不存在信息重迭,那么也就无法将其整合和缩简,也就无须进行因素分析了。所以本步骤的主要目的就是希望透过各种方法分析、检验原始变量间是否存在相关关系,是否适合于进行因素分析。一般而言,如果相关矩阵中的大部分相关系数都小于0.3,则不适合做因素分析。2、因素萃取将原始变量整合成少数几个因素是因素分析的主要目的。本步骤中就是要去确定因素的个数和求因素解的方法。3、使因素容易命名与具可解释性将原始变量整合为少数几个因素后,如果因素的实质涵义无法厘清,则极不利于进一步的分析。本步骤就是希望透过各种方法(因素旋转)使萃取出来的因素,其实质涵义能够清楚的表达出来,进而使研究者能根据其涵义而对因素加以命
24、名并深入的解释它。4、计算各样本的因素得分因素分析的最终目标是减少变量个数,以便在进一步的分析中用较少的因素代替原始变量参与数据分析与建模。本步骤将透过各种方法计算各样本在各因素上的得分,并以这些因素得分替代原始变量值,为进一步的分析奠定基础。下面将依次对上述基本步骤进行详细讨论。4-4-1 因素分析的前提条件因素分析的目的是从众多的原始变量中求同舍异整合出少数几个具有代表性的因素,在这过程中,需要一个潜在的前提条件,即原始变量之间应具有较强的相关关系。这个道理并不难理解,如果原始变量之间不存在较强的相关关系,那么就无法从中整合出能够反映某些变量共同特性的几个较少的共同因素。因此,一般在因素分
25、析时需先验证因素分析的前提条件,即验证原始变量间是否相关。SPSS软件中提供了下列几种方法帮助研究者判断观测资料是否适合做因素分析。 反映象相关矩阵(Anti-image correlation matrix)反映象相关矩阵中各元素的值等于负的偏相关系数。偏相关系数是控制其它变量不变,计算一个自变量对因变量的净相关系数。如果原始变量之间确实存在较强的相互重迭性以及互相影响,也就是说,如果原始变量中确实能够萃取出共同因素,那么变量之间的偏相关系数应该很小,因为它与其它变量重迭的解释影响被扣除掉了。所以如果反映象相关矩阵中大部分元素的值都较大的话,应该考虑该观测数据可能不适合做因素分析。反映象相关
26、矩阵的对角在线的元素为某变量的MSA(Measure of Sample Adequacy)统计量,其数学定义为:(4-5)其中,是变数和其它变量间的简单相关系数,是变数和其它变量间在控制了其它变量下的偏相关系数。由式(4-5)可知,某变数的统计量的值在0和1之间。当变数与其它所有变量间的简单相关系数平方和远大于偏相关系数的平方和时,值接近1。的值越接近于1,意味着变数与其它变量间的相关性越强。而当它与其它所有变量间的简单相关系数平方和接近0时,的值则接近0。值越接近于0,意味变数与其它变量间的相关性越弱。藉由以上的观念,仔细观察反映象相关矩阵,如果反映象相关矩阵中除主对角元素外,其它大多数元
27、素的绝对值均较小,对角在线元素的值较接近l,则说明了这些变量的相关性较强,适合进行因素分析。反之如果反映象相关矩阵中大部分元素的值都较大的话,应该考虑该观测数据可能不适合做因素分析。 相关系数矩阵计算原始变量间的简单相关系数矩阵并进行统计检验。相关系数矩阵计算出来后,仔细观察相关系数矩阵,如果相关系数矩阵中的大部份相关系数值均小于0.3,即各个变数间大多为弱相关的划,那么原则上这些变量是不适合进行因素分析的。 巴特利特球形检验(Bartlett test of sphericity)巴特利特球形检验以原始变量的相关系数矩阵为基础,判断相关系数矩阵是否为单位矩阵,即相关系数矩阵为对角矩阵(对角元
28、素不为0,非对角元素均为0)且主对角上的元素均为1,因为如果相关系数矩阵为单位矩阵的话,代表各变量间没有相关,因此观测资料也就不适合做因素分析了。故巴特利特球形检验的虚无假设为相关系数矩阵是单位矩阵。巴特利特球形检验的检验统计量将根据相关系数矩阵的行列式计算而得到,且其机率分配近似服从卡方分配。如果该统计量的值倾向于较大的值,且所对应的机率值小于预设的显着水平(一般设),则应拒绝虚无假设,亦即可认为相关系数矩阵并非单位矩阵,所以原始变量适合作因素分析;反之,如果该统计量的值倾向于较小的值且所对应的机率值大于预设的显着水平,则不能拒绝虚无假设,因此可以认为相关系数矩阵与单位矩阵无显着差异,原始变
29、量不适合作因素分析。 KMO检验(Kaiser-Meyer-Olkin test) KMO检验从比较原始变量之间的简单相关系数和偏相关系数的相对大小出发,因此须建立一个能比较变量间简单相关系数和偏相关系数的指标,此指标称为KMO检验统计量,其数学定义为:(4-6)其中,是变数和其它变量间的简单相关系数,是变数和其它变量间在控制了其它变量下的偏相关系数。KMO与MSA的主要差异在于KMO将相关系数矩阵中的所有元素都加入到了平方和的计算中。由式(4-6)可知,KMO统计量的值会介于0和1之间。当所有变量间的偏相关系数平方和远远小于简单相关系数平方和时,KMO值接近1。KMO值越接近于1,意味着变数
30、间的相关性越强,原始变量越适合做因素分析;当所有变量间的简单相关系数平方和接近0时,KMO值接近0。KMO值越接近于0,意味着变数间的相关性越弱,原始变量越不适合做因素分析。Kaiser订出了常用的KMO统计量之衡量标准:0.9以上表示非常适合做因素分析;0.8表示适合;0.7表示一般;0.6表示不太适合;0.5以下表示极不适合。4-4-2 因素萃取和因素负荷矩阵的求解在探索性因素分析中,求解初始因素这一步骤的主要目的是确定能够解释原始变量之间相关关系的最小因素个数,也就是说根据样本数据求出因素负荷矩阵。根据所依据的准则不同,有很多种求解因素负荷矩阵的方法,主要可以分为两类:一类是基于主成份分
31、析模型的主成份分析法(Principle components factoring),另一类是以共同因素模型为基础的共同因素分析法,包括主轴因素法(Principle axis factoring)、最大概似法(Maximum likelihood factoring)、最小平方法(Least squares factoring)、Alpha法(Alpha factoring)、映象分析法(Image analysis factoring)等等。主成份分析法实际上是一种独立于因素分析的一种资料化简技术。因素分析中会把主成份分析的结果作为一个初始因素解,这是因为在确定因素个数时,常会用到主成份分
32、析所产生的一个统计量-特征值。其它的求因素解的方法,如主轴因素法也采用了和主成份分析类似的算法,所以,主成份分析在因素分析中占有重要的地位。在此,仅将对在因素分析中占有重要地位且使用最为广泛的主成份分析法作简单讨论。 主成份分析法求解因素负荷矩阵主成份分析法能够为因素分析提供初始解,因素分析是主成份分析结果的延承和推广。在主成份分析法中,可以藉由坐标轴变换的手段,将原有的个相关变数标准化后进行线性组合,而转换成另一组不相关的变数,如下式:(4-7)式(4-7)为主成份分析的数学模型。其中(i=1,2,3,p)。要求得式(4-7)中的每个系数,必须遵守下列原则:(1) 与()相互独立。(2) 是
33、变数的一切线性组合中变异数最大的;是不相关的变数 的一切线性组合中变异数最大的;是与都不相关的的一切线性组合中变异数最大的。根据上述原则所确定出来的变量,依次称为原始变数的第1、第2、第3、第个主成份。其中在总变异数中所占的比例最大,它整合原始变量的能力最强,其余主成份在总变异数中所占比例依次递减,即其余主成份整合原始变量的能力依次减弱。在主成份分析的实务应用中,一般研究者只会选取前面几个变异数较大的主成份。这样的好处是既能减少变量的数目,又能够用较少的主成份反映原始变量的绝大部分信息。基于上述说明可见,主成份分析法的核心是透过原始变量的线性组合以及各个主成份的求解来实现变量降维的作用。现将主
34、成份分析之数学模型的系数求解步骤归纳如下:(1)将原始变量进行标准化处理。(2)计算变量的简单相关系数矩阵R。(3)求矩阵R的特征值及对应的单位特征向量。透过上述步骤,计算便得到各个主成份。其中的个特征值和对应的特征向量便是因素分析的初始解。现在重新回到因素分析模型中来。因素分析利用上述个特征值和对应的特征向量,并在此基础之上求出因素负荷矩阵:(4-8)由于因素分析的目的是减少变量个数,因此在因素分析的数学模型中,因素数目小于原始变数个数。所以在计算因素负荷矩阵时,只选取前个特征值和其对应的特征向量,而得到式(4-9)所示的,只包含个因素的因素负荷矩阵:(4-9)根据主成份分析法所求出的因素负
35、荷矩阵具有下面的性质:1、 主成份之间是不相关的,且的变异数等于。2、 ,即所有特征值的和等于原始变量的数量。这是因为假设原始变量已经过标准化处理,变异数会等于1,所以个变数的变异数之和等于,而则表示了第个主成份所解释的变异数的比例。3、 变数与主成份之间的相关系数,就是所谓的因素负荷,其值为:4、 每个主成份所解释的变异数等于所有变量在该主成份上之负荷的平方和: 即,此即表4-1因素负荷矩阵中,每一直行各元素的平方和。 决定因素个数有个变量就应该有个主成份,但是因素分析的目的是为了简化数据,所以我们不会自找麻烦用个主成份,而是只萃取出前几个主成份作为初始因素,那么到底需要几个因素才能代表原来
36、数据中的主要信息部分呢?虽然目前还没有精确的定量方法可以用来辅助决定因素个数,但在实务应用上还是有一些准则可以帮我们决定因素的个数,常用的有以下三个: 特征值准则所谓特征值准则就是取特征值大于等于1的主成份来作为初始因素,放弃特征值小于1的主成份。因为每个变量的变异数为1,该准则认为每个保留下来的因素至少应该能解释一个变量的变异数,否则达不到精简的目的。特征值准则是实务应用中最普遍的确定因素个数的方法。 碎石检验准则在碎石检验准中,将按照因素被萃取出的顺序,画出因素的特征值随因素个数变化的散布图,根据图的形状来判断因素的个数(图4-2)。该图的形状像一个山峰,从第一个因素开始,曲线迅速下降,然
37、后下降趋势变得较为平缓,最后变成近似一条直线,一般而言,曲线开始变平缓的前一个点可被认为是萃取的最大因素个数。因为后面的这些散布点就好像是山脚下的碎石,舍去这些碎石,并不损失很多信息,该准则因此而得名。 累积变异数贡献率第一个因素的累积变异数贡献率定义为:(4-10)由式(4-10)可知,第一个因素的变异数贡献率是它的变异数贡献除以总变异数。由于原有的个变量已经进行了标准化处理(平均数为0,变异数为1),因此总变异数为。第二个因素的累积变异数贡献率定义为:(4-11)由此,前个因素的累积变异数贡献率定义为:(4-12)根据式(4-12)可计算出因素的累积变异数贡献率。通常选取累积变异数贡献率大
38、于0.85时的特征值个数为因素个数。表4-2 各因素的特征值及百分比因素特征值占全体的百分比(%)累积百分比(%)13.2064.00%64.00%21.2725.40%89.40%30.255.00%94.40%40.183.60%98.00%50.102.00%100.00%图4-2 因素分析的陡坡图表4-2为某数据组经因素分析后的结果,该表列出了所有候选因素的特征值及累积的变异解释百分比,根据特征值准则,对于表4-2的资料,应该选取两个因素,从陡坡图来看也应该选取两个因素,这两个因素累计解释了原始资料中总变异数的89.4%。因素累积的变异解释百分比,也是确定因素个数时可以参考的指标,一般
39、选取的因素数量应要求使累积的变异解释百分比能达到7080以上。当然在有些特定的情况下,研究者已经事先确定了因素的个数,也可以在SPSS中直接设定要萃取的因素个数。这种方法在检验有关因素个数的理论和假设或者重复做某些特定工作时非常方便。在实务的研究中,研究者很少仅仅依赖某一准则来决定因素个数,而是应该结合几个准则进行综合判断。保留的因素是否有意义,是否能被解释,也是在确定因素时应该考虑的重点。保留的因素太多,在解释因素时可能会比较困难。4-4-3 因素的命名初始因素解虽然达到了数据化简的目的。在求解初始因素这一步骤中,我们确定了共同因素个数,确定了每个变量的共同因素的变异数。但是根据初始因素解,
40、往往很难解释因素的意义,因为大多数因素都和很多变量相关。因素的命名解释是因素分析的另一个重要问题。观察因素负荷矩阵,如果因素负荷的绝对值在第列的很多行上都有较大的取值(通常大于0.5),则表示原始变量与多个因素同时有较大的相关关系。也就是说,原始变量的信息需要由多个因素来共同解释;如果因素负荷的绝对值在第行的很多列上都有较大的取值,则表示因素能够同时解释许多变量的信息,且对每个变量只能解释其中的较少部分信息。因素不能典型代表任何一个原始变量。在这种情况下,因素的实际含义是模糊不清的。而在实际分析工作中,研究者总是希望对因素的实际含义有比较清楚的认识。为解决这个问题,可透过因素旋转的方式使一个变
41、量只在尽可能少的因素上有比较高的负荷。最理想状态是,使某个变量在某个因素上的负荷趋近于1,而在其它因素上的负荷趋近于0。这样,一个因素就能够成为某个变量的典型代表,于是因素的实际含义也就能够清楚表达了。所谓因素旋转就是将因素负荷矩阵右乘一个正交矩阵后得到一个新的矩阵。因素旋转的目的是想透过改变坐标轴的位置,重新分配各个因素所解释的变异数的比例,使因素结构更为简单,更易于解释。因素旋转不会改变模型对数据的拟合程度,也不会改变每个变量的共通性,但却会改变因素的变异数贡献。所谓简单的因素结构是指每个变量在尽可能少的因素上有比较高的负荷。以因素为轴,因素负荷为坐标而做图,则每个变量是该空间中的一个点,
42、该图称为因素负荷图。如图4-3和图4-4所示。圖4-3 因素負荷圖圖4-4 座標軸旋轉後的因素負荷圖图4-3是以两个因素、为坐标轴的因素负荷图。可以看到,图中的10个变量(10个点)在因素、上均有一定的负荷,因此,因素、的含义不清。在图4-4中,坐标轴旋转后,在新的坐标轴中,10个变量中有6个变量在因素上有较高的负荷,而这6个变数在因子上的负荷几乎为0。此外,其余的4个变量在因素上有较高的负荷,在因素的负荷几乎为0。此时,因素、的含义就较为清楚,它们分别是对原有6个变量和其它4个变量的整合与缩减。因此,坐标旋转后应尽可能使原始变量点出现在某个坐标轴的附近,并同时远离其它坐标轴。在某个坐标轴附近
43、的变量只在该因素上有较高负荷,而在其它因素上只有很低的负荷。因素旋转的方式有两种:一种为正交旋转,另一种为斜交旋转。正交旋转是指坐标轴在旋转过程中始终保持互相垂直,于是新产生的因素仍可保持不相关性。而斜交旋转中坐标轴中的夹角可以是任意度数,因此新产生的因素之间无法保证不具相关性。在使因素能被容易命名与解释方面,斜交旋转通常会优于正交旋转,但却也牺牲了一些代价,即无法保持因素的不相关性。因此实务应用上一般会选用正交旋转方式。正交旋转方式通常有四次方最大法(Quartimax)、变异数最大法(Varimax)和等量最大法(Equalmax)等。这些旋转方法的目标是一致的,只是策略不同而已,其中最常
44、用的为变异数最大法。4-4-4 计算因素得分在前面几小节我们主要解决了用因素来线性地表示一组原始变量的相关问题。如果我们要使用这些因素做其它的研究,比如把得到的因素作为自变量来做回归分析、对样本进行分类或评价,这些都需要对因素进行测度,算出因素对应每个样本上的值,这些值称为因素得分(Factor scores)。因素得分是因素分析的最终结果,在因素分析的实务应用中,当因素确定以后,便可计算各因素在每个样本上的具体数值(因素得分),这些因素得分所形成的变量称为因素变量。于是,在以后的分析中就可以因素变量代替原始变量进行数据分析与建模,进而实现降维和简化问题的目标。计算因素得分的过程其实就是用原始
45、变量来描述因素的过程,第个因素在第个样本上的值可表示为:(4-13)式(4-13)中,分别是第个原始变数在第个样本上的值,分别是第个因素和第个原始变量间的因素值系数。可见,它是原始变量线性组合的结果(与因素分析的数学模型正好相反),因素得分可看作是各变量值的加权()总和,权重的大小表示了该变量对因素的重要程度。因此:(4-14)式(4-14)称为因素得分函数。由于因素个数小于原始变数个数,因此式(4-14)中方程式的个数会少于变数的个数。所以,对因素值系数通常采用最小平方法意义下的回归法进行估计。可将式(4-14)当作是因素变量对个原始变量的线性回归方程(其中常数项为0)。很容易可以证明出,式
46、(4-14)中之回归系数的最小平方估计应该满足:(4-15)在式(4-15)中,;为原始变数的相关系数矩阵;是第个变数与第个因素的相关系数。当各因素解正交时有,第个变数在第个因素上的因素负荷,于是:(4-16)其中,为相关系数矩阵的逆矩阵。根据式(4-16)可计算出因素变量的因素值系数,再利用式(4-14)可计算出第个因素在各个样本上的因素得分。4-5 以因素分析法进行项目分析利用因素分析法可藉由因素负荷量来判断个别题项与相对因素的关系,进而删除因素负荷量较低的题项。运用因素分析法删除因素负荷量较低的题项时,将使用主成份分析之单一因素的原始负荷量来辅助判断,其过程如下:1、 开启Service
47、_Q.sav后,执行【Analyze】/【Data Reduction】/【Factor】。2、 待出现Factor Analysis 对话框后,将左边清单中的变量Q1至Q30选入右边的Variables:清单方块中。3、 直接按Extraction钮,此时会出现Factor Analysis: Extraction对话框,由于我们将进行主成份分析且只萃取出一个因素,因此在此对话框中,请于Method:中选取Principal components法,然后于Number of factors:后方的文字输入方块中输入1。4、 设定好后,按Continue钮,回到Factor Analysis 对话框后,再按OK,即可跑出分析报表。执行后所产生的分析报表有三个,分别为共同性(Communalities)、解说总变异量(Total Variance Expanded)与未转轴的成份矩阵(Component Matrix),由于我们想藉由因素负荷量来删除因素负荷量较低(因素负荷量小于0.3)的题项,因此只看未转轴的成份矩阵表即可,如表4-3。表4-3 未转轴的成份矩阵表Compon
限制150内