使用SPSS进行探索式因素分析的教程.docx
《使用SPSS进行探索式因素分析的教程.docx》由会员分享,可在线阅读,更多相关《使用SPSS进行探索式因素分析的教程.docx(30页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第4章 探索式因素分析在社会及为科学研究中,研究者经常会搜集实证性化资做验证,而要证明这些资可靠性及正确性,则必须依靠测或调查工具信或效(杨国枢等,2002b)。一份好量表应该要能够将欲研究主题构念(Construct,它是心理学上一种理论构想或特质,无法直接观测得到)清楚且正确呈现出来,而且还需具有效度,即能真正衡量到我们欲量测特性,此外还有信度,即该量表所衡量结果应具有一致性、稳定性,因此为达成良好之衡量目标,必须有以下两个步骤:第一个步骤是针对量表题项作项目分析,以判定各项目区别效果好坏;第二步骤则是建立量表信度及效度。量表之项目分析、信度检验已于第2、3章有所说明,本章将探讨量表之效度
2、问题。4-1 效度效即为正确性,也就是测工具确实能测出其所欲测特质或功能之程。一般研究中最常使用内容效度(Content Validity)及建构效度(Construct Validity)来检视该份研究之效度。所谓内容效度,是指该衡量工具能足够涵盖主题程度,此程度可从量表内容代表性或取样适切性来加以评估。若测量内容涵盖所有研究计划所要探讨架构及内容,就可说是具有优良内容效度。在一般论文中,常使用如下描述来交代内容效度:在内容效度方面,主要是根据文献探讨及专家研究者经验。然因本研究问卷设计之初,考虑目前相关文献中,尚未对本研究议题提出实证性问卷,故只能自行设计量表,对于内容效度是否达成,尚有疑
3、虑。本研究之各研究变项皆经先前学者之实证,衡量工具内容均能足够地涵盖欲探讨研究主题。另外,本研究于正式施测前,亦针对问卷之各题项及相关领域学者、专家进行内容适切度之讨论,因此,研究采用之衡量工具应具内容效度。本研究问卷系以理论为基础,参考多数学者问卷内容及衡量项目,并针对研究对象特性加以修改,并经由相关专业人员及学者对其内容审慎检视,继而进行预试及修正,因此本研究所使用之衡量工具应能符合内容效度要求。而所谓建构效度系指测量工具内容,即各问项是否能够测量到理论上构念或特质程度。建构效度包含收敛效度(Convergent Validity)及区别效度(Discriminant Validity),
4、收敛效度主要测试以一个变量(构念)发展出多项问项,最后是否会收敛于一个因素中(同一构念不同题目相关性很高);而区别效度为判别问项可以及其它构念之问项区别程度(不同构念不同题目相关性很低)。衡量收敛效度统计方式可使用探索式因素分析法(Exploratory factor analysis),简称因素分析。进行因素分析时,若发现各构念衡量项目皆可收敛于同一个共同因素之下,则表示该量表收敛效度是可被接受。至于区别效度,则可采用因素分析及皮尔森相关分析,首先,必须在因素分析法中,各构念衡量项目皆没有及其它构念衡量项目收敛于同一个共同因素之下,此外,在皮尔森相关系数矩阵中,不同构念衡量项目彼此之间关联性
5、很低,如皮尔森系数皆小于0.3,若出现上述两现象显示不同构念衡量项目间彼此皆不具有强烈关连性,据此,即可显示出区别效度是可以被接受。进行量表之建构效度评估时,虽理应同时检视收敛效度及区别效度,然审视国内之硕士论文或一些期刊论文都可发现,大部分都只以因素分析进行收敛效度之评估,并据以说明量表建构效度,其方法如:同一构念中,若因素负荷量值愈大(通常取0.5以上者才保留该项目,否则删除后再重新执行一次因素分析),表示收敛效度愈高。此外,也可使用属线性结构方程(Linear Structural Equation)领域验证性因素分析(Confirmatory Factor Analysis),以进行模
6、式适合度检定,并检定各构念是否具有足够收敛效度及区别效度。4-1因素分析意义因素分析(Factor Analysis)属于多元统计分析技术一种,其主要目是浓缩数据。它透过研究众多变量之间内部依赖关系,探求观测数据中基本结构,并用少数几个假想变量来表示其基本数据结构。这些假想变量能够反映原来众多观测变量所代表主要信息,并解释这些观测变量之间相互依存关系,我们把这些假想变量称之为基础变量,即因素(Factors)。因素分析就是研究如何以最少信息遗失,而能把众多观测变量浓缩为少数几个因素。一般在对实际问题做研究时,研究者往往希望尽可能地多多收集及研究主题相关变量,以期能针对问题有比较全面性、完整性掌
7、握和认识。虽然收集这些数据需投入许多人力、物力及时间成本,虽然它们能够较为整体而精确地描述研究主题,但将这些资料实际用在分析、建模时,这些变量未必能真正发挥研究者预期作用,也就是说研究者投入和产出并非呈合理正比,相反,这样搜集资料行为反而会给研究者于统计分析时带来许多问题,这些问题如下: 计算量问题由于研究者所收集变量相当多,如果这些变量都投入数据分析及建模,无疑,这将会增加分析过程中于计算上工作量。虽然,目前计算机运用普遍且其计算能力亦相当优异,然而对于此种高维变量和庞大数据仍是于计算上所不容忽视。 变数间相关性问题由于研究者针对特定之主题所收集到诸多变量之间通常或多或少都会存在着相关性。也
8、就是说,变量之间往往具有信息高度重迭性和高度相关性,这些特质将会给统计方法应用带来许多不便。例如,在多元线性回归分析中,如果这些众多解释变量之间,存在着较强且显着相关性,即存在着高度多重共线性,那么于回归方程参数估计时,将带来许多麻烦,致使回归方程参数不准确甚至模型不可用等。为解决上述问题,最简单且最直接解决方法即是精减变量之个数,但是这又必然会导致信息漏失和信息不完整等现象产生,这是一个Trade-off问题。为此,研究者无不希望探索一种更有效解决方法,期盼它既能大大减少参及数据分析、建模变量个数,也同时不会造成信息大量漏失。而因素分析正是这样一种能够有效降低变量维数(个数),并已得到广泛应
9、用分析方法。因素分析是由心理学家所发展出来,最初心理学家借助因素分析模型来解释人类行为和能力,1904年Charles Spearman在美国心理学杂志上发表了第一篇有关因素分析文章,在往后三四十年里,因素分析理论和数学基础理论逐步获得发展和改善,也因此,这个统计分析工具逐渐被人们所认识和接受。50年代以来,随着计算机普及和各种统计软件出现,因素分析在社会学、经济学、医学、地质学、气象学和市场营销等越来越多领域得到了应用。因素分析以最少信息漏失为前提,试图将众多原始变量综合成较少几个综合指标,这些综合指标即名为因素(factor)。一般而言,因素具有以下几个特点: 因素个数远少于原始变量个数原
10、始变量综合成少数几个因素后,因素将可以替代原始变量参及数据建模,这将大大减少分析过程中计算工作量。 因素能够反映原始变量绝大部分信息因素并不是原始变量简单取舍,而是原始变量重组后结果,因此不会造成原始变量信息大量遗失,并能够代表原始变量绝大部分信息。 因素之间线性关系不显着由原始变量重组出来因素之间线性关系较弱,因素参及数据建模能够有效地解决变量多重共线性等给分析应用带来诸多问题。 因素具有命名解释性通常,因素分析产生因素能够透过各种方式最终获得命名解释性。因素命名解释性有助于对因素分析结果解释评价,对因素进一步应用有重要意义。例如,对高校科研情况因素分析中,如果能够得到两个因素,且其中一个因
11、素是对科研人力投入、经费投入、立项项目数等变量综合,而另一个是对结项项目数、发表论文数、获奖成果数等变量综合,那么,该因素分析就是较为理想。因为这两个因素均有命名可解释性,其中一个反映了科研投入方面情况,可命名为科研投入因素,另一个反映了科研产出方面情况,可命名为科研产出因素。总之,因素分析是研究如何以最少信息遗失将众多原始变量浓缩成少数几个因素,如何使因素具有一定命名解释性多元统计分析方法。4-2 因素分析数学模型因素分析核心价值在于它能使用较少且相互独立因素来反映原始变量绝大部分信息。由于任何一个变量都可以透过(为平均数,为标准差)转换而变成标准化变量,经标准化后变量并不会改变原始变量之间
12、相关系数,也就是说不失其一般性。在此我们所讨论变量都是标准化变量。设原有个变数且每个变量平均数为0,标准差均为1。现将每个原始变数用个因素线性组合来表示,即: (4-1)式(4-1)就是因素分析数学模型,此模型在型式上和多元回归模型很相似,也可用矩阵型式表示为。其中称为因素,由于它们出现在每个原始变量线性表达式中,因此又称为共同因素(Common factors),它们是各个原始变量所共同拥有因素,解释了变量之间相关程度。因素也可被想象成是高维空间中互相垂直个坐标轴。称为因素负荷矩阵,称为因素负荷(Factor loading),它是第个原始变数在第个因素上负荷,相当于多元回归分析中标准回归系
13、数。称为特殊因素(Unique factor),它是每个原始变量所特有因素,相当于多元回归中残差项,它表示了原始变量不能被因素所解释部分,其平均数为0。因素分析模型中假设个特殊因素之间是彼此独立,特殊因素和共同因素之间也是彼此独立。此外该模型中,每一个原始变量都是由个共同因素和一个特殊因素线性组合来表示,而我们所感兴趣只是这些能够代表较多信息共同因素,因此往后如果没有特殊说明话,本书中所经常提到因素一词,实际上所指就是共同因素。共同因素个数最多可以等于原始变量数量。因为在求因素解时,通常都会使第一个因素之代表性最高(即拥有最多信息),之后其它因素之代表性日益衰减,因此,如果忽略掉最后几个因素,
14、则对原始变量代表性也不会有什么损失。所以,因素分析模型中,共同因素个数,往往远远小于原始变量个数。如果把特殊因素当作是残差项看待,那么因素分析模型和多元线性回归模型在型式上非常相近,他们都是用其它变量线性组合加上一个残差项来表示一个变量,但是回归模型中自变量是可观测,而因素分析模型中因素是假想变量,是不可观测,这就使得它有别于一般线性模型。4-3 因素分析相关概念因素分析之数学模型中蕴藏着几个重要相关概念,搞懂这些概念不仅有助于因素分析之意义理解,更有利于明暸因素及原始变量间关系、因素重要程度以及辅助评估因素分析效果。为了进一步了解该模型所蕴含意义,下面我们将讨论因素分析中常用几个统计量。 因
15、素负荷因素负荷可说是因素分析模型中最重要一个统计量,它连接了原始变量和共同因素。当共同因素之间完全不相关时,我们可以很容易证明出因素负荷其实就是第个变数和第个因素之间相关系数。在大部分情况下,我们通常会假设共同因素之间是彼此正交(Orthogonal),也就是说假设共同因素之间不相关。因此,因素负荷不仅说明了原始变量是如何由因素线性组合而成,而且也反映了因素和变量之间相关程度,绝对值越大,表示共同因素及变数关系越紧密。假设有一个五个原始变量、两个共同因素模型:从这个因素分析模型中,可以很容易看出,共同因素及变数关系密切,因为其间因素负荷较大,这说明了共同因素代表了这些变量所共同散发出来信息,共
16、同因素及变数关系密切,因此共同因素主要代表了这两个变量所共同信息。此外,因素负荷还可以用来估计原始变量之间相关系数,当共同因素之间彼此不相关时,由因素分析模型很容易可以推导出变量之间相关系数为:即任何两个原始变量之间相关系数等于所对应因素负荷乘积之和。这说明了因素分析模型假设原始变量之间潜在关系可以透过共同因素来加以描述,如果我们把变量和因素之间负荷想象为路径系数,则变量和变数之间关系可以透过图4-1明确地表示出来。图4-1 变数和变数之间关系图由因素模型所导出变量间相关系数可以用来辅助判断因素解是否合适,如果由原始观测资料所计算出相关系数和从模型中所导出变量间相关系数相差很小,那么我们可以认
17、为模型非常适切拟合了原始观测资料,因素解是合适。因素分析模型是从解释变量之间相关关系出发,他最佳解即是原始变量之间实际相关关系。 共通性(Communality)所谓共通性是指原始变量变异数中由共同因素所决定之部分所占比例。变数共通性记做。当共同因素之间彼此正交时,共通性等于和该变量有关因素负荷平方和,用方程式可表示为:(4-2)由式4-2可轻易理解,变数共通性即是因素负荷矩阵中第列中所有元素平方和。读者对4-2公式也可这样来记忆,共通性通常是以来代表,为何要使用这个字母,因为水平这个字英文为horizontal,引申到矩阵中话即代表一列,故第个变量共通性即为负荷矩阵中第列中所有元素平方和。由
18、于变量是标准化变量,所以变量变异数可以表示成,也就是说原始变量变异数可由两个部分来加以解释:第一部分为共同因素所决定,即共通性,它是变数之变异数能被共同因素所能解释说明部份,其说明了所有因素对变量解释贡献程度。共通性越大,代表变量能被因素说明程度也越高。共通性越接近1,代表因素解释说明了变量大部分变异数,也就是说,如果我们使用因素来描述变量时,则变数信息遗失较少,第二部分则由特殊因素所决定,即特殊因素平方,它反映了变量变异数中不能由所有因素解释说明部份,越小则说明变量信息遗失越少。总之,变数共通性描述了所有因素对变量所蕴含之信息解释程度,是评价变量之信息遗失程度重要指针。如果大部份之原始变量共
19、通性均较高(如高于0.8),则代表所萃取出因素确实能够反映原始变量大部分(80%以上)信息,而仅有较少信息遗失,因此因素分析效果较好。所以,共通性是衡量因素分析效果重要依据。对于上面所举五个原始变量、两个共同因素例子,可计算出每个变量共通性见表4-1。表示和两个因素解释了变量之信息量96.16%。共通性这个指针以原始变量为中心,它意义在于说明如果用共同因素替代原始变量后,原来每个变量信息被保留程度。表4-1 因素负荷矩阵、特征值、共通性及因素贡献度0.960.20.96160.870.290.84100.170.880.80330.570.760.90250.860.340.8552特征值()
20、2.771.590.550.32 因素贡献程度每个共同因素对数据解释能力,可以用该因素所解释总变异数来衡量,通常称此为该因素贡献度(Contributions),记为。它等于和该因素有关因素负荷平方和,即(4-3)因素分析中特征值是每个变量在某一共同因素之因素负荷量平方和,因此特征值其实就等于,而所有共同因素总贡献度则为:(4-4)然而在实际研究中更常用相对性指标,即每个因素所解释变异数占所有变量总变异数比例。相对指标衡量了共同因素相对重要性。假设是表示原始变量之数量,则表示了第个因素所解释变异数比例,而则表示所有共同因素累积解释变异数比例,它可以用来作为因素分析结束判断指标。如表4-1,在上
21、例中,、这代表第一个因素解释了所有变量总变异数55%,第二个因素解释了上述总变异数32%,两个因素一共解释了总变异数87%。值越高,代表相对应因素重要性越高。因此,因素变异数贡献和变异数贡献率是衡量因素重要性关键指标。4-4 因素分析基本步骤进行因素分析时,通常包括以下四个主要步骤:1、因素分析前提条件由于因素分析主要目是简化数据或者找出基本数据结构,此即将原始变量中信息重迭部分萃取出来并整合成因素,进而最终实现减少变量个数及萃取出因素目。因此要能够进行因素分析,必须要求原始变量之间应存在较强相关关系。否则,如果原始变量间是相互独立、不存在信息重迭,那么也就无法将其整合和缩简,也就无须进行因素
22、分析了。所以本步骤主要目就是希望透过各种方法分析、检验原始变量间是否存在相关关系,是否适合于进行因素分析。一般而言,如果相关矩阵中大部分相关系数都小于0.3,则不适合做因素分析。2、因素萃取将原始变量整合成少数几个因素是因素分析主要目。本步骤中就是要去确定因素个数和求因素解方法。3、使因素容易命名及具可解释性将原始变量整合为少数几个因素后,如果因素实质涵义无法厘清,则极不利于进一步分析。本步骤就是希望透过各种方法(因素旋转)使萃取出来因素,其实质涵义能够清楚表达出来,进而使研究者能根据其涵义而对因素加以命名并深入解释它。4、计算各样本因素得分因素分析最终目标是减少变量个数,以便在进一步分析中用
23、较少因素代替原始变量参及数据分析及建模。本步骤将透过各种方法计算各样本在各因素上得分,并以这些因素得分替代原始变量值,为进一步分析奠定基础。下面将依次对上述基本步骤进行详细讨论。4-4-1 因素分析前提条件因素分析目是从众多原始变量中求同舍异整合出少数几个具有代表性因素,在这过程中,需要一个潜在前提条件,即原始变量之间应具有较强相关关系。这个道理并不难理解,如果原始变量之间不存在较强相关关系,那么就无法从中整合出能够反映某些变量共同特性几个较少共同因素。因此,一般在因素分析时需先验证因素分析前提条件,即验证原始变量间是否相关。SPSS软件中提供了下列几种方法帮助研究者判断观测资料是否适合做因素
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 使用 SPSS 进行 探索 因素 分析 教程
限制150内