因子分析方法.ppt
关于因子分析方法现在学习的是第1页,共21页因子分析的基本概念因子分析的基本概念 因子分析的概念因子分析的概念 就是在尽可能不损失信息或少损失信息的情况下,将多个变量减少为 少数几个潜在的因子。也就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法主成分分析主成分分析(Principal component analysis): 是因子分析的一个特例,是使用最多的因子提取方法。它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。两者关系两者关系:主成分分析(PCA)和因子分析(FA)是两种把变量维数降低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子分析的一个特例现在学习的是第2页,共21页因子分析的基本模型因子分析的基本模型因子分析模型中,假定每个原始变量由两部分组成:因子分析模型中,假定每个原始变量由两部分组成:共同因子和唯一因子。共同因子和唯一因子。共同因子是各个原始变量所共有的因子,解释变量之间的相关关系。唯一因子顾名思义是每个原始变量所特有的因子,表示该变量不能被共同因子解释的部分。原始变量与因子分析时抽出的共同因子的相关关系用因子负荷表示。现在学习的是第3页,共21页 因子分析最常用的理论模式如下:(j=1,2,3,n,n为原始变量总数)(1)Zj为第j个变量的标准化分数;(2)Fi(i=1,2,m)为共同因素;(3)m为所有变量共同因素的数目;(4)Uj为变量的唯一因素;(5)aij为因素负荷量。现在学习的是第4页,共21页用矩阵的形式表示为Z=AF+U F称为因子,由于它们出现在每个原始变量的线性表达式(原始变量可以用Xj表示,这里模型中实际上是以F线性表示各个原始变量的标准化分数Zj),因此又称为公共因子. A称为因子载荷矩阵, aji称为因子载荷,是第j个原始变量在第i个因子上的负荷。 U称为特殊因子,表示了原有变量不能被因子解释的部分,其均值为0,相当于多元线性回归模型中的残差。现在学习的是第5页,共21页因子分析的特点因子分析的特点(1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。(2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。(3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。(4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。现在学习的是第6页,共21页因子分析数学模型中几个相关概念因子分析数学模型中几个相关概念1 1、因子载荷(因素负荷量)、因子载荷(因素负荷量)因子载荷就是因素结构中,原始变量与因素分析时抽取出共同因素的相关。在因子不相关的前提下,因子载荷aji是变量Zj和因子Fi的相关系数,反映了变量Zj与因子Fi之间的相关程度。因子载荷值aji小于等于1,绝对值越接近1,表明因子Fi与变量Zj的相关性越强。同时,因子载荷aji也反映了因子Fi对解释变量Zj的重要作用和程度。当要判断一个因子的意义时,需要查看哪些变量的负荷达到了0.3或0.3以上现在学习的是第7页,共21页2 2、变量共同度(共同性、变量共同度(共同性)一个因子解释的是相关矩阵的方差,变量的方差由共同因子和唯一因子组成,可以表示成h+u2=1(h表示共同度,u2表示特殊因子的平方)。变量共同度就是指每个原始变量在每个共同因子的负荷量的平方和,是全部因子对变量方差解释说明的比例。变量共同度h越接近1,说明因子全体解释说明了变量Zj的较大部分方差,如果用因子全体刻画变量,则变量的信息丢失较少;共同性的意义在于说明如果用共同因子替代原始变量后,原始变量的信息被保留的程度。特殊因子U的平方,反应了变量方差中不能由因子全体解释说明的比例,越小则说明变量的信息丢失越少。因子分析数学模型中几个相关概念因子分析数学模型中几个相关概念现在学习的是第8页,共21页 总之,变量的共同度刻画了因子全体对变量信息解释的程度,是评价变量信息丢失程度的重要指标。 如果大多数原有变量的变量共同度均较高(如高于0.8),则说明提取的因子能够反映原有变量的大部分信息(80以上)信息,仅有较少的信息丢失,因子分析的效果较好。因子,变量共同度是衡量因子分析效果的重要依据。2 2、变量共同度(共同性)、变量共同度(共同性)现在学习的是第9页,共21页3 3、因子的方差贡献(特征值)、因子的方差贡献(特征值) 因子的方差贡献(特征值)的数学定义为: 。 该 式表明,因子F Fi i的方差贡献是因子载荷矩阵A中第i列元素的平方和。因子F Fi i的方差贡献反映了因子F Fi i对原有变量总方差的解释能力,(其解释方差的大小成为因子的特征值)。 该值越高,说明相应因子的重要性越高。因此,因子的方差贡献和方差贡献率是衡量因子重要性的关键指标。因子分析数学模型中几个相关概念因子分析数学模型中几个相关概念现在学习的是第10页,共21页举例说明:因子分析数学模型中几个相关概念因子分析数学模型中几个相关概念现在学习的是第11页,共21页现在学习的是第12页,共21页因子分析的五大基本步骤因子分析的五大基本步骤第一步:因子分析的前提条件第一步:因子分析的前提条件由于因子分析的主要任务之一是对原有变量进行浓缩,即将原有变量中的信息重叠部分提取和综合成因子,进而最终实现减少变量个数的目的。因此它要求原有变量之间应存在较强的相关关系。否则,如果原有变量相互独立,相关程度很低,不存在信息重叠,它们不可能有共同因子,那么也就无法将其综合和浓缩,也就无需进行因子分析。本步骤正是希望通过各种方法分析原有变量是否存在相关关系,是否适合进行因子分析。现在学习的是第13页,共21页第一步:因子分析的前提条件第一步:因子分析的前提条件三种方法判断数据是否适合作因子分析:计算相关系数矩阵 在进行提取因子等分析步骤之前,应对相关矩阵进行检验,如果相关矩阵中的大部分相关系数小于0.3,则不适合作因子分析;当原始变量个数较多时,一般不会采用此方法或即使采用了此方法,也不方便在结果汇报中给出原始分析报表。巴特利特球度检验 Bartlett球体检验的目的是检验相关矩阵是否是单位矩阵,如果是单位矩阵,则认为因子模型不合适。一般说来,显著水平值越小(0.05)表明原始变量之间越可能存在有意义的关系,如果显著性水平很大(如0.10以上)可能表明数据不适宜于因子分析。现在学习的是第14页,共21页KMOKMO测度的值越高(接近1.0时),表明变量间的共同因子越多,研究数据适合用因子分析。通常按以下标准解释该指标值的大小:KMO值达到0.9以上为非常好,0.80.9为好,0.70.8为一般,0.60.7为差,0.50.6为很差。如果KMO测度的值低于0.5时,表明样本偏小,需要扩大样本。第一步:因子分析的前提条件第一步:因子分析的前提条件三种方法判断数据是否适合作因子分析:现在学习的是第15页,共21页第二步:取共同因子,确定因子的数目和求因子解的方法第二步:取共同因子,确定因子的数目和求因子解的方法 因子抽取的方法最常使用的是主成份分析法,进行主成份分析时,先要将每个变量的数值转换成标准值。原则上,因子的数目与原始变量的数目相同,但抽取了主要的因子之后,如果剩余的方差很小,就可以放弃其余的因子,以达到简化数据的目的。 因子数目的确定常用的方法是借助一是特征值准则,二是碎石图检验准则。 特征值准则就是选取特征值大于或等于1的主成份作为初始因子,而放弃特征值小于1的主成份。 散点曲线的特点是由高到低,先陡后平,最后几乎成一条直线。曲线开始变平的前一个点被认为是提取的最大因子数。后面的散点类似于山脚下的碎石,可舍弃而不会丢失很多信息。现在学习的是第16页,共21页第三步:使因子更具有命名可解释性(因子旋转)第三步:使因子更具有命名可解释性(因子旋转)通常最初因素抽取后,对因素无法作有效的解释。这时往往需要进行因子旋转,通过坐标变换使因子解的意义更容易解释。转轴的目的在于改变题项在各因素负荷量的大小,转轴时根据题项与因素结构关系的密切程度,调整各因素负荷量的大小,转轴后,使得变量在每个因素的负荷量不是变大(接近1)就是变得更小(接近0),而非转轴前在每个因素的负荷量大小均差不多,这就使对共同因子的命名和解释变量变得更容易。转轴后,每个共同因素的特征值会改变,但每个变量的共同性不会改变。现在学习的是第17页,共21页因子旋转的方法(1)方差最大正交旋转(varimax orthogonal rotation) 基本思想:使公共因子的相对负荷(lij/hi2)的方差之和最大,且保持原公共因子的正交性和公共方差总和不变。 可使每个因子上的具有最大载荷的变量数最小,因此可以简化对因子的解释。(2)斜交旋转 因子斜交旋转后,各因子负荷发生了较大变化,出现了两极分化。各因子间不再相互独立,而彼此相关。各因子对各变量的贡献的总和也发生了改变。 适用于大数据集的因子分析。第三步:使因子更具有命名可解释性(因子旋转第三步:使因子更具有命名可解释性(因子旋转)现在学习的是第18页,共21页第四步:决定因素与命名第四步:决定因素与命名 转轴后,要决定因素数目,选取较少因素层面,获得较大的解释量。在因素命名与结果解释上,必要时可将因素计算后之分数存储,作为其它程序分析之输入变量。现在学习的是第19页,共21页第五步:计算各样本的因子得分第五步:计算各样本的因子得分 因子分析的最终目标是减少变量个数,以便在进一步的分析中用较少的因子代替原有变量参与数据建模。本步骤正是通过各种方法计算各样本在各因子上的得分,为进一步的分析奠定基础。现在学习的是第20页,共21页2022-9-2感谢大家观看感谢大家观看现在学习的是第21页,共21页