主成分分析与因子分析PPT讲稿.ppt
主成分分析与因子分析第1页,共108页,编辑于2022年,星期四2 主主成成分分分分析析(principal components analysis,简简称称PCA)是是由由霍霍特特林林(Hotelling)于于1933年年首首先先提提出出的的。它它通通过过投投影影的的方方法法,实实现现数数据据的的降降维维,在在损损失失较较少少数数据据信信息息的的基基础础上把多个指标转化为几个有代表意义的综合指标。上把多个指标转化为几个有代表意义的综合指标。13.1 主成分分析主成分分析第2页,共108页,编辑于2022年,星期四313.1.1 13.1.1 主成分分析的基本思想主成分分析的基本思想主成分分析的基本思想主成分分析的基本思想 假如对某一问题的研究涉及假如对某一问题的研究涉及 p 个指标,记为个指标,记为X1,X2,Xp,由,由这这 p 个随机变量构成的随机向量为个随机变量构成的随机向量为X=(X1,X2,Xp),设,设 X 的均值的均值向量为向量为,协方差矩阵为,协方差矩阵为。设。设Y=(Y1,Y2,Yp)为对为对 X 进行线性变进行线性变换得到的合成随机向量,即换得到的合成随机向量,即 (13.1.1)设设 i=(i1,i2,ip),(),A=(1,2,p),则,则有有 (13.1.2)第3页,共108页,编辑于2022年,星期四4且且 (13.1.3)由式(由式(13.1.1)和式()和式(13.1.2)可以看出,可以对原始变量进行)可以看出,可以对原始变量进行任意的线性变换,不同线性变换得到的合成变量任意的线性变换,不同线性变换得到的合成变量Y的统计特征显然的统计特征显然是不一样的。每个是不一样的。每个Yi 应尽可能多地反映应尽可能多地反映 p 个原始变量的信息,通个原始变量的信息,通常用方差来度量常用方差来度量“信息信息”,Yi 的方差越大表示它所包含的信息越的方差越大表示它所包含的信息越多。由式(多。由式(13.1.3)可以看出将系数向量)可以看出将系数向量 i 扩大任意倍数会使扩大任意倍数会使Yi 的方的方差无限增大,为了消除这种不确定性,增加约束条件:差无限增大,为了消除这种不确定性,增加约束条件:第4页,共108页,编辑于2022年,星期四5 为了有效地反映原始变量的信息,为了有效地反映原始变量的信息,Y的不同分量包含的信息不应重的不同分量包含的信息不应重叠。综上所述,式(叠。综上所述,式(13.1.1)的线性变换需要满足下面的约束:)的线性变换需要满足下面的约束:(1),即,即 ,i=1,2,p。(2)Y1在满足约束在满足约束(1)即的情况下,方差最大;即的情况下,方差最大;Y2是在满足约束是在满足约束(1),且与,且与Y1不相关的条件下,其方差达到最大;不相关的条件下,其方差达到最大;Yp是在满是在满足约束足约束(1),且与,且与Y1,Y2,Y p-1不相关的条件下,在各种线性不相关的条件下,在各种线性组合中方差达到最大者。组合中方差达到最大者。满足上述约束得到的合成变量满足上述约束得到的合成变量Y1,Y2,Yp分别称为原始变量的分别称为原始变量的第一主成分、第二主成分、第一主成分、第二主成分、第、第 p 主成分,而且各成分方差在总主成分,而且各成分方差在总方差中占的比重依次递减。在实际研究工作中,仅挑选前几个方差较方差中占的比重依次递减。在实际研究工作中,仅挑选前几个方差较大的主成分,以达到简化系统结构的目的。大的主成分,以达到简化系统结构的目的。第5页,共108页,编辑于2022年,星期四613.1.2 13.1.2 总体主成分求解及其性质总体主成分求解及其性质总体主成分求解及其性质总体主成分求解及其性质 13.1.1节中提到主成分分析的基本思想是考虑合成变量节中提到主成分分析的基本思想是考虑合成变量的方差大小及其对原始变量波动的方差大小及其对原始变量波动(方差方差)的贡献大小,而对于的贡献大小,而对于原始随机变量原始随机变量X1,X2,Xp,其协方差矩阵或相关矩阵正,其协方差矩阵或相关矩阵正是对各变量离散程度和相关程度的度量。在实际求解主成分是对各变量离散程度和相关程度的度量。在实际求解主成分时,一般从原始变量的协方差矩阵或相关矩阵的结构分析出时,一般从原始变量的协方差矩阵或相关矩阵的结构分析出发。发。第6页,共108页,编辑于2022年,星期四7 1 1从协方差矩阵出发求解主成分从协方差矩阵出发求解主成分从协方差矩阵出发求解主成分从协方差矩阵出发求解主成分 设设 1是任意是任意 p 1向量,求解主成份就是在约束条件向量,求解主成份就是在约束条件 下,求下,求 X 的的线性函数线性函数 使其方差使其方差 达到最大,即达到最大,达到最大,即达到最大,且且 ,其中,其中 是随机变量向量是随机变量向量X=(X1,X2,Xp)的协方差矩阵。的协方差矩阵。设设 1 2 p 0 为为 的特征值,的特征值,e1,e2,ep为为 矩阵各特征值对矩阵各特征值对应的标准正交特征向量,则对于任意的应的标准正交特征向量,则对于任意的ei 和和 ej,有,有 (13.1.4)且且 (13.1.5)第7页,共108页,编辑于2022年,星期四8因此因此 (13.1.6)当当 1=e1 时有时有 (13.1.7)此时此时 达到最大值为达到最大值为 1。同理有。同理有 并并且且 (13.1.8)第8页,共108页,编辑于2022年,星期四9 由上述推导得由上述推导得 (13.1.9)可见可见Y1,Y2,Yp 即为原始变量的即为原始变量的 p 个主成份。因此,主成分的个主成份。因此,主成分的求解转变为求求解转变为求 X1,X2,Xp 协方差矩阵协方差矩阵 的特征值和特征向量的问题。的特征值和特征向量的问题。第9页,共108页,编辑于2022年,星期四10主成份的性质主成份的性质主成份的性质主成份的性质 性质性质性质性质1 1 Y的协方差矩阵为对角阵的协方差矩阵为对角阵,即,即 (13.1.10)性质性质性质性质2 2 设设=(ij)pp是随机变量向量是随机变量向量 X 的协方差矩阵,可得的协方差矩阵,可得即即第10页,共108页,编辑于2022年,星期四11 由此可见,主成分分析是把由此可见,主成分分析是把 p 个随机变量的总方差分解为个随机变量的总方差分解为 p 个不个不相关随机变量的方差之和相关随机变量的方差之和 1 2 P,则总方差中属于第,则总方差中属于第 i 个主成分(被第个主成分(被第 i 个主成分所解释)的比例为个主成分所解释)的比例为 (13.1.12)称为第称为第 i 个主成分的贡献度。定义个主成分的贡献度。定义 (13.1.13)称为前称为前 m 个主成分的累积贡献度,衡量了前个主成分的累积贡献度,衡量了前 m 个主成份对原始变量的个主成份对原始变量的解释程度。解释程度。第11页,共108页,编辑于2022年,星期四12 性质性质性质性质3 3记第记第k个主成分个主成分 Yk 与原始变量与原始变量 Xi 的相关系数为的相关系数为r(Yk,Xi),称为因子载荷,或者因子负荷量,则有,称为因子载荷,或者因子负荷量,则有 (13.1.14)第12页,共108页,编辑于2022年,星期四133 3从相关矩阵出发求解主成分从相关矩阵出发求解主成分从相关矩阵出发求解主成分从相关矩阵出发求解主成分 在实际应用时,为了消除原始变量量纲的影响,通常将数据标准在实际应用时,为了消除原始变量量纲的影响,通常将数据标准化。考虑下面的标准化变化,令化。考虑下面的标准化变化,令 (13.1.15)其中其中 i,ii 分别表示随机变量分别表示随机变量 Xi 的期望与方差,则的期望与方差,则 第13页,共108页,编辑于2022年,星期四14 原始变量的相关矩阵就是原始变量标准化后的协方差矩阵,原始变量的相关矩阵就是原始变量标准化后的协方差矩阵,因此,由相关矩阵求主成分的过程与由协方差矩阵求主成分的因此,由相关矩阵求主成分的过程与由协方差矩阵求主成分的过程是一致的。如果仍然采用(过程是一致的。如果仍然采用(i,ei)表示相关矩阵)表示相关矩阵R对应的对应的特征值和标准正交特征向量,根据式(特征值和标准正交特征向量,根据式(13.1.9)有:)有:(13.1.17)由相关矩阵求得的主成分仍然满足性质由相关矩阵求得的主成分仍然满足性质13。性质。性质3可以进可以进一步表示为:一步表示为:(13.1.18)第14页,共108页,编辑于2022年,星期四1513.1.3 13.1.3 样本的主成分样本的主成分样本的主成分样本的主成分1 1样本统计量样本统计量样本统计量样本统计量 在实际工作中,我们通常无法获得总体的协方差矩阵在实际工作中,我们通常无法获得总体的协方差矩阵 和相关矩阵和相关矩阵R。因此,需要采用样本数据来估计。设从均值向量为。因此,需要采用样本数据来估计。设从均值向量为,协方,协方差矩阵为差矩阵为 的的 p 维总体中得到的维总体中得到的 n 个样本,且样本数据矩阵为个样本,且样本数据矩阵为 (13.1.19)第15页,共108页,编辑于2022年,星期四16则样本协方差矩阵为:则样本协方差矩阵为:(13.1.20)其中其中:(13.1.21)样本相关矩阵为:样本相关矩阵为:(13.1.22)样本协方差矩阵样本协方差矩阵 S 是总体协方差矩阵是总体协方差矩阵 的无偏估计量,样本相关矩的无偏估计量,样本相关矩阵阵 是总体相关矩阵是总体相关矩阵 R 的估计量。的估计量。第16页,共108页,编辑于2022年,星期四172 2样本主成份及其性质样本主成份及其性质样本主成份及其性质样本主成份及其性质 由于采用相关矩阵和协方差矩阵求解主成分的过程基本一致,因此由于采用相关矩阵和协方差矩阵求解主成分的过程基本一致,因此本节仅介绍基于样本相关矩阵求解主成分的过程。设样本相关矩阵本节仅介绍基于样本相关矩阵求解主成分的过程。设样本相关矩阵 的的特征值为特征值为 ,且,且与特征值相对应的标准正交特征向量为与特征值相对应的标准正交特征向量为 ,根据式,根据式(13.1.17)第)第 i 个样本主成分可表示为:个样本主成分可表示为:(13.1.23)而且而且 (13.1.24)(13.1.25)第17页,共108页,编辑于2022年,星期四18且由式(且由式(13.1.16)和性质)和性质2可得可得 (13.1.26)则第则第i个样本主成分的贡献度为个样本主成分的贡献度为 ,前,前m个样本主成份的累计贡个样本主成份的累计贡献度为献度为 另外另外 (13.1.27)第18页,共108页,编辑于2022年,星期四193 3主成份个数的确定主成份个数的确定主成份个数的确定主成份个数的确定 主成分分析的目的之一是减少变量的个数,但是对于应保主成分分析的目的之一是减少变量的个数,但是对于应保留多少个主成分没有确切的回答。通常需要综合考虑样本总方留多少个主成分没有确切的回答。通常需要综合考虑样本总方差的量、特征值的相对大小以及各成分对现实的阐述。一般所差的量、特征值的相对大小以及各成分对现实的阐述。一般所取取 m 使得累积贡献率达到使得累积贡献率达到85%以上为宜。以上为宜。另一个比较常用的可视的方法是碎石图,首先将特征值另一个比较常用的可视的方法是碎石图,首先将特征值 按照按照从大到小的顺序进行排列,碎石图是特征值与相应序号从大到小的顺序进行排列,碎石图是特征值与相应序号i的(的(i,)图形,其中横轴表示序号,纵轴表示特征值图形,其中横轴表示序号,纵轴表示特征值 。为了确定主成。为了确定主成分的合适个数,选择碎石图斜率变化较大的拐弯点,通常在此分的合适个数,选择碎石图斜率变化较大的拐弯点,通常在此序号之后的特征值取值比较小,则此序号作为主成分的个数。序号之后的特征值取值比较小,则此序号作为主成分的个数。例如,图例如,图13.1所示的碎石图在所示的碎石图在 i=2 处拐弯,则处拐弯,则 m 选择选择2。第三个经。第三个经验的判断方法是只保留那些方差大于验的判断方法是只保留那些方差大于1的主成分。的主成分。第19页,共108页,编辑于2022年,星期四20例例例例13.1 13.1 宏观经济景气波动的主成分分析宏观经济景气波动的主成分分析宏观经济景气波动的主成分分析宏观经济景气波动的主成分分析 本例从一批对景气变动敏感,有代表的指标中筛选出本例从一批对景气变动敏感,有代表的指标中筛选出5个反应宏观经个反应宏观经济波动的一致指标组:工业增加值增速(济波动的一致指标组:工业增加值增速(iva)、工业行业产品销)、工业行业产品销售收入增速(售收入增速(sr)、固定资产投资增速()、固定资产投资增速(if)、发电量增速()、发电量增速(elec)和)和货币供应量货币供应量M1增速(增速(m1),样本区间从),样本区间从1998年年1月月2006年年12月,月,为了消除季节性因素和不规则因素,采用为了消除季节性因素和不规则因素,采用X-12方法进行季节调整。方法进行季节调整。常用的方法是美国商务部采用的计算合成指数常用的方法是美国商务部采用的计算合成指数CI的方法。特别的,的方法。特别的,本例利用主成分分析降维的思想,提取主成分(本例利用主成分分析降维的思想,提取主成分(PCA),并与合成),并与合成指数指数CI的结果进行比较。的结果进行比较。第20页,共108页,编辑于2022年,星期四2113.3.1 EViews13.3.1 EViews软件中主成分分析的计算软件中主成分分析的计算软件中主成分分析的计算软件中主成分分析的计算 本节以例本节以例13.1的数据为例,介绍的数据为例,介绍EViews软件中主成分分析软件中主成分分析的实现过程。首先将所涉及的变量建成一个组的实现过程。首先将所涉及的变量建成一个组(g1),选择组菜,选择组菜单的单的View/Principal Components.,出现如图,出现如图13.6所示的窗口。所示的窗口。在窗口中有两个切换钮:第一个钮标着在窗口中有两个切换钮:第一个钮标着Components,第二个,第二个钮标着钮标着Calculation,控制着组中各序列离差矩阵的计算和估计。默,控制着组中各序列离差矩阵的计算和估计。默认的,认的,EViews完成主成分分析使用普通的(完成主成分分析使用普通的(Pearson)相关矩阵,)相关矩阵,也可以在这个菜单下重新设定主成分的计算。也可以在这个菜单下重新设定主成分的计算。第21页,共108页,编辑于2022年,星期四221 1ComponentsComponents选择纽选择纽选择纽选择纽 Components按钮用于设定显示主成分和保存方差的特征值按钮用于设定显示主成分和保存方差的特征值和特征向量。在和特征向量。在Display对话框中可以以表的形式显示特征值和特对话框中可以以表的形式显示特征值和特征向量,或者按照特征值的大小以线性图的形式显示,或者是载征向量,或者按照特征值的大小以线性图的形式显示,或者是载荷、得分的散点图,或者两个都显示(荷、得分的散点图,或者两个都显示(biplot)。选择不同的显示)。选择不同的显示方式,对话框中其余的内容也会发生相应的改变。方式,对话框中其余的内容也会发生相应的改变。第22页,共108页,编辑于2022年,星期四23图图图图13.6 13.6 主成分估计对话框主成分估计对话框主成分估计对话框主成分估计对话框(1)(1)第23页,共108页,编辑于2022年,星期四24第24页,共108页,编辑于2022年,星期四25 表头描述了观测值的样本区间、计算离差矩阵的方法以及保留成表头描述了观测值的样本区间、计算离差矩阵的方法以及保留成分的个数(在这个例子中显示了所有的分的个数(在这个例子中显示了所有的5个主成分)。个主成分)。表的第一部分概括了特征值(表的第一部分概括了特征值(Value)、相应特征值与后一)、相应特征值与后一项的差(项的差(Difference)、对总方差的累积解释比例()、对总方差的累积解释比例(Cumulative Proportion)等等。由于上述结果的计算采用相关矩阵,所以)等等。由于上述结果的计算采用相关矩阵,所以5个特征值之和等于个特征值之和等于5。第一个成分占总方差的。第一个成分占总方差的72.94%,第二个成分,第二个成分占总方差的占总方差的19.22%。前两个成分占总方差的。前两个成分占总方差的92.16%。表的第二部分描述了线性组合的系数,第一个主成分表的第二部分描述了线性组合的系数,第一个主成分(标为(标为“PC1”)大约等于所有)大约等于所有5个一致指标的线性组合,它可以个一致指标的线性组合,它可以解释为一般的经济景气指数。解释为一般的经济景气指数。输出的第三部分表示计算的相关矩阵。输出的第三部分表示计算的相关矩阵。第25页,共108页,编辑于2022年,星期四26第第1主成分主成分第第2主成分主成分第第3主成分主成分 第第4主成分主成分 第第5主成分主成分特特征征向向量量固定资产投资增速(固定资产投资增速(if)0.449-0.3670.6960.2000.374工业增加值增速(工业增加值增速(iva)0.510-0.153-0.0780.312-0.783货币供应量增速(货币供应量增速(m1r)0.2040.9130.2850.2080.009产品销售收入增速(产品销售收入增速(sr)0.4900.023-0.6540.2930.496发电量增速(发电量增速(elec)0.5080.088-0.020-0.857-0.026特特 征征 值值3.6030.9880.2700.0870.051贡贡 献献 率率0.7210.1970.0540.0180.01累积贡献率累积贡献率0.7210.9180.9720.9901.000表表表表13.1 13.1 一致指标组的主成分分析结果一致指标组的主成分分析结果一致指标组的主成分分析结果一致指标组的主成分分析结果第26页,共108页,编辑于2022年,星期四27 由表由表13.1可以看出,第可以看出,第1主成分的贡献率为主成分的贡献率为72.1%,已能较好地,已能较好地反映反映5个一致指标的总体变动情况,而且根据它们的特征值可个一致指标的总体变动情况,而且根据它们的特征值可以发现第以发现第2个特征值开始明显变小个特征值开始明显变小(小于小于1),碎石图出现明显的拐弯,碎石图出现明显的拐弯,同时为了讨论方便,仅选择同时为了讨论方便,仅选择m=1,提取第一个主成分反映经济变动。,提取第一个主成分反映经济变动。表表13.1中已经给出对应的特征向量,根据式(中已经给出对应的特征向量,根据式(13.1.23)可以得到对应)可以得到对应的主成分序列。的主成分序列。第27页,共108页,编辑于2022年,星期四28图图图图13.7 13.7 主成分估计对话框(主成分估计对话框(主成分估计对话框(主成分估计对话框(2 2)如果在主对话框的如果在主对话框的Display部分选择部分选择Eigenvalues plots,则显示按顺序排列的特征,则显示按顺序排列的特征值的线性图(碎石图)。在对话框的下面将发生改变,可以选择显示特征值(碎石图)、值的线性图(碎石图)。在对话框的下面将发生改变,可以选择显示特征值(碎石图)、特征值的差、方差累积贡献率其中之一,或是全部。如图特征值的差、方差累积贡献率其中之一,或是全部。如图13.7所示可以选择任意的复选所示可以选择任意的复选框。默认的框。默认的EViews仅显示特征值排序的碎石图。仅显示特征值排序的碎石图。第28页,共108页,编辑于2022年,星期四29第29页,共108页,编辑于2022年,星期四30图图图图13.8 13.8 主成分估计对话框(主成分估计对话框(主成分估计对话框(主成分估计对话框(3 3)变量载荷图(变量载荷图(Variable loadings plot)给出对应主成分的变量载荷系数,从图)给出对应主成分的变量载荷系数,从图中可以看出如何根据原始变量合成新的主成分;成分得分图(中可以看出如何根据原始变量合成新的主成分;成分得分图(Component scores plot)显示对应于样本区间内的观测值成分的得分值;)显示对应于样本区间内的观测值成分的得分值;biplot(Biplots(scores&loadings)则表示在一个图中同时显示载荷系数和得分值。则表示在一个图中同时显示载荷系数和得分值。第30页,共108页,编辑于2022年,星期四31第31页,共108页,编辑于2022年,星期四32图图图图13.10 13.10 计算得分序列的设置对话框计算得分序列的设置对话框计算得分序列的设置对话框计算得分序列的设置对话框 2.Calculation2.Calculation选择钮选择钮选择钮选择钮 在在Type下拉菜单中选择使用相关下拉菜单中选择使用相关(Correlation)还是协方差还是协方差(Covariance)矩阵。在矩阵。在Method下拉菜单中选择计算方法:下拉菜单中选择计算方法:Ordinary,Ordinary(uncentered),Spearman rank-order or Kendalls tau-a,or Kendalls tau-b。在该对话框中,还可以设定计算使用的观测值样。在该对话框中,还可以设定计算使用的观测值样本。本。第32页,共108页,编辑于2022年,星期四33图图图图13.9 13.9 保存得分序列的对话框保存得分序列的对话框保存得分序列的对话框保存得分序列的对话框3 3保存得分序列保存得分序列保存得分序列保存得分序列 如果想保存主成分得分序列,直接从组(如果想保存主成分得分序列,直接从组(Group)菜单中选择)菜单中选择Proc/Make Principal Components.,则出现图,则出现图13.9所示的对话所示的对话框。框。第33页,共108页,编辑于2022年,星期四34 第一个选项是第一个选项是Scaling,用于选择得分序列和载荷计算的权重。,用于选择得分序列和载荷计算的权重。有有4个选项:个选项:Normalize loadings,Normalize scores,Symmetric weights和和User loading weight,默认的,默认的Normalize loadings,表示标,表示标准化载荷,使得所有观测值得分对特征值有标准的比例;选择准化载荷,使得所有观测值得分对特征值有标准的比例;选择Normalize scores,所有变量标准化为,所有变量标准化为1;选择;选择Symmetric weights,将会有对称的权重;选择将会有对称的权重;选择User loading weight,可以用户自己定义,可以用户自己定义权重。权重。然后需要输入得分序列的名称,在例然后需要输入得分序列的名称,在例13.1中,我们输入第一中,我们输入第一主成分的名字主成分的名字“PAC1”,用于保存第一个主成分。也可以根据,用于保存第一个主成分。也可以根据需要保存对应得分的载荷、特征值和特征向量。需要保存对应得分的载荷、特征值和特征向量。第34页,共108页,编辑于2022年,星期四35 图图13.2中的实线给出了由主成分分析的第一主成分表示的一致景气指数(中的实线给出了由主成分分析的第一主成分表示的一致景气指数(PCA),虚线给出的是由国际上常用的美国商务部计算合成指数的方法给出的一致合成指数(),虚线给出的是由国际上常用的美国商务部计算合成指数的方法给出的一致合成指数(CI),可以发现二者的变化趋势和转折点几乎完全相同,只是波动的幅度略有差异。进一步表),可以发现二者的变化趋势和转折点几乎完全相同,只是波动的幅度略有差异。进一步表明:明:PCA指数不仅能够反映景气波动的变化趋势和峰谷的转折点,而且还能反映波动的幅指数不仅能够反映景气波动的变化趋势和峰谷的转折点,而且还能反映波动的幅度。度。图图图图13.2 13.2 第一主成分第一主成分第一主成分第一主成分 (PCA(PCA,左坐标,左坐标,左坐标,左坐标),),一致合成指数一致合成指数一致合成指数一致合成指数(CI(CI,右坐标,右坐标,右坐标,右坐标)第35页,共108页,编辑于2022年,星期四3613.2 13.2 因子分析因子分析因子分析因子分析 因子分析(因子分析(factor analysis,简称,简称FA)是主成分分析的推广,)是主成分分析的推广,相对于主成分分析,因子分析更侧重于解释被观测变量之间的相对于主成分分析,因子分析更侧重于解释被观测变量之间的相关关系或协方差之间的结构。因子分析的思想源于相关关系或协方差之间的结构。因子分析的思想源于1904年查年查尔斯尔斯斯皮尔曼(斯皮尔曼(Charles Spearman)对学生考试成绩的研究。研究)对学生考试成绩的研究。研究多指标问题时常常会发现,这些指标相关性形成的背景原因是各种多指标问题时常常会发现,这些指标相关性形成的背景原因是各种各样的,其中共同的原因称为公共因子;每一个变量也含有其特定各样的,其中共同的原因称为公共因子;每一个变量也含有其特定的原因,成为特定(特殊)因子。因子分析的实质就是用几个潜在的原因,成为特定(特殊)因子。因子分析的实质就是用几个潜在的但不能观察的互不相关的随机变量去描述许多变量之间的相关关的但不能观察的互不相关的随机变量去描述许多变量之间的相关关系(或者协方差关系),这些随机变量被称为因子。为了使得这些系(或者协方差关系),这些随机变量被称为因子。为了使得这些因子能很好的替代原始数据,需要对这些因子给出合理的解释。同因子能很好的替代原始数据,需要对这些因子给出合理的解释。同时为了使用这些因子,还需要对提取结果进行评价。时为了使用这些因子,还需要对提取结果进行评价。第36页,共108页,编辑于2022年,星期四37 因此,可以简单将因子分析的目标概括为以下几方面:因此,可以简单将因子分析的目标概括为以下几方面:(1)首先考虑是否存在较少的不相关的随机变量可用于描述原)首先考虑是否存在较少的不相关的随机变量可用于描述原始变量之间的关系;始变量之间的关系;(2)如果存在公共因子,那么究竟应该选择几个;)如果存在公共因子,那么究竟应该选择几个;(3)对提取的公共因子的含义进行解释;)对提取的公共因子的含义进行解释;(4)评价每一个原始变量与公共因子之间的关系;)评价每一个原始变量与公共因子之间的关系;(5)可以将这些公共因子用于其他的统计分析。)可以将这些公共因子用于其他的统计分析。本节将从这几个角度给出详细的介绍。需要注意的是因子分析从一本节将从这几个角度给出详细的介绍。需要注意的是因子分析从一系列高度相关的原始变量矩阵系列高度相关的原始变量矩阵X=(X1,X2,Xp)中提取少数几个不相关的中提取少数几个不相关的因子,所以如果原始变量之间不相关则没有必要进行因子分析。在实际研究因子,所以如果原始变量之间不相关则没有必要进行因子分析。在实际研究和应用中,为了消除观察值之间由于量纲的差异而造成的影响,需要将观测和应用中,为了消除观察值之间由于量纲的差异而造成的影响,需要将观测值按照式(值按照式(13.1.15)进行标准化处理。本节的讨论都是基于标准化后的序)进行标准化处理。本节的讨论都是基于标准化后的序列,为了方便,把标准化后的随机变量矩阵仍记为列,为了方便,把标准化后的随机变量矩阵仍记为Z=(Z1,Z 2,Zp)。第37页,共108页,编辑于2022年,星期四3813.2.1 13.2.1 基本的因子分析模型基本的因子分析模型基本的因子分析模型基本的因子分析模型 假如对某一问题的研究涉及假如对某一问题的研究涉及 p 个指标,且这个指标,且这 p 个指标之间存在较强个指标之间存在较强的相关性,则基本的因子模型可以表示为的相关性,则基本的因子模型可以表示为 (13.2.1)称式(称式(13.2.1)中)中F1,F2,Fm为公共因子,为公共因子,1,2,p 表示特殊因子,表示特殊因子,其中包含了随机误差,其中包含了随机误差,i 只与第只与第 i 个变量个变量 Zi 有关,有关,lij 称为第称为第 i 个变量个变量 Zi 在第在第 j 个因子个因子 Fj 上的载荷(因子载荷),由其构成的矩阵上的载荷(因子载荷),由其构成的矩阵 L 称为称为因子载荷矩阵。因子载荷矩阵。第38页,共108页,编辑于2022年,星期四39 式(式(13.2.1)进一步可以表示为下面的矩阵形式)进一步可以表示为下面的矩阵形式 (13.2.2)其中,其中,F=(F1,F2,Fm);=(1,2,p)。注意式(。注意式(13.2.1)中的中的F1,F2,Fm 是不可观测的随机变量,因此,必须对随机变量是不可观测的随机变量,因此,必须对随机变量 F 和和 做一些假定,使得模型具有特定的且能验证的协方差结构。做一些假定,使得模型具有特定的且能验证的协方差结构。第39页,共108页,编辑于2022年,星期四40假设假设 (13.2.3)(13.2.4)且且 F 与与 独立,即独立,即 (13.2.5)满足式(满足式(13.2.3)式()式(13.2.5)假定的模型()假定的模型(13.2.1)(或)(或(13.2.2)称为正交因子模型。)称为正交因子模型。第40页,共108页,编辑于2022年,星期四4113.2.2 正交因子模型的性质正交因子模型的性质正交因子模型的性质正交因子模型的性质1 1正交因子模型的协方差结构正交因子模型的协方差结构正交因子模型的协方差结构正交因子模型的协方差结构 假定随机变量假定随机变量Z的协方差矩阵为的协方差矩阵为,则有,则有 (13.2.6)(13.2.7)第41页,共108页,编辑于2022年,星期四422 2因子载荷因子载荷因子载荷因子载荷 l lij ij 的意义的意义的意义的意义 由式(由式(13.2.7)可得)可得 (13.2.8)由于假定由于假定 Zi 和和 Fj 都是方差为都是方差为1的随机变量,因此的随机变量,因此 lij 即为变量即为变量 Zi 与因子与因子Fj 的相关系数。的相关系数。第42页,共108页,编辑于2022年,星期四433 3共同度与公因子的方差贡献共同度与公因子的方差贡献共同度与公因子的方差贡献共同度与公因子的方差贡献 由式(由式(13.2.6)可得)可得令令 则有则有 (13.2.9)其中其中 hi2 反映了公共因子对反映了公共因子对 Zi 方差的贡献,称为共性方差,或者方差的贡献,称为共性方差,或者变量共同度。变量共同度。i 称为特殊方差,或者剩余方差。称为特殊方差,或者剩余方差。第43页,共108页,编辑于2022年,星期四44 式(式(13.2.9)表明,)表明,hi2 接近接近1时,时,i 接近接近 0,说明,说明 Zi 包含的几包含的几乎全部信息都可以被公因子解释;当乎全部信息都可以被公因子解释;当 hi2 接近接近 0 时,表明公共因子对时,表明公共因子对 的影响不大,主要由特殊因子描述。因此,的影响不大,主要由特殊因子描述。因此,hi2 也反映了变量也反映了变量 Zi 对对公共因子的依赖程度。与此类似,矩阵公共因子的依赖程度。与此类似,矩阵 L 的第的第 j 列元素反映了第列元素反映了第 j 个个因子因子 Fj 对所有变量对所有变量 Z 的影响,记为的影响,记为 (13.2.10)称为公共因子称为公共因子Fj 对原始变量向量对原始变量向量 Z 的方差贡献,是衡量公共因的方差贡献,是衡量公共因子相对重要性的一个尺度,其值越大反映子相对重要性的一个尺度,其值越大反映 Fj 对原始变量向量对原始变量向量 Z 的方差贡献也越大。的方差贡献也越大。第44页,共108页,编辑于2022年,星期四4513.2.3 因子载荷的估计方法因子载荷的估计方法 因子分析的首要步骤是先确定因子载荷,或估计得到因子因子分析的首要步骤是先确定因子载荷,或估计得到因子载荷矩阵载荷矩阵L,注意在式(,注意在式(13.2.1)和式()和式(13.2.2)中的)中的F1,F2,Fm是不可观测的随机变量,因此因子载荷矩阵是不可观测的随机变量,因此因子载荷矩阵L的估计方法都比较复的估计方法都比较复杂,常用的方法有极大似然法、主成分法、迭代主成分方法、最杂,常用的方法有极大似然法、主成分法、迭代主成分方法、最小二乘法、小二乘法、因子提取法等。因子提取法等。第45页,共108页,编辑于2022年,星期四461 1极大似然法极大似然法极大似然法极大似然法如果假设公共因子如果假设公共因子 F 和特殊因子和特殊因子 服从正态分布,即服从正态分布,即F Nm(0,I),Np(0,),X1,X2,Xp 的均值为的均值为 =(1,2,p),则观测值,则观测值 X1,X2,Xp 为来自正态总体为来自正态总体 Np(,)的样本,可以的样本,可以采用极大似然法估计因子载荷矩阵和特殊方差,似然函数是采用极大似然法估计因子载荷矩阵和特殊方差,似然函数是 和和 的函数的函数 L(,)。由于由于 ,因此似然函数可以更清楚地表示为,因此似然函数可以更清楚地表示为L(,L,),记,记(,L,)的估计量为,则有(13.2.11)第46页,共108页,编辑于2022年,星期四472 2主成分方法主成分方法主成分方法主成分方法 用主成分法确定因子载荷,就是对随机变量进行主成分分用主成分法确定因子载荷,就是对随机变量进行主成分分析,把前面几个主成分作为原始公共因子。其具体过程如下,析,把前面几个主成分作为原始公共因子。其具体过程如下,设有设有 p 个变量个变量 Z=(Z1,Z2,Zp),可以求得从大到小排序的,可以求得从大到小排序的 p 个主成分个主成分Y1,Y2,Yp,根据,根据13.1节的内容可知,原始变量与节的内容可知,原始变量与主成分之间存在如下的关系:主成分之间存在如下的关系:(13.2.13)第47页,共108页,编辑于2022年,星期四48 由于由于A=(1,p)=(e1,e2,ep)为正交矩阵,则有为正交矩阵,则有 (13.2.14)如果在式(如果在式(13.2.13)中仅取前)中仅取前m个主成分,把其余的个主成分,把其余的 p-m 个主成分用特个主成分用特殊因子殊因子 i 代替,则式(代替,则式(13.2.13)可以表示为)可以表示为 (13.2.15)式(式(13.2.15)与式()与式(13.2.1)的形式一致,)的形式一致,Yi 表示主成分,因此相互独表示主成分,因此相互独立。立。第48页,共108页,编辑于2022年,星期四49 为了使为了使 Yi 符合式(符合式(13.2.3)假设的公共因子,需要将主成分)假设的公共因子,需要将主成分Yi 的的方差转变为方差转变为1。由。由13.1节的介绍可知,主成分方差为特征根节的介绍可知,主成分方差为特征根 i,只需,只需要将要将 Yi 除以标准差除以标准差 即可,令即可,令,(13.2.16)则式(则式(13.2.15)转变为:)转变为:(13.2.17)式(式(13.2.15)已与式()已与式(13.2.1)不仅在形式上一致,而且完全符)不仅在形式上一致,而且完全符合式(合式(13.2.3)式()式(13.2.5)的假设。由此就得到因子载荷矩阵和一)的假设。由此就得到因子载荷矩阵和一组初始公共因子。组初始公共因子。第49页,共108页,编辑于2022年,星期四503 3迭代主成分方法(迭代主成分方法(迭代主成分方法(迭代主成分方法(Iterated Principal FactorsIterated Principal Factors)迭代主成分方法也叫主因子法,或主轴因子方法迭代主成分方法也叫主因子法,或主轴因子方法,是对主成分法的一是对主成分法的一种修正。首先对原始变量进行标准化处理,其相关矩阵与协方差矩阵一致,种修正。首先对原始变量进行标准化处理,其相关矩阵与协方差矩阵一致,使其因子模型满足式(使其因子模型满足式(13.2.1),根据式(),根据式(13.2.6)有)有