主成份与因子分析1.ppt
《主成份与因子分析1.ppt》由会员分享,可在线阅读,更多相关《主成份与因子分析1.ppt(109页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、多元统计分析多元统计分析主成份分析主成份分析华南农业大学理学院华南农业大学理学院张国权张国权1/22/20231主成份分析主成份分析多元统计分析处理的是多变量(多指标)问题。由于变量个数太多,并且彼此之间往往存在着一定的相关性,例如,随着年龄的增长,儿童的身高、体重会随着变化,具有一定的相关性;身高和体重之间为何会有相关性呢?因为存在着一个同时支配或影响着身高与体重的生长因子。变量之间存在的相关性使得所观测到的数据在一定程度上反映的信息有所重迭。而且当变量较多时,在高维空间中研究样本的分布规律比较复杂。人们自然希望用较少的综合变量来代替原来较多的变量;而这几个综合变量又能够尽可能多地反映原来变
2、量的信息,而且彼此之间互不相关。利用这种降维的思想,产生了主成分分析。主成分分析是主成分分析是将多个指标化为少数几个综合指标的一种统计分析方法。将多个指标化为少数几个综合指标的一种统计分析方法。1/22/20232总体的主成分则有:定义:定义:1/22/20233如满足条件:主成份的推导主成份的推导1/22/20234结果结果2:对对称实矩阵1/22/202351/22/20236而且,当 时有因此使达最大,且在实际应用中,一般主成份只取前K0)0)和相应的标准正和相应的标准正交的特征向量交的特征向量li;1/22/202342w确定公共因子数;确定公共因子数;w计算公共因子的共性方差计算公共
3、因子的共性方差hi2;w对载荷矩阵进行旋转,以求能更好地对载荷矩阵进行旋转,以求能更好地解释公共因子;解释公共因子;w对公共因子作出专业性的解释。对公共因子作出专业性的解释。因子得分。因子分析的数学模型是将变量表示为公共因子的线性组合,由于公共因子能反映原始变量的相关关系,用公共因子代表原始变量时,有时更利于描述研究对象的特征,因而往往需要反过来将公共因子表示为变量的线性组合,即因子得分。1/22/202343四、因子分析提取因子的方法w主成分法主成分法(principalcomponentfactor)1/22/202344每一个公共因子的载荷系数之平方和每一个公共因子的载荷系数之平方和等于
4、对应的特征根,即该公共因子的等于对应的特征根,即该公共因子的方差。方差。1/22/202345w极大似然法(极大似然法(maximumlikelihoodfactor)假定原变量服从正态分布,公共因假定原变量服从正态分布,公共因子和特殊因子也服从正态分布,构子和特殊因子也服从正态分布,构造因子负荷和特殊方差的似然函数,造因子负荷和特殊方差的似然函数,求其极大,得到唯一解。求其极大,得到唯一解。1/22/202346w主因子法(主因子法(principalfactor)设原变量的相关矩阵为设原变量的相关矩阵为R=(rij),其,其逆矩阵为逆矩阵为R-1=(rij)。各变量特征方。各变量特征方差的
5、初始值取为逆相关矩阵对角线差的初始值取为逆相关矩阵对角线元素的倒数,元素的倒数,i i=1/r=1/riiii。则共同则共同度的初始值为度的初始值为(hi)2=1-i i=1-1/rii。1/22/202347以以(hi)2代替相关矩阵中的对角线上的元素,代替相关矩阵中的对角线上的元素,得到约化相关矩阵。得到约化相关矩阵。(h1)2r12r1pr21(h2)2r2pR=.rp1rp2(hp)2R的前的前m个特征根及其对应的单位化特征向个特征根及其对应的单位化特征向量就是主因子解。量就是主因子解。1/22/202348w迭代主因子法迭代主因子法(iteratedprincipalfactor)主
6、因子的解很不稳定。因此,常以估计主因子的解很不稳定。因此,常以估计的共同度为初始值,构造新的约化矩的共同度为初始值,构造新的约化矩阵,再计算其特征根及其特征向量,阵,再计算其特征根及其特征向量,并由此再估计因子负荷及其各变量的并由此再估计因子负荷及其各变量的共同度和特殊方差,再由此新估计的共同度和特殊方差,再由此新估计的共同度为初始值继续迭代,直到解稳共同度为初始值继续迭代,直到解稳定为止。定为止。1/22/202349wHeywood现象现象w残差矩阵残差矩阵1/22/202350五、因子旋转w目的:使因子负荷两极分化,要目的:使因子负荷两极分化,要么接近于么接近于0,要么接近于,要么接近于
7、1。w常用的旋转方法:常用的旋转方法:1/22/202351(1 1)方差最大正交旋转)方差最大正交旋转(varimaxvarimax orthogonal orthogonal rotationrotation)w基本思想:使公共因子的相对负荷(基本思想:使公共因子的相对负荷(l lijij/h/hi i2 2)的方差之和最大,且保持原公共因子的)的方差之和最大,且保持原公共因子的正交性和公共方差总和不变。正交性和公共方差总和不变。w可使每个因子上的具有最大载荷的变量数可使每个因子上的具有最大载荷的变量数最小,因此可以简化对因子的解释。最小,因此可以简化对因子的解释。1/22/202352(
8、2 2)斜交旋转)斜交旋转(oblique rotationoblique rotation)w因子斜交旋转后,各因子负荷发生了因子斜交旋转后,各因子负荷发生了较大变化,出现了两极分化。各因子较大变化,出现了两极分化。各因子间不再相互独立,而彼此相关。各因间不再相互独立,而彼此相关。各因子对各变量的贡献的总和也发生了改子对各变量的贡献的总和也发生了改变。变。w适用于大数据集的因子分析。适用于大数据集的因子分析。1/22/202353六、因子得分wThomson法,即回归法法,即回归法回归法得分是由回归法得分是由Bayes思想导出的,得到思想导出的,得到的因子得分是有偏的,但计算结果误差的因子得
9、分是有偏的,但计算结果误差较小。较小。1/22/202354wBartlett法法Bartlett因子得分是极大似然估计,也是因子得分是极大似然估计,也是加权最小二乘回归,得到的因子得分加权最小二乘回归,得到的因子得分是无偏的,但计算结果误差较大。是无偏的,但计算结果误差较大。w因子得分可用于模型诊断,也可用作因子得分可用于模型诊断,也可用作进一步分析的原始资料。进一步分析的原始资料。1/22/202355七、因子分析应用实例1/22/202356八、因子分析应用的注意事项w应用条件应用条件(1)变量是计量的,能用线性相)变量是计量的,能用线性相关系数(关系数(Pearson积叉相关系数)积叉
10、相关系数)表示。表示。(2)总体的同质性)总体的同质性1/22/202357w样本量样本量没有估计公式。至少要保证样本相没有估计公式。至少要保证样本相关系数稳定可靠。关系数稳定可靠。w因子数目因子数目一般认为,累积贡献要达到一般认为,累积贡献要达到80%以以上。但要注意上。但要注意Heywood现象。现象。1/22/202358基本思想使用基本思想使用 问题:假设我们要研究影响人们对生活满意度的潜在因子,为此对有关项目进行了问卷调查,其中各包括三项工作方面(WORK_1、WORK_2、WORK_3)和家庭方面(HOME_1、HOME_2、HOME_3)的满意度调查。下表为对100人调查后所计算
11、的相关系数矩阵。Correlations(n=100)VariableWORK_1WORK_2WORK_3HOME_1HOME_2HOME_3WORK_1WORK_2WORK_3HOME_1HOME_2HOME_31.00.65.65.14.15.14.651.00.73.14.18.24.65.731.00.16.24.25.14.14.161.00.66.59.15.18.24.661.00.73.14.24.25.59.731.00由表可以看出,3项工作满意调查项目之间具有较高的相关性,3项家庭满意调查项目之间也具有较高的相关性,而工作满意调查项目与家庭满意项目之间相关性则较低。假定可用
12、变量间的相关性把它们分组。也即假设在一个特定组内的所用变量之间是高度相关的,而与不同组内的变量却有较小的相关性。于是可以想象,各组变量可以找到潜在的单一因子对观察到的相关负责。1/22/202359因而,上述相关性表明,一组变量存在一个潜在的因子“工作满意度”,另一组变量对应另一潜在因子“家庭满意度”,且两因子相对独立。对于问卷的回答显然有赖于所找到的两个潜在因子。而且,每一调查项目线性依赖于这两个潜在的因子,以及每一调查项目独有的特殊因子。据此,将这一分析推广至p个变量,存在m个潜在的公共因子,可建立以下数学模型:矩阵形式为:1/22/202360且满足:F=(F1,Fm)称为X的公共因子,
13、A为因子载荷矩阵,aij为因子载荷。数学上可以证明,因子载荷aij就是第i变量与第j因子的相关系数,反映了第i变量在第j因子上的重要性。1/22/202361。因子载荷的估计方法因子载荷的估计方法 要建立实际问题的因子模型,关键是要根据样本数据估计因子的载荷矩阵,其中使用最为普遍的方法是主成分法。设随机向量X的协差阵为,为的特征根,为对应的标准正交化特征向量,则根据线性代数知识可分解为:当因子个数与变量个数一样多,特殊方差因子为0时,因子模型为:1/22/202362 因子载荷矩阵A的第j列为 ,也就是说出常数外,第j列因子载荷恰是第j个主成分的系数uj,因此该方法成为主成分提取法。实际应用时
14、通常根据因子的累积贡献率达于80%或85%以上,决定所取因子的个数。1/22/2023631/22/2023642.正交因子模型中各个量的统计意义正交因子模型中各个量的统计意义1/22/2023651/22/2023661/22/202367 FACTOR(因子分析因子分析)过程简介过程简介 FACTOR过程用下列语句引用过程用下列语句引用:PROC FACTOR 选择项;选择项;VAR 变量;变量;PRIORS 方法;方法;PARTIAL 变量表;变量表;FREQ 变量;变量;WEIGHT 变量;变量;BY 变量;变量;通常只有通常只有VAR语句必须跟随在语句必须跟随在PROC FACTOR
15、语句后面,其余语句是可选择语句后面,其余语句是可选择的。的。1/22/2023681.PROCFACTOR语句的选项语句的选项可用于可用于PROC FACTORPROC FACTOR语句的任选项主要有下列几项:语句的任选项主要有下列几项:DATA=SASDATA=SAS数数据据集集给给出出输输入入数数据据集集的的名名字字,它它可可以是普通的以是普通的SASSAS数据集或者是特殊结构的数据集或者是特殊结构的SASSAS数据集。数据集。OUT=SASOUT=SAS数据集数据集创建一个数据集,它包括来自创建一个数据集,它包括来自DATA=DATA=的数据集中的全部数据,还包括被命名为的数据集中的全部
16、数据,还包括被命名为FACTOR1FACTOR1,FACTOR2FACTOR2等变量的因子得分估计。等变量的因子得分估计。1/22/2023691/22/2023701/22/2023711/22/202372ROTATE=name|R=name给出旋转的方法。给出旋转的方法。缺省时缺省时ROTATE=NONE。PROC FACTOR可以进行下可以进行下面几种旋转的方法(即的有效值):面几种旋转的方法(即的有效值):VARIMAX(正交(正交的方差最大旋转),的方差最大旋转),ORTHOMAX(权数为(权数为GAMMA的的正交方差最大旋转),正交方差最大旋转),EQUAMAX(正交的均方最大旋
17、(正交的均方最大旋转),转),QUARTIMAX(正交的四次方最大旋转),(正交的四次方最大旋转),PARSIMAX(正交的(正交的PARSIMAX旋转),旋转),PROMAX(规定斜交的(规定斜交的PROMAX旋转),旋转),PROCRUSTES(斜(斜交交Procurstes旋转)等。旋转)等。2.PRIORS语句语句该语句对每个变量规定该语句对每个变量规定0.0和和1.0之间的数值作为先验之间的数值作为先验公因子方差的估计。第一个数值对应于公因子方差的估计。第一个数值对应于VAR语句中的第语句中的第一个变量,第二个值对应于第二个变量,等等。数值的一个变量,第二个值对应于第二个变量,等等。
18、数值的个数必须等于变量的个数。个数必须等于变量的个数。1/22/2023736.3 范例1/22/2023741/22/202375运行结果:运行结果:MeansandStandardDeviationsfrom12observationsPOPSCHOOLEMPLOYSERVICESHOUSEMean6241.6666711.44166672333.33333120.83333317000均值均值StdDev3439.994271.786544831241.21153114.9275136367.53128标准差标准差Correlations相关矩阵相关矩阵POPSCHOOLEMPLOYSE
19、RVICESHOUSEPOP1.000000.009750.972450.438870.02241SCHOOL0.009751.000000.154280.691410.86307EMPLOY0.972450.154281.000000.514720.12193SERVICES0.438870.691410.514721.000000.77765HOUSE0.022410.863070.121930.777651.00000InitialFactorMethod:PrincipalComponents主成份法的输出结果主成份法的输出结果PriorCommunalityEstimates:ONE
20、初始共性方差估计值初始共性方差估计值相关矩阵的特征值相关矩阵的特征值EigenvaluesoftheCorrelationMatrix:Total=5Average=1特征值总和特征值总和5,平均特征值,平均特征值112345Eigenvalue2.87331.79670.21480.09990.0153各各特征值特征值Difference1.07671.58180.11490.0847各相邻特征值之差各相邻特征值之差Proportion0.57470.35930.04300.02000.0031被解释的方差的比例被解释的方差的比例Cumulative0.57470.93400.97700.9
21、9691.0000被解释方差的累计比例被解释方差的累计比例2factorswillberetainedbytheMINEIGENcriterion.确定因子的数目为确定因子的数目为21/22/202376FactorPattern因子模式阵因子模式阵FACTOR1FACTOR2POP0.580960.80642SCHOOL0.76704-0.54476EMPLOY0.672430.72605SERVICES0.93239-0.10431HOUSE0.79116-0.55818Varianceexplainedbyeachfactor每个因子所解释的方差每个因子所解释的方差FACTOR1FACT
22、OR22.8733141.796660总体最终共性方差估计总体最终共性方差估计FinalCommunalityEstimates:Total=4.669974POPSCHOOLEMPLOYSERVICESHOUSE0.9878260.8851060.9793060.8802360.937500每一各指标的每一各指标的最终共性方差估计最终共性方差估计InitialFactorMethod:PrincipalFactors主因子法主因子法PriorCommunalityEstimates:SMC先验先验共性方差估计共性方差估计POPSCHOOLEMPLOYSERVICESHOUSE0.968592
23、0.8222850.9691810.7857240.847019它们是用公因子预报原始变量的回归系数。第一主分量(因子)在所有五个变量上都有正的载荷,可见这个因子反应了城市规模的影响。第二主分量在人口、就业上有大的正载荷,在教育程度和住房价格上有大的负载荷,则第二个因子较大的城市人口多但是教育程度和住房价格低。这里给出了公因子对每一个原始变量的解释能力的量度,这是用原始变量对公因子的复相关系数平方(取0到1间值)来计算的。CommunalityEstimate是这些复相关系数平方的总和。因为每一个复相关系数平方都比较大,所以我们可以认为两个公因子可以很好地解释原始变量中的信息。但是我们得到的因
24、子解释不够清楚,于是考虑用其它的因子分析方法。1/22/202377EigenvaluesoftheReducedCorrelationMatrix:相关矩阵的特征值相关矩阵的特征值Total=4.39280116Average=0.87856023特征值总和特征值总和5,平均特征值,平均特征值112345Eigenvalue2.73431.71610.0396-0.0245-0.0726Difference1.01821.67650.06410.0481Proportion0.62250.39070.0090-0.0056-0.0165Cumulative0.62251.01311.0221
25、1.01651.00002factorswillberetainedbythePROPORTIONcriterion.InitialFactorMethod:PrincipalFactorsFactorPatternFACTOR1FACTOR2SERVICES0.87899-0.15847HOUSE0.74215-0.57806EMPLOY0.714470.67936SCHOOL0.71370-0.55515POP0.625330.76621VarianceexplainedbyeachfactorFACTOR1FACTOR22.7343011.7160691/22/202378主因子法计算简
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成份 因子分析
限制150内