多元统计分析第六章 因子分析.doc
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《多元统计分析第六章 因子分析.doc》由会员分享,可在线阅读,更多相关《多元统计分析第六章 因子分析.doc(32页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第6章 因子分析6.1 因子分析数学模型因子分析是很有用的统计分析工具,因子分析的实质就是找出少量不可观测的随机变量,用它们表示众多的可观测随机变量。以下例子能说明因子分析的意义。例6.1对一个班的学生,进行五门课程(力学、物理、代数、分析、统计)考试,其中力学和物理闭卷考试,代数、分析、统计开卷。这5门功课的成绩是可观测的随机向量。每个学生的成绩可以看成5维随机向量的一个观测,见表6-1。表 6-1 五门课程考试成绩 学生力学(闭卷)物理(闭卷)代数(开卷)分析(开卷)统计(开卷)19297828296278939585963908886819647087788583578788085786
2、687687798876682808083874858377719777573778510798775776011677975786912708274775913656579707814807873715215467075728816757971695517598468686818578476706019776176726020466477787721597667776122645676647923277376788224646864776225696471626826696861745927597170765128335965729629616780655030476064727931458
3、4656760326164687452335542697676344657636983355174666066367155716950376171726447386057707155395775696448405578686940413870746859426363646652435678646149446167685655经过一定计算(因子分析)后发现存在不可观测的随机变量:、,它们和间有关系 (6.1)其中、是不可观测的随机变量。我们认为它们分别表示学生的学习能力和适应开闭卷能力,所以可分别称为学习因子和适应开闭卷因子。(6.1)揭示了这两个因子如何影响5门功课的成绩,也揭示5门课成绩的实
4、质:每门课的成绩由学习因子和适应开闭卷因子的线性组合,加上常数,再加上随机变量而得。这是是很有意义的。象例6.1那样,找出少量不可观测因子(例如、),并给出它们影响可观测随机变量(例如)方式的统计分析,就是因子分析。因子分析与主成分分析不同:主成分分析是寻求若干个可观测随机变量的少量线性组合,说明其含义;因子分析主要的目的是找出不一定可观测的潜在变量作为公共因子,并解释公共因子的意义,及如何用不可观测随机变量,计算可观测随机变量。因子分析方法在心理学,经济,医学,生物学,教育学等方面有重要用途。例如为了测验应聘者的素质,出40道题,让应聘者回答,每道题有一得分, 40题得分被认为可以观测的随机
5、变量。我们希望找出有限个不可观测的潜在变量来解释这40个随机变量,这些不可观测的潜在变量不一定能表示为原来随机变量的线性组合,但却是有实际意义的,例如交际能力,应变能力,语言能力、推理能力、艺术修养、历史知识和生活常识等。又如分析生物生长状况时,从生物的实测指标(长、宽和体重等)可以分析出生长因子和控制因子,找出它们在不同时刻的作用。有关因子分析细节可参看方开泰(1989)、Richard(2003)和Gorsuch(1983)。因子分析模型包括正交和斜交因子模型,本书只介绍正交因子分析模型,表述如下: 定义6.1 设X为p维可观测随机向量,其均值向量为,协差阵为,若X能表为 (6.2)其中是
6、待定常数阵,f是k维随机变量(通常k小于p),u是p维随机向量,且 (6.3)则满足条件(6.3)的(6.2)式称为X有k个因子的因子分析模型。f称为公共因子,u称为特殊因子,叫做因子负荷矩阵,其元素称为第i个变量在第j个因子上的负荷。例6.1中, 由(6.2)式可见,因子负荷矩阵特别重要:第i个变量的值再加上常数项和特殊因子而成。的大小反映第j个因子对第i个变量的影响。令,则它反映了所有公共因子对X第i个变量的影响大小。定义6.2 称为共同度(communality)或共性方差(commonvariance)。例6.1中共性方差是表示这门课程成绩的分散性(它由测试题目的区分度决定)和测量误差
7、,因子分析中不讨论它们。因子分析的重点在寻求因子负荷阵和解释公共因子,一般不对特殊因子研究。通常,因子分析的计算由X的协方差阵的分解而完成: 由(6.2)和(6.3)可见 (6.4)由已知解(6.4),可得。其实只要解得即可,因为对角线上元素 i=1,p于是由。但是,(6.4)的解是否存在?如果无解,能否作因子分析?当k=p时,取就是(6.4)的解,因而(6.4)总有解。然而k=p不符合因子分析的目的:用少量不可观测的随机变量表示维数很高的随机向量 。不幸的是,当kp时,(6.4)不一定有解,这从下面例6.2可见。例6.2 设3维随机向量的协方差阵且只取一个公共因子,即k=1,则由非对角线元素
8、的相等,可得3等式,。由后2式得,代入,可得。从而这与(6.3)矛盾。好在实际问题中,只能得到样本协差阵和样本相关阵,总体协差阵或总体相关阵用它们估计。而样本协差阵和样本相关阵的分量是随机变量,一般与总体协差阵或总体相关阵不等,从而(6.4)近似成立即可,关于这一问题的讨论见本章例6.4。另一方面值得注意的是,若(6.4)有解,则因子负荷阵不是唯一的:若已解出公共因子,因子负荷阵,使得设是任一k阶正交阵,则(6.4)也可写为 (6.5)若将作为因子负荷阵,作为公共因子,(6.5)也是X有k个因子的因子分析模型。例如,对于例6.1,做旋转,取 则可得另一因子分析模型要强调指出的是:因子负荷阵的不
9、唯一性,使我们对f有更多的选择余地,反而是有利的:当用某种方法找出的没有明确的意义时,我们可以选择,使的意义变得更明确。这称为因子旋转,将在6.3节细述。6.2 因子分析模型参数的估计由于(6.4)不一定有精确解,通常采用近似解法。常用的有主成分法、极大似然法、主因子法和迭代主因子法,以下分别叙述其原理。为了减少可观测变量的单位,对因子分析的影响,人们常常把随机变量标准化后再做因子分析,这时(6.4)中的化为相关阵,从而。和主成分分析情况一样,同样的数据,用协方差阵和用相关阵做因子分析,得到的结果不一样。实际问题中,总是得到随机向量的n个观测值,当可观测变量有n次观测时,因子分析模型变为其中是
10、公共因子和特殊因子的样品。可用样本均值估计,(6.2)化为,因而总设X是零均值化的;用样本方差阵或样本相关阵估计,再由主成分法、极大似然法、主因子法、迭代主因子法等方法估计因子负荷阵。 (1)主成分法的原理是:设是X的标准化,设的特征值和相应单位特征向量分别是X的全部主成分是,;设主成分分析认定只需选取k个主成分。因为,的方差是1,想到取公共因子为,i=1,k;令 (6.6)因为A的列向量是单位向量,彼此正交,A是正交阵;所以,将A剖分,其中,则由(6.5)得于是可取为因子负荷阵,为公共因子,为特殊因子。容易证明,这时有,满足虽不完全满足(6.4),但u的方差不大,也可近似认为(6.4)成立。
11、 例6.3 对例5.4北京冬季气温的数据作因子分析。解 容易求出相关阵前两个特征值是1.50776062,0.84615115;特征向量是,;第一、二主成分分别是prin1=0.638791Dec*+0.573479 Jan*+0.512901 Feb*,prin2=-0.107283 Dec*-0.593736 Jan*+0.797476 Feb*,其中Dec*、Jan*、Feb*是12月、1月、2月月平均气温的标准化。当取两个公共因子时,第一、二个公共因子就是因子负荷阵就是 主成分法的优点是:计算简单,只要计算特征值特征向量即可得到因子负荷阵。公共因子是X前k个主成分标准化(除以),是可观
12、测随机变量的线性组合,其含义容易由主成分分析看出(上例中是冬季总温度偏高程度,是12月1月温度距平与2月温度距平反差)。k可适当选取,使共性方差较大。缺点是u的协方差阵不是对角阵,由于Var(u) 。因而对角线外元素绝对值可能较大。在调用SAS的FACTOR过程做因子分析时,为使 SAS执行主成分法,应当在PROC FACTOR语句中,采用METHODp选项。 (2)极大似然法的原理是:当公共因子和特殊因子的联合分布服从正态分布时。似然函数(略去常数后)可化为 (6.7)从而的极大似然估计是,选择,在约束条件下,使(6.7)极大,可得的极大似然估计;为了克服因子负荷阵的不确定性,可加上约束条件
13、:是对角阵。在调用SAS的FACTOR过程做因子分析时,在PROC FACTOR语句中,采用选项METHODML就能指示SAS执行极大似然法。使用极大似然法时必须是正定阵,协差阵行列式不能是0。(3)主因子法的原理是:因为是非负定阵,设秩为k,故存在正交阵,使且,令为前k列所成矩阵,则有 (6.8)因此,当找到一个的合适估计时,就能用的前k个标准正交化的特征向量为列向量,从而构成;令是的前k个特征值算术平方根所成的对角阵,则。从而即是的一个估计。在调用SAS的FACTOR过程做因子分析时,为使SAS执行主因子分析,应当在PROC FACTOR语句中,采用METHODp选项,并增加PRIORS语
14、句,且相应变量值不等于1。 (4)迭代主因子法的原理是:选取适当初值,再令i=1;是前k个特征值,是的前k个标准化特征向量所成矩阵 ,i=i+1。转 从出发用至 反复迭代直至稳定,可得的估计值。在调用SAS的FACTOR过程做因子分析时,在PROC FACTOR语句中,用METHOD=PRlNIT选项指示SAS执行迭代主因子法,这时SAS会自动选取适当初值,并进行迭代。用上述方法之一估计出参数后,还必须对得到的公共因子进行解释,对每个公共因子要给出一个名称,说明其作用。上述计算十分复杂,一般用专用软件完成。要用SAS 软件对资料进行因子分析,可调用SAS 软件的FACTOR过程,即因子分析过程
15、。FACTOR过程可以完成以上所述各种类型的公共因子分析,和各种旋转。FACTOR过程的处理的数据集可以是原始数据、统计数据的相关阵或协差阵。 FACTOR过程主要包含两个语句:PROC FACTOR语句和VAR语句,当使用主因子法时,还要配上PRIORS语句。(1)PROC FACTOR语句。其一般形式是:PROC FACTOR 选项项1,选项2,; PROC FACTOR语句后的选项可以是DATA用以指定被分析的数据集,若缺省,则分析最新建立的SAS数据集;也可以是OUT用以建立输出数据集,把有关结果存入其中;也可以是method用以规定提取因子的方法;还可以是rotate用以给出旋转方法
16、,n=规定提取公共因子的个数,当使用选项COV时,SAS用协差阵计算因子负荷阵,否则用相关阵计算因子负荷阵。(2)VAR语句。一般形式是:VAR变量1,变量2;用以规定要分析的变量。(3)PRIORS语句。一般形式是PRIORS 数值1 数值2;在调用SAS的FACTOR过程做因子分析时,若采用主因子法,要用PRIORS语句,且相应变量值等于的合适估计。例6.4 对6.1用主成分法作因子分析。令x1-x5分别表示力学、物理、代数、分析、统计的成绩。采用SAS程序:data grade;/*建立数据集grade*/input No x1-x5;/*建立变量No x1,x2,x3,x4,x5*/c
17、ards;/*以下是数据体*/ 1 92 97 82 82 96 2 78 93 95 85 96 3 90 88 86 81 96 4 70 87 78 85 83 42 63 63 64 66 52 43 56 78 64 61 49 44 61 67 68 56 55;proc factor data=grade method=p n=2;/*采用主成分法,用相关阵计算,选取两个公共因子*/var x1-x5;/*可观测因子是x1、x2、x3、x4、x5*/run; 执行上述程序后输出许多信息,主要信息是相关阵特征值表(表头为, Eigenvalues of the Correlatio
18、n Matrix: Total = 5 Average = 1)、因子负荷阵(表头为Factor Pattern)和另两个小表(表头分别为Variance Explained by Each Factor和 Final Communality Estimates: Total = 3.684019) Eigenvalues of the Correlation Matrix: Total = 5 Average = 1 1 2 3 4 5 Eigenvalue 2.6120 1.0721 0.5694 0.4359 0.3106 Difference 1.5399 0.5026 0.1335
19、0.1253 Proportion 0.5224 0.2144 0.1139 0.0872 0.0621 Cumulative 0.5224 0.7368 0.8507 0.9379 1.0000 2 factors will be retained by the NFACTOR criterion.以上给出相关阵的特征值。 Factor Pattern FACTOR1 FACTOR2 X1 0.62491 0.58706 X2 0.67015 0.44046 X3 0.84837 -0.02156 X4 0.80568 -0.26171 X5 0.63520 -0.68152以上给出因子负荷
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元统计分析第六章 因子分析 多元 统计分析 第六
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内