欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    多元统计分析第六章 因子分析.doc

    • 资源ID:69716962       资源大小:950.50KB        全文页数:32页
    • 资源格式: DOC        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    多元统计分析第六章 因子分析.doc

    第6章 因子分析6.1 因子分析数学模型因子分析是很有用的统计分析工具,因子分析的实质就是找出少量不可观测的随机变量,用它们表示众多的可观测随机变量。以下例子能说明因子分析的意义。例6.1对一个班的学生,进行五门课程(力学、物理、代数、分析、统计)考试,其中力学和物理闭卷考试,代数、分析、统计开卷。这5门功课的成绩是可观测的随机向量。每个学生的成绩可以看成5维随机向量的一个观测,见表6-1。表 6-1 五门课程考试成绩 学生力学(闭卷)物理(闭卷)代数(开卷)分析(开卷)统计(开卷)192978282962789395859639088868196470877885835787880857866876877988766828080838748583777197775737785107987757760116779757869127082747759136565797078148078737152154670757288167579716955175984686868185784767060197761767260204664777877215976677761226456766479232773767882246468647762256964716268266968617459275971707651283359657296296167806550304760647279314584656760326164687452335542697676344657636983355174666066367155716950376171726447386057707155395775696448405578686940413870746859426363646652435678646149446167685655经过一定计算(因子分析)后发现存在不可观测的随机变量:、,它们和间有关系 (6.1)其中、是不可观测的随机变量。我们认为它们分别表示学生的学习能力和适应开闭卷能力,所以可分别称为学习因子和适应开闭卷因子。(6.1)揭示了这两个因子如何影响5门功课的成绩,也揭示5门课成绩的实质:每门课的成绩由学习因子和适应开闭卷因子的线性组合,加上常数,再加上随机变量而得。这是是很有意义的。象例6.1那样,找出少量不可观测因子(例如、),并给出它们影响可观测随机变量(例如)方式的统计分析,就是因子分析。因子分析与主成分分析不同:主成分分析是寻求若干个可观测随机变量的少量线性组合,说明其含义;因子分析主要的目的是找出不一定可观测的潜在变量作为公共因子,并解释公共因子的意义,及如何用不可观测随机变量,计算可观测随机变量。因子分析方法在心理学,经济,医学,生物学,教育学等方面有重要用途。例如为了测验应聘者的素质,出40道题,让应聘者回答,每道题有一得分, 40题得分被认为可以观测的随机变量。我们希望找出有限个不可观测的潜在变量来解释这40个随机变量,这些不可观测的潜在变量不一定能表示为原来随机变量的线性组合,但却是有实际意义的,例如交际能力,应变能力,语言能力、推理能力、艺术修养、历史知识和生活常识等。又如分析生物生长状况时,从生物的实测指标(长、宽和体重等)可以分析出生长因子和控制因子,找出它们在不同时刻的作用。有关因子分析细节可参看方开泰(1989)、Richard(2003)和Gorsuch(1983)。因子分析模型包括正交和斜交因子模型,本书只介绍正交因子分析模型,表述如下: 定义6.1 设X为p维可观测随机向量,其均值向量为,协差阵为,若X能表为 (6.2)其中是待定常数阵,f是k维随机变量(通常k小于p),u是p维随机向量,且 (6.3)则满足条件(6.3)的(6.2)式称为X有k个因子的因子分析模型。f称为公共因子,u称为特殊因子,叫做因子负荷矩阵,其元素称为第i个变量在第j个因子上的负荷。例6.1中, 由(6.2)式可见,因子负荷矩阵特别重要:第i个变量的值再加上常数项和特殊因子而成。的大小反映第j个因子对第i个变量的影响。令,则它反映了所有公共因子对X第i个变量的影响大小。定义6.2 称为共同度(communality)或共性方差(commonvariance)。例6.1中共性方差是表示这门课程成绩的分散性(它由测试题目的区分度决定)和测量误差,因子分析中不讨论它们。因子分析的重点在寻求因子负荷阵和解释公共因子,一般不对特殊因子研究。通常,因子分析的计算由X的协方差阵的分解而完成: 由(6.2)和(6.3)可见 (6.4)由已知解(6.4),可得。其实只要解得即可,因为对角线上元素 i=1,p于是由。但是,(6.4)的解是否存在?如果无解,能否作因子分析?当k=p时,取就是(6.4)的解,因而(6.4)总有解。然而k=p不符合因子分析的目的:用少量不可观测的随机变量表示维数很高的随机向量 。不幸的是,当k<p时,(6.4)不一定有解,这从下面例6.2可见。例6.2 设3维随机向量的协方差阵且只取一个公共因子,即k=1,则由非对角线元素的相等,可得3等式,。由后2式得,代入,可得。从而这与(6.3)矛盾。好在实际问题中,只能得到样本协差阵和样本相关阵,总体协差阵或总体相关阵用它们估计。而样本协差阵和样本相关阵的分量是随机变量,一般与总体协差阵或总体相关阵不等,从而(6.4)近似成立即可,关于这一问题的讨论见本章例6.4。另一方面值得注意的是,若(6.4)有解,则因子负荷阵不是唯一的:若已解出公共因子,因子负荷阵,使得设是任一k阶正交阵,则(6.4)也可写为 (6.5)若将作为因子负荷阵,作为公共因子,(6.5)也是X有k个因子的因子分析模型。例如,对于例6.1,做旋转,取 则可得另一因子分析模型要强调指出的是:因子负荷阵的不唯一性,使我们对f有更多的选择余地,反而是有利的:当用某种方法找出的没有明确的意义时,我们可以选择,使的意义变得更明确。这称为因子旋转,将在6.3节细述。6.2 因子分析模型参数的估计由于(6.4)不一定有精确解,通常采用近似解法。常用的有主成分法、极大似然法、主因子法和迭代主因子法,以下分别叙述其原理。为了减少可观测变量的单位,对因子分析的影响,人们常常把随机变量标准化后再做因子分析,这时(6.4)中的化为相关阵,从而。和主成分分析情况一样,同样的数据,用协方差阵和用相关阵做因子分析,得到的结果不一样。实际问题中,总是得到随机向量的n个观测值,当可观测变量有n次观测时,因子分析模型变为其中是公共因子和特殊因子的样品。可用样本均值估计,(6.2)化为,因而总设X是零均值化的;用样本方差阵或样本相关阵估计,再由主成分法、极大似然法、主因子法、迭代主因子法等方法估计因子负荷阵。 (1)主成分法的原理是:设是X的标准化,设的特征值和相应单位特征向量分别是X的全部主成分是,;设主成分分析认定只需选取k个主成分。因为,的方差是1,想到取公共因子为,i=1,k;令 (6.6)因为A的列向量是单位向量,彼此正交,A是正交阵;所以,将A剖分,其中,则由(6.5)得于是可取为因子负荷阵,为公共因子,为特殊因子。容易证明,这时有,满足虽不完全满足(6.4),但u的方差不大,也可近似认为(6.4)成立。 例6.3 对例5.4北京冬季气温的数据作因子分析。解 容易求出相关阵前两个特征值是1.50776062,0.84615115;特征向量是,;第一、二主成分分别是prin1=0.638791Dec*+0.573479 Jan*+0.512901 Feb*,prin2=-0.107283 Dec*-0.593736 Jan*+0.797476 Feb*,其中Dec*、Jan*、Feb*是12月、1月、2月月平均气温的标准化。当取两个公共因子时,第一、二个公共因子就是因子负荷阵就是 主成分法的优点是:计算简单,只要计算特征值特征向量即可得到因子负荷阵。公共因子是X前k个主成分标准化(除以),是可观测随机变量的线性组合,其含义容易由主成分分析看出(上例中是冬季总温度偏高程度,是12月1月温度距平与2月温度距平反差)。k可适当选取,使共性方差较大。缺点是u的协方差阵不是对角阵,由于Var(u) 。因而对角线外元素绝对值可能较大。在调用SAS的FACTOR过程做因子分析时,为使 SAS执行主成分法,应当在PROC FACTOR语句中,采用METHODp选项。 (2)极大似然法的原理是:当公共因子和特殊因子的联合分布服从正态分布时。似然函数(略去常数后)可化为 (6.7)从而的极大似然估计是,选择,在约束条件下,使(6.7)极大,可得的极大似然估计;为了克服因子负荷阵的不确定性,可加上约束条件:是对角阵。在调用SAS的FACTOR过程做因子分析时,在PROC FACTOR语句中,采用选项METHODML就能指示SAS执行极大似然法。使用极大似然法时必须是正定阵,协差阵行列式不能是0。(3)主因子法的原理是:因为是非负定阵,设秩为k,故存在正交阵,使且,令为前k列所成矩阵,则有 (6.8)因此,当找到一个的合适估计时,就能用的前k个标准正交化的特征向量为列向量,从而构成;令是的前k个特征值算术平方根所成的对角阵,则。从而即是的一个估计。在调用SAS的FACTOR过程做因子分析时,为使SAS执行主因子分析,应当在PROC FACTOR语句中,采用METHODp选项,并增加PRIORS语句,且相应变量值不等于1。 (4)迭代主因子法的原理是:选取适当初值,再令i=1;是前k个特征值,是的前k个标准化特征向量所成矩阵 ,i=i+1。转 从出发用至 反复迭代直至稳定,可得的估计值。在调用SAS的FACTOR过程做因子分析时,在PROC FACTOR语句中,用METHOD=PRlNIT选项指示SAS执行迭代主因子法,这时SAS会自动选取适当初值,并进行迭代。用上述方法之一估计出参数后,还必须对得到的公共因子进行解释,对每个公共因子要给出一个名称,说明其作用。上述计算十分复杂,一般用专用软件完成。要用SAS 软件对资料进行因子分析,可调用SAS 软件的FACTOR过程,即因子分析过程。FACTOR过程可以完成以上所述各种类型的公共因子分析,和各种旋转。FACTOR过程的处理的数据集可以是原始数据、统计数据的相关阵或协差阵。 FACTOR过程主要包含两个语句:PROC FACTOR语句和VAR语句,当使用主因子法时,还要配上PRIORS语句。(1)PROC FACTOR语句。其一般形式是:PROC FACTOR 选项项1,选项2,; PROC FACTOR语句后的选项可以是DATA用以指定被分析的数据集,若缺省,则分析最新建立的SAS数据集;也可以是OUT用以建立输出数据集,把有关结果存入其中;也可以是method用以规定提取因子的方法;还可以是rotate用以给出旋转方法,n=规定提取公共因子的个数,当使用选项COV时,SAS用协差阵计算因子负荷阵,否则用相关阵计算因子负荷阵。(2)VAR语句。一般形式是:VAR变量1,变量2;用以规定要分析的变量。(3)PRIORS语句。一般形式是PRIORS 数值1 数值2;在调用SAS的FACTOR过程做因子分析时,若采用主因子法,要用PRIORS语句,且相应变量值等于的合适估计。例6.4 对6.1用主成分法作因子分析。令x1-x5分别表示力学、物理、代数、分析、统计的成绩。采用SAS程序:data grade;/*建立数据集grade*/input No x1-x5;/*建立变量No x1,x2,x3,x4,x5*/cards;/*以下是数据体*/ 1 92 97 82 82 96 2 78 93 95 85 96 3 90 88 86 81 96 4 70 87 78 85 83 42 63 63 64 66 52 43 56 78 64 61 49 44 61 67 68 56 55;proc factor data=grade method=p n=2;/*采用主成分法,用相关阵计算,选取两个公共因子*/var x1-x5;/*可观测因子是x1、x2、x3、x4、x5*/run; 执行上述程序后输出许多信息,主要信息是相关阵特征值表(表头为, Eigenvalues of the Correlation Matrix: Total = 5 Average = 1)、因子负荷阵(表头为Factor Pattern)和另两个小表(表头分别为Variance Explained by Each Factor和 Final Communality Estimates: Total = 3.684019) Eigenvalues of the Correlation Matrix: Total = 5 Average = 1 1 2 3 4 5 Eigenvalue 2.6120 1.0721 0.5694 0.4359 0.3106 Difference 1.5399 0.5026 0.1335 0.1253 Proportion 0.5224 0.2144 0.1139 0.0872 0.0621 Cumulative 0.5224 0.7368 0.8507 0.9379 1.0000 2 factors will be retained by the NFACTOR criterion.以上给出相关阵的特征值。 Factor Pattern FACTOR1 FACTOR2 X1 0.62491 0.58706 X2 0.67015 0.44046 X3 0.84837 -0.02156 X4 0.80568 -0.26171 X5 0.63520 -0.68152以上给出因子负荷阵, Factor1、Factor2等下面的数即是可观测变量在第一、第二等等公共因子上的负荷,所以因子负荷阵就是。若是标准化而得。所估计的因子分析模型就是 (6.9)由于在第一个公共因子上的负荷基本相等,第一个公共因子表示学生的学习能力,称为学习能力因子。由于在第二个公共因子上的负荷是正的,在第二个公共因子上的负荷是负的,第二个公共因子表示闭卷对考试成绩的影响,第二个公共因子可称为开卷影响成绩因子,第二个公共因子值越大闭卷成绩越差。 Variance explained by each factor FACTOR1 FACTOR2 2.611953 1.072066上表说明两个公共因子解释的方差分别是 2.6119530和1.0720658。(全部方差是相关阵对角线上元素之和5) Final Communality Estimates: Total = 3.684019 X1 X2 X3 X4 X5 0.735157 0.643113 0.720190 0.717618 0.867940上表给出各个可观测变量的共性方差。由此容易算出,等于0.26484287,0.35688694,0.27980969,0.28238173,0.13205997。 因为这5门课成绩的样本均值分别是62.4090909、72.5227273、72.9090909、72.3636364、67.7500000;样本方差是 191.4101480、130.2552854、52.2706131、48.7019027、243.6337209。将代入(6.9)的因子分析模型就是 参数估计的不同方法(例如主成分法与最大似然法)对参数估计是有影响的,请看下例。例6.5 对5个公司Allied Chemical(阿莱德化学) 、du Pont(杜邦) 、Union Carbide(联合碳化物)、 Exxon(埃克森)、Texaco(德士古)股票100周的回报率(如表6-2)做因子分析。表6-2 5个公司100周股票的回报率Allied ChemicalDu PontUnion CarbideExxonTaxaco0.0000000.0000000.0000000.039473-0.0000000.027027-0.044855-0.003030-0.0144660.0434780.1228070.0607730.0881460.0862380.0781240.0570310.0299480.0668080.0135130.0195120.063670-0.003793-0.039788-0.018644-0.0241540.0035210.0507610.0828730.0742650.049504-0.045614-0.0330070.002551-0.009646-0.0283010.0588230.0417190.081425-0.0146100.0145630.000000-0.0194170.0023530.001647-0.0287080.006944-0.0259900.007042-0.041118-0.0246300.0103450.0063530.0839160.010291-0.000000-0.0307170.020202-0.040860-0.039049-0.050505-0.0035210.1188120.0896860.0600700.0212760.0600710.0796460.0288070.0366660.026041-0.003333-0.0010250.0280000.028938-0.0101520.0555960.0912820.0427590.059375-0.0158120.051282-0.007519-0.041431-0.0162690.058510-0.060976-0.0435610.0235760.004566-0.015075-0.0357140.018170-0.021113-0.007575-0.0102040.000000-0.021569-0.0078430.0885490.082474-0.006734-0.015030-0.086956-0.021037-0.0190470.000000-0.0172940.0173160.0544410.0339800.0305080.0476190.055319-0.0081520.0328630.0230260.012846-0.0020160.013698-0.031518-0.061093-0.043902-0.042424-0.029729-0.0140840.0410960.0163260.0485230.0181050.071428-0.013158-0.004016-0.038229-0.042407-0.0488880.003333-0.008065-0.0149920.000000-0.028037-0.056478-0.014228-0.038627-0.005714-0.0196070.0518990.0185570.0669640.020302-0.015000-0.013559-0.0293520.012552-0.008571-0.010152-0.0378010.003252-0.012397-0.020172-0.025641-0.0214290.0314660.0397490.0161760.005263-0.014599-0.024390-0.0100600.004341-0.005235-0.014815-0.020833-0.091463-0.007204-0.0157890.011278-0.0170210.0648770.0653120.026737-0.096654-0.075758-0.073529-0.053133-0.0260410.0205760.0585480.0181410.0633090.0160420.0887100.0464600.0222720.004059-0.0000000.0074070.0190270.045752-0.0080860.052631-0.0220590.002075-0.017272-0.021739-0.045000-0.0315790.0103520.012848-0.0138880.0106950.0393700.054303-0.0147990.011428-0.0052910.0151510.029154-0.021459-0.009887-0.0212760.000000-0.0104660.035088-0.0142650.038043-0.037313-0.024038-0.019068-0.024602-0.0104710.015504-0.0275860.0064790.022255-0.0264550.0343510.0243160.0343350.0203190.005434-0.0369000.0118690.0145230.0071120.0162160.0689650.0146630.0163600.0381350.0638290.0896060.0799610.1026160.0027210.0200000.0000000.0169490.0291970.0027130.0049010.0592100.0771930.019504-0.0121780.0390240.0279500.0097720.000000-0.000000-0.000265-0.0041960.014516-0.031696-0.004445-0.0143540.018405-0.0469000.061594-0.043235-0.0291260.0692770.0568880.0409560.0408160.020000-0.016901-0.018268-0.008197-0.005602-0.019607-0.017192-0.001618-0.001653-0.0169010.005000-0.040816-0.0356560.0000000.0143260.004975-0.018237-0.003361-0.0281460.0353100.014851-0.003096-0.021922-0.0272570.0054570.0390240.0186340.025862-0.0175130.018995-0.004694-0.057927-0.0184870.000000-0.023968-0.0377350.0873790.0496570.0338680.0477480.0392150.000000-0.011419-0.010345-0.0052080.028301-0.019367-0.011551-0.0228170.0078530.013761-0.0460120.0358930.0449640.0406120.004608-0.077170-0.004029-0.0034420.003797-0.0275220.034843-0.008157-0.0189980.008827-0.014151-0.006734-0.019737-0.0264080.0237490.014354-0.023729-0.019295-0.032550-0.0012210.0235840.0659720.0248070.0579440.0207820.0046080.000000-0.036728-0.014134-0.0071850.004587-0.052117-0.058925-0.0698920.0096500.0091320.054983-0.0036830.026975-0.0023890.009049-0.003257-0.009242-0.0225140.005988-0.0134520.0228760.0335820.0019190.0261900.004545-0.003195-0.005415-0.003831-0.013921-0.0001650.043590-0.014519-0.0133850.0211760.013824-0.0093170.0138120.021654-0.014927-0.009090-0.056426-0.005557-0.003854-0.023696-0.0183480.003322-0.041475-0.029014-0.002427-0.0046720.0165560.0173080.0338640.0340630.009389-0.009772-0.016068-0.0038540.0141170.0139530.026316-0.016330-0.0096710.0324820.0275220.0096150.0097660.0175780.0162470.017857-0.047619-0.027079-0.051823-0.045468-0.021929-0.026667-0.061630-0.056680-0.013452-0.0403580.0102740.0233050.034335-0.018181-0.004672-0.0440680.020704-0.006224-0.0185180.0046940.0390070.0385400.024988-0.0283010.032710-0.039457-0.029297-0.065844-0.015837-0.0457580.0395680.024145-0.0066080.028423-0.009661-0.031142-0.0079410.0110800.0075370.0146340.000000-0.020080-0.0065790.029925-0.0048070.0214290.0491800.006622-0.0024210.0289850.0454540.0463750.0745610.0145630.0187790.0501670.0363800.004082-0.0119610.0092160.019108-0.0333030.0083620.0338980.004566试对股票回报率用主成分法、极大似然法主因子法和迭代主因子法分别做因子分析, 取2个公共因子。以变量AllChemi 、duPont 、UnionCar、 Exxon、Texaco表示这5个公司的回报率,先建立主成分法的SAS程序data stock; input AllChemi duPont UnionCar Exxon Texaco;cards;0.000000 0.000000 0.000000 0.039473 -0.000000 0.027027 -0.044855 -0.003030 -0.014466 0.043478 0.122807 0.060773 0.088146 0.086238 0.078124 .0.045454 0.046375 0.074561 0.014563 0.018779 0.050167 0.036380 0.004082 -0.011961 0.009216 0.019108 -0.033303 0.008362 0.033898 0.004566;proc factor data=stock method=p n=2 ;/*采用主成分法,用相关阵计算,选取两个公共因子*/var AllChemi duPont UnionCar Exxon Texaco; /*可观测因子是AllChemi 、duPont 、UnionCar、 Exxon、Texaco */run;执行后得到的主要结果是 Factor Pattern FACTOR1 FACTOR2 ALLCHEMI 0.78344 -0.21665 DUPONT 0.77251 -0.45794

    注意事项

    本文(多元统计分析第六章 因子分析.doc)为本站会员(asd****56)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开