因子分析在STATA中实现和案例.doc
《因子分析在STATA中实现和案例.doc》由会员分享,可在线阅读,更多相关《因子分析在STATA中实现和案例.doc(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精品文档,仅供学习与交流,如有侵权请联系网站删除第13章 因子分析因子分析始于1904年Chars Spearman对学生成绩的分析,在经济领域有着极为广泛的用途。在多个变量的变化过程中,除了一些特定因素之外,还受到一些共同因素的影响。因此,每个变量可以拆分成两部分,一是共同因素,二是特殊因素。这些共同因素称为公因子,特殊因素称为特殊因子。因子分析即是提出多个变量的公共影响因子的一种多元统计方法,它是主成分分析的推广。因子分析主要解决两类问题:一是寻求基本结构,简化观察系统。给定一组变量或观察数据,是否存在一个子集,特别是一个加权子集,来解释整个问题,即将为数众多的变量减少为几个新的因子,以再
2、现它们之间的内在联系。二是用于分类,将变量或样本进行分类,根据因子得分值,在因子轴所构成的空间中进行分类处理。p个变量X的因子模型表达式为:f称为公因子,称为因子载荷。X的相关系数矩阵分解为:对于未旋转的因子,。称为特殊度,即每个变量中不属于共性的部分。13.1 因子估计Stata可以通过变量进行因子分析,也可以通过矩阵进行。命令为factor或factormat。webuse bg2,cleardescribefactor bg2cost1-bg2cost6factor bg2cost1-bg2cost6, factors(2)* pf 主因子方法,用复相关系数的平方作为因子载荷的估计量(默
3、认选项)factor bg2cost1-bg2cost6, factors(2) pcf* pcf 主成分因子,假定共同度1factor bg2cost1-bg2cost6, factors(2) ipf* ipf 迭代主因子,重复估计共同度factor bg2cost1-bg2cost6, factors(2) ml* ml 极大似然因子,假定变量(至少3个)服从多元正态分布,对偏相关矩阵的行列式进行最优化求解,等价于Rao的典型因子方法13.2 预测Stata可以通过predict预测变量得分、拟合值和残差等。webuse bg2,clearfactor bg2cost1-bg2cost6
4、predict f1 f2 * factor1 factor2因子分得分predict stdp residuals* 预测标准差和残差13.3EstatEatat给出了几个非常有用的工具,包括KMO、SMC等指标。webuse bg2,clearfactor bg2cost1-bg2cost6estat antiestat kmoestat residualsestat smcestat summarize13.4 因子旋转与作图因子分析的旋转方法以及碎石图、得分图、因子载荷图与主成分分析的方法相同,请参见”主成分分析”一章。webuse bg2,clearfactor bg2cost1-b
5、g2cost6screeplot /*碎石图*/scoreplot /*得分图*/loadingplot /*因子载荷图*/rotate /*旋转*/例:利用2009年的数据对中国社会发展状况进行综合考察,原始数据如下表:省份人均GDP(元)新增固定资产(亿元)城镇居民人均年可支配收入(元)农村居民家庭人均纯收入(元)高等学校数(所)卫生机构数(个)areax1x2x3x4x5x6 北 京630292385.824724.8910661.92856497 天 津554731676.819422.537910.78552784 河 北232394734.213441.094795.4610515
6、632 山 西203981772.613119.054097.24699431 内蒙古322143309.314432.554656.18397162 辽 宁312595056.714392.695576.4810414627 吉 林235143279.912829.454932.74559659 黑龙江217272405.411581.284855.59787928 上 海731242523.226674.911440.26662822 江 苏396227645.918679.527356.4714613357 浙 江422143434.822726.669257.939815290 安 徽
7、144852849.512990.354202.491047837 福 建301231768.317961.456196.07814478 江 西147812962.512866.444697.19828229 山 东330836852.516305.415641.4312514973 河 南19593641413231.114454.249411683 湖 北198603053.413152.864656.3811810305 湖 南175212478.213821.164512.4611514455 广 东375895529.219732.866399.7912515819 广 西1496
8、6141914146.043690.346810427 海 南17175230.212607.844389.97162220 重 庆180251381.914367.554126.21476265 四 川153782918.712633.384121.219020738 贵 州882490311758.762796.93455848 云 南12587155113250.223102.6599249 西 藏13861137.412481.513175.8261326 陕 西182462262.812857.893136.46888812 甘 肃12110575.210969.412723.793
9、910534 青 海17389322.811640.433061.2491582 宁 夏17892403.912931.533681.42151629 新 疆198931162.911432.13502.9376739程序:clear*定义变量的标签label var area 省份label var x1 人均GDP(元)label var x2 新增固定资产(亿元)label var x3 城镇居民人均年可支配收入(元)label var x4 农村居民家庭人均纯收入(元)label var x5 高等学校数(所)label var x6 卫生机构数(个) describefactor x
10、1-x6screeplot /* 碎石图(特征值等于1处的水平线标示保留主成分的分界点)*/*检验estat kmo /*KMO检验,越高越好*/estat smc /*SMC检验,值越高越好*/rotate /*旋转*/loadingplot , yline(0) xline(0)/*载荷图 */*预测predict score fit residual q /*预测变量得分、拟合值和残差以及残差的平方和*/predict f1 f2label var f1 收入因子label var f2 投资、社会因子list area f1 f2summarize f1 f2correlate f1
11、f2scoreplot,xtitle(收入因子) ytitle(投资、社会因子) /mlabel(area) yline(0) xline(0) /*得分图*/分析:首先通过主因子分析(factor),得到主成分因子:Factor analysis/correlation Number of obs = 31 Method: principal factors Retained factors = 3 Rotation: (unrotated) Number of params = 15 Factor | Eigenvalue Difference Proportion Cumulative
12、Factor1 | 3.28193 1.42544 0.6554 0.6554 Factor2 | 1.85648 1.81677 0.3707 1.0261 Factor3 | 0.03971 0.06244 0.0079 1.0341 Factor4 | -0.02272 0.03972 -0.0045 1.0295 Factor5 | -0.06244 0.02293 -0.0125 1.0170 Factor6 | -0.08538 . -0.0170 1.0000 LR test: independent vs. saturated: chi2(15) = 211.52 Probch
13、i2 = 0.0000Factor loadings (pattern matrix) and unique variances Variable | Factor1 Factor2 Factor3 | Uniqueness x1_s | 0.8609 -0.4463 -0.1125 | 0.0469 x2_s | 0.6274 0.6026 -0.1061 | 0.2320 x3_s | 0.8800 -0.3931 0.0998 | 0.0611 x4_s | 0.9120 -0.3658 0.0365 | 0.0332 x5_s | 0.6508 0.6526 0.0349 | 0.14
14、94 x6_s | 0.3427 0.7616 0.0572 | 0.2993 从上面的分析可以看出,只有两个成分大于1大于的特征值,同时两个成分解释了全部六个变量组合的方差还多。不重要的第2 到6个主成分在随后的分析中可以放心地省略去。运行factor命令后,我们可以接着运行screeplot命令画出碎石图。碎石图中特征值等于1处的水平线标示了保留主成分的常用分界点,同时再次强调了本例中的成分3到成分6并不重要。碎石图检验的方法还是跟上一章的主成分分析一样,由于我们都是选用实际的数据来进行分析,所以在一般情况下,检验都是通得过的,可以忽略,觉得有需要的再进行检验。旋转会进一步简化因子结构。在
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 因子分析 STATA 实现 案例
限制150内