多元统计分析上机作业 .doc
指标的原始数据取自中国统计年鉴,1995和中国教育统计年鉴,1995除以各地区相应的人口数得到十项指标值见表1。其中::为每百万人口高等院校数;:为每十万人口高等院校毕业生数;:为每十万人口高等院校招生数;:为每十万人口高等院校在校生数; :为每十万人口高等院校教职工数;:为每十万人口高等院校专职教师数;:为高级职称占专职教师的比例; :为平均每所高等院校的在校生数;:为国家财政预算内普通高教经费占国内生产总值的比重;:为生均教育经费。表1 我国各地区普通高等教育发展状况数据地区 X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 北京 5.96 310 461 1557 931 319 44.36 2615 2.20 13631 上海 3.39 234 308 1035 498 161 35.02 3052 .90 12665 天津 2.35 157 229 713 295 109 38.40 3031 .86 9385 陕西 1.35 81 111 364 150 58 30.45 2699 1.22 7881 辽宁 1.50 88 128 421 144 58 34.30 2808 .54 7733 吉林 1.67 86 120 370 153 58 33.53 2215 .76 7480 黑龙江 1.17 63 93 296 117 44 35.22 2528 .58 8570 湖北 1.05 67 92 297 115 43 32.89 2835 .66 7262 江苏 .95 64 94 287 102 39 31.54 3008 .39 7786 广东 .69 39 71 205 61 24 34.50 2988 .37 11355 四川 .56 40 57 177 61 23 32.62 3149 .55 7693 山东 .57 58 64 181 57 22 32.95 3202 .28 6805 甘肃 .71 42 62 190 66 26 28.13 2657 .73 7282 湖南 .74 42 61 194 61 24 33.06 2618 .47 6477 浙江 .86 42 71 204 66 26 29.94 2363 .25 7704 新疆 1.29 47 73 265 114 46 25.93 2060 .37 5719 福建 1.04 53 71 218 63 26 29.01 2099 .29 7106 山西 .85 53 65 218 76 30 25.63 2555 .43 5580 河北 .81 43 66 188 61 23 29.82 2313 .31 5704 安徽 .59 35 47 146 46 20 32.83 2488 .33 5628 云南 .66 36 40 130 44 19 28.55 1974 .48 9106 江西 .77 43 63 194 67 23 28.81 2515 .34 4085 海南 .70 33 51 165 47 18 27.34 2344 .28 7928 内蒙古 .84 43 48 171 65 29 27.65 2032 .32 5581 西藏 1.69 26 45 137 75 33 12.10 810 1.00 14199 河南 .55 32 46 130 44 17 28.41 2341 .30 5714 广西 .60 28 43 129 39 17 31.93 2146 .24 5139 宁夏 1.39 48 62 208 77 34 22.70 1500 .42 5377 贵州 .64 23 32 93 37 16 28.12 1469 .34 5415 青海 1.48 38 46 151 63 30 17.87 1024 .38 7368根据上面数据回答以下问题: (一) 计算10个变量的相关系数矩阵,并找出相关性最强的5组变量;1. 利用SPSS软件,依次选中Analysis-correlate-bivariable,得结果整理得2.其中:变量最强的5组变量:和,和 ,和,和及和。 注:SPSS运行结果见附件(一)(二) 对上面数据进行主成分分析,要求写出:a)方差分解表(特征值,累积贡献率);解答:b)要求累积贡献率大于等于85%,选取主成分个数,并用原始的10个变量表示每个主成分;解答:n=2时,贡献率达到90.791%;原始的10个变量表示每个主成分和:c)计算每个省份相应的主成分值,并对主成分值进行标准化。【注:SPSS运行结果见附录二】 北京上海 天津 陕西 辽宁 吉林 黑龙江 湖北 江苏 广东 11.70 5.94 3.50 1.01 0.83 0.80 0.24 0.12 -0.16 -0.31 -0.89 0.10 1.03 0.03 0.88 -0.02 0.58 0.85 1.02 0.93 四川 山东 甘肃 湖南 浙江 新疆 福建 山西 河北 安徽 -0.70 -0.86 -0.74 -0.86 -0.98 -0.82 -0.96 -1.07 -1.22 -1.35 1.29 1.64 0.20 0.85 0.19 -0.51 -0.190.150.330.87云南江西海南内蒙古西藏河南广西宁夏贵州青海-1.18-1.36-1.35-1.40-0.67-1.64-1.68-1.27-1.97-1.60-0.650.65-0.10-0.23 -4.72 0.27 0.47 -1.48 -0.80 -2.75 (三) 利用2)中的标准化后主成分值对30个省市进行聚类分析,要求,a)分别用系统聚类和快速聚类把30个省市分成3类,并比较这两种聚类结果异同(系统聚类给出你选择的聚类方法及谱系图) Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +-+-+-+-+-+ 15 18 19 13 23 24 16 17 21 26 27 20 22 14 11 12 9 10 7 8 4 6 5 28 29 30 25 2 3 1 聚类情况:第一类:北京 第二类:上海、天津 第三类:其他Cluster MembershipCluster MembershipCase NumberCase NumberClusterDistanceCase NumberCluster11.000163.498221.307173.255321.307183.324431.795193.551531.8432031.046631.585213.757731.181223.871831.247233.574931.199243.6541031.0552534.7091131.305263.9021231.6472731.020133.2092831.546143.8672931.428153.2763032.860快速聚类法:Initial Cluster CentersCluster123VAR0001211.705.94-.67VAR00013-.89.10-4.72Iteration HistoryaIterationChange in Cluster Centers1231.0003.1474.6772.000.674.0763.0001.249.0694.000.000.000a. Convergence achieved due to no or small change in cluster centers. The maximum absolute coordinate change for any center is .000. The current iteration is 4. The minimum distance between initial centers is 5.843.(四) 利用3)中快速聚类的结果及2)标准化后主成分值进行判别分析,要求:a)检验3类间的均值是否相等;b)检验3类间的自协方差阵是否相等(a,b的结果要求给出原假设和检验结果);c)写出fisher和典型判别准则;d)分别利用c)的检验准则检验青海属于哪一类;e)给出检验判别准则的优劣。a)建立检验假设为::三类均值相等 :三类均值不相等 Between-Subjects FactorsNCluster Number of Case1122327Multivariate TestscEffectValueFHypothesis dfError dfSig.InterceptPillai's Trace.8941.092E2a2.00026.000.000Wilks' Lambda.1061.092E2a2.00026.000.000Hotelling's Trace8.4041.092E2a2.00026.000.000Roy's Largest Root8.4041.092E2a2.00026.000.000QCL_1Pillai's Trace.94212.0124.00054.000.000Wilks' Lambda.08531.675a4.00052.000.000Hotelling's Trace10.49965.6164.00050.000.000Roy's Largest Root10.4691.413E2b2.00027.000.000a. Exact statisticb. The statistic is an upper bound on F that yields a lower bound on the significance level.c. Design: Intercept + QCL_1 【SPSS运行结果】由Sig.值可以看到,无论从哪个统计量来看,三类都是与显著差异的,故拒绝原假设,认为三类均值不相等。b)建立检验假设为::三类自协方差阵相等 :三类自协方差阵不相等WarningsBox's Test of Equality of Covariance Matrices is not computed because there are fewer than two nonsingular cell covariance matrices.c)fisher判别准则:设为第i个线性判别函数,(i=1,2,m),则 ,典型判别准则:d) Classification Function CoefficientsCluster Number of Case123VAR0001216.7486.612-1.110VAR00013-2.376-.377.116(Constant)-100.121-16.594-1.533Fisher's linear discriminant functionsCanonical Discriminant Function CoefficientsFunction12VAR000121.191.020VAR00013-.143.778(Constant).000.000Unstandardized coefficients(五)对10个变量使用主轴因子法进行因子分析,要求:a)写出因子载荷矩阵,并给出变量X1和因子间的关系;b)计算每个变量的共同度,并给出变量1被选取因子解释的比例;c)对因子进行方差最大化旋转,给出旋转后的因子载荷矩阵,并利用该矩阵对原始的10个变量进行分类,而且出没类变量的实际意义;d)计算青海省的因子得分。a)因子载荷矩阵 (Component Matrixa) b)变量的共同度X10.979268X20.968138X30.985433X40.984353X50.978265X60.978757X70.91282X80.886165X90.823412X100.581184由上表【变量共同度】结果,变量X1和因子间的关系可表示为: = , =,其余以次类推。变量1被选取因子解释的比例为97.9%.有旋转后的因子载荷矩阵可以看出,公共因子F1在(=1,2,3,4,5,6,9,10)上的载荷值都很大。通过变量的含义得出,F1反映高校教育规模及教育发展水平和教育经费的公共因子。公共因子F2在通过变量的含义得出,F1反映高校教育规模及教育发展水平和教育经费的公共因子。公共因子F2在,上的载荷较大,是反映高校高级职称占专职教师的比例和平均每所高等院校的在校生数的公共因子, 有了对各个公共因子合理的解释,结合各个城市在两个公共因子上的得分和综合得分,就可以对各中心城市的教育发展水平进行评价了。d)青海省的因子得分-0.585,-2.188. 【SPSS运行结果参见附录三】 Total Variance ExplainedComponentInitial EigenvaluesExtraction Sums of Squared LoadingsTotal% of VarianceCumulative %Total% of VarianceCumulative %17.50275.02275.0227.50275.02275.02221.57715.77090.7911.57715.77090.7913.5365.36296.154.5365.36296.1544.2062.06498.217.2062.06498.2175.1451.45099.667.1451.45099.6676.022.22299.8897.007.07199.9608.003.02799.9879.001.00799.99410.001.006100.000Extraction Method: Principal Component Analysis.0.349766-0.197490.3588930.0342410.3621790.0294640.3621790.0135370.360353-0.050960.359988-0.06450.2241710.5829020.1201180.7023490.319097-0.19430.245347-0.28667Component MatrixaComponent12VAR00001.958-.248VAR00002.983.043VAR00003.992.037VAR00004.992.017VAR00005.987-.064VAR00006.986-.081VAR00007.614.732VAR00008.329.882VAR00009.874-.244VAR00010.672-.360Extraction Method: Principal Component Analysis.北京11.69813-0.89249上海5.9408270.10456天津3.4977231.033453陕西1.0115220.034867辽宁0.8310270.881243吉林0.802258-0.01778黑龙江0.2426850.575936湖北0.1231960.847639江苏-0.162911.016873广东-0.311960.934719四川-0.699141.293599山东-0.855161.636627甘肃-0.740980.195981湖南-0.862290.854615浙江-0.975260.18827新疆-0.82032-0.50592福建-0.95869-0.19336山西-1.067250.146585河北-1.216950.330053安徽-1.351380.86945云南-1.18363-0.6517江西-1.355450.647022海南-1.34968-0.10134内蒙古-1.39927-0.22862西藏-0.67102-4.7168河南-1.640380.271659广西-1.681640.47225宁夏-1.27242-1.47553贵州-1.96944-0.80274青海-1.60216-2.74913a) 因子载荷矩阵:Component MatrixaComponent12VAR00001.958-.248VAR00002.983.043VAR00003.992.037VAR00004.992.017VAR00005.987-.064VAR00006.986-.081VAR00007.614.732VAR00008.329.882VAR00009.874-.244VAR00010.672-.360Extraction Method: Principal Component Analysis.a. 2 components extracted.b)变量的共同度:VAR000010.979268VAR000020.968138VAR000030.985433VAR000040.984353VAR000050.978265VAR000060.978757VAR000070.91282VAR000080.886165VAR000090.823412VAR000100.581184