《多元统计分析-实验四.doc》由会员分享,可在线阅读,更多相关《多元统计分析-实验四.doc(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流多元统计分析-实验四.精品文档.实验四判别分析一、实验内容1、实验目的为研究某地区人口死亡状况,已按某种方法将15个已知样品分为3类,通过对指标及原始数据进行判别分析并建立判别函数,判定另外4个待判样品属于哪类。2、实验要求 找出较为合适的判别方法,判别待判样品属于哪一类。二、实验报告1、问题提出为研究某地区人口死亡状况,已按某种方法将15个已知样品分为3类,通过判别分析判定另外4个待判样品属于哪类。2、指标选择选取以下六项指标:X1:0岁组死亡概率X2:1岁组死亡概率X3:10岁组死亡概率X4:55岁组死亡概率X5:80岁组死亡概率X6:平
2、均预期寿命3、数据来源表 4-1 原始数据X1:0岁组死亡概率X2:1岁组死亡概率X3:10岁组死亡概率X4:55岁组死亡概率X5:80岁组死亡概率X6:平均预期寿命组别序号 X1 X2 X3X4 X5 X6第一组1234534.16 7.44 1.1233.06 6.34 1.0836.26 9.24 1.0440.17 13.45 1.4350.06 23.03 2.837.87 95.19 69.306.77 94.08 69.708.97 97.30 68.8013.88 101.20 66.2023.74 112.52 63.30第二组1234533.24 6.24 1.1832.2
3、2 4.22 1.0641.15 10.08 2.3253.04 25.74 4.0638.03 11.20 6.0722.90 160.01 65.4020.70 124.70 68.7032.84 172.06 65.8534.87 152.03 63.5027.84 146.32 66.80第三组1234534.03 5.41 0.0732.11 3.02 0.0944.12 15.12 1.0854.17 25.03 2.1128.07 2.01 0.075.20 90.10 69.503.14 85.15 70.8015.15 103.12 64.8025.15 110.14 63.
4、703.02 81.22 68.30待判样品123450.22 6.66 1.0834.64 7.33 1.1133.42 6.22 1.1244.02 15.36 1.0722.54 170.60 65.207.78 95.16 69.3022.95 160.31 68.3016.45 105.30 64.204、 数据处理经观察分析,表中数据没有错误值或是缺失值,因此不需要进行处理。5、 操作步骤表 4-2序号x1x2x3x4x5x6group134.167.441.127.8795.1969.31233.066.341.086.7794.0869.71336.269.241.048.97
5、97.368.81440.1713.451.4313.88101.266.21550.0623.032.8323.74112.5263.31633.246.241.1822.9160.0165.42732.224.221.0620.7124.768.72841.1510.082.3232.84172.0665.852953.0425.744.0634.87152.0363.521038.0311.26.0727.84146.3266.821134.035.410.075.290.169.531232.113.020.093.1485.1570.831344.1215.121.0815.1510
6、3.1264.831454.1725.032.1125.15110.1463.731528.072.010.073.0281.2268.33150.226.661.0822.54170.665.2234.647.331.117.7895.1669.3333.426.221.1222.95160.3168.3444.0215.361.0716.45105.364.2(1)按照表4-2把数据输入SPSS数据表中。(2)通过单击AnalyzeClassifyDiscriminant展开判别分析对话框。(3)选择group这个变量为被解释变量,移到Grouping Variable(分组变量)框中,打
7、开Define Range,在Minimum后填1,在Maximum后填3,表示分为三组;选择x1、x2、x3、x4、x5、x6这六个变量为解释变量,移到Independents框中。再点选Enter independents together(全部变量进入)单选按钮。(4)选择要求输出的统计量。在主对话框中单击Statistics按钮,展开统计量选择对话框, 选择描述统计量Means,Univariate ANOVAs,函数选择Fisher函数和Unstandardized(非标准化函数),矩阵选择Within-groups correlation,单击Continue返回主对话框。(5)在
8、主对话框中单击classify按钮,展开分类选择对话框,选择先验概率(All groups equal,所有组相等或根据组的大小计算概率);子选项(display)中选择每个个体的结果(Casewise results),综合表(Summary Table)和“留一个在外”(Leave-one-out classification)的验证原则;协方差矩阵选择Within-groups;作图选择Combined-groups。(6)单击保存(Save)选项,可以选择保存预测的分类(Predicted group membership)、判别得分(Discriminant scores)以及所属类
9、别的概率(Probabilities of group membership)。(7)在主对话框中单击OK,提交运行。得到结果部分如下表4-3至表4-8。表 4-3 各组均值相等的检验Tests of Equality of Group MeansWilks LambdaFdf1df2Sig.0岁组死亡概率.997.019212.9811岁组死亡概率.990.061212.94110岁组死亡概率.6453.301212.07255岁组死亡概率.4387.690212.00780岁组死亡概率.17428.557212.000平均预期寿命.926.478212.631表 4-4 贝叶斯判别函数的有
10、效性检验Wilks LambdaTest of Function(s)Wilks LambdaChi-squaredfSig.1 through 2.01043.94812.0002.5914.9995.416表 4-5 非标准贝叶斯判别函数的系数Canonical Discriminant Function CoefficientsFunction120岁组死亡概率-1.950-.8781岁组死亡概率1.7481.16910岁组死亡概率-.930-.36555岁组死亡概率.825-.08680岁组死亡概率.102.054平均预期寿命1.662.706(Constant)-78.896-30.
11、330Unstandardized coefficients表 4-6 类中心Functions at Group CentroidsgroupFunction121-2.6471.01329.444-.2593-6.797-.754Unstandardized canonical discriminant functions evaluated at group means表 4-7 各类的分类函数的系数Classification Function Coefficientsgroup1230岁组死亡概率-159.015-181.479-149.3701岁组死亡概率168.068187.71
12、5158.74910岁组死亡概率-98.413-109.195-93.90855岁组死亡概率58.21768.29654.94880岁组死亡概率11.70212.86211.185平均预期寿命202.770221.972194.625(Constant)-5628.382-6584.377-5266.780Fishers linear discriminant functions表 4-8 预测分类结果小结Classification ResultsagroupPredicted Group MembershipTotal123OriginalCount150052050530055Ungro
13、uped cases1124%1100.0.0.0100.02.0100.0.0100.03.0.0100.0100.0Ungrouped cases25.025.050.0100.0a. 100.0% of original grouped cases correctly classified.6、 结果分析(1)表4-3是各组均值相等的检验结果。可以看出:在5%的显著性水平下,接受变量“0岁组死亡概率”、“1岁组死亡概率”、“10岁组死亡概率”和“平均预期寿命”在三组的均值相等的假设,拒绝变量“55岁组死亡概率”和“80岁组死亡概率”在三组的均值相等的假设。由此知道进一步的输出结果分析均是
14、有意义的。(2)表4-4为贝叶斯判别函数的有效性检验的结果。有最后一列Sig.(1 through 2)=0.0000.05知道第一个判别函数具有统计显著性即第一个判别函数能够很好地将两类区分开,而第二个判别函数不具有统计显著性。(3)表4-5给出了未标准化的贝叶斯判别函数的系数。从表中可以得出两个判别函数:y1=-78.896 1.950x1 + 1.748x2 0.930x3 + 0.825x4 + 0.102x5 + 1.662x6y2=-30.330 0.878x1 + 1.169x2 0.365x3 - 0.086x4 + 0.054x5 + 0.706x6(4)表4-6反映标准贝叶
15、斯判别函数在各组的重心。根据结果,第一组重心为(-2.647,1.013),第二组重心为(9.444,-0.259),第三组重心为(-6.797,-0.754)。未标准化的贝叶斯判别函数中心值在各变量均值处。(5)表4-7用判别函数对观测量分类的结果,显示了费歇线性判别函数的系数。根据系数表可以总结出各类判别函数如下:第一组:F1=-159.015x1+168.068x2-98.413x3+58.217x4+11.702x5+202.77x6-5628.382第二组:F2=-181.479x1+187.715x2-109.195x3+68.296x4+12.862x5+221.972x6-65
16、84.377第三组:F3=-149.370x1+158.749x2-93.908x3+54.948x4+11.185x5+194.625x6-5266.78可以根据上述分类函数计算出每个观测在各组的分类函数值,然后将观测分类到具有最大分类函数值的类别中。(6)表4-8是预测分类的小结,是一个判别回代小结。可以看出,通过判别函数预测,15个观测是分类都是正确的,即已知所属类别的回判准确率为100%。另外4个待判样品有一个分到第一个,一个分到第二组,两个分到第三组。由此作出已知样品回判结果表,如下表4-9。表 4-9 已知样品回判结果序号原属分类号判别函数值及归类正误判标志(正=0;误=1)费歇判
17、别贝叶斯判别判别分类号11-2.19691.374621021-2.291781.386441031-2.781871.330121041-3.28940.627811051-2.676810.3463910629.939230.2194420728.59391-0.59376208210.33167-2.5397220928.627391.77083201029.72776-0.1509420113-6.90099-0.4057630123-7.3927-0.6933430133-8.83378-1.7555130143-4.94154-0.6301930153-5.91419-0.28645301待判-21.90343-13.7036632待判-3.393270.8342113待判14.501512.1199224待判-7.914-1.801023综上所述,可以有结论:4个待判样品有第一个与第四个归为第三组,第二个归为第一组,第三个归为第二组。而且此例中回判准确率很高,可见判别方法正确。因此有理由相信最后对于四个待判样品的判别结果是正确的。
限制150内