多元统计分析判别分析SPSS实验报告.doc
实验课程名称: _多元统计分析-判别分析_实验项目名称实验成绩实 验 者专业班级统计学0801组 别同 组 者实验日期 年 月 日第一部分:实验预习报告(包括实验目的、意义,实验基本原理与方法,主要仪器设备及耗材,实验方案与技术路线等)实验目的:理解掌握SPSS软件中有关判别分析的基本操作;了解不同判别方法的原理及操作过程;能够用软件实际问题进行分类。 实验基本原理:判别分析是根据观察或测量到的若干变量值判断研究对象如何分类的方法。判别分析是在已知分类数目的情况下,根据一定的指标对不知道的数据进行归类。判别分析的目的是得到体现分类的函数关系式,即判别函数。基本思想是在已知观测对象的分类和特征变量值得前提下,从中筛选出能提供较多信息的变量,并建立判别函数;目标是是得到的判别函数在对观测量进行判别其所属类别时的错判概率最小。判别函数的一般形式是:其中,y为判别分数判别值;、为反映研究对象特征的变量;、为个变量的系数,即判别系数。常用的判别方法有距离判别法、Fisher判别法和贝叶斯判别法等。 Bayes判别法:假定对所研究的对象已有一定的认识,常用先验概率来描述这种认识。设有k个总体G1, G2, , Gk,它们的先验概率分别为(它们可以由经验给出也可以估出)。各总体的密度函数分别为:(在离散情形是概率函数),在观测到一个样品x的情况下,可用著名的Bayes公式计算它来自第g总体的后验概率(相对于先验概率来说,将它又称为后验概率):并且当 时,则判X来自第h总体。距离判别法:首先计算X到G1、G2总体的距离,分别记为和,按距离最近准则判别归类,则可写成:题目:表11.5的数据包含三种鸢尾的X2=萼片宽度与X4=花瓣的宽度的观测值。对每种鸢尾有n1=n2=n3=50个观测值。部分数据:第二部分:实验过程记录(可加页)(包括实验原始数据记录,实验现象记录,实验过程发现的问题等)散点图:图形旧对话框散点图,打开简单散点图子对话框;将想X2选入X轴变量,X4选入Y轴变量,将总体选入设置标记框中,点击确定。判别分析:步骤:1、 选择分析分类判别,打开判别分析子对话框。2、 选择变量“总体”,单击,将其加入到分组变量栏中。3、 打开定义范围子对话框,最小值输入1,最大值输入3。4、 将变量“X2萼片宽度”、“X4花瓣的宽度”选入自变量栏中。选择“一起输入自变量”的方法。5、 打开统计变量子对话框,选择均值、单变量ANOVA、BoxM、未标准化、组内协方差、分组协方差及总体协方差,单击继续。6、 打开分类子对话框,选择不考虑该个案时的分类,其余为默认值。7、 打开保存,选择所有的变量。组统计量总体有效的 N(列表状态)均值标准差未加权的已加权的1萼片宽度X23.428.37915050.000花瓣宽度X4.246.10545050.0002萼片宽度X22.770.31385050.000花瓣宽度X41.326.19785050.0003萼片宽度X22.974.32255050.000花瓣宽度X42.026.27475050.000合计萼片宽度X23.057.4359150150.000花瓣宽度X41.199.7622150150.000组均值的均等性的检验Wilks 的 LambdaFdf1df2Sig.萼片宽度X2.59949.1602147.000花瓣宽度X4.071960.0072147.000协方差矩阵a总体萼片宽度X2花瓣宽度X41萼片宽度X2.144.009花瓣宽度X4.009.0112萼片宽度X2.098.041花瓣宽度X4.041.0393萼片宽度X2.104.048花瓣宽度X4.048.075合计萼片宽度X2.190-.122花瓣宽度X4-.122.581a. 总的协方差矩阵的自由度为 149。相关系数矩阵a总体萼片宽度X2花瓣宽度X4合计萼片宽度X2.190-.122花瓣宽度X4-.122.581对数行列式总体秩对数行列式12-6.49622-6.14132-5.189汇聚的组内2-5.583检验结果箱的 M52.832F近似。8.632df16df2538562.769Sig.000Wilks 的 Lambda函数检验Wilks 的 Lambda卡方dfSig.1 到 2.038477.8684.0002.80931.0751.000典型判别式函数系数函数12萼片宽度X2-1.9872.680花瓣宽度X45.477.817(常量)-.494-9.174非标准化系数组质心处的函数总体函数121-5.958.21521.265-.66734.693.452分类结果b,c总体预测组成员123合计初始计数150005020491503044650%1100.0.0.0100.02.098.02.0100.03.08.092.0100.0交叉验证a计数150005020482503044650%1100.0.0.0100.02.096.04.0100.03.08.092.0100.0第三部分 结果与讨论(可加页)一、实验结果分析(包括数据处理、实验现象分析、影响因素讨论、综合分析和结论等)二、小结、建议及体会三、思考题(a) 在(X2,X4)变量空间对数据作图,这三组数据是否表现为正态分布?从散点图中 可以看出,三个总体的散点图都是椭圆形的。因此各个总体服从二元正态分布。但是三个总体中总体1的散点图的轴的方向和总体2、总体3的方向并不一样,说明从不同的总体观测数据会得到不同的协方差矩阵。(b) 假定总体来自有相同协方差矩阵的二元正态总体。假设检验H0:U1=U2=U3,H1:至少有一个Ui与其他均值不同,显著性水平取a=0.05.在这种情况下,关于协方差矩阵的假定是否合理?请解释。从均值均等性的检验中得到Sig<0.05,所以拒绝原假设。由从BoxM检验和散点图得到的关于公共协方差矩阵的假定是不合理的。(c) 假定总体服从正态分布,构造由式(11-47)给出的二次判别得分,假定。用法则(11-48)将分类总体1、2或者3中。 三个总体的得分表达式如下:总体1:-3.68 + 6.16 - 47.60 + 23.71 + 2.30-37.67总体2:9.09 + 19.57 - 22.87 + 24.94 + 7.63 - 36.53总体3:-6.76 +8.54-9.32 +22.92+12.38-44.04三个总体的得分依次为-103.77、0.043、-1.23,因此将判入总体2.。 (d) 假定协方差矩阵对三个二元正态总体均值相同。构造由(11-51)所给的线性判别得分,并根据式(11-52)将分类到总体1、2或者3中。与(c)中的结果比较。你倾向于那种方法?请解释。三个总体得分表达式如下:总体1:36.02 - 22.26 - 59.00 =28.12总体2:19.3l+16.58 -37.73 =58.86总体3:15.49+36.28 -59.78 =57.92因此将判入总体2中。和(c)的结果一样,如果要选择一种方法,那么应该选择式(11-51)的方法,因为在能保证结果的一致性情况下计算要相对简单得多。(e)假定三个总体的均值均为二元正态总体,有相同的协方差,且。用法则(11-56)分类到总体1、2或者3中。将结果与(d)比较。得分表12310-30.74-29.80230.7400.94129.80-0.940因此将判入总体2中。(f)用(d)中的出的线性判别函数将样本观测值分类。计算APER和ÊAER)。APER = = 0.033Ê(AER) = = 0.04总结:通过一系类方法的判别我们最终的结果是一致,一方面说明我们所用的各种方法尤其共同点的一面,另一方面也让我们知道如何选择正确的方法才能更有效率的去判别分析。总体上判别分析的效率还是比较高。第 18 页