基于判别分析的应用.doc
《基于判别分析的应用.doc》由会员分享,可在线阅读,更多相关《基于判别分析的应用.doc(24页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 基于判别分析的四个方法及应用摘 要:本文简明扼要的概述了判别分析的基本思想、假设条件、常用方法。针对每一种判别分析方法,文章给出了实证分析,良好地将这四种方法应用于具体实际案例。关键词:判别分析;Fisher判别;Bayes 判别;逐步判别;距离判别Four Examples of Application Based on Discriminant AnalysisLi YanliSchool of Mathematics and Information, StatisticsGrade 2016 Instructor: Liu XinlingAbstract: This paper bri
2、efly summarizes the basic ideas, assumptions and common methods of discriminant analysis. For each discriminant analysis method, the paper gives an empirical analysis and applies the four methods to specific cases.Key words: Discriminant analysis; Fisher discriminant; Bayes discriminant; Stepwise di
3、scriminant; Distance discriminant目 录1.绪论11.1基本思想11.2假设条件11.3常用方法12.费希尔判别法12.1实例应用22.2分析结果与解释43.贝叶斯判别法73.1实例应用73.2分析结果与解释84.逐步判别法114.1实例应用124.2分析结果与解释135.距离判别法155.1实例应用165.2分析结果与解释176.判别分析的其他应用197.结论20参考文献20致 谢21211.绪论判别分析是20世纪30年代产生的,这些年来,它在许多学科中有着广泛的应用,是一种用来判别新的样本属于哪种类型的统计分析方法。与聚类分析有所不同,在进行判别分析之前,事
4、先就把总体的几种类型全部罗列出来,并且每个样品是哪一种类型也是已知的,只是我们要做的就是将新的样品用判别分析进行归类。1.1基本思想对于判别分析,首先要做的就是清楚样本的分类情况;其次是在知道诸多用来表明每个样品特征的变量值的情况下,建立判别规则;最终利用判别规则对新样品对象的所属类型进行判断,并且能够保证判断错误的几率达到最小。1.2假设条件第一个假设条件是,对于每个解释变量来说,它不可以与其他解释变量构成线性组合。因为如果那样就会导致它不能够反映新的信息,更严重的是发生了这种情况就会导致没有办法去估计判别函数。第二个假设条件是,对于各个组的变量来说,它们要有相等的协方差矩阵。因为在判别分析
5、中,线性判别函数是我们最常用的,也是最方便的。并且在这个假设的条件下,我们可以利用一些简单的公式就可以计算出判别函数,也可以对显著性的检验进行操作。第三个假设条件是,对于各个判别变量来说,需要服从多变量正态分布,也就是各个变量对于所有其他变量的固定值有正态分布2。因为在这个假设的条件下,我们能够精确地得出显著性检验的P值,以及分组归属的概率值。如果违背了这个假设,那么所得概率的准确性就会大大降低。1.3常用方法在判别分析时,提出问题的方向有很多,因此它的判别准则也多种多样。比如Mahalanobis Distance Minimum准则、费希尔准则、ECM准则、Least Squares准则、
6、Maximum Likelihood准则、Maximum Probability准则等等,在这些准则的基础上又可以有针对性的提出各种方法。现在简明扼要的概述以下四种常用方法:费希尔判别法、贝叶斯判别法、逐步判别法和距离判别法2。2. 费希尔判别法记总体的样本为,组与组之间的离差矩阵为:,组内的离差矩阵为:,假设有m个解释变量,来构造如下的判别函数:,。当上述判别函数对各个总体的数据均作用后,其数据将变成一元的。这k个一元,其中,当判别函数对数据进行分类时,使类与类之间的差别尽可能大,类的内部差异尽量很小,即应使得的值达到最大。对此,还要使得。最终,费希尔判别分析就是将以下方程组的最优解给解出来
7、:,能够证明,以上方程组的最大值恰好是的特征多项式最大根。假设有m个的非零特征值,它们,那么就能构造出m个判别函数:,为与对应的特征向量。而第个判别函数的判别能力为。当我们实际应用时,不是每个判别函数都能用得到,往往只需选择累计贡献率达到一定水平(例如85%)的前几个判别函数就可以了。2.1实例应用为了通过研究人体舒张压(DBP)大小及血浆胆固醇(CHOL)的含量来进行冠心病的诊断,我们收集了15名冠心病患者和15名正常者的舒张压(DBP)及血浆胆固醇(CHOL)。如表2.1所示:其中编号1-15为冠心病患者(用1来表示患病),16-30为正常者(用2来表示正常)。现在根据这30组有无冠心病的
8、调查数据采用Fisher判别法来判断预测第31号样品是否患有冠心病。表2.1 15名冠心病患者和15名正常者的DBP及CHOL编号组别DBPCHOL119.865.182113.333.733114.663.89419.337.105112.805.496110.664.097110.664.458113.333.639113.335.9610113.335.7011112.006.1912114.664.0113113.334.0114112.803.6315113.335.9616210.662.0717212.534.4518213.333.061929.333.9420210.664.
9、4521210.664.922229.333.6823210.662.7724210.663.2125210.665.0226210.403.942729.334.9228210.662.6929210.662.4330211.203.4231待判9.333.63数据来源:SPSS统计分析从入门到精通数据Chapter12 2.2分析结果与解释我们通过SPSS软件对已知样本数据进行Fisher判别分析的结果如下:表2.2 单因素方差分析组平均值的同等检验威尔克LambdaF自由度 1自由度 2Sig.舒张压0.69412.3191280.002血浆胆固醇0.7399.9101280.004表2
10、.2中显著性的值小于0.05,表示舒张压和血浆胆固醇这两个变量的均值在各组间都是有差异的,因此这两个变量对类间的判别都是有作用的。下面我们再观察典型判别函数的特征函数的特征值。如表2.3所示:表2.3 典型判别函数的特征函数的特征值特征值方差的百分比累计的百分比典型相关系数函数11.169100.0100.00.734在表2.3中特征值只有1个,特征值为1.169,且典型相关系数为0.734。由此,说明函数1具有区别判断力。在分析完特征值的性质之后,我们接下来分析一下Wilks的检验结果。如表2.4所示:表2.4 Wilks检验结果函数检验Wilks Lambdachi-square自由度P值
11、10.46120.90820.000在表2.4的Wilks检验结果中,Wilks Lambda值为0.461,且显著性水平小于0.05,表示组间有差异,即组均值不等,所以本例中判别分析有意义。既然有意义,那么我们可以得到标准化的典则判别函数系数4,如表2.5所示:表2.5 标准化典则判别函数系数函数1舒张压0.882血浆胆固醇0.834根据表2.5的标准化典则判别函数系数,可以得到标准化典则判别函数:再考虑舒张压和血浆胆固醇的结构矩阵,如表2.6所示:表2.6 结构矩阵函数1舒张压0.613血浆胆固醇0.550由于表2.6可以看出,舒张压这个变量对判别函数的贡献为0.613,血浆胆固醇对判别函
12、数的贡献为0.550。说明冠心病与这两个因素均有关。最后,我们得到非标准化典则判别函数系数,如表2.7所示:表2.7 非标准化典则判别函数系数函数1舒张压0.636血浆胆固醇0.797(常量)-10.775根据表2.7的非标准化典则判别函数系数,可以得到非标准化典则判别函数:表2.8 分类结果1,2组别预测组成员信息总计冠心病人正常人原始计数冠心病人12315正常人31215%冠心病人8020100正常人2080100交叉验证个数冠心病人12315正常人41115%冠心病人8020100正常人26731001:正确地对 80.0% 个原始已分组个案进行了分类。2:正确地对 76.7% 个进行了
13、交叉验证的已分组个案进行了分类。从表2.8的分类结果中可以看出,我们正确地对 80.0%个原始已分组个案进行了分类,交叉验证得到的判别信息正确率为76.7%,表明能够较好的进行判断。由于我们在SPSS软件的操作步骤中保存了预测组成员结果,即最终的分类结果,如表2.9所示:表2.9 保存预测组成员结果编号组别DBPCHOLDis_1Dis1_1119.865.182-0.380732113.333.7310.669123114.663.8911.64186419.337.1010.812375112.805.4911.734736110.664.092-0.740877110.664.452-0
14、.454018113.333.6310.589449113.335.9612.4460810113.335.7012.2389011112.006.1911.7841012114.664.0111.7374813113.334.0110.8922414112.803.6310.2526115113.335.9612.4460816210.662.072-2.3504917212.534.4510.7344318213.333.0610.135241929.333.942-1.7056420210.664.452-0.4540121210.664.922-0.079492229.333.682-
15、1.9128223210.662.772-1.7927024210.663.212-1.4420925210.665.0210.0001926210.403.942-1.025632729.334.922-0.9247428210.662.692-1.8564529210.662.432-2.0636330211.203.422-0.9315731待判9.333.632-1.95266从表2.9的预测结果中可以看出,我们需要待判的第31号样品属于第二组。上述例子是将30组有无冠心病的调查数据,采用Fisher判别法来判断预测第31号样品是否患有冠心病,我们根据Fisher判别法建立了判别函数,
16、最终很好的预测了第31号样品属于第二组,即第31号样品为正常人。3. 贝叶斯判别法首先介绍一下贝叶斯思想,它是假定对将要研究的对象已经有了一定的认识,经常将之以先验概率分布来表示,其次选取一个样本来修正这个先验概率分布,以此找到后验概率分布,最终采用后验概率分布去做统计推断。当判别分析用到了贝叶斯思想时,就出现了贝叶斯判别。假设有k个,它们分别具有,现在知道上述k个总体的,以此来建立起一定的贝叶斯判别函数和判别规则3。用的一个分割,也就是说之间互相没有交集,并且。是取得合适的,即是说它刚好与k个总体相对应,此时我们的判别规则就可以写为:用来,这种判断错误的概率是:那么根据上述判别规则,则平均损
17、失为:3.1实例应用一所商学院的招生人员将本科生的大学平均毕业成绩(GPA)和本科毕业生的管理能力测试(GMAT)成绩用作“指标”,帮助学院决定应将哪些申报者录取为学院研究生。为了通过研究本科生的GPA和GMAT成绩来判定一名新申报者的申报结果,我们收集了85名申报者的GPA和GMAT成绩及申报结果。数据如表3.1所示:其中GPA(用x1来表示),GMAT(用x2表示),三种录取结果(用y来表示,且1表示录取,2表示不录取,3表示待定)。表3.1 85名申报者的GPA和GMAT成绩x1x2yx1x2yx1x2y2.9659613.7664612.2938423.1447313.2446712.
18、8649433.2248212.5446622.8549633.2952712.4342523.1441933.6950512.2047423.2837134.4669312.3653122.8944733.0362612.4754223.1531333.1966312.3540623.5040233.6344712.5141222.8948533.5955812.5135922.8044433.3056312.3633923.1341633.4055312.3648223.0147133.5057212.6642022.7949033.7859112.6841422.8943133.4469
19、212.4853322.9144633.4852812.4650922.5754633.4755212.6350422.7344633.3552012.4433623.1246333.2852312.4146923.0341933.3954312.1340823.0844033.2153012.5553823.0050933.5856412.3150523.0343833.3356512.4148923.0533933.4043112.1941122.8548333.3860512.3532123.0145333.2666412.6039423.0341433.0660912.5552823.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 判别分析 应用
限制150内