判别分析数学建模精选PPT.ppt
判别分析数学建模第1页,此课件共39页哦判别判别 有一些昆虫的性别很难看出,只有通过解剖才能够判别;但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统计学家就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并且利用这个标准来判别其他未知性别的昆虫。这样的判别虽然不能保证百分之百准确,但至少大部分判别都是对的,而且用不着杀死昆虫来进行判别了。第2页,此课件共39页哦判别分析判别分析(discriminant analysis)这就是本章要讲的是判别分析。判别分析和前面的聚类分析有什么不同呢?主要不同点就是,在聚类分析中一般人们事先并不知道或一定要明确应该分成几类,完全根据数据来确定。而在判别分析中,至少有一个已经明确知道类别的“训练样本”,利用这个数据,就可以建立判别准则,并通过预测变量来为未知类别的观测值进行判别了。第3页,此课件共39页哦判别分析例子判别分析例子数据disc.sav:企图用一套打分体系来描绘企业的状况。该体系对每个企业的一些指标(变量)进行评分。这些指标包括:企业规模(is)、服务(se)、雇员工资比例(sa)、利润增长(prr)、市场份额(ms)、市场份额增长(msr)、流动资金比例(cp)、资金周转速度(cs)等等。另外,有一些企业已经被某杂志划分为上升企业、稳定企业和下降企业。我们希望根据这些企业的上述变量的打分和它们已知的类别(三个类别之一:group-1代表上升,group-2代表稳定,group-3代表下降)找出一个分类标准,以对没有被该刊物分类的企业进行分类。该数据有90个企业(90个观测值),其中30个属于上升型,30个属于稳定型,30个属于下降型。这个数据就是一个“训练样本”。第4页,此课件共39页哦Disc.savDisc.sav数据数据 第5页,此课件共39页哦根据距离的判别(不用投影)根据距离的判别(不用投影)Disc.sav数据有8个用来建立判别标准(或判别函数)的(预测)变量,另一个(group)是类别。因此每一个企业的打分在这8个变量所构成的8维空间中是一个点。这个数据有90个点,由于已经知道所有点的类别了,所以可以求得每个类型的中心。这样只要定义了如何计算距离,就可以得到任何给定的点(企业)到这三个中心的三个距离。显然,最简单的办法就是离哪个中心距离最近,就属于哪一类。通常使用的距离是所谓的Mahalanobis距离。用来比较到各个中心距离的数学函数称为判别函数(discriminant function).这种根据远近判别的方法,原理简单,直观易懂。第6页,此课件共39页哦FisherFisher判别法判别法(先进行投影先进行投影)所谓所谓Fisher判别法,就是一种先投影的方法。判别法,就是一种先投影的方法。考虑只有两个(预测)变量的判别分析问题。考虑只有两个(预测)变量的判别分析问题。假假定定这这里里只只有有两两类类。数数据据中中的的每每个个观观测测值值是是二二维维空空间间的的一一个个点点。见图(下一张幻灯片)。见图(下一张幻灯片)。这这里里只只有有两两种种已已知知类类型型的的训训练练样样本本。其其中中一一类类有有38个个点点(用用“o”表表示示),另另一一类类有有44个个点点(用用“*”表表示示)。按按照照原原来来的的变量(横坐标和纵坐标),很难将这两种点分开。变量(横坐标和纵坐标),很难将这两种点分开。于于是是就就寻寻找找一一个个方方向向,也也就就是是图图上上的的虚虚线线方方向向,沿沿着着这这个个方方向向朝朝和和这这个个虚虚线线垂垂直直的的一一条条直直线线进进行行投投影影会会使使得得这这两两类类分分得得最最清清楚楚。可可以以看看出出,如如果果向向其其他他方方向向投投影影,判判别别效效果果不会比这个好。不会比这个好。有有了了投投影影之之后后,再再用用前前面面讲讲到到的的距距离离远远近近的的方方法法来来得得到到判判别别准准则。这种首先进行投影的判别方法就是则。这种首先进行投影的判别方法就是Fisher判别法。判别法。第7页,此课件共39页哦第8页,此课件共39页哦逐步判别法逐步判别法(仅仅是在前面的方法中仅仅是在前面的方法中加入变量选择的功能加入变量选择的功能)有时,一些变量对于判别并没有什么作用,为了得到对判别最合适的变量,可以使用逐步判别。也就是,一边判别,一边引进判别能力最强的变量,这个过程可以有进有出。一个变量的判别能力的判断方法有很多种,主要利用各种检验,例如Wilks Lambda、Raos V、The Squared Mahalanobis Distance、Smallest F ratio或The Sum of Unexplained Variations等检验。其细节这里就不赘述了;这些不同方法可由统计软件的各种选项来实现。逐步判别的其他方面和前面的无异。第9页,此课件共39页哦Disc.sav例子例子利用SPSS软件的逐步判别法淘汰了不显著的流动资金比例(cp),还剩下七个变量is,se,sa,prr,ms,msr,cs,得到两个典则判别函数(Canonical Discriminant Function Coefficients):n0.035IS+3.283SE+0.037SA-0.007PRR+0.068MS-0.023MSR-0.385CS-3.1660.035IS+3.283SE+0.037SA-0.007PRR+0.068MS-0.023MSR-0.385CS-3.166n0.005IS+0.567SE+0.041SA+0.012PRR+0.048MS+0.044MSR-0.159CS-4.3840.005IS+0.567SE+0.041SA+0.012PRR+0.048MS+0.044MSR-0.159CS-4.384 这这两两个个函函数数实实际际上上是是由由Fisher判判别别法法得得到到的的向向两两个个方方向向的的投投影影。这这两两个个典典则则判判别别函函数数的的系系数数是是下下面面的的SPSS输出得到的:输出得到的:第10页,此课件共39页哦Disc.sav例子例子根据这两个函数,从任何一个观测值(每个观测值都有7个变量值)都可以算出两个数。把这两个数目当成该观测值的坐标,这样数据中的150个观测值就是二维平面上的150个点。它们的点图在下面图中。第11页,此课件共39页哦第12页,此课件共39页哦Disc.sav例子例子从上图可以看出,第一个投影(相应于来自于第一个典则判别函数横坐标值)已经能够很好地分辨出三个企业类型了。这两个典则判别函数并不是平等的。其实一个函数就已经能够把这三类分清楚了。SPSS的一个输出就给出了这些判别函数(投影)的重要程度:前前面面说说过过,投投影影的的重重要要性性是是和和特特征征值值的的贡贡献献率率有有关关。该该表表说说明明第第一一个个函函数数的的贡贡献献率率已已经经是是99%了了,而而第第二二个个只只有有1%。当当然然,二二维维图图要要容容易易看看一一些些。投投影影之之后后,再再根根据据各各点点的的位位置置远远近近算算出具体的判别公式(出具体的判别公式(SPSS输出):输出):第13页,此课件共39页哦Disc.sav例子例子具体的判别公式(SPSS输出),由一张分类函数表给出:该该表表给给出出了了三三个个线线性性分分类类函函数数的的系系数数。把把每每个个观观测测点点带带入入三三个个函函数数,就就可可以以得得到到分分别别代代表表三三类类的的三三个个值值,哪哪个个值值最最大大,该该点点就就属属于于相相应应的的那那一一类类。当当然然,用用不不着着自自己己去去算算,计计算算机机软软件件的的选选项项可可以以把把这这些些训训练练数数据据的的每每一一个个点点按按照照这这里里的的分分类类法法分分到到某某一一类类。当当然然,我我们们一一开开始始就就知知道道这这些些训训练练数数据据的的各各个个观观测测值值的的归归属属,但但即即使使是是这这些些训训练练样样本本的的观观测测值值(企企业业)按按照照这这里里推推导导出出的的分分类类函数来分类,也不一定全都能够正确划分。函数来分类,也不一定全都能够正确划分。第14页,此课件共39页哦Disc.sav例子例子下面就是对我们的训练样本的分类结果(SPSS):第15页,此课件共39页哦误判和正确判别率误判和正确判别率从这个表来看,我们的分类能够从这个表来看,我们的分类能够100%地把训练数地把训练数据的每一个观测值分到其本来的类。据的每一个观测值分到其本来的类。该表分成两部分;上面一半(该表分成两部分;上面一半(Original)是用从)是用从全部数据得到的判别函数来判断每一个点的结果全部数据得到的判别函数来判断每一个点的结果(前面三行为判断结果的数目,而后三行为相应(前面三行为判断结果的数目,而后三行为相应的百分比)。的百分比)。下面一半(下面一半(Cross validated)是对每一个观测值,)是对每一个观测值,都用缺少该观测的全部数据得到的判别函数来判断的都用缺少该观测的全部数据得到的判别函数来判断的结果。结果。这里的判别结果是这里的判别结果是100%判别正确,但一般并不一判别正确,但一般并不一定。定。第16页,此课件共39页哦Disc.sav例子例子如果就用这个数据,但不用所有的变量,而只用4个变量进行判别:企业规模(is)、服务(se)、雇员工资比例(sa)、资金周转速度(cs)。结果的图形和判别的正确与否就不一样了。下图为两个典则判别函数导出的150个企业的二维点图。它不如前面的图那么容易分清楚了 原先的图原先的图第17页,此课件共39页哦Disc.sav例子例子下面是基于4个变量时分类结果表:这这个个表表的的结结果果是是有有87个个点点(96.7%)得得到到正正确确划划分分,有有3个个点点被被错错误误判判别别;其其中中第第二二类类有有两两个个被被误误判判为为第第一一类类,有有一一个个被被误误判为第三类。判为第三类。第18页,此课件共39页哦判别分析要注意什么判别分析要注意什么?训练样本中必须有所有要判别的类型,分类必须清训练样本中必须有所有要判别的类型,分类必须清楚,不能有混杂。楚,不能有混杂。要选择好可能由于判别的预测变量。这是最重要的要选择好可能由于判别的预测变量。这是最重要的一步。当然,在应用中,选择的余地不见得有多大。一步。当然,在应用中,选择的余地不见得有多大。要注意数据是否有不寻常的点或者模式存在。还要要注意数据是否有不寻常的点或者模式存在。还要看预测变量中是否有些不适宜的;这可以用单变量看预测变量中是否有些不适宜的;这可以用单变量方差分析(方差分析(ANOVA)和相关分析来验证。)和相关分析来验证。判别分析是为了正确地分类,但同时也要注意使用判别分析是为了正确地分类,但同时也要注意使用尽可能少的预测变量来达到这个目的。使用较少的尽可能少的预测变量来达到这个目的。使用较少的变量意味着节省资源和易于对结果进行解释。变量意味着节省资源和易于对结果进行解释。第19页,此课件共39页哦判别分析要注意什么?判别分析要注意什么?在计算中需要看关于各个类的有关变量的均值是否显著不在计算中需要看关于各个类的有关变量的均值是否显著不同的检验结果(在同的检验结果(在SPSS选项中选择选项中选择Wilks Lambda、Raos V、The Squared Mahalanobis Distance或或The Sum of Unexplained Variations等检验的计算机输出),以确定是否等检验的计算机输出),以确定是否分类结果是仅仅由于随机因素。分类结果是仅仅由于随机因素。此外成员的权数(此外成员的权数(SPSS用用prior probability,即,即“先验概率先验概率”,和贝叶斯统计的先验概率有区别)需要考虑;一般来说,和贝叶斯统计的先验概率有区别)需要考虑;一般来说,加权要按照各类观测值的多少,观测值少的就要按照比例多加权要按照各类观测值的多少,观测值少的就要按照比例多加权。加权。对于多个判别函数,要弄清各自的重要性。对于多个判别函数,要弄清各自的重要性。注意训练样本的正确和错误分类率。研究被误分类的观测值,注意训练样本的正确和错误分类率。研究被误分类的观测值,看是否可以找出原因。看是否可以找出原因。第20页,此课件共39页哦SPSS选项选项打开打开disc.sav数据。然后点击数据。然后点击AnalyzeClassifyDiscriminant,把把group放入放入Grouping Variable,再定义范围,即在,再定义范围,即在Define Range输入输入13的范围。然后在的范围。然后在Independents输入所有想用的变量;但如果要用输入所有想用的变量;但如果要用逐步判别,则不选逐步判别,则不选Enter independents together,而选择,而选择Use stepwise method,在方法(在方法(Method)中选挑选变量的准则(检验方法;默认值为)中选挑选变量的准则(检验方法;默认值为Wilks Lambda)。)。为了输出为了输出Fisher分类函数的结果可以在分类函数的结果可以在Statistics中的中的Function Coefficient选选 Fisher和和UnStandardized(点则判别函数系数)(点则判别函数系数),在,在Matrices中选择输出所需要的相关阵;中选择输出所需要的相关阵;还可以在还可以在Classify中的中的Display选选summary table,Leave-one-out classification;注意在;注意在Classify选项中默认的选项中默认的Prior Probability为为All groups equal表示所有的类都平等对待,而另一个选项为表示所有的类都平等对待,而另一个选项为Compute from group sizes,即按照类的大小加权。,即按照类的大小加权。在在Plots可选可选 Combined-groups,Territorial map等。等。第21页,此课件共39页哦14.4.3 判别分析实例P379鸢尾花数据鸢尾花数据(花瓣花瓣,花萼的长宽花萼的长宽)5个变量个变量:花瓣长花瓣长(slen),花瓣宽花瓣宽(swid),花萼长花萼长(plen),花萼宽花萼宽(pwid),分类号分类号(1:Setosa,2:Versicolor,3:Virginica)(data14-04)第22页,此课件共39页哦StatisticsClassify Discriminant:Variables:independent(slen,swid,plen,pwid)Grouping(spno)Define range(min-1,max-3)Classify:prior probability(All group equal)use covariance matrix(Within-groups)Plots(Combined-groups,Separate-groups,Territorial map)Display(Summary table)Statistics:Descriptive(Means)Function Coefficients(Fishers,Unstandardized)Matrix(Within-groups correlation,Within-groups covariance,Separate-groups covariance,Total covariance)Save:(Predicted group membership,Discriminant Scores,Probability of group membership)第23页,此课件共39页哦鸢尾花数据鸢尾花数据(数据分析过程简明表数据分析过程简明表)第24页,此课件共39页哦鸢尾花数据鸢尾花数据(原始数据的描述原始数据的描述)第25页,此课件共39页哦鸢尾花数据鸢尾花数据(合并类内相关阵和协方差阵合并类内相关阵和协方差阵)第26页,此课件共39页哦鸢尾花数据鸢尾花数据(总协方差阵总协方差阵)第27页,此课件共39页哦鸢尾花数据鸢尾花数据(特征值表特征值表)Eigenvalue:用于分析的前两个典则判别函数的特征值用于分析的前两个典则判别函数的特征值,是组间平方和与组内平方和之比值是组间平方和与组内平方和之比值.最大特征值与组均最大特征值与组均值最大的向量对应值最大的向量对应,第二大特征值对应着次大的组均值第二大特征值对应着次大的组均值向量向量典则相关系数典则相关系数(canonical correlation):是组间平方和是组间平方和与总平方和之比的平方根与总平方和之比的平方根.被平方的是由组间差异解释被平方的是由组间差异解释的变异总和的比的变异总和的比.第28页,此课件共39页哦鸢尾花数据鸢尾花数据(Wilks Lambda统计量统计量)检验的零假设是各组变量均值相等检验的零假设是各组变量均值相等.Lambda接近接近0表示组均值不同表示组均值不同,接近接近1表示表示组均值没有不同组均值没有不同.Chi-square是是lambda的卡方转换的卡方转换,用于确定其显著性用于确定其显著性.第29页,此课件共39页哦鸢尾花数据鸢尾花数据(有关判别函数的输出有关判别函数的输出)标准化的典则判别标准化的典则判别函数系数函数系数(使用时必使用时必须用标准化的自变须用标准化的自变量量)第30页,此课件共39页哦鸢尾花数据鸢尾花数据(有关判别函数的输出有关判别函数的输出)典则判别函数系数典则判别函数系数第31页,此课件共39页哦鸢尾花数据鸢尾花数据(有关判别函数的输出有关判别函数的输出)这是类均值这是类均值(重心重心)处的典则判别函数值处的典则判别函数值这是典则判别函数这是典则判别函数(前面两个函数前面两个函数)在类均在类均值值(重心重心)处的值处的值第32页,此课件共39页哦鸢尾花数据鸢尾花数据(用判别函数对观测量分类结果用判别函数对观测量分类结果)先验概率先验概率(没有给没有给)费歇判别函数系数费歇判别函数系数把自变量代入三个把自变量代入三个式子式子,哪个大归谁哪个大归谁.第33页,此课件共39页哦 Territorial MapCanonical DiscriminantFunction 2 -12.0 -8.0 -4.0 .0 4.0 8.0 12.0 趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌 12.0 12 23 12 23 12 23 12 23 12 23 12 23 8.0 12 23 12 23 12 23 12 23 12 23 12 23 4.0 12 23 12 23 12 23 12 23 12 23 12 23 *.0 *12 23 12 *23 12 23 12 23 12 23 12 23 -4.0 12 23 12 23 12 23 12 23 12 23 12 23 -8.0 12 23 12 23 12 23 12 23 12 23 12 23 -12.0 12 23 趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌 -12.0 -8.0 -4.0 .0 4.0 8.0 12.0 Canonical Discriminant Function 1Symbols used in territorial mapSymbol Group Label-1 1 刚毛鸢尾花 2 2 变色鸢尾花 3 3 佛吉尼亚鸢尾花 *Indicates a group centroid鸢尾花数据鸢尾花数据Territory Map(区域图区域图)Canonical Discriminate Function 1VersusCanonical Discriminate Function 2三种三种鸢尾花鸢尾花的典则变量值把的典则变量值把一个典则变量组成的坐标平一个典则变量组成的坐标平面分成三个区域面分成三个区域.*为中心坐为中心坐标标.第34页,此课件共39页哦第35页,此课件共39页哦第36页,此课件共39页哦第37页,此课件共39页哦第38页,此课件共39页哦鸢尾花数据鸢尾花数据(预测分类结果小结预测分类结果小结)可以看出分错率可以看出分错率第39页,此课件共39页哦