判别分析数学建模精选PPT.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《判别分析数学建模精选PPT.ppt》由会员分享,可在线阅读,更多相关《判别分析数学建模精选PPT.ppt(39页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、判别分析数学建模第1页,此课件共39页哦判别判别 有一些昆虫的性别很难看出,只有通过解剖才能够判别;但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统计学家就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并且利用这个标准来判别其他未知性别的昆虫。这样的判别虽然不能保证百分之百准确,但至少大部分判别都是对的,而且用不着杀死昆虫来进行判别了。第2页,此课件共39页哦判别分析判别分析(discriminant analysis)这就是本章要讲的是判别分析。判别分析和前面的聚类分析有什么不同呢?主要不同点就是,在聚类分析中一般人们事先并不知道或一定要明确应该分成几类
2、,完全根据数据来确定。而在判别分析中,至少有一个已经明确知道类别的“训练样本”,利用这个数据,就可以建立判别准则,并通过预测变量来为未知类别的观测值进行判别了。第3页,此课件共39页哦判别分析例子判别分析例子数据disc.sav:企图用一套打分体系来描绘企业的状况。该体系对每个企业的一些指标(变量)进行评分。这些指标包括:企业规模(is)、服务(se)、雇员工资比例(sa)、利润增长(prr)、市场份额(ms)、市场份额增长(msr)、流动资金比例(cp)、资金周转速度(cs)等等。另外,有一些企业已经被某杂志划分为上升企业、稳定企业和下降企业。我们希望根据这些企业的上述变量的打分和它们已知的
3、类别(三个类别之一:group-1代表上升,group-2代表稳定,group-3代表下降)找出一个分类标准,以对没有被该刊物分类的企业进行分类。该数据有90个企业(90个观测值),其中30个属于上升型,30个属于稳定型,30个属于下降型。这个数据就是一个“训练样本”。第4页,此课件共39页哦Disc.savDisc.sav数据数据 第5页,此课件共39页哦根据距离的判别(不用投影)根据距离的判别(不用投影)Disc.sav数据有8个用来建立判别标准(或判别函数)的(预测)变量,另一个(group)是类别。因此每一个企业的打分在这8个变量所构成的8维空间中是一个点。这个数据有90个点,由于已经
4、知道所有点的类别了,所以可以求得每个类型的中心。这样只要定义了如何计算距离,就可以得到任何给定的点(企业)到这三个中心的三个距离。显然,最简单的办法就是离哪个中心距离最近,就属于哪一类。通常使用的距离是所谓的Mahalanobis距离。用来比较到各个中心距离的数学函数称为判别函数(discriminant function).这种根据远近判别的方法,原理简单,直观易懂。第6页,此课件共39页哦FisherFisher判别法判别法(先进行投影先进行投影)所谓所谓Fisher判别法,就是一种先投影的方法。判别法,就是一种先投影的方法。考虑只有两个(预测)变量的判别分析问题。考虑只有两个(预测)变量
5、的判别分析问题。假假定定这这里里只只有有两两类类。数数据据中中的的每每个个观观测测值值是是二二维维空空间间的的一一个个点点。见图(下一张幻灯片)。见图(下一张幻灯片)。这这里里只只有有两两种种已已知知类类型型的的训训练练样样本本。其其中中一一类类有有38个个点点(用用“o”表表示示),另另一一类类有有44个个点点(用用“*”表表示示)。按按照照原原来来的的变量(横坐标和纵坐标),很难将这两种点分开。变量(横坐标和纵坐标),很难将这两种点分开。于于是是就就寻寻找找一一个个方方向向,也也就就是是图图上上的的虚虚线线方方向向,沿沿着着这这个个方方向向朝朝和和这这个个虚虚线线垂垂直直的的一一条条直直线
6、线进进行行投投影影会会使使得得这这两两类类分分得得最最清清楚楚。可可以以看看出出,如如果果向向其其他他方方向向投投影影,判判别别效效果果不会比这个好。不会比这个好。有有了了投投影影之之后后,再再用用前前面面讲讲到到的的距距离离远远近近的的方方法法来来得得到到判判别别准准则。这种首先进行投影的判别方法就是则。这种首先进行投影的判别方法就是Fisher判别法。判别法。第7页,此课件共39页哦第8页,此课件共39页哦逐步判别法逐步判别法(仅仅是在前面的方法中仅仅是在前面的方法中加入变量选择的功能加入变量选择的功能)有时,一些变量对于判别并没有什么作用,为了得到对判别最合适的变量,可以使用逐步判别。也
7、就是,一边判别,一边引进判别能力最强的变量,这个过程可以有进有出。一个变量的判别能力的判断方法有很多种,主要利用各种检验,例如Wilks Lambda、Raos V、The Squared Mahalanobis Distance、Smallest F ratio或The Sum of Unexplained Variations等检验。其细节这里就不赘述了;这些不同方法可由统计软件的各种选项来实现。逐步判别的其他方面和前面的无异。第9页,此课件共39页哦Disc.sav例子例子利用SPSS软件的逐步判别法淘汰了不显著的流动资金比例(cp),还剩下七个变量is,se,sa,prr,ms,msr
8、,cs,得到两个典则判别函数(Canonical Discriminant Function Coefficients):n0.035IS+3.283SE+0.037SA-0.007PRR+0.068MS-0.023MSR-0.385CS-3.1660.035IS+3.283SE+0.037SA-0.007PRR+0.068MS-0.023MSR-0.385CS-3.166n0.005IS+0.567SE+0.041SA+0.012PRR+0.048MS+0.044MSR-0.159CS-4.3840.005IS+0.567SE+0.041SA+0.012PRR+0.048MS+0.044MS
9、R-0.159CS-4.384 这这两两个个函函数数实实际际上上是是由由Fisher判判别别法法得得到到的的向向两两个个方方向向的的投投影影。这这两两个个典典则则判判别别函函数数的的系系数数是是下下面面的的SPSS输出得到的:输出得到的:第10页,此课件共39页哦Disc.sav例子例子根据这两个函数,从任何一个观测值(每个观测值都有7个变量值)都可以算出两个数。把这两个数目当成该观测值的坐标,这样数据中的150个观测值就是二维平面上的150个点。它们的点图在下面图中。第11页,此课件共39页哦第12页,此课件共39页哦Disc.sav例子例子从上图可以看出,第一个投影(相应于来自于第一个典则
10、判别函数横坐标值)已经能够很好地分辨出三个企业类型了。这两个典则判别函数并不是平等的。其实一个函数就已经能够把这三类分清楚了。SPSS的一个输出就给出了这些判别函数(投影)的重要程度:前前面面说说过过,投投影影的的重重要要性性是是和和特特征征值值的的贡贡献献率率有有关关。该该表表说说明明第第一一个个函函数数的的贡贡献献率率已已经经是是99%了了,而而第第二二个个只只有有1%。当当然然,二二维维图图要要容容易易看看一一些些。投投影影之之后后,再再根根据据各各点点的的位位置置远远近近算算出具体的判别公式(出具体的判别公式(SPSS输出):输出):第13页,此课件共39页哦Disc.sav例子例子具
11、体的判别公式(SPSS输出),由一张分类函数表给出:该该表表给给出出了了三三个个线线性性分分类类函函数数的的系系数数。把把每每个个观观测测点点带带入入三三个个函函数数,就就可可以以得得到到分分别别代代表表三三类类的的三三个个值值,哪哪个个值值最最大大,该该点点就就属属于于相相应应的的那那一一类类。当当然然,用用不不着着自自己己去去算算,计计算算机机软软件件的的选选项项可可以以把把这这些些训训练练数数据据的的每每一一个个点点按按照照这这里里的的分分类类法法分分到到某某一一类类。当当然然,我我们们一一开开始始就就知知道道这这些些训训练练数数据据的的各各个个观观测测值值的的归归属属,但但即即使使是是
12、这这些些训训练练样样本本的的观观测测值值(企企业业)按按照照这这里里推推导导出出的的分分类类函数来分类,也不一定全都能够正确划分。函数来分类,也不一定全都能够正确划分。第14页,此课件共39页哦Disc.sav例子例子下面就是对我们的训练样本的分类结果(SPSS):第15页,此课件共39页哦误判和正确判别率误判和正确判别率从这个表来看,我们的分类能够从这个表来看,我们的分类能够100%地把训练数地把训练数据的每一个观测值分到其本来的类。据的每一个观测值分到其本来的类。该表分成两部分;上面一半(该表分成两部分;上面一半(Original)是用从)是用从全部数据得到的判别函数来判断每一个点的结果全
13、部数据得到的判别函数来判断每一个点的结果(前面三行为判断结果的数目,而后三行为相应(前面三行为判断结果的数目,而后三行为相应的百分比)。的百分比)。下面一半(下面一半(Cross validated)是对每一个观测值,)是对每一个观测值,都用缺少该观测的全部数据得到的判别函数来判断的都用缺少该观测的全部数据得到的判别函数来判断的结果。结果。这里的判别结果是这里的判别结果是100%判别正确,但一般并不一判别正确,但一般并不一定。定。第16页,此课件共39页哦Disc.sav例子例子如果就用这个数据,但不用所有的变量,而只用4个变量进行判别:企业规模(is)、服务(se)、雇员工资比例(sa)、资
14、金周转速度(cs)。结果的图形和判别的正确与否就不一样了。下图为两个典则判别函数导出的150个企业的二维点图。它不如前面的图那么容易分清楚了 原先的图原先的图第17页,此课件共39页哦Disc.sav例子例子下面是基于4个变量时分类结果表:这这个个表表的的结结果果是是有有87个个点点(96.7%)得得到到正正确确划划分分,有有3个个点点被被错错误误判判别别;其其中中第第二二类类有有两两个个被被误误判判为为第第一一类类,有有一一个个被被误误判为第三类。判为第三类。第18页,此课件共39页哦判别分析要注意什么判别分析要注意什么?训练样本中必须有所有要判别的类型,分类必须清训练样本中必须有所有要判别
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 判别分析 数学 建模 精选 PPT
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内