统计学数据到结论幻灯片.ppt
《统计学数据到结论幻灯片.ppt》由会员分享,可在线阅读,更多相关《统计学数据到结论幻灯片.ppt(70页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、统计学数据到结论第1页,共70页,编辑于2022年,星期二第十二章 判别分析判别分析 第2页,共70页,编辑于2022年,星期二12.1 12.1 判别分析判别分析(discriminant analysis)某些昆虫的性别只有通过解剖才能够判别某些昆虫的性别只有通过解剖才能够判别但雄性和雌性昆虫在若干体表度量上有些综但雄性和雌性昆虫在若干体表度量上有些综合的差异。人们就根据已知雌雄的昆虫体表合的差异。人们就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)度量(这些用作度量的变量亦称为预测变量)得到一个标准,并以此标准来判别其他未知得到一个标准,并以此标准来判别其他未知性别的昆虫
2、。性别的昆虫。这样虽非这样虽非100%100%准确的判别至少大部分是对的,准确的判别至少大部分是对的,而且用不着杀生。而且用不着杀生。此即判别分析此即判别分析第3页,共70页,编辑于2022年,星期二判别分析判别分析(discriminant analysis)判别分析和聚类分析有何不同?判别分析和聚类分析有何不同?在在聚聚类类分分析析中中,人人们们一一般般事事先先并并不不知知道道应应该分成几类及哪几类,全根据数据确定。该分成几类及哪几类,全根据数据确定。在在判判别别分分析析中中,至至少少有有一一个个已已经经明明确确知知道道类类别别的的“训训练练样样本本”,并并利利用用该该样样本本来来建建立立
3、判判别别准准则则,并并通通过过预预测测变变量量来来为为未知类别的观测值进行判别了。未知类别的观测值进行判别了。第4页,共70页,编辑于2022年,星期二判别分析例子判别分析例子数数据据disc.txt:企企图图用用一一套套打打分分体体系系来来描描绘绘企企业业的的状状况况。该该体体系系对对每每个个企企业业的的一一些些指标(变量)进行评分。指标(变量)进行评分。指指标标有有:企企业业规规模模(is)、服服务务(se)、雇雇员员工工资资比比例例(sa)、利利润润增增长长(prr)、市市场场份份额额(ms)、市市场场份份额额增增长长(msr)、流流动动资资金金比比例例(cp)、资金周转速度、资金周转速
4、度(cs)等等.另另外外,有有一一些些企企业业已已经经被被某某杂杂志志划划分分为为上升企业、稳定企业和下降企业。上升企业、稳定企业和下降企业。第5页,共70页,编辑于2022年,星期二判别分析例子判别分析例子希希望望根根据据这这些些企企业业的的上上述述变变量量的的打打分分及及其其已已知知的的类类别别(三三个个类类别别之之一一:group-1代代表表上上升升,group-2代代表表稳稳定定,group-3代代表表下下降降)找找出出一一个个分分类类标标准准,以以对对尚尚未未被被分分类的企业进行分类。类的企业进行分类。该该数数据据有有90个个企企业业(90个个观观测测值值),其其中中30个个属属于于
5、上上升升型型,30个个属属于于稳稳定定型型,30个个属属于于下下降降型型。这这个个数数据据就就是是一一个个“训训练样本练样本”。第6页,共70页,编辑于2022年,星期二Disc.savDisc.sav数据数据 第7页,共70页,编辑于2022年,星期二1.根据距离判别的思想根据距离判别的思想Disc.txt数数据据有有8个个用用来来建建立立判判别别标标准准(或或判判别别函数函数)的的(预测预测)变量变量,另一个另一个(group)是类别是类别每每一一个个企企业业的的打打分分在在这这8个个变变量量所所构构成成的的8维维空空间间中中是是一一个个点点。这这个个数数据据在在8维维空空间间有有90个个
6、点,点,由由于于已已知知所所有有点点的的类类别别,可可以以求求得得每每个个类类型型的的中中心心。这这样样只只要要定定义义了了距距离离,就就可可以以得得到到任任何何给给定定的的点点(企企业业)到到这这三三个个中中心心的的三三个个距离。距离。第8页,共70页,编辑于2022年,星期二1.根据距离判别的思想根据距离判别的思想最最简简单单的的办办法法就就是是:某某点点离离哪哪个个中中心心距离最近,就属于哪一类。距离最近,就属于哪一类。一个常用距离是一个常用距离是Mahalanobis距离。距离。用用来来比比较较到到各各个个中中心心距距离离的的数数学学函函数称为判别函数数称为判别函数(discrimin
7、ant function).这这种种根根据据远远近近判判别别的的思思想想,原原理理简简单单,直观易懂。为判别分析的基础直观易懂。为判别分析的基础第9页,共70页,编辑于2022年,星期二2.Fisher2.Fisher判别法判别法(先进行投影先进行投影)Fisher判别法就是一种先投影的方法。判别法就是一种先投影的方法。考虑只有两个考虑只有两个(预测预测)变量的判别问题。变量的判别问题。假假定定只只有有两两类类。数数据据中中的的每每个个观观测测值值是是二维空间的一个点。见图。二维空间的一个点。见图。这这里里只只有有两两种种已已知知类类型型的的训训练练样样本本。一一类类有有38个个点点(用用“o
8、”表表示示),另另一一类类有有44个个点点(用用“*”表表示示)。按按原原来来变变量量(横横坐坐标标和和纵坐标纵坐标),很难将这两种点分开。,很难将这两种点分开。第10页,共70页,编辑于2022年,星期二第11页,共70页,编辑于2022年,星期二2.Fisher2.Fisher判别法判别法(先进行投影先进行投影)于于是是就就寻寻找找一一个个方方向向,即即图图上上的的虚虚线线方方向向,沿沿该该方方向向朝朝和和这这个个虚虚线线垂垂直直的的一一条条直直线线进进行行投投影影会会使使得得这这两两类类分分得得最最清清楚楚。可可以以看看出出,如如果果向向其其他他方方向向投投影影,判判别别效效果果不不会会
9、比这个好。比这个好。有有了了投投影影之之后后,再再用用前前面面讲讲到到的的距距离离远远近近的的方方法法得得到到判判别别准准则则。这这种种先先投投影影的的判别方法就是判别方法就是Fisher判别法。判别法。第12页,共70页,编辑于2022年,星期二Fisher判别法的数学第13页,共70页,编辑于2022年,星期二3.逐步判别法逐步判别法(仅仅是在前面的方法中加入变量选择的功能仅仅是在前面的方法中加入变量选择的功能)有有时时,一一些些变变量量对对于于判判别别并并没没有有什什么么作作用用,为为了了得得到到对对判判别别最最合合适适的的变变量量,可可以以使使用用逐逐步步判判别别。即,一边判别,一边选
10、择判别能力最强的变量,即,一边判别,一边选择判别能力最强的变量,这这个个过过程程可可以以有有进进有有出出。一一个个变变量量的的判判别别能能力力的的判判断断方方法法有有很很多多种种,主主要要利利用用各各种种检检验验,例例如如Wilks Lambda、Raos V、The Squared Mahalanobis Distance、Smallest F ratio或或The Sum of Unexplained Variations等等检检验验。其其细细节节这这里里就就不不赘赘述述了了;这这些些不不同同方方法法可可由由统统计计软软件件的的各各种种选选项项来来实实现现。逐逐步步判别的其他方面和前面的无
11、异。判别的其他方面和前面的无异。第14页,共70页,编辑于2022年,星期二Disc.txt例子例子利利用用SPSS软软件件的的逐逐步步判判别别法法淘淘汰汰了了不不显显著著的的流流动动资资金金比比例例(cp),还还剩剩下下七七个个变变量量。用用x1,x2,x3,x4,x5,x6,x7分分别别表表示示标标准准化化后后的的变变量量is,se,sa,prr,ms,msr,cs,得得到到两两个个典典则则判判别别函数(函数(Canonical Discriminant Function Coefficients):):这这两两个个函函数数实实际际上上是是由由Fisher判判别别法法得得到到的的向向两两个
12、个方方向向的的投投影影。这这两两个个典典则则判判别别函函数数的的系系数数是是下下面面的的SPSS输输出出得得到到的:的:第15页,共70页,编辑于2022年,星期二Disc.txt例子例子根根据据这这两两个个函函数数,从从任任何何一一个个观观测测值值(每每个个观观测测值值都都有有7个个变变量量值值)都都可可以以算算出出两两个个数数。把把这这两两个个数数目目当当成成该该观观测测值值的的坐坐标标,这这样样数数据据中中的的150个个观观测测值值就就是是二二维维平平面面上上的的150个个点点。它它们们的的点点图图在在下下面面图中。图中。第16页,共70页,编辑于2022年,星期二第17页,共70页,编
13、辑于2022年,星期二Disc.txt例子例子从从上上图图可可以以看看出出,第第一一个个投投影影(相相应应于于来来自自于于第第一一个个典典则则判判别别函函数数横横坐坐标标值值)已已经经能能够够很很好好地地分分辨辨出出三三个个企企业业类类型型了了。这这两两个个典典则则判判别别函函数数并并不不是是平平等等的的。其其实实一一个个函函数数就就已已经经能能够够把把这这三三类类分分清清楚楚了了。SPSS的的一一个个输输出出就就给给出出了了这这些些判判别别函数(投影)的重要程度:函数(投影)的重要程度:前前面面说说过过,投投影影的的重重要要性性是是和和特特征征值值的的贡贡献献率率有有关关。该该表表说说明明第
14、第一一个个函函数数的的贡贡献献率率已已经经是是99%了了,而而第第二二个个只只有有1%。当当然然,二二维维图图要要容容易易看看一一些些。投投影影之之后后,再再根根据据各各点点的的位位置置远远近近算算出出具具体体的判别公式(的判别公式(SPSS输出):输出):第18页,共70页,编辑于2022年,星期二Disc.txt例子例子具体的判别公式(具体的判别公式(SPSS输出),由一张分类函数表给出:输出),由一张分类函数表给出:该该表表给给出出了了三三个个线线性性分分类类函函数数的的系系数数。把把每每个个观观测测点点带带入入三三个个函函数数,就就可可以以得得到到分分别别代代表表三三类类的的三三个个值
15、值,哪哪个个值值最最大大,该该点点就就属属于于相相应应的的那那一一类类。当当然然,用用不不着着自自己己去去算算,计计算算机机软软件件的的选选项项可可以以把把这这些些训训练练数数据据的的每每一一个个点点按按照照这这里里的的分分类类法法分分到到某某一一类类。当当然然,我我们们一一开开始始就就知知道道这这些些训训练练数数据据的的各各个个观观测测值值的的归归属属,但但即即使使是是这这些些训训练练样样本本的的观观测测值值(企企业业)按按照照这这里里推推导导出出的分类函数来分类,也不一定全都能够正确划分。的分类函数来分类,也不一定全都能够正确划分。第19页,共70页,编辑于2022年,星期二Disc.tx
16、t例子例子下面就是对我们的训练样本的分类结果(下面就是对我们的训练样本的分类结果(SPSS):):第20页,共70页,编辑于2022年,星期二误判和正确判别率误判和正确判别率从该表看,我们的分类能够从该表看,我们的分类能够100%地把训练数据地把训练数据的每一个观测值分到其本来的类。的每一个观测值分到其本来的类。该表分成两部分;上面一半(该表分成两部分;上面一半(Original)是)是用从全部数据得到的判别函数来判断每一个用从全部数据得到的判别函数来判断每一个点的结果(前面三行为判断结果的数目,而点的结果(前面三行为判断结果的数目,而后三行为相应的百分比)。后三行为相应的百分比)。下面一半(
17、下面一半(Cross validated)是对每一个观测)是对每一个观测值,都用缺少该观测的全部数据得到的判别值,都用缺少该观测的全部数据得到的判别函数来判断的结果。函数来判断的结果。这里结果是这里结果是100%正确,但一般并不一定。正确,但一般并不一定。第21页,共70页,编辑于2022年,星期二Disc.txt例子例子如如果果就就用用这这个个数数据据,但但不不用用所所有有的的变变量量,而而只只用用4个个变变量量进进行行判判别别:企企业业规规模模(is)、服服务务(se)、雇雇员员工工资资比比例例(sa)、资资金金周周转转速速度度(cs)。结结果果的的图图形形和和判判别别的的正正确确与与否否
18、就就不不一一样样了了。下下图图为为两两个个典典则则判判别别函函数数导导出出的的150个企业的二维点图。它不如前面的图那么容易分清楚了个企业的二维点图。它不如前面的图那么容易分清楚了 原先的图原先的图第22页,共70页,编辑于2022年,星期二Disc.txt例子例子下面是基于下面是基于4个变量时分类结果表:个变量时分类结果表:这这个个表表的的结结果果是是有有87个个点点(96.7%)得得到到正正确确划划分分,有有3个个点点被被错错误误判判别别;其其中中第第二二类类有有两两个个被被误误判判为为第第一一类类,有有一一个个被被误判为第三类。误判为第三类。第23页,共70页,编辑于2022年,星期二1
19、2.2判别分析要注意什么判别分析要注意什么?训练样本中必须包含所有要判别的类型,训练样本中必须包含所有要判别的类型,分类必须清楚,不能有混杂。分类必须清楚,不能有混杂。要选择好可能用于判别的预测变量。这是要选择好可能用于判别的预测变量。这是最重要的。当然,在应用中,选择余地不最重要的。当然,在应用中,选择余地不见得有多大。见得有多大。要注意数据是否有不寻常的点或者模式要注意数据是否有不寻常的点或者模式存在。还要看预测变量中是否有些不适存在。还要看预测变量中是否有些不适宜的;这可以用单变量方差分析宜的;这可以用单变量方差分析(ANOVA)和相关分析来验证。)和相关分析来验证。第24页,共70页,
20、编辑于2022年,星期二判别分析要注意什么判别分析要注意什么?判别分析是为了正确地分类,但同时也要注判别分析是为了正确地分类,但同时也要注意使用尽可能少的预测变量来达到这个目的。意使用尽可能少的预测变量来达到这个目的。使用较少的变量意味着节省资源和易于对结使用较少的变量意味着节省资源和易于对结果作解释。果作解释。在计算中需要看关于各个类的有关变量的均值是在计算中需要看关于各个类的有关变量的均值是否显著不同的否显著不同的检验结果检验结果(在在SPSS选项中选择选项中选择Wilks Lambda、Raos V、The Squared Mahalanobis Distance或或The Sum of
21、 Unexplained Variations等检验的计算机输出等检验的计算机输出),以确以确定是否分类结果仅由于随机因素。定是否分类结果仅由于随机因素。第25页,共70页,编辑于2022年,星期二判别分析要注意什么判别分析要注意什么?此外成员的权数(此外成员的权数(SPSS用用prior probability,即即“先验概率先验概率”,和贝叶斯统计的先验概率,和贝叶斯统计的先验概率有区别)需要考虑;一般来说,加权要按照有区别)需要考虑;一般来说,加权要按照各类观测值的多少,观测值少的就要按照比各类观测值的多少,观测值少的就要按照比例多加权。例多加权。对于多个判别函数,要弄清各自的重要性。对
22、于多个判别函数,要弄清各自的重要性。注意训练样本的正确和错误分类率。研究被误分注意训练样本的正确和错误分类率。研究被误分类的观测值,看是否能找出原因。类的观测值,看是否能找出原因。第26页,共70页,编辑于2022年,星期二SPSS选项选项打开打开disc.sav数据。然后点击数据。然后点击AnalyzeClassifyDiscriminant,把把group放入放入Grouping Variable,再定义范围,即在,再定义范围,即在Define Range输入输入13的范围。然后在的范围。然后在Independents输入所有想用的变量;输入所有想用的变量;但如果要用逐步判别,则不选但如果
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 数据 结论 幻灯片
限制150内