聚类分析结果解释.ppt
第14章 聚类分析与判别分析介绍:介绍:1、聚类分析、聚类分析2、判别分析、判别分析分类学是人类认识世界的基础科学。聚类分析分类学是人类认识世界的基础科学。聚类分析和判别分析是研究事物分类的基本方法,广泛地应和判别分析是研究事物分类的基本方法,广泛地应用于自然科学、社会科学、工农业生产的各个领域。用于自然科学、社会科学、工农业生产的各个领域。14.1.1 聚类分析根据事物本身的特性研究个体分类的方法,原根据事物本身的特性研究个体分类的方法,原则是同一类中的个体有较大的相似性,不同类则是同一类中的个体有较大的相似性,不同类中的个体差异很大。中的个体差异很大。根据分类对象的不同,分为样品(观测量)聚根据分类对象的不同,分为样品(观测量)聚类和变量聚类两种:类和变量聚类两种:n样品聚类:对观测量样品聚类:对观测量(Case)进行聚类(不同的目的进行聚类(不同的目的选用不同的指标作为分类的依据,如选拔运动员与选用不同的指标作为分类的依据,如选拔运动员与分课外活动小组)分课外活动小组)n变量聚类:找出彼此独立且有代表性的自变量,而变量聚类:找出彼此独立且有代表性的自变量,而又不丢失大部分信息。在生产活动中不乏有变量聚又不丢失大部分信息。在生产活动中不乏有变量聚类的实例,如:衣服号码(身长、胸围、裤长、腰类的实例,如:衣服号码(身长、胸围、裤长、腰围)、鞋的号码。变量聚类使批量生产成为可能。围)、鞋的号码。变量聚类使批量生产成为可能。14.1.2 判别分析判别分析是根据表明事物特点的变量值和它们判别分析是根据表明事物特点的变量值和它们所属的类,求出判别函数。根据判别函数对未所属的类,求出判别函数。根据判别函数对未知所属类别的事物进行分类的一种分析方法。知所属类别的事物进行分类的一种分析方法。在自然科学和社会科学的各个领域经常遇到需在自然科学和社会科学的各个领域经常遇到需要对某个个体属于哪一类进行判断。如动物学要对某个个体属于哪一类进行判断。如动物学家对动物如何分类的研究和某个动物属于哪一家对动物如何分类的研究和某个动物属于哪一类、目、纲的判断。类、目、纲的判断。不同:判别分析和聚类分析不同的在于判别分不同:判别分析和聚类分析不同的在于判别分析要求已知一系列反映事物特征的数值变量的析要求已知一系列反映事物特征的数值变量的值,并且已知各个体的分类(值,并且已知各个体的分类(训练样本训练样本)。)。14.1.3 聚类分析与判别分析的SPSS过程在在AnalyzeClassify下:下:1.K-MeansCluster:观测量快速聚类分观测量快速聚类分析过程析过程2.HierarchicalCluster:分层聚类(进行分层聚类(进行观测量聚类和变量聚类的过程观测量聚类和变量聚类的过程3.Discriminant:进行判别分析的过程进行判别分析的过程14.2 快速样本聚类过程(Quick Cluster)使用使用k均值分类法对观测量进行聚类均值分类法对观测量进行聚类可使用系统的默认选项或自己设置选项,如分为几类、可使用系统的默认选项或自己设置选项,如分为几类、指定初始类中心、是否将聚类结果或中间数据数据存入指定初始类中心、是否将聚类结果或中间数据数据存入数据文件等。数据文件等。快速聚类实例快速聚类实例(P342,data14-01a):使用系统的默认使用系统的默认值进行:对运动员的分类(分为值进行:对运动员的分类(分为4类)类)nAnalyzeClassifyK-MeansClusterwVariables:x1,x2,x3wLabelCaseBy:nowNumberofCluster:4w比较有用的结果:聚类结果形成的最后四类中心点比较有用的结果:聚类结果形成的最后四类中心点(FinalClusterCenters)和每类的观测量数目(和每类的观测量数目(NumberofCasesineachCluster)w但不知每个运动员究竟属于哪一类?这就要用到但不知每个运动员究竟属于哪一类?这就要用到Save选项选项14.2 快速样本聚类过程(Quick Cluster)中的选项使用快速聚类的选择项:使用快速聚类的选择项:w类中心数据的输入与输出:类中心数据的输入与输出:Centers选项选项w输出数据选择项:输出数据选择项:Save选项选项w聚类方法选择项:聚类方法选择项:Method选项选项w聚类何时停止选择项:聚类何时停止选择项:Iterate选项选项w输出统计量选择项:输出统计量选择项:Option选项选项14.2 指定初始类中心的聚类方法例题P343数据同上(数据同上(data14-01a):以四个四类成绩突出者的数据为初始):以四个四类成绩突出者的数据为初始聚类中心聚类中心(种子种子)进行聚类。类中心数据文件进行聚类。类中心数据文件data14-01b(但缺一(但缺一列列Cluster_,不能直接使用,要修改),不能直接使用,要修改)。对运动员的分类(还是分。对运动员的分类(还是分为为4类)类)AnalyzeClassifyK-MeansClusternVariables:x1,x2,x3nLabelCaseBy:nonNumberofCluster:4nCenter:Readinitialfrom:data14-01bnSave:Clustermembership和和DistancefromClusterCentern比较有用的结果(可将结果与前面没有初始类中心比较):比较有用的结果(可将结果与前面没有初始类中心比较):w聚类结果形成的最后四类中心点聚类结果形成的最后四类中心点(FinalClusterCenters)w每类的观测量数目(每类的观测量数目(NumberofCasesineachCluster)w在数据文件中的两个新变量在数据文件中的两个新变量qc1_1(每个观测量最终被分配(每个观测量最终被分配到哪一类)和到哪一类)和qc1_2(观测量与所属(观测量与所属类中心点的距离)类中心点的距离)14.3 分层聚类(Hierarchical Cluster)分层聚类方法:分层聚类方法:n分解法分解法:先视为一大类,再分成几类先视为一大类,再分成几类n凝聚法凝聚法:先视每个为一类先视每个为一类,再合并为几大类再合并为几大类可用于观测量可用于观测量(样本样本)聚类聚类(Q型型)和变量聚类和变量聚类(R型型)一般分为两步(自动一般分为两步(自动,可从可从Paste的语句知道的语句知道,P359):):nProximities:先对数据进行的预处理:先对数据进行的预处理(标准化和计算距离等标准化和计算距离等)nCluster:然后进行聚类分析:然后进行聚类分析两种统计图:树形图两种统计图:树形图(Dendrogram)和冰柱图和冰柱图(Icicle)各类型数据的标准化、距离和相似性计算各类型数据的标准化、距离和相似性计算P348-354n定距变量、分类变量、二值变量定距变量、分类变量、二值变量n标准化方法标准化方法p353:ZScores、Range-1to1、Range0to1等等14.3.4 用分层聚类法进行观测量聚类实例P358对对20种啤酒进行分类种啤酒进行分类(data14-02),变量包括:变量包括:Beername(啤酒名称啤酒名称)、calorie(热量热量)、sodium(钠含量钠含量)、alcohol(酒精含量酒精含量)、cost(价格价格)AnalyzeClassifyHierarchicalCluster:nVariables:calorie,sodium,alcohol,cost成分和价格成分和价格nLabelCaseBy:BeernamenCluster:Case,Q聚类聚类nDisplay:选中选中Statistics,单击,单击StatisticswAgglomeration Schedule Agglomeration Schedule 凝聚状态表凝聚状态表wProximity matrixProximity matrix:距离矩阵:距离矩阵wCluster membershipCluster membership:Single solutionSingle solution:4 4 显示分为显示分为4 4类时,各观测量类时,各观测量所属的类所属的类nMethod:Cluster(FurthestNeighbor),Measure-Interval(SquaredEuclideandistance),TransformValue(Range0-1/Byvariable(值值-最小值最小值)/极差极差)nPlots:(Dendrogram)Icicle(Specifiedrangeofcluster,Start-1,Stop-4,by-1),Orientation(Vertical纵向作图纵向作图)nSave:ClusterMembership(Singlesolution4)n比较有用的结果:根据需要进行分类,在数据文件中的分类新变量比较有用的结果:根据需要进行分类,在数据文件中的分类新变量clu4_1等等14.3.5 用分层聚类法进行变量聚类变量聚类,是一种降维的方法,用于在变量聚类,是一种降维的方法,用于在变量众多时寻找有代表性的变量,以便变量众多时寻找有代表性的变量,以便在用少量、有代表性的变量代替大变量在用少量、有代表性的变量代替大变量集时,损失信息很少。集时,损失信息很少。与进行观测量聚类雷同,不同点在于:与进行观测量聚类雷同,不同点在于:w选择选择Variable而非而非CasewSave选项失效,不建立的新变量选项失效,不建立的新变量14.3.6 变量聚类实例1 P366上面啤酒分类问题上面啤酒分类问题data14-02。AnalyzeClassifyHierarchicalCluster:nVariables:calorie,sodium,alcohol,cost成分和价格成分和价格nCluster:Variable,R聚类聚类nMethod:wClusterMethod:FurthestNeighborwMeasure-Interval:PearsonCorrelationwTransformValues:ZScore(ByVariable)nPlots:Dendrogram树型图树型图nStatistics:Proximity matrixProximity matrix:相关矩阵:相关矩阵n比较有用的结果:根据相关矩阵和树型图,可知比较有用的结果:根据相关矩阵和树型图,可知calorie(热量热量)和和alcohol(酒酒精含量精含量)的相关系数最大,首先聚为一类。从整体上看,聚为三类是比较好的的相关系数最大,首先聚为一类。从整体上看,聚为三类是比较好的结果。至于热量和酒精含量选择哪个作为典型指标代替原来的两个变量,可结果。至于热量和酒精含量选择哪个作为典型指标代替原来的两个变量,可以根据专业知识或测度的难易程度决定。以根据专业知识或测度的难易程度决定。14.3.6 变量聚类实例2 P368有有10个测试项目,分别用变量个测试项目,分别用变量X1-X10表示,表示,50名学生参加测试。想从名学生参加测试。想从10个变量中选择几个变量中选择几个典型指标。个典型指标。data14-03AnalyzeClassifyHierarchicalCluster:nVariables:X1-X10nCluster:Variable,R聚类聚类nMethod:wClusterMethod:FurthestNeighborwMeasure-Interval:PearsonCorrelationnPlots:Dendrogram树型图树型图nStatistics:Proximity matrixProximity matrix相关矩阵相关矩阵n比较有用的结果:可以从树型图中看出聚类过程。具体聚为几类最为合理,比较有用的结果:可以从树型图中看出聚类过程。具体聚为几类最为合理,根据专业知识来定。而每类中的典型指标的选择,可用根据专业知识来定。而每类中的典型指标的选择,可用p370的相关指数公式的相关指数公式的计算,然后比较类中各个变量间的相关指数,哪个大,就选哪个变量作为的计算,然后比较类中各个变量间的相关指数,哪个大,就选哪个变量作为此类的代表变量。此类的代表变量。14.4 判别分析P374判别分析的概念:是根据观测到的若干变量值,判断研判别分析的概念:是根据观测到的若干变量值,判断研究对象如何分类的方法。究对象如何分类的方法。要先建立判别函数要先建立判别函数Y=a1x1+a2x2+.anxn,其中,其中:Y为为判别分数判别分数(判别值判别值),x1x2.xn为反映研究对象特征的变为反映研究对象特征的变量,量,a1a2.an为系数为系数SPSS对于分为对于分为m类的研究对象,建立类的研究对象,建立m个线性判别函个线性判别函数。对于每个个体进行判别时,把观测量的各变量值代数。对于每个个体进行判别时,把观测量的各变量值代入判别函数,得出判别分数,从而确定该个体属于哪一入判别函数,得出判别分数,从而确定该个体属于哪一类,或计算属于各类的概率,从而判别该个体属于哪一类,或计算属于各类的概率,从而判别该个体属于哪一类。还建立标准化和未标准化的典则判别函数。类。还建立标准化和未标准化的典则判别函数。具体见下面具体见下面吴喜之教授有关判别分析判别分析的讲义补充:补充:聚类分析与判别分析以下的讲义是吴喜之教授有关聚聚类类分分析析与与判判别别分分析析的讲义,我觉得比书上讲得清楚。先是聚类分析一章先是聚类分析一章再是判别分析一章再是判别分析一章聚类分析聚类分析分类分类俗语说,物以类聚、人以群分。俗语说,物以类聚、人以群分。但什么是分类的根据呢?但什么是分类的根据呢?比如,要想把中国的县分成若干类,就有很比如,要想把中国的县分成若干类,就有很多种分类法;多种分类法;可以按照自然条件来分,可以按照自然条件来分,比如考虑降水、土地、日照、湿度等各方面;比如考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基也可以考虑收入、教育水准、医疗条件、基础设施等指标;础设施等指标;既可以用某一项来分类,也可以同时考虑多既可以用某一项来分类,也可以同时考虑多项指标来分类。项指标来分类。聚类分析聚类分析对对于于一一个个数数据据,人人们们既既可可以以对对变变量量(指指标标)进进行行分分类类(相相当当于于对对数数据据中中的的列列分分类类),也也可可以以对对观观测测值值(事事件件,样样品品)来来分分类类(相相当当于于对对数数据据中的行分类)。中的行分类)。比比如如学学生生成成绩绩数数据据就就可可以以对对学学生生按按照照理理科科或或文文科成绩(或者综合考虑各科成绩)分类,科成绩(或者综合考虑各科成绩)分类,当当然然,并并不不一一定定事事先先假假定定有有多多少少类类,完完全全可可以以按照数据本身的规律来分类。按照数据本身的规律来分类。本本章章要要介介绍绍的的分分类类的的方方法法称称为为聚聚类类分分析析(clusteranalysis)。对对变变量量的的聚聚类类称称为为R型型聚聚类类,而而对对观观测测值值聚聚类类称称为为Q型型聚聚类类。这这两两种聚类在数学上是对称的,没有什么不同。种聚类在数学上是对称的,没有什么不同。饮料数据(饮料数据(drink.sav)16种饮料的热量、咖啡因、钠及价格四种变量 如何度量远近如何度量远近?如果想要对100个学生进行分类,如果仅仅知道他们的数学成绩,则只好按照数学成绩来分类;这些成绩在直线上形成100个点。这样就可以把接近的点放到一类。如果还知道他们的物理成绩,这样数学和物理成绩就形成二维平面上的100个点,也可以按照距离远近来分类。三维或者更高维的情况也是类似;只不过三维以上的图形无法直观地画出来而已。在饮料数据中,每种饮料都有四个变量值。这就是四维空间点的问题了。两个距离概念两个距离概念按按照照远远近近程程度度来来聚聚类类需需要要明明确确两两个个概概念念:一一个个是是点点和和点点之间之间的距离,一个是的距离,一个是类和类之间类和类之间的距离。的距离。点点间间距距离离有有很很多多定定义义方方式式。最最简简单单的的是是歐歐氏氏距距离离,还还有有其他的距离。其他的距离。当当然然还还有有一一些些和和距距离离相相反反但但起起同同样样作作用用的的概概念念,比比如如相相似性等,两点越相似度越大,就相当于距离越短。似性等,两点越相似度越大,就相当于距离越短。由由一一个个点点组组成成的的类类是是最最基基本本的的类类;如如果果每每一一类类都都由由一一个个点点组组成成,那那么么点点间间的的距距离离就就是是类类间间距距离离。但但是是如如果果某某一一类包含不止一个点,那么就要确定类间距离,类包含不止一个点,那么就要确定类间距离,类类间间距距离离是是基基于于点点间间距距离离定定义义的的:比比如如两两类类之之间间最最近近点点之之间间的的距距离离可可以以作作为为这这两两类类之之间间的的距距离离,也也可可以以用用两两类类中中最最远远点点之之间间的的距距离离作作为为这这两两类类之之间间的的距距离离;当当然然也也可可以以用用各各类类的的中中心心之之间间的的距距离离来来作作为为类类间间距距离离。在在计计算算时时,各各种种点点间间距距离离和和类类间间距距离离的的选选择择是是通通过过统统计计软软件件的的选选项项实现的。不同的选择的结果会不同,但一般不会差太多。实现的。不同的选择的结果会不同,但一般不会差太多。向量向量x=(x1,xp)与与y=(y1,yp)之间的距离或相似系数之间的距离或相似系数:欧氏距离欧氏距离:Euclidean平方欧氏距离平方欧氏距离:Squared Euclidean夹角余弦夹角余弦(相似系数相似系数1):cosinePearson correlation(相似系数相似系数2):Chebychev:Maxi|xi-yi|Block(绝对距离绝对距离):S Si|xi-yi|Minkowski:当变量的测量值相差悬殊时当变量的测量值相差悬殊时,要先进行要先进行标准化标准化.如如R为极差为极差,s 为标准差为标准差,则标则标准化的数据为每个观测值减去均值后准化的数据为每个观测值减去均值后再除以再除以R或或s.当观测值大于当观测值大于0时时,有人有人采用采用Lance和和Williams的距离的距离类类Gp与类与类Gq之间的距离之间的距离Dpq(d(xi,xj)表示点表示点xiGp和和xjGq之间的距离之间的距离)最短距离法最短距离法:最长距离法最长距离法:重心法重心法:离差平方和离差平方和:(Wald)类平均法类平均法:(中间距离中间距离,可变平均法可变平均法,可变法等可参考各可变法等可参考各书书).在用欧氏距离时在用欧氏距离时,有统一的递推公式有统一的递推公式(假设假设Gr是从是从Gp和和Gq合并而来合并而来):Lance和和Williams给出给出(对欧氏距离对欧氏距离)统一统一递推递推公式公式:D2(k,r)=a apD2(k,p)+a aqD2(k,q)+b bD2(p,q)+g g|D2(k,p)-D2(k,q)|前面方法的递推公式可选择参数而得前面方法的递推公式可选择参数而得:方法方法a ai(i=p,q)b b g g最短距离最短距离 0-1/2最长距离最长距离 01/2重心重心 ni/nr -a apa aq 0类平均类平均 ni/nr 0 0 离差平方和离差平方和(ni+nk)/(nr+nk)-nk/(nr+nk)0 中间距离中间距离 1/2 -1/4 0 可变法可变法 (1-b b)/2 b b(1)0 可变平均可变平均 (1-b b)ni/nr b b(1)0 有了上面的点间距离和类间有了上面的点间距离和类间距离的概念,就可以介绍聚距离的概念,就可以介绍聚类的方法了。这里介绍两个类的方法了。这里介绍两个简单的方法。简单的方法。事先要确定分多少类:事先要确定分多少类:k-均值聚类均值聚类前前面面说说过过,聚聚类类可可以以走走着着瞧瞧,不不一一定定事事先先确确定定有有多多少少类类;但但是是这这里里的的k-均均值值聚聚类类(k-meanscluster,也也叫叫快快速速聚聚类类,quickcluster)却却要要求求你你先先说说好好要要分分多多少少类类。看看起起来来有些主观,是吧!有些主观,是吧!假假定定你你说说分分3类类,这这个个方方法法还还进进一一步步要要求求你你事事先先确确定定3个个点点为为“聚聚类类种种子子”(SPSS软软件件自自动动为为你你选选种种子子);也也就就是是说说,把这把这3个点作为三类中每一类的基石。个点作为三类中每一类的基石。然然后后,根根据据和和这这三三个个点点的的距距离离远远近近,把把所所有有点点分分成成三三类类。再再把把这这三三类类的的中中心心(均均值值)作作为为新新的的基基石石或或种种子子(原原来来的的“种子种子”就没用了),重新按照距离分类。就没用了),重新按照距离分类。如如此此叠叠代代下下去去,直直到到达达到到停停止止叠叠代代的的要要求求(比比如如,各各类类最最后后变变化化不不大大了了,或或者者叠叠代代次次数数太太多多了了)。显显然然,前前面面的的聚聚类类种种子子的的选选择择并并不不必必太太认认真真,它它们们很很可可能能最最后后还还会会分分到到同同一类中呢。下面用饮料例的数据来做一类中呢。下面用饮料例的数据来做k-均值聚类。均值聚类。假定要把这假定要把这1616种饮料分成种饮料分成3 3类。利用类。利用SPSSSPSS,只只叠代了三次就达到目标了(计算机选的种子还叠代了三次就达到目标了(计算机选的种子还可以)。这样就可以得到最后的三类的中心以可以)。这样就可以得到最后的三类的中心以及每类有多少点及每类有多少点 根根据据需需要要,可可以以输输出出哪哪些些点点分分在在一一起起。结结果果是是:第第一一类类为为饮饮料料1、10;第第二二类类为为饮饮料料2、4、8、11、12、13、14;第第三三类类为为剩剩下下的的饮饮料料3、5、6、7、9、15、16。SPSSSPSS实现实现(聚类分析聚类分析)K-均值聚类均值聚类以以数数据据drink.sav为为例例,在在SPSS中中选选择择Analyze Classify K-Menas Cluster,然然后后把把calorie(热热量量)、caffeine(咖咖啡啡因因)、sodium(钠钠)、price(价价格格)选选入入Variables,在在NumberofClusters处处选选择择3(想想要要分分的类数),的类数),如如果果想想要要知知道道哪哪种种饮饮料料分分到到哪哪类类,则则选选Save,再选,再选ClusterMembership等。等。注注意意k-均均值值聚聚类类只只能能做做Q型型聚聚类类,如如要要做做R型聚类,需要把数据阵进行转置。型聚类,需要把数据阵进行转置。事先不用确定分多少类:分层聚类事先不用确定分多少类:分层聚类另另一一种种聚聚类类称称为为分分层层聚聚类类或或系系统统聚聚类类(hierarchicalcluster)。开开始始时时,有多少点就是多少类。有多少点就是多少类。它它第第一一步步先先把把最最近近的的两两类类(点点)合合并并成成一一类类,然然后后再再把把剩剩下下的的最最近近的的两两类类合并成一类;合并成一类;这这样样下下去去,每每次次都都少少一一类类,直直到到最最后后只只有有一一大大类类为为止止。显显然然,越越是是后后来来合合并并的的类类,距距离离就就越越远远。再再对对饮饮料料例例子子来实施分层聚类。来实施分层聚类。对于我们的数据,对于我们的数据,SPSSSPSS输出的树型图为输出的树型图为聚类要注意的问题聚类要注意的问题聚聚类类结结果果主主要要受受所所选选择择的的变变量量影影响响。如如果果去去掉掉一一些些变变量量,或或者者增增加加一一些些变变量量,结结果果会会很很不同。不同。相相比比之之下下,聚聚类类方方法法的的选选择择则则不不那那么么重重要要了了。因此,聚类之前一定要目标明确。因此,聚类之前一定要目标明确。另另外外就就分分成成多多少少类类来来说说,也也要要有有道道理理。只只要要你你高高兴兴,从从分分层层聚聚类类的的计计算算机机结结果果可可以以得得到到任任何何可可能能数数量量的的类类。但但是是,聚聚类类的的目目的的是是要要使使各各类类距距离离尽尽可可能能的的远远,而而类类中中点点的的距距离离尽尽可可能能的的近近,而而且且分分类类结结果果还还要要有有令令人人信信服服的的解释。这一点就不是数学可以解决的了。解释。这一点就不是数学可以解决的了。SPSSSPSS实现实现(聚类分析聚类分析)分层聚类对 drink.sav数 据 在 SPSS中 选 择 AnalyzeClassifyHierarchical Cluster,然后把calorie(热量)、caffeine(咖啡因)、sodium(钠)、price(价格)选入Variables,在Cluster选Cases(这是Q型聚类:对观测值聚类),如果要对变量聚类(R型聚类)则选Variables,为了画出树状图,选Plots,再点Dendrogram等。啤酒成分和价格数据(啤酒成分和价格数据(data14-02)啤酒名啤酒名热量热量钠含量钠含量酒精酒精价格价格Budweiser 144.00 19.00 4.70.43 Schlitz 181.00 19.00 4.90.43 Ionenbrau 157.00 15.00 4.90.48 Kronensourc 170.00 7.00 5.20.73 Heineken 152.00 11.00 5.00.77 Old-milnaukee145.00 23.00 4.60.26 Aucsberger 175.00 24.00 5.50.40 Strchs-bohemi149.00 27.00 4.70.42 Miller-lite 99.00 10.00 4.30.43 Sudeiser-lich113.00 6.00 3.70.44 Coors 140.00 16.00 4.60.44 Coorslicht 102.00 15.00 4.10.46 Michelos-lich135.00 11.00 4.20.50 Secrs 150.00 19.00 4.70.76 Kkirin 149.00 6.00 5.00.79 Pabst-extra-l 68.00 15.00 2.30.36 Hamms 136.00 19.00 4.40.43 Heilemans-old144.00 24.00 4.90.43 Olympia-gold-72.00 6.00 2.90.46 Schlite-light 97.00 7.00 4.20.47StatisticsClassify Hierarchical Cluster:Variables:啤酒名和成分价格等Cluster(Case,Q型聚类)Display:(Statistics)(Agglomeration Schedule凝聚状态表),(Proximity matrix),Cluster membership(Single solution,4)Method:Cluster(Furthest Neighbor),Measure-Interval(Squared Euclidean distance),Transform Value(Range 0-1/By variable(值-最小值)/极差)Plots:(Dendrogram)Icicle(Specified range of cluster,Start-1,Stop-4,by-1),Orientation(Vertical)Save:Cluster Membership(Single solution 4)啤酒例子啤酒例子下表下表(Proximity matrix)中行列交叉点为中行列交叉点为两种啤酒之间各变量的欧氏距离平方和两种啤酒之间各变量的欧氏距离平方和凝聚过程凝聚过程:Coefficients为不相似系数为不相似系数,由于是欧氏距离由于是欧氏距离,小的先合并小的先合并.分为四分为四类的聚类的聚类结果类结果冰柱图冰柱图(icicle)聚类树型图聚类树型图学生测验数据(学生测验数据(data14-03)50个学生,个学生,X1-X10个测验项目个测验项目要对这要对这10个变量进行变量聚类个变量进行变量聚类(R 型聚类),过程和型聚类),过程和Q型聚型聚类(观测量聚类,对类(观测量聚类,对cases)一样一样StatisticsClassify Hierarchical Cluster:Variables:x1-x10Cluster(Variable,R型聚类)Display:(Statistics)(Proximity matrix),Cluster membership(Single solution,2)Method:Cluster(Furthest Neighbor),Measure-Interval(Pearson correlation,用Pearson相关系数),Plots:Icicle(All Cluster)学生测验例子学生测验例子下表下表(Proximity matrix)中行列交叉点为中行列交叉点为两个变量之间变量的欧氏距离平方和两个变量之间变量的欧氏距离平方和分为两类的聚类结果分为两类的聚类结果冰柱图冰柱图(icicle)判别分析判别判别 有一些昆虫的性别很难看出,只有通过解剖才能够判别;但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统计学家就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并且利用这个标准来判别其他未知性别的昆虫。这样的判别虽然不能保证百分之百准确,但至少大部分判别都是对的,而且用不着杀死昆虫来进行判别了。判别分析判别分析(discriminantanalysis)这就是本章要讲的是判别分析。判别分析和前面的聚类分析有什么不同呢?主要不同点就是,在聚类分析中一般人们事先并不知道或一定要明确应该分成几类,完全根据数据来确定。而在判别分析中,至少有一个已经明确知道类别的“训练样本”,利用这个数据,就可以建立判别准则,并通过预测变量来为未知类别的观测值进行判别了。判别分析例子判别分析例子数据disc.sav:企图用一套打分体系来描绘企业的状况。该体系对每个企业的一些指标(变量)进行评分。这些指标包括:企业规模(is)、服务(se)、雇员工资比例(sa)、利润增长(prr)、市场份额(ms)、市场份额增长(msr)、流动资金比例(cp)、资金周转速度(cs)等等。另外,有一些企业已经被某杂志划分为上升企业、稳定企业和下降企业。我们希望根据这些企业的上述变量的打分和它们已知的类别(三个类别之一:group-1代表上升,group-2代表稳定,group-3代表下降)找出一个分类标准,以对没有被该刊物分类的企业进行分类。该数据有90个企业(90个观测值),其中30个属于上升型,30个属于稳定型,30个属于下降型。这个数据就是一个“训练样本”。Disc.savDisc.sav数据数据 根据距离的判别(不用投影)根据距离的判别(不用投影)Disc.sav数据有8个用来建立判别标准(或判别函数)的(预测)变量,另一个(group)是类别。因此每一个企业的打分在这8个变量所构成的8维空间中是一个点。这个数据有90个点,由于已经知道所有点的类别了,所以可以求得每个类型的中心。这样只要定义了如何计算距离,就可以得到任何给定的点(企业)到这三个中心的三个距离。显然,最简单的办法就是离哪个中心距离最近,就属于哪一类。通常使用的距离是所谓的Mahalanobis距离。用来比较到各个中心距离的数学函数称为判别函数(discriminant function).这种根据远近判别的方法,原理简单,直观易懂。FisherFisher判别法判别法(先进行投影先进行投影)所谓所谓Fisher判别法,就是一种先投影的方法。判别法,就是一种先投影的方法。考虑只有两个(预测)变量的判别分析问题。考虑只有两个(预测)变量的判别分析问题。假假定定这这里里只只有有两两类类。数数据据中中的的每每个个观观测测值值是是二二维维空空间间的的一个点。见图(下一张幻灯片)。一个点。见图(下一张幻灯片)。这这里里只只有有两两种种已已知知类类型型的的训训练练样样本本。其其中中一一类类有有38个个点点(用用“o”表表示示),另另一一类类有有44个个点点(用用“*”表表示示)。按按照照原原来来的的变变量量(横横坐坐标标和和纵纵坐坐标标),很很难难将将这这两两种种点分开。点分开。于于是是就就寻寻找找一一个个方方向向,也也就就是是图图上上的的虚虚线线方方向向,沿沿着着这这个个方方向向朝朝和和这这个个虚虚线线垂垂直直的的一一条条直直线线进进行行投投影影会会使使得得这这两两类类分分得得最最清清楚楚。可可以以看看出出,如如果果向向其其他他方方向向投投影影,判判别效果不会比这个好。别效果不会比这个好。有有了了投投影影之之后后,再再用用前前面面讲讲到到的的距距离离远远近近的的方方法法来来得得到到判判别别准准则则。这这种种首首先先进进行行投投影影的的判判别别方方法法就就是是Fisher判别法。判别法。逐步判别法逐步判别法(仅仅是在前面的方仅仅是在前面的方法中加入变量选择的功能法中加入变量选择的功能)有时,一些变量对于判别并没有什么作用,为了得到对判别最合适的变量,可以使用逐步判别。也就是,一边判别,一边引进判别能力最强的变量,这个过程可以有进有出。一个变量的判别能力的判断方法有很多种,主要利用各种检验,例如Wilks Lambda、Raos V、The Squared Mahalanobis Distance、Smallest F ratio或 The Sum of Unexplained Variations等检验。其细节这里就不赘述了;这些不同方法可由统计软件的各种选项来实现。逐步判别的其他方面和前面的无异。Disc.sav例子例子利用SPSS软件的逐步判别法淘汰了不显著的流动资金比例(cp),还剩下七个变量is,se,sa,prr,ms,msr,cs,得 到 两 个 典 则 判 别 函 数(Canonical Discriminant Function Coefficients):n0.0350.035n 这这两两个个函函数数实实际际上上是是由由Fisher判判别别法法得得到到的的向向两两个个方方向向的的投投影影。这这两两个个典典则则判判别别函函数数的的系系数数是下面的是下面的SPSS输出得到的:输出得到的:Disc.sav例子例子根据这两个函数,从任何一个观测值(每个观测值都有7个变量值)都可以算出两个数。把这两个数目当成该观测值的坐标,这样数据中的150个观测值就是二维平面上的150个点。它们的点图在下面图中。Disc.sav例子例子从上图可以看出,第一个投影(相应于来自于第一个典则判别函数横坐标值)已经能够很好地分辨出三个企业类型了。这两个典则判别函数并不是平等的。其实一个函数就已经能够把这三类分清楚了。SPSS的一个输出就给出了这些判别函数(投影)的重要程度:前前面面说说过过,投投影影的的重重要要性性是是和和特特征征值值的的贡贡献献率率有有关关。该该表表说说明明第第一一个个函函数数的的贡贡献献率率已已经经是是99%了了,而而第第二二个个只只有有1%。当当然然,二二维维图图要要容容易易看看一一些些。投投影影之之后后,再再根根据据各各点的位置远近算出具体的判别公式(点的位置远近算出具体的判别公式(SPSS输出):输出):Disc.sav例子例子具体的判别公式(SPSS输出),由一张分类函数表给出:该该表表给给出出了了三三个个线线性性分分类类函函数数的的系系数数。把把每每个个观观测测点点带带入入三三个个函函数数,就就可可以以得得到到分分别别代代表表三三类类的的三三个个值值,哪哪个个值值最最大大,该该点