《统计学聚类分析幻灯片.ppt》由会员分享,可在线阅读,更多相关《统计学聚类分析幻灯片.ppt(33页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、统计学聚类分析第1页,共33页,编辑于2022年,星期二第十一章聚类分析聚类分析 第2页,共33页,编辑于2022年,星期二分类分类l物以类聚、人以群分;物以类聚、人以群分;l但根据什么分类呢?但根据什么分类呢?l如要想把中国的县分类,就有多种方法如要想把中国的县分类,就有多种方法l可以按照自然条件来分,比如考虑降水、土可以按照自然条件来分,比如考虑降水、土地、日照、湿度等,地、日照、湿度等,l也可考虑收入、教育水准、医疗条件、基础也可考虑收入、教育水准、医疗条件、基础设施等指标;设施等指标;l既可以用某一项来分类,也可以同时考虑多既可以用某一项来分类,也可以同时考虑多项指标来分类。项指标来分
2、类。第3页,共33页,编辑于2022年,星期二聚类分析聚类分析l对对一一个个数数据据,既既可可以以对对变变量量(指指标标)进进行行分分类类(相相当当于于对对数数据据中中的的列列分分类类),也也可可以以对对观观测测值值(事事件件,样样品品)来来分分类类(相相当当于于对对数数据据中的行分类中的行分类)。l当当然然,不不一一定定事事先先假假定定有有多多少少类类,完完全全可可以按照数据本身的规律来分类。以按照数据本身的规律来分类。l本本章章要要介介绍绍的的分分类类的的方方法法称称为为聚聚类类分分析析(clusteranalysis)。对对变变量量的的聚聚类类称称为为R型型聚聚类类,而而对对观观测测值值
3、聚聚类类称称为为Q型型聚聚类类。它们在数学上是无区别的。它们在数学上是无区别的。第4页,共33页,编辑于2022年,星期二饮料数据(饮料数据(drink.txt)l16种饮料的热量、咖啡因、钠及价格四种变量种饮料的热量、咖啡因、钠及价格四种变量第5页,共33页,编辑于2022年,星期二11.1如何度量距离远近如何度量距离远近?l如如果果想想要要对对100个个学学生生进进行行分分类类,而而仅仅知知道道他他们们的的数数学学成成绩绩,则则只只好好按按照照数数学学成成绩绩分分类类;这这些些成成绩绩在在直直线线上上形形成成100个个点点。这这样样就就可可以以把把接接近近的的点点放放到到一类。一类。l如如
4、果果还还知知道道他他们们的的物物理理成成绩绩,这这样样数数学学和和物物理理成成绩绩就就形形成成二二维维平平面面上上的的100个点,也可以按照距离远近来分类。个点,也可以按照距离远近来分类。第6页,共33页,编辑于2022年,星期二11.1如何度量距离远近如何度量距离远近?l三三维维或或者者更更高高维维的的情情况况也也是是类类似似;只只不不过过三三维维以以上上的的图图形形无无法法直直观观地地画画出出来而已。来而已。l在在饮饮料料数数据据中中,每每种种饮饮料料都都有有四四个个变变量量值值。这这就就是是四四维维空空间间点点的的问问题题了。了。第7页,共33页,编辑于2022年,星期二两个距离概念两个
5、距离概念l按按照照远远近近程程度度来来聚聚类类需需要要明明确确两两个个概概念念:一一个个是是点点和和点点之之间间的的距距离离,一个是一个是类和类之间类和类之间的距离。的距离。l点点间间距距离离有有很很多多定定义义方方式式。最最简简单单的的是歐氏距离。是歐氏距离。l当当然然还还有有一一些些和和距距离离相相反反但但起起同同样样作作用用的的概概念念,比比如如相相似似性性等等,两两点点越越相相似度越大,就相当于距离越短。似度越大,就相当于距离越短。第8页,共33页,编辑于2022年,星期二两个距离概念两个距离概念l由由一一个个点点组组成成的的类类是是最最基基本本的的类类;如如果果每每一一类类都都由由一
6、一个个点点组组成成,那那么么点点间间的的距距离离就就是是类类间间距距离离。但但是是如如果果某某一一类类包包含含不止一个点,那么就要确定类间距离,不止一个点,那么就要确定类间距离,l类类间间距距离离是是基基于于点点间间距距离离定定义义的的:比比如如两两类类之之间间最最近近点点之之间间的的距距离离可可以以作作为为这这两两类类之之间间的的距距离离,也也可可以以用用两两类类中中最最远远点点之之间间的的距距离离或或各各类类的的中中心心之之间间的的距距离离来来作作为为类类间距离。间距离。第9页,共33页,编辑于2022年,星期二两个距离概念两个距离概念l在在计计算算时时,各各种种点点间间距距离离和和类类间
7、间距距离离的的选选择择是是通通过过统统计计软软件件的的选选项项实实现现的的。不不同同的的选选择择的的结结果果会会不不同同,但但一一般般不会差太多。不会差太多。第10页,共33页,编辑于2022年,星期二向量向量x=(x1,xp)与与y=(y1,yp)之间的距离或相似系数之间的距离或相似系数:欧氏距离欧氏距离:Euclidean平方欧氏距离平方欧氏距离:Squared Euclidean夹角余弦夹角余弦(相似系数相似系数1):cosinePearson correlation(相似系数相似系数2):Chebychev:Maxi|xi-yi|Block(绝对距离绝对距离):S Si|xi-yi|M
8、inkowski:当变量的测量值相差悬殊时当变量的测量值相差悬殊时,要先进行标准化要先进行标准化.如如R为极差为极差,s 为标为标准差准差,则标准化的数据为每个观测值减去均值后再除以则标准化的数据为每个观测值减去均值后再除以R或或s.当观测值大于当观测值大于0时时,有人采用有人采用Lance和和Williams的距离的距离第11页,共33页,编辑于2022年,星期二类类Gp与类与类Gq之间的距离之间的距离Dpq(d(xi,xj)表示点表示点xi Gp和和xj Gq之间的距离之间的距离)最短距离法最短距离法:最长距离法最长距离法:重心法重心法:离差平方和离差平方和:(Wald)类平均法类平均法:
9、(中间距离中间距离,可变平均法可变平均法,可变法等可参考各书可变法等可参考各书).在用欧氏距离时在用欧氏距离时,有统一的递推公式有统一的递推公式第12页,共33页,编辑于2022年,星期二最短距离(Nearest Neighbor)x21x12x22x11第13页,共33页,编辑于2022年,星期二最长距离(Furthest Neighbor)x11x21第14页,共33页,编辑于2022年,星期二组间平均连接(Between-group Linkage)第15页,共33页,编辑于2022年,星期二 组内平均连接法(Within-group Linkage)x21x12x22x11第16页,共
10、33页,编辑于2022年,星期二重心法(Centroid clustering):均值点的距离第17页,共33页,编辑于2022年,星期二离差平方和法连接2,41,56,5第18页,共33页,编辑于2022年,星期二红绿(2,4,6,5)8.75 离差平方和增加8.752.56.25 黄绿(6,5,1,5)14.75离差平方和增加14.758.56.25黄红(2,4,1,5)10100故按该方法的连接和黄红首先连接。第19页,共33页,编辑于2022年,星期二有了上面的点间距离和类间有了上面的点间距离和类间距离的概念,就可以介绍聚距离的概念,就可以介绍聚类的方法了。这里介绍两个类的方法了。这里
11、介绍两个简单的方法。简单的方法。第20页,共33页,编辑于2022年,星期二11.2事先要确定分多少类:事先要确定分多少类:k-均值聚类均值聚类l前前面面说说过过,聚聚类类可可以以走走着着瞧瞧,不不一一定定事事先先确确定定有有多多少少类类;但但是是这这里里的的k-均均值值聚聚类类(k-meanscluster,也也叫叫快快速速聚聚类类,quickcluster)却却要要求求你你先先说说好好要要分分多多少类。看起来有些主观,是吧!少类。看起来有些主观,是吧!l假假定定你你说说分分3类类,这这个个方方法法还还进进一一步步要要求求你你事事先先确确定定3个个点点为为“聚聚类类种种子子”(SPSS软软件
12、件自自动动为为你你选选种种子子);也也就就是是说说,把把这这3个点作为三类中每一类的基石。个点作为三类中每一类的基石。第21页,共33页,编辑于2022年,星期二11.2事先要确定分多少类:事先要确定分多少类:k-均值聚类均值聚类l然然后后,根根据据和和这这三三个个点点的的距距离离远远近近,把把所所有有点点分分成成三三类类。再再把把这这三三类类的的中中心心(均均值值)作作为为新新的的基基石石或或种种子子(原原来来“种种子子”就就没用了没用了),再重新按照距离分类。,再重新按照距离分类。l如如此此叠叠代代下下去去,直直到到达达到到停停止止叠叠代代的的要要求求(比比如如,各各类类最最后后变变化化不
13、不大大了了,或或者者叠叠代代次次数数太太多多了了)。显显然然,前前面面的的聚聚类类种种子子的的选选择择并并不不必必太太认认真真,它它们们很很可可能能最最后后还还会会分分到到同同一一类类中中呢呢。下下面面用用饮饮料料例的数据来做例的数据来做k-均值聚类。均值聚类。第22页,共33页,编辑于2022年,星期二l假定要把这假定要把这1616种饮料分成种饮料分成3 3类。利用类。利用SPSSSPSS,只叠代了,只叠代了三次就达到目标了(计算机选的种子还可以)。三次就达到目标了(计算机选的种子还可以)。这样就可以得到最后的三类的中心以及每类有多这样就可以得到最后的三类的中心以及每类有多少点少点 第23页
14、,共33页,编辑于2022年,星期二根根据据需需要要,可可以以输输出出哪哪些些点点分分在在一一起起。结结果果是是:第第一一类类为为饮饮料料1、10;第第二二类类为为饮饮料料2、4、8、11、12、13、14;第第三三类类为为剩剩下下的的饮料饮料3、5、6、7、9、15、16。第24页,共33页,编辑于2022年,星期二SPSSSPSS实现实现(聚类分析聚类分析)lK-均值聚类均值聚类l以以 数数 据据drink.sav为为 例例,在在SPSS中中 选选 择择AnalyzeClassifyK-MenasCluster,l然然后后把把calorie(热热量量)、caffeine(咖咖啡啡因因)、s
15、odium(钠钠)、price(价价 格格)选选 入入Variables,l在在NumberofClusters处处选选择择3(想想要要分分的的类类数),数),l如如果果想想要要知知道道哪哪种种饮饮料料分分到到哪哪类类,则则选选Save,再选再选ClusterMembership等。等。l注注意意k-均均值值聚聚类类只只能能做做Q型型聚聚类类,如如要要做做R型型聚聚类,需要把数据阵进行转置。类,需要把数据阵进行转置。第25页,共33页,编辑于2022年,星期二11.2事先不用确定分多少类:分层聚类事先不用确定分多少类:分层聚类l另另一一种种聚聚类类称称为为分分层层聚聚类类或或系系统统聚聚类类(
16、hierarchicalcluster)。开开始始时时,有有多少点就是多少类。多少点就是多少类。l它它第第一一步步先先把把最最近近的的两两类类(点点)合合并并成成一一类类,然然后后再再把把剩剩下下的的最最近近的的两两类类合合并并成成一一类;类;l这这样样下下去去,每每次次都都少少一一类类,直直到到最最后后只只有有一一大大类类为为止止。越越是是后后来来合合并并的的类类,距距离就越远。离就越远。第26页,共33页,编辑于2022年,星期二l对于对于饮料聚类。饮料聚类。SPSSSPSS输出为输出为第27页,共33页,编辑于2022年,星期二第28页,共33页,编辑于2022年,星期二“冰柱图冰柱图”
17、(icicle)第29页,共33页,编辑于2022年,星期二例例:5个样品距离阵个样品距离阵令令Dk为系统聚类法种第为系统聚类法种第k次合并时的距离次合并时的距离,如如Dk为单调的为单调的,则称具有单调性则称具有单调性.前面只有前面只有重心和中间距离法不具有单调性重心和中间距离法不具有单调性.步骤步骤:最短距离法最短距离法 最长距离法最长距离法阶段阶段bk(第第k阶段类的集合阶段类的集合)DkDkD(0)(1)(2)(3)(4)(5)00D(1)(1,3)(2)(4)(5)11D(2)(1,3)(2,4)(5)33D(3)(1,3)(2,4,5)45D(4)(1,3,2,4,5)69注注:最短
18、和最长距离法结果一样最短和最长距离法结果一样(一般不一定一样一般不一定一样)第30页,共33页,编辑于2022年,星期二聚类要注意的问题聚类要注意的问题l聚聚类类结结果果主主要要受受所所选选择择的的变变量量影影响响。如如果果去去掉掉一一些些变变量量,或或者者增增加加一一些些变变量,结果会很不同。量,结果会很不同。l相相比比之之下下,聚聚类类方方法法的的选选择择则则不不那那么么重重要要了了。因因此此,聚聚类类之之前前一一定定要要目目标标明确。明确。第31页,共33页,编辑于2022年,星期二聚类要注意的问题聚类要注意的问题l另另外外就就分分成成多多少少类类来来说说,也也要要有有道道理理。只只要要
19、你你高高兴兴,从从分分层层聚聚类类的的计计算算机机结结果可以得到任何可能数量的类。果可以得到任何可能数量的类。l但但是是,聚聚类类的的目目的的是是要要使使各各类类之之间间的的距距离离尽尽可可能能地地远远,而而类类中中点点的的距距离离尽尽可可能能的的近近,并并且且分分类类结结果果还还要要有有令令人人信信服服的的解解释释。这这一一点点就就不不是是数数学学可可以以解决的了。解决的了。第32页,共33页,编辑于2022年,星期二SPSSSPSS实现实现(聚类分析聚类分析)l分层聚类分层聚类l对对drink.sav数数据据在在SPSS中中选选择择AnalyzeClassifyHierarchicalCluster,l然然后后把把calorie(热热量量)、caffeine(咖咖啡啡因因)、sodium(钠钠)、price(价价 格格)选选 入入Variables,l在在Cluster选选Cases(这这是是Q型型聚聚类类:对对观观测测值值聚聚类类),如如果果要要对对变变量量聚聚类类(R型型聚聚类类)则则选选Variables,l为为 了了 画画 出出 树树 状状 图图,选选Plots,再再 点点Dendrogram等。等。第33页,共33页,编辑于2022年,星期二
限制150内