书签分享收藏举报版权申诉 / 113

立即下载

当前位置：首页 > 生活休闲 > 资格考试 > 第六讲聚类分析精选PPT.ppt

第六讲聚类分析精选PPT.ppt

上传人：石***

文档编号：88373986

上传时间：2023-04-25

格式：PPT

页数：113

大小：4.79MB

( 4.5 )

《第六讲聚类分析精选PPT.ppt》由会员分享，可在线阅读，更多相关《第六讲聚类分析精选PPT.ppt（113页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、第六讲聚类分析第1页，此课件共113页哦n俗话说“物以类聚，人以群分”。就是聚类分析的道理。n市场营销中市场细分和客户细分问题n学校里有些同学经常会在一起，关系密切；有些同学很少往来，关系疏远。第一节第一节什么是聚类分析什么是聚类分析第2页，此课件共113页哦例例对10位应聘者做智能检验。3项指标X，Y和Z分别表示数学推理能力，空间想象能力和语言理解能力。其得分如下，选择合适的统计方法对应聘者进行归类。应聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424例子例子第3页，此课件共113页哦

2、聚类分析数据格式聚类分析数据格式k第4页，此课件共113页哦第5页，此课件共113页哦例题分析n我们直观地来看，这个归类是否合理？计算4号和6号得分的离差平方和：(21-20)2+(23-23)2+(22-22)2=1 计算1号和2号得分的离差平方和：(28-18)2+(29-23)2+(28-18)2=236n计算1号和3号得分的离差平方和为482，由此可见一般，归类可能是合理的，欧氏距离很大的应聘者没有被聚在一起。n由此，我们的问题是如何来选择样品间相似的测度指标，如何将有相似性的类连接起来？第6页，此课件共113页哦n基本思想基本思想：根据事物本身的特性研究个体分类的方法；即在没有先验知

3、识的情况下进行的。多元统计分析方法就是对样品或指标进行量化分类的问题，它们讨论的对象是大量的样品，要求能合理地按各自的特性来进行合理的分类，没有任何模式可供参考或依循。n聚类原则聚类原则：同一类中的个体有较大的相似性，不同类中的个体差异很大。n常见方法常见方法：Q型聚类法、R型聚类法、灰色聚类法和模糊聚类法等。聚类分析基本思想及原则聚类分析基本思想及原则第7页，此课件共113页哦聚类的程序n基本程序基本程序：根据一批样品的多个观测指标，具体地找出一些能够度量样品或指标之间相似程度的统计量统计量，然后利用统计量将样品或指标进行归类。如对上市公司的经营业绩进行聚类；又如对企业的经济效益进行评价n由

4、此可知，聚类分析（Cluster Analysis)也是一种分类技术。与多元分析的其他方法相比，该方法较为粗糙，理论上还不完善，但应用方面取得了很大成功。与多元假设检验、回归分析等一起被称为多元分析的三大方法。n聚类分析的步骤：根据已知数据，计算各观察个体或变量之间亲疏关系的统计量。根据某种准则，使同一类内的差别较小，而类与类之间的差别较大，最终将观察个体或变量分为若干类。第8页，此课件共113页哦思考：样品点间、样品点和小类之间、小思考：样品点间、样品点和小类之间、小类与小类之间按什么刻画亲疏关系类与小类之间按什么刻画亲疏关系第9页，此课件共113页哦第二节第二节 “亲疏程度亲疏程度”度量

5、度量一、变量测量尺度的类型一、变量测量尺度的类型二、亲疏程度的测度二、亲疏程度的测度三、样品与小类、小类与小类三、样品与小类、小类与小类之间之间“亲疏程度亲疏程度”的度量方法的度量方法四、聚类分析的几点说明四、聚类分析的几点说明第10页，此课件共113页哦n(1)(1)间隔尺度间隔尺度(Scale)：用数量来表示，其数值由测量（连续）或计数（离散）、统计得到。n(2)(2)顺序尺度顺序尺度(Ordinal)：没有明确的数量表示，只有次序关系，或虽用数量表示，但相邻两数值之间的差距并不相等，它只表示一个有序状态序列。如评价酒的味道，分成好、中、次三等，三等有次序关系，但没有数量表示。n（3)3

6、)名义尺度名义尺度(Nominal)：既没有数量表示也没有次序关系，只有一些特性状态。如眼睛的颜色，化学中催化剂的种类等。一、变量测量尺度的类型一、变量测量尺度的类型第11页，此课件共113页哦二、亲疏程度的测度二、亲疏程度的测度n亲疏程度：包含个体间的相似程度和个体间的差异程度n亲疏程度测定方法：距离：样品间的聚类，Q型聚类分析。相似系数：变量间的聚类，R型聚类分析。第12页，此课件共113页哦 1 1、定义、定义距离距离的准则的准则距离满足条件：（一）距离（一）距离第13页，此课件共113页哦2 2、常用距离的算法、常用距离的算法（数值型变量）（数值型变量）设和是第i和 j 个样品的观

7、测值，则二者之间的距离为：特别：欧氏距离Euclidean distance(1)(1)闵可夫斯基距离（闵可夫斯基距离（Minkowski)绝对距离(block)第14页，此课件共113页哦闵可夫斯基距离缺点闵可夫斯基距离缺点与指标量纲有关未考虑总体变异对“距离”远近的影响。第15页，此课件共113页哦(2)马氏距离（广义欧氏距离）n是印度著名统计学家马哈拉诺比斯是印度著名统计学家马哈拉诺比斯(PCMahalanobis)所定义所定义的一种距离。的一种距离。特点：特点：n考虑了观测变量之间的相关性考虑了观测变量之间的相关性。如果各变量间相互独立，即观测变量的协方差矩阵是对角矩阵，则马氏距离就退

8、化为用各个观测指标的标准差的倒数作为权数进行加权的欧氏距离。n考虑到了各个观测指标取值的差异程度考虑到了各个观测指标取值的差异程度，不再受各指标量纲的影响。将原始数据做线性变换后，马氏距离不变。n为了对马氏距离和欧氏距离进行一下比较，以便更清楚地看清二者的区别和联系，现考虑一个例子。第16页，此课件共113页哦例如，假设有一个二维正态总体，它的分布为：马氏距离的缺点马氏距离的缺点：样品协方差矩阵不变不合理。第17页，此课件共113页哦切比雪夫距离：(Chebychev)兰氏距离：兰氏距离：适合于一切变量值大于零的情况。该距离与变量单位无关，对大的异常值不敏感，适用于较大变异的数据，但未考虑变量

9、相关性问题。斜交空间距离可考虑变量间相关性问题第18页，此课件共113页哦000 样品点间的距离表样品点间的距离表第19页，此课件共113页哦3 3、距离选择的原则距离选择的原则n一般来说，同一批数据采用不同的距离公式，会得到不同的分类结果。产生不同结果的原因，主要是由于不同的距离公式侧重点和实际意义都不相同。因此我们在聚类分析时，应注意距离公式的选择。在选择距离公式时应注意以下原则：n应考虑变量类型应考虑变量类型（不同类型变量计算距离的方法不同）n所选择的亲疏测度指标在实际应用中应有所选择的亲疏测度指标在实际应用中应有明确的意义明确的意义。（欧几里得距离具有明确的空间距离的概念，马氏距离有消

10、除量纲影响的作用）n要综合考虑对要综合考虑对样本观测数据的预处理和将要采用的聚类分析方样本观测数据的预处理和将要采用的聚类分析方法法。（如在进行聚类分析之前已经对变量作了标准化处理，则通常采用欧几里得距离）n适当地考虑适当地考虑研究对象的特点和计算工作量的大小研究对象的特点和计算工作量的大小。（在实际中，聚类分析前不妨试探性地多选择几个距离公式分别进行聚类，然后对聚类分析的结果进行对比分析，以确定最合适的距离测度方法。）第20页，此课件共113页哦（二）相似系数（二）相似系数n夹角余弦时从向量集合的角度所定义的一种测度变量之间亲疏程度的相似系数。设在n维空间的向量1、夹角余弦、夹角余弦 2 2

11、、相关系数、相关系数有：有：第21页，此课件共113页哦例如夹角余弦夹角余弦相关系数相关系数第22页，此课件共113页哦三、个体与小类、小类与小类间三、个体与小类、小类与小类间 “亲疏程度亲疏程度”的度量方法的度量方法1、最短距离（Nearest Neighbor)x21x12x112、最长距离（Furthest Neighbor）x11x21第23页，此课件共113页哦3、组间平均连接（Between-group Linkage）4、组内平均连接法（Within-group Linkage)每一步均考虑了小类内部相似性的变化克服了最远、最近距离中距离受极端值影响的特点第24页，此课件共1

12、13页哦5、重心距离（Centroid clustering)该方法充分利用了所涉及的距离信息，同时将小类的样本数也考虑进来了第25页，此课件共113页哦n是Ward提出的。其原则是：聚类过程中使小类内离差平方和增加最小的两小类首先合并为一类。n步骤：首先各个体自成一类，然后逐步凝聚成小类。随着小类的不断凝聚，类内离差平方和必然不断增大。应选择使类内离差平方和增加最小的两类凝聚，直到所有个体合并成一类为止。6、离差平方和法连接(Wards method)例如：例如：第26页，此课件共113页哦例：5商厦个体间欧氏距离CASEEuclidean distanceABCDEABCDE0.0008.

13、06217.80426.90730.4148.0620.00025.45634.65538.21017.80425.4560.0009.22012.80626.90734.6559.2200.0003.60630.41438.21012.8063.6060.000第27页，此课件共113页哦例题分析nD、E首先聚成一类，A、B、C与该小类n最近邻距离依次为26.907、34.655、9.22n最远距离30.414、38.210、12.806n组间平均连接距离（26.907+30.414）/2、（34.655+38.210）/2、（9.22+12.806）/2n组内平均连接距离（26.907+3

14、0.414+3.606）/3、（34.655+38.210+3.606）/3、（9.22+12.806+3.606）/3n重心法：第28页，此课件共113页哦四、聚类分析的几点说明四、聚类分析的几点说明（1 1）1 1、选择变量、选择变量（1）根据聚类分析的目的选择聚类变量（聚类是在选变量的基础上对样本数据进行的，分类结果是各变量综合计算的结果）（2）各变量的变量值不应有数量级上的差异（数量级对距离有较大影响，将影响最终聚类结果）（3）变量之间不能高度相关（如变量间有较强的线性相关关系，那么计算距离时同类变量将重复“贡献”，将在距离中有较高的权重，因而使最终的聚类结果偏向该类变量）2 2、

15、计算相似性指标。、计算相似性指标。第29页，此课件共113页哦3 3、聚类、聚类（1）选择聚类的方法（2）确定形成的类数根据分类问题本身的专业知识结合实际需要来选择；用多种分类方法去作，把其中的共性取出来，反映了事物的本质，将有争议的样品暂放在一边；观察样品散点图，从直觉上来判断所采用的聚类方法是否合理。4 4、聚类结果的解释和证实、聚类结果的解释和证实对聚类结果进行解释是希望对各个类的特征进行准确的描述，给每类起一个合适的名称。这一步可以借助各种描述性统计量进行分析，通常的做法是计算各类在各聚类变量上的均值，对均值进行比较，还可以解释各类别的原因。四、聚类分析的几点说明四、聚类分析的

16、几点说明（2）第30页，此课件共113页哦第三节第三节系统聚类法系统聚类法一、含义：一、含义：又叫层次聚类。聚类过程是又叫层次聚类。聚类过程是按一定层次进行的，有按一定层次进行的，有Q Q型聚类和型聚类和R R型型聚类。聚类。二、聚类步骤二、聚类步骤三、常用的聚类方法三、常用的聚类方法四、系统聚类法的性质四、系统聚类法的性质第31页，此课件共113页哦二、步骤：n1、对数据进行变换处理，消除量纲；n2、构造n个类，每个类只包含一个样品；n3、n个样品两两间的距离dij；n4、合并距离最近的两类为一新类；n5、计算新类与当前各类的距离，重复（4）、（5），直到所有的类合并为一类；n6、画聚类图

17、；n7、决定类的个数和类。第32页，此课件共113页哦 1、根据样品的特征，规定样品之间的距离，共有个。将所有距离列表，记为D D（0）表。2、选择D D（0）表中最小的非零数，不妨假设，于是将和合并为一类，记为。第33页，此课件共113页哦3、分别删除D（0）表的第p行和第q列，并新增一行和一列，利用递推公式计算新类与其它类之间的距离。产生D（1）表。4、在D（1）表再选择最小的非零数，其对应的两类又构成新类，分别删除D（1）表的相应的行和列，并新增一行和一列，再利用递推公式计算新类与其它类之间的距离。结果，产生D（2）表。类推直至所有的样本点归为一类为止。第34页，此课件共11

18、3页哦例题：下表给出了某地区九个农业区的七项指标表表某地区九个农业区的七项经济指标数据某地区九个农业区的七项经济指标数据区代号人均耕地x1（hm2/人）劳均耕地x2（hm2/个）水田比重x3（%）复种指数x4（%）粮食亩产x5（kg/hm2）人均粮食x6（kg/人）稻谷占粮食比重x7（%）G10.2941.0935.63113.64510.51036.412.2G20.3150.9710.3995.12773.5683.70.85G30.1230.3165.28148.56934.5611.16.49G40.1790.5270.391114458632.60.92G50.0810.2127

19、2.04217.812249791.180.38G60.0820.21143.78179.68973636.548.17G70.0750.18165.15194.710689634.380.17G80.2930.6665.3594.93679.5771.77.8G90.1670.4142.994.84231.5574.61.17第35页，此课件共113页哦表表极差标准化处理后的数据极差标准化处理后的数据x1x2x3x4X5X6X7G10.911.000.070.150.181.000.14G21.000.870.000.000.000.240.00G30.200.150.070.440.4

20、40.080.07G40.440.380.000.130.180.130.00G50.030.031.001.001.000.451.00G60.030.030.610.690.650.130.59G70.000.000.900.810.840.131.00G80.910.530.070.000.100.430.09G90.380.260.040.000.150.000.00它们经过极差标准化处理后，如下表所示。第36页，此课件共113页哦根据上述数据，计算可得九个农业区之间的绝对值距离矩阵如下第37页，此课件共113页哦在距离矩阵D中，除对角线元素外，d49=d94=0.51为最小者，故

21、将第4区与第9区并为一类，划去第9行和第4列；在余下的元素中，除对角线元素外，d75=d57=0.83为最小者，故将第5区与第7区并为一类，划掉第7行和第5列；在第二步之后余下的元素之中，除对角线元素外，d82=d28=0.88为最小者，故将第2区与第8区并为一类，划去对应的行和列；在第三步之后余下的元素中，除对角线元素外，d43=d34=1.23为最小者，故将第3区与第4区并为一类，划去对应的行和列，此时，第3、4、9区已归并为一类；用Block距离计算距离，对某地区的九个农业区进行聚类分析,步骤如下:第38页，此课件共113页哦在第四步之后余下的元素中，除对角线元素外，d21=d12=1

22、.52为最小者，故将第1区与第2区并为一类，划去对应的行和列，此时，第1、2、8区已归并为一类；在第五步之后余下的元素中，除对角线元素外，d65=d56=1.78为最小者，故将第5区与第6区并为一类，划去对应的行和列，此时，第5、6、7区已归并为一类；在第六步之后余下的元素中，除对角线元素外，d31=d13=3.10为最小者，故将第1区与第3区并为一类，划去对应行、列，此时，第1、2、3、4、8、9区已归并为一类；在第七步之后余下的元素中，除去对角线元素外，只有d51=d15=5.86，故将第1区与第5区并为一类，划去对应行、列，此时，第1、2、3、4、5、6、7、8、9、区均归并为一类；第3

23、9页，此课件共113页哦G1G2G8G3G4G9G5G7G6根据上述步骤，可以作出聚类过程的谱系图第40页，此课件共113页哦n以当前某个样品与已经形成的小类中的各样品距离中的最小值作为当前样品与该小类之间的距离。Gr=Gp,Gq,drl=mindpl,dql。n类Gp与Gq之间的距离定义为两类最近样品的距离，即：三、常用的种类三、常用的种类1、最短距离法（、最短距离法（Nearest Neighbor）假设第p类和第q类合并成第r类，第r类与其它各旧类的距离按最短距离法为：第41页，此课件共113页哦最短距离法的分析步骤n定义样品之间的距离，计算n个样品的距离矩阵D(0)，开始每个样品自成一

24、类，显然这时Dijdijn找出D(0)中非对角线最小元素，设为Dpq，将Gp和Gq合并为一个新类，记为Gr，即Gr=Gp,Gq。n按计算公式计算出新类与其它类的距离。n重复以上步骤，直到所有元素并为一类为止。如果某一步最小元素不止一个，则对应这些最小元素的类可以同时合并。第42页，此课件共113页哦例：为了研究以下5省区某年城镇居民生活消费的分布规律，根据调查资料做类型划分省份x1x2x3x4x5x6x7x8辽宁浙江河南甘肃青海 7.90 7.68 9.42 9.16 10.0639.7750.3727.9327.9828.64 8.49 11.35 8.20 9.0110.5212.9413

25、.30 8.14 9.3210.0519.2719.2516.1715.9916.1811.0514.59 9.42 9.10 8.392.042.751.551.821.9613.2914.87 9.7611.3510.81第43页，此课件共113页哦d12=(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94-13.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)21/2=11.67 d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.

26、06 d25=23.54 d34=2.2 d35=3.51 d45=2.21 1 2 3 4 5D1=1 0 2 11.67 0 3 13.80 24.63 0 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0河南与甘肃的距离最近，先将二者（3和4）合为一类G6=G3，G4G1=辽宁，G2=浙江，G3=河南，G4=甘肃，G5=青海第44页，此课件共113页哦d61=d(3,4)1=mind13,d14=13.12 d62=d(3,4)2=mind23,d24=24.06d65=d(3,4)5=mind35,d45=2.21 6 1 2 5 6 0D2

27、=1 13.12 0 2 24.06 11.67 0 5 2.21 12.80 23.54 0d71=d(3,4,5)1=mind13,d14,d15=12.80d72=d(3,4,5)2=mind23,d24,d25=23.54 7 1 2D3=7 0 1 12.80 0 2 23.54 11.67 0河南、甘肃与青海并为一新类G7=G6，G5=G3，G4，G6G8=G1,G2第45页，此课件共113页哦d78=mind71,d72=12.80 7 8D4=7 0 8 12.8 0河南3甘肃4青海5辽宁1浙江2 如果某一步最小非零元素不止一个时，则对应于这些最小元素的类可以同时合并。第46页

28、，此课件共113页哦n以当前某个样品与已经形成的小类中的各样品距离中的最大值作为当前样品与该小类之间的距离。n最长距离法的并类与最短距离法的并类步骤完全一样。也就是先将各个样品自成一类，然后将类间距离最短的两类合并。2 2、最长距离法、最长距离法（furthest neighbor）假设第p类和第q类合并成第r类，第r类与其它各旧类的距离按最长距离法为：第47页，此课件共113页哦例：对前例的数据以最长距离法聚类。1 2 3 4 5 1 0 2 11.67 0 D1=3 13.80 24.63 0 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0d6

29、1=d(3,4)1=maxd13,d14=13.80 d62=d(3,4)2=maxd23,d24=24.63d65=d(3,4)5=maxd35,d45=3.51 6 1 2 5 6 0D2=1 13.80 0 2 24.63 11.67 0 5 3.51 12.80 23.54 0河南与甘肃的距离最近，先将二者（3和4）合为一类G6=G3，G4河南、甘肃与青海并为一新类G7=G6，G5=G3，G4，G6第48页，此课件共113页哦d71=d(3,4,5)1=maxd13,d14,d15=13.80d72=d(3,4,5)2=maxd23,d24,d25=24.63 7 1 2D3=7 0

30、1 13.80 0 2 24.63 11.67 0d78=maxd71,d72=24.63 7 8D4=7 0 8 24.63 0G8=G1,G2G8=G1,G2第49页，此课件共113页哦河南1甘肃4G6G7G8G9青海5辽宁1浙江2第50页，此课件共113页哦3 3、中间距离法、中间距离法最长距离夸大了类间距离，最短距离低估了类间距离。介于两者间的距离即为中间距离。第51页，此课件共113页哦例例：对对5 5个个样样品品（1 1、2 2、3.53.5、7 7、9 9）进进行行分分类类。用用绝绝对对距距离离计计算算距离平方距离平方矩阵：矩阵：（1）将每个样品看作自成一类，因此Dij=di

31、j，得下表。第52页，此课件共113页哦G6G3G4G5G6=X1、X20G3=X340G4=X430.2512.250G5=X556.2530.2540(2)找出上表中非对角线最小元素是1，则将G1，G2合并为一个新类G6.计算新类与其它类的距离。(3)找出上表中非对角线最小元素是4，则将G3，G6合并为一个新类G7，将G4，G5合并为一个新类G8.最后计算它们的距离。第53页，此课件共113页哦G7G8G7=X1、X2、X30G8=X4、X530.250X1X2 X3X4X5G6G7G8G9144第54页，此课件共113页哦4、类平均法：、类平均法：两类间样品距离的平均数。对应组间两类间样

32、品距离的平均数。对应组间平均连接平均连接n用两类样品两两之间的距离的平方和的平均值作为两类间的距离的平方。它利用了所有样品对距离的信息。设聚类到某一步将Gp和Gq合并为Gr，则任一类Gl与Gr的距离为：第55页，此课件共113页哦G1G2G3G4G5G1=X10G2=X210G3=X36.252.250G4=X4362512.250G5=X5644930.2540 找出上表中非对角线最小元素是1，则将G1，G2合并为一个新类G6.按类均法计算新类与其它类的距离。例例：对对5 5个个样样品品（1 1、2 2、3.53.5、7 7、9 9）进进行行分分类类。用用绝绝对对距距离离计算计算距离平方距离

33、平方矩阵：矩阵：第56页，此课件共113页哦G6G3G4G5G6=X1、X20G3=X34.250G4=X430.512.250G5=X556.530.2540 找出上表中非对角线最小元素是4，则将G4，G5合并为一个新类G7.按类平均法计算新类与其它类的距离。第57页，此课件共113页哦G6G3G7G60G3 4.250G7 43.521.250 找出上表中非对角线最小元素是4.25，则将G3，G6合并为一个新类G8.按类均法计算新类与其它类的距离。G6G7G60G7 36.080X1X2 X3X4X5G6G8G7G914.25436.08第58页，此课件共113页哦5 5、中间距离法的变形

34、、中间距离法的变形可变法可变法如果让中间距离法的递推公式前两项的系数也依赖于，则递推公式为：第59页，此课件共113页哦6、可变类平均法、可变类平均法n由于类平均法中没有反映Gp和Gq之间的距离Dpq的影响，所以给出可变类平均法。对所有样品对的距离求平均值，包括小类之间的样品对、小类内的样品对。计算公式为：用此递推公式进行聚类就是可变类平均法。递推公式由：p类和q类与L类的距离的加权平均数 p类和q类的距离两项的加权和构成，的大小根据哪项更重要而定的大小根据哪项更重要而定可变类平均法与可变法的分类效果与可变类平均法与可变法的分类效果与的选择关系很的选择关系很大，在实际应用中大，在实际应用中

35、常取负值常取负值。第60页，此课件共113页哦G1G2G3G4G5G1=X10G2=X210G3=X36.252.250G4=X4362512.250G5=X5644930.2540 找出上表中非对角线最小元素是1，则将G1，G2合并为一个新类G6.按可变类均法计算新类与其它类的距离。取-1/4。得下表。例例：对对5 5个个样样品品（1 1、2 2、3.53.5、7 7、9 9）进进行行分分类类。用用绝绝对对距距离计算离计算距离平方距离平方矩阵：矩阵：第61页，此课件共113页哦G6G3G4G5G6=X1、X20G3=X35.060G4=X437.8812.250G5=X570.3830.25

36、40 上表中非对角线最小元素是4，则将G4，G5合并为一个新类G7.计算新类与其它类的距离。G6G3G7G6=X1、X20G3=X35.060G7=X4、X566.6625.560 上表中非对角线最小元素是5.06，则将G3，G6合并为一个新类G8.计算新类与其它类的距离。第62页，此课件共113页哦G6G7G6=X1、X2、X30G7=X4、X564.940X1X2 X3X4X5G6G8G7G915.06464.94第63页，此课件共113页哦7 7、离差平方和法：、离差平方和法：是Ward提出的，基本思想来自于方差分析的想法，如类分得恰当，同类内的样品之间的离差平方和应较小，而类间的离差平

37、方和应当较大。将k固定时，要选择使S达到极小的分类，一切可能的分法有：第64页，此课件共113页哦nWard 寻找到一个局部最优解的方法。n先将n个样本各成一类，然后每次缩小一类，每缩小一类离差平方和就要增大，选择使离差平方和S增加最小的两类合并，直至所有样本归为一类为止。n如果分类正确，同类样品的离差平方和应该较小，类与类的离差平方和应当较大。因此应使小类内各样本的欧氏距离欧氏距离总平方和增加最小的两小类合并为一类。第65页，此课件共113页哦用Ward法分类。（1）将五个样品各自分成一类，显然这时类内离差平方和S=0。（2）将一切可能的任意两列合并，计算所增加的离差平方和，取其中较小的S所

38、对应的类进行合并，例如将G1=X1，G2=X2合并成一类，它的离差平方和S12=(1-1.5)2+(2-1.5)2=0.5,如果将G1=X1，G3=X3合并成一类，它的离差平方和为 S13=(1-2.25)2+(3.5-2.25)2=3.125。将一切可能的两类合并的离差平方和都计算出来，并列表如下：例：例：对对5 5个样品（个样品（1 1、2 2、3.53.5、7 7、9 9）进行分类）进行分类第66页，此课件共113页哦G1G2G3G4G5G1=X10G2=X20.50G3=X33.125 1.1250G4=X41812.56.1250G5=X53224.515.12520 上表中非对角线

39、最小元素是0.5，说明将G1，G2合并为一个新类G6增加的S最少.计算新类G6与其它类的距离，得下表。第67页，此课件共113页哦G6G3G4G5G6=X1、X20G3=X32.6670G4=X420.1676.1250G5=X537.515.12520 上表中非对角线最小元素是2，则将G4，G5合并为一个新类G7.计算新类G7与其它类的距离。第68页，此课件共113页哦G6G3G7G6=X1、X20G3=X32.6670G7=X4、X542.2513.50 上表中非对角线最小元素是2.667，则将G3，G6合并为一个新类G8.计算新类G8与其它类的距离。第69页，此课件共113页哦G6G7G

40、6=X1、X2、X30G7=X4、X540.830X1X2 X3X4X5G6G8G7G90.52.667240.83第70页，此课件共113页哦分别为Gp和Gq的重心，类与类之间的距离定义为两个类重心（类内样品平均值）间的平方距离。8、重心法：也称为样品的均值法。设Gp和Gq 为两个类第71页，此课件共113页哦重心法递推公式重心法递推公式假设第p类和第q类合并成第r类，第r类与其它各旧类的距离按重心法为：第72页，此课件共113页哦重心法的归类步骤与以上方法基本相同，所不同的是每合并一次，就要重新计算新类的重心及各类与新类的距离。GrGl第73页，此课件共113页哦例：设5个样品（1，

41、2，3.5，7，9）。重心法的初始距离与中间距离法相同。G1G2G3G4G5G1=X10G2=X210G3=X36.252.250G4=X4362512.250G5=X5644930.2540找出上表中非对角线最小元素是1，则将G1，G2合并为一个新类G6.计算新类的重心，其与其它类的距离。第74页，此课件共113页哦G6G3G4G5G6=X1、X20G3=X340G4=X430.2512.250G5=X556.2530.2540第75页，此课件共113页哦找出上表中非对角线最小元素是4，则将G3，G6合并为一个新类G7，将G4，G5合并为一个新类G8.最后计算它们的距离。G7G8G7=X1、

42、X2、X30G8=X4、X534.030第76页，此课件共113页哦X1X2 X3X4X5G6G7G8G9144第77页，此课件共113页哦几种系统聚类方法的统一以上聚类方法的计算步骤完全相同，仅类与类之间距离的定义不同。Lance（兰斯）和Williams（威廉姆斯）于1967年将其统一为：第78页，此课件共113页哦几种系统聚类法公式的参数方法pq最短距离法0-1/2最长距离法0中间距离法-1/40重心法np/nrnq/nr-pq0类平均法np/nrnq/nr00可变类平均法(1-)np/nr(1-)nq/nr10可变法(1-)/2(1-)/210离差平方和法(np+nl)/(nr+n

43、l)(nq+nl)/(nr+nl)-nl/(nr+nl)0第79页，此课件共113页哦实例分析选取指标 y1人均GDP，它反映了经济社会发展的总体状况和一般水平；y2人均第三产业增加值，它反映了人均服务产品占有量或服务密度；y3第二产业增加值比重，它反映了工业化水平和产业结构现代化程度；y4第三产业增加值比重，它反映了第三产业的发展程度及其对国民经济的贡献；y5第三产业从业人员比重，它反映了第三产业对劳动力的吸纳能力；y6第三产业固定资产投资比重，它反映了第三产业的资金投入程度；y7城市化水平，它反映了农村人口转化为城市人口的程度及对服务的需求量。例：对中国大陆31个省级区域第三产业综合发展

44、水平进行类型划分及差异性程度分析-第80页，此课件共113页哦用标准差标准化方法对7项指标的原始数据进行处理。采用欧氏距离测度31个省（市、区）之间的样本间距离。选用组平均法计算类间的距离，并对样本进行归类。具体的数据与计算过程在此略。经过上述聚类计算步骤，得到的聚类结果见下图。聚类计算聚类计算(计算过程计算过程)第81页，此课件共113页哦样本 Num +-+-+-+-+-+安徽 12 河南 16 甘肃 28 四川 23 贵州 24 河北 3 山东 15 山西 4 湖北 17 重庆 22 陕西 27 宁夏 30 江西 14 湖南 18 广西 20 云南 25 江苏 10 浙江 11 广东

45、 19 福建 13 辽宁 6 黑龙江 8 吉林 7 新疆 31 内蒙古 5 青海 29 海南 21 西藏 26 北京 1 上海 9 天津 2 图图中国中国31个省级区域第三产业发展水平组平均聚类谱系图个省级区域第三产业发展水平组平均聚类谱系图第82页，此课件共113页哦聚类结果分析当类间距离取为4.0和2.5时，全国各省份被合并成以下几类：上海、北京、天津3直辖市为一类，而上海和北京更接近；西藏、海南为一特殊类；青海、内蒙古、新疆、吉林为一类，其中内蒙古、新疆、吉林合并为一亚类；江苏、浙江、广东、福建、辽宁、黑龙江为一类，其中江苏、浙江、广东合并为一亚类；重庆、陕西、宁夏、江西、湖南、广西

46、为一类，其中重庆、陕西、宁夏和江西、湖南、广西各自为一亚类，云南为一孤立点；河北、山东、山西、湖北为一类；安徽、河南、甘肃、四川、贵州为一类。第83页，此课件共113页哦例：例：为了更深入地了解我国人口的文化程度状况，现利用1990年全国人口普查数据对全国30个省、市进行聚类分析。分析选用了三个指标（1）大学以上文化程度的人口占全部人口的比例（X1)；（2）初中文化程度的人口占全部人口的比例（X2)；（3）文盲半文盲的人口占全部人口的比例（X3)。用它们分别来反映较高、中等、较低文化程度人口的状况，原始数据如下：第84页，此课件共113页哦地区序号X1X2X3北京19.3030.558.70天

47、津24.6729.388.92河北30.9624.6915.21山西41.3829.2411.30内蒙51.4825.4715.39辽宁62.6032.328.81吉林72.1526.3110.49黑龙江82.1428.4610.87上海96.5331.5911.04江苏101.4726.4317.23浙江111.1723.7417.461990年全国人口普查文化程度人口比例（）第85页，此课件共113页哦地区序号X1X2X3安徽120.8819.9724.43福建131.2316.8715.63江西140.9918.8416.22山东150.9825.1816.87河南160.8526.55

48、16.15湖北171.5723.1615.79湖南181.1422.5712.10广东191.3423.0410.45广西200.7919.1410.61海南211.2422.5313.97四川220.9621.6516.241990年全国人口普查文化程度人口比例（）第86页，此课件共113页哦地区序号X1X2X3贵州230.7814.6524.27云南240.8113.8525.44西藏260.573.8544.43陕西261.6724.3617.62甘肃271.1016.8527.93青海281.4917.7627.70宁夏291.6120.2722.06新疆301.8520.6612.7

49、51990年全国人口普查文化程度人口比例（）第87页，此课件共113页哦首先计算样品之间的相似系数，使用最长距离法、重心法和Ward法，分别计算，并画出聚类图（从略），聚类结果为：第一类：北京、天津、山西、辽宁、吉林、黑龙江、上海。其中大部分是东部经济、文化较发达的地区。第二类：安徽、宁夏、青海、甘肃、云南、贵州。其中大部分是西部经济、文化发展较慢的地区。第三类：西藏。经济、文化发展落后的地区。第四类：其它省、市。经济、文化发展处于全国中等水平。分析分析第88页，此课件共113页哦四、系统聚类法的性质单调性：设Dk是系统聚类法中的第k次并类时的距离，如果D1D2D3，则称并类距离具有单调

50、性。可以证明最短距离法、最长距离法、类平均法、离差平方和法、可变法和可变类平均法都具有单调性，而中间距离法、重心法不具有单调性。这种单调性符合系统聚类法的思想，先合并较相近的类，然后合并较疏远的类。空间的浓缩与扩张通过前面的例题可以看出，对于同一问题采用不同聚类法作图时，横坐标的范围可相差很大。与类平均法相比类平均法相比最短距离法与重心法比较浓缩；最长距离法、离差平方和法、可变类平均比较扩张；类平类平均法均法比较适中。太浓缩的方法不够灵活，太扩张的方法可能因灵敏度过高而容易失真。类平均法类平均法比较适中。它既不太浓缩，也不太扩张。相对而言它被认为是一种比较理想的方法。第89页，此课

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

18 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 第六聚类分析精选 PPT

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：第六讲聚类分析精选PPT.ppt
链接地址：https://www.taowenge.com/p-88373986.html