第六讲-聚类分析优秀PPT.ppt
n俗话说“物以类聚,人以群分”。就是聚类分析的道理。n市场营销中市场细分和客户细分问题n学校里有些同学常常会在一起,关系亲密;有些同学很少往来,关系疏远。第一节第一节 什么是聚类分析什么是聚类分析 例例 对对10位应聘者做智能检验。位应聘者做智能检验。3项指标项指标X,Y和和Z分别表示数学推理实力,空间想象分别表示数学推理实力,空间想象实力和语言理解实力。其得分如下,选择合实力和语言理解实力。其得分如下,选择合适的统计方法对应聘者进行归类。适的统计方法对应聘者进行归类。例子例子聚类分析数据格式聚类分析数据格式k例题分析n我们直观地来看,这个归类是否合理?n 计算4号和6号得分的离差平方和:n (21-20)2+(23-23)2+(22-22)2=1n 计算1号和2号得分的离差平方和:n (28-18)2+(29-23)2+(28-18)2=236n计算1号和3号得分的离差平方和为482,由此可见一般,归类可能是合理的,欧氏距离很大的应聘者没有被聚在一起。n由此,我们的问题是如何来选择样品间相像的测度指标,如何将有相像性的类连接起来?n基本思想:依据事物本身的特性探讨个体分基本思想:依据事物本身的特性探讨个体分类的方法;即在没有先验学问的状况下进行类的方法;即在没有先验学问的状况下进行的。多元统计分析方法就是对样品或指标进的。多元统计分析方法就是对样品或指标进行量化分类的问题,它们探讨的对象是大量行量化分类的问题,它们探讨的对象是大量的样品,要求能合理地按各自的特性来进行的样品,要求能合理地按各自的特性来进行合理的分类,没有任何模式可供参考或依循。合理的分类,没有任何模式可供参考或依循。n聚类原则:同一类中的个体有较大的相像性,聚类原则:同一类中的个体有较大的相像性,不同类中的个体差异很大。不同类中的个体差异很大。n常见方法:常见方法:Q型聚类法、型聚类法、R型聚类法、灰色聚型聚类法、灰色聚类法和模糊聚类法等。类法和模糊聚类法等。聚类分析基本思想及原则聚类分析基本思想及原则聚类的程序n基本程序:依据一批样品的多个观测指标,具体地找出一基本程序:依据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相像程度的统计量,然后利用些能够度量样品或指标之间相像程度的统计量,然后利用统计量将样品或指标进行归类。统计量将样品或指标进行归类。n 如对上市公司的经营业绩进行聚类;又如对企业的经如对上市公司的经营业绩进行聚类;又如对企业的经济效益进行评价济效益进行评价n由此可知,聚类分析(由此可知,聚类分析(Cluster Analysis)Cluster Analysis)也是一种分类技也是一种分类技术。与多元分析的其他方法相比,该方法较为粗糙,理论术。与多元分析的其他方法相比,该方法较为粗糙,理论上还不完善,但应用方面取得了很大成功。与多元假设检上还不完善,但应用方面取得了很大成功。与多元假设检验、回来分析等一起被称为多元分析的三大方法。验、回来分析等一起被称为多元分析的三大方法。n聚类分析的步骤:依据已知数据,计算各视察个体或变量聚类分析的步骤:依据已知数据,计算各视察个体或变量之间亲疏关系的统计量。依据某种准则,使同一类内的差之间亲疏关系的统计量。依据某种准则,使同一类内的差别较小,而类与类之间的差别较大,最终将视察个体或变别较小,而类与类之间的差别较大,最终将视察个体或变量分为若干类。量分为若干类。思索:样品点间、样品点和小类之间、小类与小类之间按什么刻画亲疏关系其次节其次节 “亲疏程度亲疏程度”度量度量一、变量测量尺度的类型一、变量测量尺度的类型二、亲疏程度的测度二、亲疏程度的测度三、样品与小类、小类与小类三、样品与小类、小类与小类 之间之间“亲疏程度亲疏程度”的度量方法的度量方法四、聚类分析的几点说明四、聚类分析的几点说明n(1)(1)间隔尺度间隔尺度(Scale)(Scale):用数量来表示,其数:用数量来表示,其数值由测量(连续)或计数(离散)、统计得值由测量(连续)或计数(离散)、统计得到。到。n(2)(2)依次尺度依次尺度(Ordinal)(Ordinal):没有明确的数量表:没有明确的数量表示,只有次序关系,或虽用数量表示,但相示,只有次序关系,或虽用数量表示,但相邻两数值之间的差距并不相等,它只表示一邻两数值之间的差距并不相等,它只表示一个有序状态序列。如评价酒的味道,分成好、个有序状态序列。如评价酒的味道,分成好、中、次三等,三等有次序关系,但没有数量中、次三等,三等有次序关系,但没有数量表示。表示。n(3)3)名义尺度名义尺度(Nominal)(Nominal):既没有数量表示也:既没有数量表示也没有次序关系,只有一些特性状态。如眼睛没有次序关系,只有一些特性状态。如眼睛的颜色,化学中催化剂的种类等。的颜色,化学中催化剂的种类等。一、变量测量尺度的类型一、变量测量尺度的类型二、亲疏程度的测度二、亲疏程度的测度n亲疏程度:包含个体间的相像程度和个体间的差异程度n亲疏程度测定方法:n 距离:样品间的聚类,Q型聚类分析。n 相像系数:变量间的聚类,R型聚类分析。1 1、定义、定义距离距离的准则的准则 距离满足条件:(一)距离(一)距离2 2、常用距离的算法、常用距离的算法(数值型变量)(数值型变量)设 和是第i和 j 个样品的观测值,则二者之间的距离为:特殊:欧氏距离Euclidean distance(1)(1)闵可夫斯基距离(闵可夫斯基距离(Minkowski)确定距离(block)闵可夫斯基距离缺点闵可夫斯基距离缺点与指标量纲有关未考虑总体变异对“距离”远近的影响。(2)马氏距离(广义欧氏距离)n是印度著名统计学家马哈拉诺比斯是印度著名统计学家马哈拉诺比斯(P(PC CMahalanobis)Mahalanobis)所定义的一种距离。所定义的一种距离。n特点:特点:n考虑了观测变量之间的相关性。假如各变量间相互独立,考虑了观测变量之间的相关性。假如各变量间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为权数进行加权化为用各个观测指标的标准差的倒数作为权数进行加权的欧氏距离。的欧氏距离。n考虑到了各个观测指标取值的差异程度,不再受各指标考虑到了各个观测指标取值的差异程度,不再受各指标量纲的影响。将原始数据做线性变换后,马氏距离不变。量纲的影响。将原始数据做线性变换后,马氏距离不变。n为了对马氏距离和欧氏距离进行一下比较,以便更清晰为了对马氏距离和欧氏距离进行一下比较,以便更清晰地看清二者的区分和联系,现考虑一个例子。地看清二者的区分和联系,现考虑一个例子。例如,假设有一个二维正态总体,它的分布为:马氏距离的缺点马氏距离的缺点:样品协方差矩阵不变不合理。切比雪夫距离:(Chebychev)兰氏距离:兰氏距离:适合于一切变量值大于零的状况。该距离与变量单位无关,对大的异样值不敏感,适用于较大变异的数据,但未考虑变量相关性问题。斜交空间距离可考虑变量间相关性问题 样品点间的距离表样品点间的距离表3 3、距离选择的原则距离选择的原则n一般来说,同一批数据接受不同的距离公式,会得到不同的分类结果。产生不同结果的缘由,主要是由于不同的距离公式侧重点和实际意义都不相同。因此我们在聚类分析时,应留意距离公式的选择。在选择距离公式时应留意以下原则:n应考虑变量类型(不同类型变量计算距离的方法不同)n所选择的亲疏测度指标在实际应用中应有明确的意义。(欧几里得距离具有明确的空间距离的概念,马氏距离有消退量纲影响的作用)n要综合考虑对样本观测数据的预处理和将要接受的聚类分析方法。(如在进行聚类分析之前已经对变量作了标准化处理,则通常接受欧几里得距离)n适当地考虑探讨对象的特点和计算工作量的大小。(在实际中,聚类分析前不妨摸爽性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。)(二)相像系数(二)相像系数n夹角余弦时从向量集合的角度所定义的一种测度变量之间亲疏程度的相像系数。设在n维空间的向量1、夹角余弦、夹角余弦 2 2、相关系数、相关系数有:有:例如夹角余弦夹角余弦相关系数相关系数 三、个体与小类、小类与小类间三、个体与小类、小类与小类间 “亲疏程度亲疏程度”的度量方法的度量方法1、最短距离(Nearest Neighbor)x21x12x112、最长距离(Furthest Neighbor)x11x213、组间平均连接(Between-group Linkage)4、组内平均连接法(Within-group Linkage)每一步均考虑了小类内部相像性的变更 克服了最远、最近距离中距离受极端值影响的特点5、重心距离(Centroid clustering)该方法充分利用了所涉及的距离信息,同时将小类的样本数也考虑进来了n是Ward提出的。其原则是:聚类过程中使小类内离差平方和增加最小的两小类首先合并为一类。n步骤:首先各个体自成一类,然后逐步凝合成小类。随着小类的不断凝合,类内离差平方和必定不断增大。应选择使类内离差平方和增加最小的两类凝合,直到全部个体合并成一类为止。6、离差平方和法连接(Wards method)例如:例如:例:5商厦个体间欧氏距离例题分析nD、E首先聚成一类,A、B、C与该小类n最近邻距离依次为26.907、34.655、9.22n最远距离30.414、38.210、12.806n组间平均连接距离(26.907+30.414)/2、(34.655+38.210)/2、(9.22+12.806)/2n组内平均连接距离(26.907+30.414+3.606)/3、(34.655+38.210+3.606)/3、(9.22+12.806+3.606)/3n重心法:四、聚类分析的几点说明四、聚类分析的几点说明(1 1)1 1、选择变量、选择变量 (1 1)依据聚类分析的目的选择聚类变量(聚类)依据聚类分析的目的选择聚类变量(聚类是在选变量的基础上对样本数据进行的,分类结是在选变量的基础上对样本数据进行的,分类结果是各变量综合计算的结果)果是各变量综合计算的结果)(2 2)各变量的变量值不应有数量级上的差异)各变量的变量值不应有数量级上的差异(数量级对距离有较大影响,将影响最终聚类结(数量级对距离有较大影响,将影响最终聚类结果)果)(3 3)变量之间不能高度相关(如变量间有较强)变量之间不能高度相关(如变量间有较强的线性相关关系,那么计算距离时同类变量将重的线性相关关系,那么计算距离时同类变量将重复复“贡献贡献”,将在距离中有较高的权重,因而使,将在距离中有较高的权重,因而使最终的聚类结果偏向该类变量)最终的聚类结果偏向该类变量)2 2、计算相像性指标。、计算相像性指标。3 3、聚类、聚类 (1 1)选择聚类的方法)选择聚类的方法 (2 2)确定形成的类数)确定形成的类数 依据分类问题本依据分类问题本身的专业学问结合实际须要来选择;身的专业学问结合实际须要来选择;用多种分用多种分类方法去作,把其中的共性取出来,反映了事物类方法去作,把其中的共性取出来,反映了事物的本质,将有争议的样品暂放在一边;的本质,将有争议的样品暂放在一边;视察样视察样品散点图,从直觉上来推断所接受的聚类方法是品散点图,从直觉上来推断所接受的聚类方法是否合理。否合理。4 4、聚类结果的说明和证明、聚类结果的说明和证明 对聚类结果进行说明是希望对各个类的特对聚类结果进行说明是希望对各个类的特征进行精确的描述,给每类起一个合适的名称。征进行精确的描述,给每类起一个合适的名称。这一步可以借助各种描述性统计量进行分析,通这一步可以借助各种描述性统计量进行分析,通常的做法是计算各类在各聚类变量上的均值,对常的做法是计算各类在各聚类变量上的均值,对均值进行比较,还可以说明各类别的缘由。均值进行比较,还可以说明各类别的缘由。四、聚类分析的几点说明四、聚类分析的几点说明(2)第三节第三节 系统聚类法系统聚类法一、含义:又叫层次聚类。聚类过程是一、含义:又叫层次聚类。聚类过程是按确定层次进行的,有按确定层次进行的,有Q Q型聚类和型聚类和R R型型聚类。聚类。二、聚类步骤二、聚类步骤三、常用的聚类方法三、常用的聚类方法四、系统聚类法的性质四、系统聚类法的性质二、步骤:n1、对数据进行变换处理,消退量纲;n2、构造n个类,每个类只包含一个样品;n3、n个样品两两间的距离dij;n4、合并距离最近的两类为一新类;n5、计算新类与当前各类的距离,重复(4)、(5),直到全部的类合并为一类;n6、画聚类图;n7、确定类的个数和类。1、依据样品的特征,规定样品之间的距离 ,共有 个。将全部距离列表,记为D(0)表。2、选择D D(0)表中最小的非零数,不妨假设 ,于是将 和 合并为一类,记为 。3、分别删除D(0)表的第p行和第q列,并新增一行和一列,利用递推公式计算新类与其它类之间的距离。产生D(1)表。4、在D(1)表再选择最小的非零数,其对应的两类又构成新类,分别删除D(1)表的相应的行和列,并新增一行和一列,再利用递推公式计算新类与其它类之间的距离。结果,产生D(2)表。类推直至全部的样本点归为一类为止。例题:下表给出了某地区九个农业区的七项指标表表 某地区九个农业区的七项经济指标数据某地区九个农业区的七项经济指标数据 表表 极差标准化处理后的数据极差标准化处理后的数据它们经过极差标准化处理后,如下表所示。依据上述数据,计算可得九个农业区之间的确定值距离矩阵如下 在距离矩阵在距离矩阵D中,除对角线元素外,中,除对角线元素外,d49=d94=0.51为最为最小者,故将第小者,故将第4区与第区与第9区并为一类,划去第区并为一类,划去第9行和第行和第4列;列;在余下的元素中,除对角线元素外,在余下的元素中,除对角线元素外,d75=d57=0.83为最为最小者,故将第小者,故将第5区与第区与第7区并为一类,划掉第区并为一类,划掉第7行和第行和第5列;列;在其次步之后余下的元素之中,除对角线元素外,在其次步之后余下的元素之中,除对角线元素外,d82=d28=0.88为最小者,故将第为最小者,故将第2区与第区与第8区并为一类,划去区并为一类,划去对应的行和列;对应的行和列;在第三步之后余下的元素中,除对角线元素外,在第三步之后余下的元素中,除对角线元素外,d43=d34=1.23为最小者,故将第为最小者,故将第3区与第区与第4区并为一类,划去区并为一类,划去对应的行和列,此时,第对应的行和列,此时,第3、4、9区已归并为一类;区已归并为一类;用Block距离计算距离,对某地区的九个农业区进行聚类分析,步骤如下:在第四步之后余下的元素中,除对角线元素外,d21=d12=1.52为最小者,故将第1区与第2区并为一类,划去对应的行和列,此时,第1、2、8区已归并为一类;在第五步之后余下的元素中,除对角线元素外,d65=d56=1.78为最小者,故将第5区与第6区并为一类,划去对应的行和列,此时,第5、6、7区已归并为一类;在第六步之后余下的元素中,除对角线元素外,d31=d13=3.10为最小者,故将第1区与第3区并为一类,划去对应行、列,此时,第1、2、3、4、8、9区已归并为一类;在第七步之后余下的元素中,除去对角线元素外,只有d51=d15=5.86,故将第1区与第5区并为一类,划去对应行、列,此时,第1、2、3、4、5、6、7、8、9、区均归并为一类;G1G2G8G3G4G9G5G7G6依据上述步骤,可以作出聚类过程的谱系图n以当前某个样品与已经形成的小类中的各样品距离中的最小值作为当前样品与该小类之间的距离。Gr=Gp,Gq,drl=mindpl,dql。n类Gp与Gq之间的距离定义为两类最近样品的距离,即:三、常用的种类三、常用的种类1、最短距离法(、最短距离法(Nearest Neighbor)假设第p类和第q类合并成第r类,第r类与其它各旧类的距离按最短距离法为:最短距离法的分析步骤n定义样品之间的距离,计算n个样品的距离矩阵D(0),起先每个样品自成一类,明显这时Dijdijn找出D(0)中非对角线最小元素,设为Dpq,将Gp和Gq合并为一个新类,记为Gr,即Gr=Gp,Gq。n按计算公式计算出新类与其它类的距离。n重复以上步骤,直到全部元素并为一类为止。n 假如某一步最小元素不止一个,则对应这些最小元素的类可以同时合并。例:为了探讨以下5省区某年城镇居民生活消费的分布规律,依据调查资料做类型划分d12=(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94-13.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)21/2=11.67 d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d35=3.51 d45=2.21 1 2 3 4 5D1=1 0 2 11.67 0 3 13.80 24.63 0 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0河南与甘肃的距离最近,先将二者(3和4)合为一类G6=G3,G4G1=辽宁,G2=浙江,G3=河南,G4=甘肃,G5=青海d61=d(3,4)1=mind13,d14=13.12 d62=d(3,4)2=mind23,d24=24.06d65=d(3,4)5=mind35,d45=2.21 6 1 2 5 6 0D2=1 13.12 0 2 24.06 11.67 0 5 2.21 12.80 23.54 0d71=d(3,4,5)1=mind13,d14,d15=12.80d72=d(3,4,5)2=mind23,d24,d25=23.54 7 1 2D3=7 0 1 12.80 0 2 23.54 11.67 0河南、甘肃与青海并为一新类G7=G6,G5=G3,G4,G6G8=G1,G2d78=mind71,d72=12.80 7 8D4=7 0 8 12.8 0河南3甘肃4青海5辽宁1浙江2 假如某一步最小非零元素不止一个时,则对应于这些最小元素的类可以同时合并。n以当前某个样品与已经形成的小类中的各样品距离中的最大值作为当前样品与该小类之间的距离。n最长距离法的并类与最短距离法的并类步骤完全一样。也就是先将各个样品自成一类,然后将类间距离最短的两类合并。2 2、最长距离法、最长距离法(furthest neighbor)假设第p类和第q类合并成第r类,第r类与其它各旧类的距离按最长距离法为:例:对前例的数据以最长距离法聚类。1 2 3 4 5 1 0 2 11.67 0 D1=3 13.80 24.63 0 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0d61=d(3,4)1=maxd13,d14=13.80 d62=d(3,4)2=maxd23,d24=24.63d65=d(3,4)5=maxd35,d45=3.51 6 1 2 5 6 0D2=1 13.80 0 2 24.63 11.67 0 5 3.51 12.80 23.54 0河南与甘肃的距离最近,先将二者(3和4)合为一类G6=G3,G4河南、甘肃与青海并为一新类G7=G6,G5=G3,G4,G6d71=d(3,4,5)1=maxd13,d14,d15=13.80d72=d(3,4,5)2=maxd23,d24,d25=24.63 7 1 2D3=7 0 1 13.80 0 2 24.63 11.67 0d78=maxd71,d72=24.63 7 8D4=7 0 8 24.63 0G8=G1,G2G8=G1,G2河南1甘肃4G6G7G8G9青海5辽宁1浙江23 3、中间距离法、中间距离法 最长距离夸大了类间距离,最短距离低估了类间距离。介于两者间的距离即为中间距离。例例:对对5个个样样品品(1、2、3.5、7、9)进进行行分分类类。用确定距离计算距离平方矩阵:用确定距离计算距离平方矩阵:(1)将每个样品看作自成一类,因此Dij=dij,得下表。(2)找出上表中非对角线最小元素是1,则将G1,G2合并为一个新类G6.计算新类与其它类的距离。(3)找出上表中非对角线最小元素是4,则将G3,G6合并为一个新类G7,将G4,G5合并为一个新类G8.最终计算它们的距离。X1X2 X3X4X5G6G7G8G91444、类平均法:、类平均法:两类间样品距离的平均数。对两类间样品距离的平均数。对应组间平均连接应组间平均连接n用两类样品两两之间的距离的平方和的平均值作为两类间的距离的平方。它利用了全部样品对距离的信息。设聚类到某一步将Gp和Gq合并为Gr,则任一类Gl与Gr的距离为:找出上表中非对角线最小元素是1,则将G1,G2合并为一个新类G6.按类均法计算新类与其它类的距离。例例:对对5个个样样品品(1、2、3.5、7、9)进进行行分分类类。用确定距离计算距离平方矩阵:用确定距离计算距离平方矩阵:找出上表中非对角线最小元素是4,则将G4,G5合并为一个新类G7.按类平均法计算新类与其它类的距离。找出上表中非对角线最小元素是4.25,则将G3,G6合并为一个新类G8.按类均法计算新类与其它类的距离。X1X2 X3X4X5G6G8G7G914.25436.085 5、中间距离法的变形、中间距离法的变形可变法可变法 假如让中间距离法的递推公式前两项的系数也依靠于,则递推公式为:6、可变类平均法、可变类平均法n由于类平均法中没有反映Gp和Gq之间的距离Dpq的影响,所以给出可变类平均法。对全部样品对的距离求平均值,包括小类之间的样品对、小类内的样品对。计算公式为:用此递推公式进行聚类就是可变类平均法。递推公式由:p类和q类与L类的距离的加权平均数 p类和q类的距离两项的加权和构成,的大小依据哪项更重要而定 可变类平均法与可变法的分类效果与可变类平均法与可变法的分类效果与的选择的选择关系很大,在实际应用中关系很大,在实际应用中常取负值常取负值。找出上表中非对角线最小元素是1,则将G1,G2合并为一个新类G6.按可变类均法计算新类与其它类的距离。取-1/4。得下表。例例:对对5个个样样品品(1、2、3.5、7、9)进进行行分分类类。用确定距离计算距离平方矩阵:用确定距离计算距离平方矩阵:上表中非对角线最小元素是4,则将G4,G5合并为一个新类G7.计算新类与其它类的距离。上表中非对角线最小元素是5.06,则将G3,G6合并为一个新类G8.计算新类与其它类的距离。X1X2 X3X4X5G6G8G7G915.06464.947 7、离差平方和法:、离差平方和法:是Ward提出的,基本思想来自于方差分析的想法,如类分得恰当,同类内的样品之间的离差平方和应较小,而类间的离差平方和应当较大。将k固定时,要选择使S达到微小的分类,一切可能的分法有:nWard 找寻到一个局部最优解的方法。n先将n个样本各成一类,然后每次缩小一类,每缩小一类离差平方和就要增大,选择使离差平方和S增加最小的两类合并,直至全部样本归为一类为止。n假如分类正确,同类样品的离差平方和应当较小,类与类的离差平方和应当较大。因此应使小类内各样本的欧氏距离总平方和增加最小的两小类合并为一类。用Ward法分类。(1)将五个样品各自分成一类,明显这时类内离差平方和S=0。(2)将一切可能的随意两列合并,计算所增加的离差平方和,取其中较小的S所对应的类进行合并,例如将G1=X1,G2=X2合并成一类,它的离差平方和S12=(1-1.5)2+(2-1.5)2=0.5,假如将G1=X1,G3=X3合并成一类,它的离差平方和为 S13=(1-2.25)2+(3.5-2.25)2=3.125。将一切可能的两类合并的离差平方和都计算出来,并列表如下:例:例:对对5 5个样品(个样品(1 1、2 2、3.53.5、7 7、9 9)进行分类)进行分类 上表中非对角线最小元素是0.5,说明将G1,G2合并为一个新类G6增加的S最少.计算新类G6与其它类的距离,得下表。上表中非对角线最小元素是2,则将G4,G5合并为一个新类G7.计算新类G7与其它类的距离。上表中非对角线最小元素是2.667,则将G3,G6合并为一个新类G8.计算新类G8与其它类的距离。X1X2 X3X4X5G6G8G7G90.52.667240.83 分别为Gp和Gq的重心,类与类之间的距离定义为两个类重心(类内样品平均值)间的平方距离。8、重心法:也称为样品的均值法。设Gp和Gq 为两个类重心法递推公式重心法递推公式 假设第p类和第q类合并成第r类,第r类与其它各旧类的距离按重心法为:重心法的归类步骤与以上方法基本相同,所不同的是每合并一次,就要重新计算新类的重心及各类与新类的距离。GrGl例:设5个样品(1,2,3.5,7,9)。重心法的初始距离与中间距离法相同。找出上表中非对角线最小元素是1,则将G1,G2合并为一个新类G6.计算新类的重心,其与其它类的距离。找出上表中非对角线最小元素是4,则将G3,G6合并为一个新类G7,将G4,G5合并为一个新类G8.最终计算它们的距离。X1X2 X3X4X5G6G7G8G9144几种系统聚类方法的统一 以上聚类方法的计算步骤完全相同,仅类与类之间距离的定义不同。Lance(兰斯)和Williams(威廉姆斯)于1967年将其统一为:几种系统聚类法公式的参数 实例分析选取指标 y1人均GDP,它反映了经济社会发展的总体状况和一般水平;y2人均第三产业增加值,它反映了人均服务产品占有量或服务密度;y3其次产业增加值比重,它反映了工业化水平和产业结构现代化程度;y4第三产业增加值比重,它反映了第三产业的发展程度及其对国民经济的贡献;y5第三产业从业人员比重,它反映了第三产业对劳动力的吸纳实力;y6第三产业固定资产投资比重,它反映了第三产业的资金投入程度;y7城市化水平,它反映了农村人口转化为城市人口的程度及对服务的需求量。例:对中国大陆31个省级区域第三产业综合发展水平进行类型划分及差异性程度分析-用标准差标准化方法对用标准差标准化方法对7项指标的原始数据进行处理。项指标的原始数据进行处理。接受欧氏距离测度接受欧氏距离测度31个省(市、区)之间的样本间距离。个省(市、区)之间的样本间距离。选用组平均法计算类间的距离,并对样本进行归类。选用组平均法计算类间的距离,并对样本进行归类。具体的数据与计算过程在此略。具体的数据与计算过程在此略。经过上述聚类计算步骤,得到的聚类结果见下图。经过上述聚类计算步骤,得到的聚类结果见下图。聚类计算聚类计算(计算过程计算过程 )样本 Num +-+-+-+-+-+安徽 12 河南 16 甘肃 28 四川 23 贵州 24 河北 3 山东 15 山西 4 湖北 17 重庆 22 陕西 27 宁夏 30 江西 14 湖南 18 广西 20 云南 25 江苏 10 浙江 11 广东 19 福建 13 辽宁 6 黑龙江 8 吉林 7 新疆 31 内蒙古 5 青海 29 海南 21 西藏 26 北京 1 上海 9 天津 2 图图 中国中国31个省级区域第三产业发展水平组平均聚类谱系图个省级区域第三产业发展水平组平均聚类谱系图 聚类结果分析当类间距离取为4.0和2.5时,全国各省份被合并成以下几类:上海、北京、天津3直辖市为一类,而上海和北京更接近;西藏、海南为一特殊类;青海、内蒙古、新疆、吉林为一类,其中内蒙古、新疆、吉林合并为一亚类;江苏、浙江、广东、福建、辽宁、黑龙江为一类,其中江苏、浙江、广东合并为一亚类;重庆、陕西、宁夏、江西、湖南、广西为一类,其中重庆、陕西、宁夏和江西、湖南、广西各自为一亚类,云南为一孤立点;河北、山东、山西、湖北为一类;安徽、河南、甘肃、四川、贵州为一类。例:为了更深化地了解我国人口的文化程度状况,现利用例:为了更深化地了解我国人口的文化程度状况,现利用1990年全国人口普查数据对全国年全国人口普查数据对全国30个省、市进行聚类分析。个省、市进行聚类分析。分析选用了三个指标(分析选用了三个指标(1)高校以上文化程度的人口占全部人)高校以上文化程度的人口占全部人口的比例(口的比例(X1);(;(2)初中文化程度的人口占全部人口的比)初中文化程度的人口占全部人口的比例(例(X2);(;(3)文盲半文盲的人口占全部人口的比例()文盲半文盲的人口占全部人口的比例(X3)。用它们分别来反映较高、中等、较低文化程度人口的状况,用它们分别来反映较高、中等、较低文化程度人口的状况,原始数据如下:原始数据如下:1990年全国人口普查文化程度人口比例()1990年全国人口普查文化程度人口比例()1990年全国人口普查文化程度人口比例()首先计算样品之间的相像系数,运用最长距离法、重心法和Ward法,分别计算,并画出聚类图(从略),聚类结果为:第一类:北京、天津、山西、辽宁、吉林、黑龙江、上海。其中大部分是东部经济、文化较发达的地区。其次类:安徽、宁夏、青海、甘肃、云南、贵州。其中大部分是西部经济、文化发展较慢的地区。第三类:西藏。经济、文化发展落后的地区。第四类:其它省、市。经济、文化发展处于全国中等水平。分析分析 四、系统聚类法的性质 单调性:设Dk是系统聚类法中的第k次并类时的距离,假如D1D2D3,则称并类距离具有单调性。可以证明最短距离法、最长距离法、类平均法、离差平方和法、可变法和可变类平均法都具有单调性,而中间距离法、重心法不具有单调性。这种单调性符合系统聚类法的思想,先合并较相近的类,然后合并较疏远的类。空间的浓缩与扩张 通过前面的例题可以看出,对于同一问题接受不同聚类法作图 时,横坐标的范围可相差很大。与类平均法相比最短距离法与重心法 比较浓缩;最长距离法、离差平方和法、可变类平均比较扩张;类平 均法比较适中。太浓缩的方法不够敏捷,太扩张的方法可能因灵敏度过高而简洁 失真。类平均法比较适中。它既不太浓缩,也不太扩张。相对而言它 被认为是一种比较志向的方法。第四节第四节 K K均值聚类均值聚类(快速聚类)(快速聚类)n一、思想一、思想n二、原理二、原理n三、凝合点的选择三、凝合点的选择n四、四、R R型聚类型聚类n五、确定类的个数五、确定类的个数n六、各种聚类方法的比较六、各种聚类方法的比较n七、聚类的应用七、聚类的应用n小结小结 一、思想一、思想 当当样样本本点点数数量量特特别别浩浩大大时时,则则用用系系统统聚聚类类是是一一件件特特别别繁繁重重的的工工作作,且且聚聚类类的的计计算算速速度度也也比比较较慢慢。作作出出的的树树状状图图也也特特别别困困难难,不不便便于于分分析析。比比如如在在市市场场抽抽样样调调查查中中,有有4万万人人就就其其对对衣衣着着的的偏偏好好作作了了回回答答,希希望望能能快快速速将将他他们们分分为为几几类类。这这时时,接接受受系系统统聚聚类类法法就就很很困困难难,因因此此人人们们提提出出能能否否先先给给出出一一个个初初始始的的分分类类(初初始始分分类类不不确确定定完完全全合合理理),然然后后依依据据某某种种原则进行修改,直至分类达到合理为止。原则进行修改,直至分类达到合理为止。假假如如选选择择了了N个个数数值值型型变变量量参参与与聚聚类类分分析析,最最终终要要求求聚聚类类数数K,那那么么可可以以由由系系统统首首先先选选择择K个个观观测测量作为聚类的种子,也称初始类中心、凝合点。量作为聚类的种子,也称初始类中心、凝合点。二、原理二、原理(1)依据确定的原则,选择k个初始凝合点(2)依据欧氏距离将每个样品归类。将每个样品归入凝合点离它最近的那个类。(3)各类的重心代替初始凝合点(4)重复第(2)、(3)步直至分类达到稳定。即不能再安排为止。三、凝合点的选择1、阅历选择 依据对分类问题的了解,依据阅历将分类问题预先确定一个分类数或初始分类,并在每类中选一个有代表性的样品点作为凝合点。2、运用系统聚类的结果作为参考(以一部分样品为对象进行聚类,结果作为K均值法确定类数的参考与系统聚类比较:都是以距离的远近亲蔬为标准进行聚类的系统聚类对不同的类数产生一系列聚类结果,而快速聚类法只能产生指定类数的聚类结果。具体类数的确定,离不开实践阅历的积累。该方法的优点就是计算量小,速度快;缺点是最终结果受初始凝合点的选择影响。n例:设有5个样品(1,2,6,8,11),试用动态聚类法进行聚类,且指定k2。步骤为:(1)我们随意将这些样品分成以下两类。四、R型聚类法(指标聚类、变量聚类)对变量聚类,是一种降维的方法。用于在变量众多时找寻有代表性的变量,以便当用少量、有代表性的变量代替大变量时损失信息最少。对指标聚类时,常接受相像系数,相像系数大或距离小则表示类间关系亲密。利用几种聚类方法获得的结果是相同的,但一般状况下,结果不完全相同。哪一种方法效果好呢?这就须要提出一个标准作为衡量的依据,但至今还没有一个统一的标准。在实际应用中,一般接受以下两种方法:一种是依据分类问题本身的专业学问结合实际须要来选择分类方法,并确定分类个数。另一种是用多种分类方法去作,把结果中的共性取出来,假如几种方法的某些结果都一样,则说明这样的聚类的确反映了事物的本质,而将有争议的样品暂放在一边或用其它方法进行归类。计算每类中相关指数的平均值,其中较大者就是该类的代表性指标。计算公式:代表性指标的选择例如:若体重、胸围、大腿围是探讨胖瘦一类中的三个指标,其相关系数如下表:计算体重对胸围及大腿围的指标为:(0.8223)2+(0.7403)2/(3-1)=0.6121计算胸围对体重及大腿围的指标为(0.8223)2+(0.6413)2/(3-1)=0.5445计算大腿围对体重及胸围的指标(0.6413)2+(0.7403)2/(3-1)=0.4331 因此用体重作为探讨胖瘦这一类代表性指标。它与实际状况是相符的。五、确定类的个数五、确定类的个数 1、给定阈值通过观测聚类图,给出一个合适的阈值t。要求类与类之间的距离不要超过T值。例如我们给定t=0.35,当聚类时,类间的距离已经超过了0.35,则聚类结束。总离差平方和的分解(准备学问)2、统计量可以证明:总离差平方和组内离差平方和组间离差平方和 比较大,说明分G个类时类内的离差平方和比较小,也就是说分G类是合适的。但是,分类越多,每个类的类内的离差平方和就越小,也就越大;所以我们只能取合适的G,使得 足够大,而G本身很小,随着G的增加,的增幅不大。比如,假定分4类时,=0.8;下一次合并分三类时,下降了很多,=0.32,则分4 类是合适的。(PG为分为G类的组内离差平方和。)伪F统计量用于评价聚为G类的效果。假如聚类的效果好,类间的离差平方和相对于类内的离差平方和大,所以应当取伪F统计量较大而类数较小的聚类水平。3、伪F统计量的定义为PseudoFStatistic0102030405060708090100110120NumberofClusters12345678910111213141516171819其中 分别是的类内离差平方和,是将K和L合并为第M类的离差平方和 为合并导致的类内离差平方和的增量。用它评价合并第K和L类的效果,伪 统计量大说明不应当合并这两类,应当取合并前的水平。4、伪 统计量的定义为聚类方法很多:除介绍的系统聚类法、动态聚类法外,还有有序样品聚类法、模糊聚类法、灰色聚类法等等。为了便于大家运用这些方法,这里简洁介绍一下这些方法的所能解决的哪类问题。系统聚类法,被分的样品是相互独立的,分类时彼此是同等的。动态聚类它是先粗糙的进行预分类,然后再逐步调整,直到满足为止。六六 各种聚类方法的比较各种聚类方法的比较(1 1)有序样品聚类法要求样品依据确定的依次排列的,分类时是有序样品聚类法要求样品依据确定的依次排列的,分类时是不能打乱次序的,即同一类样品是必需相互邻接的。比如要不能打乱次序的,即同一类样品是必需相互邻接的。比如要