管理决策模型与方法-聚类分析.ppt
管理决策模型与方法管理决策模型与方法(聚类分析部分聚类分析部分)(适用于信息管理与信息系统、工商管理专业适用于信息管理与信息系统、工商管理专业30H)主讲教师:屈春艳主讲教师:屈春艳工商管理学院信息管理教研室第三章第三章 聚类分析聚类分析 聚聚类类分分析析,亦亦称称群群分分析析或或点点群群分分析析,它它是是研研究究对对样样品品或或指指标标进进行行分分类类的的一一种种多多元元统统计计分分析析方方法法(它它是是研研究究多多要要素素事事物物分分类类问问题题的的数数量量方方法法)。所所谓谓的的类类通通俗俗地地说说就就是是相相似似元元素素的的集合。集合。什么是分类?什么是分类?分分类类是是将将一一个个观观测测对对象象指指定定到到某某一一类类(组组)。工商管理学院信息管理教研室 分类的问题可以分成两种:分类的问题可以分成两种:一一种种是是对对当当前前所所研研究究的的问问题题已已知知它它的的类类别别数数目目,且且知知道道各各类类的的特特征征(如如分分布布规规律律、或或知知道道来来自自各各类类的的训训练练样样本本),我我们们的的目目的的是是要要将将另另一一些些未未知知类类别别的的个个体体正正确确归归属属于于其其中中某某一类,这是判别分析所要解决的问题。一类,这是判别分析所要解决的问题。另另一一种种是是事事先先不不知知道道研研究究问问题题应应分分成成几几类类,更更不不知知道道观观测测的的个个体体的的具具体体分分类类情情况况,我我们们的的目目的的正正是是需需要要通通过过对对观观测测数数据据所所进进行行的的分分析析处处理理,选选定定一一种种度度量量个个体体接接近近程程度度的的统计量、确定分类数目、建立一种分类方法,统计量、确定分类数目、建立一种分类方法,工商管理学院信息管理教研室 并并按按亲亲近近程程度度对对观观测测对对象象给给出出合合理理的的分分类类。这这种种问问题题在在实实际际中中大大量量存存在在,它它正正是是聚聚类类分分析所要解决的问题。析所要解决的问题。工商管理学院信息管理教研室第一节第一节 聚类分析的方法聚类分析的方法 聚聚类类分分析析的的职职能能是是建建立立一一种种分分类类方方法法,其其基基本本原原理理是是,根根据据样样品品(本本)自自身身的的属属性性,用用数数学学方方法法按按照照某某些些相相似似性性或或差差异异性性指指标标,定定量量地地确确定定样样本本之之间间的的亲亲疏疏关关系系,并并按按这这种种亲疏关系程度对样本进行聚类。亲疏关系程度对样本进行聚类。工商管理学院信息管理教研室聚类分析的方法聚类分析的方法 聚聚类类分分析析的的内内容容十十分分丰丰富富,按按其其聚聚类类的的方方法可分为以下几种:法可分为以下几种:1 1、系系统统聚聚类类法法:开开始始每每个个对对象象自自成成一一类类,然然后后每每次次将将最最相相似似的的两两类类合合并并,合合并并后后重重新新计计算算新新类类与与其其它它类类的的距距离离或或相相近近性性测测度度。这这一过程一直继续直到所有对象归为一类为止。一过程一直继续直到所有对象归为一类为止。2、调调优优法法(动动态态聚聚类类法法):首首选选对对n个个对对象象初初步步分分类类,然然后后根根据据分分类类的的损损失失函函数数尽尽可可能能小小的的原原则则对对分分类类进进行行调调整整,直直到到分分类类合合理理为止。为止。工商管理学院信息管理教研室聚类分析的方法聚类分析的方法 3 3、最最优优分分割割法法(有有序序样样品品聚聚类类法法):开开始始将将所所有有样样品品看看成成一一类类,然然后后根根据据某某种种最最优优准准则则将将它它们们分分割割为为二二类类、三三类类,一一直直分分割割到到所所需需的的k k类类为为止止。这这种种方方法法适适用用于于有有序序样样品品的的分分类问题,也称为有序样品的聚类法。类问题,也称为有序样品的聚类法。4、模模糊糊聚聚类类法法:利利用用模模糊糊集集理理论论来来处处理理分分类类问问题题,它它对对经经济济领领域域中中具具有有模模糊糊特特征征的的两态数据或多态数据具有明显的分类效果。两态数据或多态数据具有明显的分类效果。工商管理学院信息管理教研室聚类分析的方法聚类分析的方法 5、图论聚类法:利用图论中最小支撑树的概念来处理分类问题,创造了独具风格的方法。6、聚类预报法:利用聚类方法处理预报问题,在多元统计分析中,可用来做预报的方法很多,如回归分析和判断分析。但对一些异常数据,如气象中的灾害性天气的预报,回归或判断分析处理的效果都不好,而聚类预报弥补了这一不足,这是一个值得重视的方法。工商管理学院信息管理教研室R R型聚类分析型聚类分析 聚类分析根据分类对象的不同分为R型和Q型在大类。R型是对变量(指标)进行分类处理,R型聚类分析的目的有以下方面:(1)可以了解变量间及变量组合间的亲疏关系;(2)对变量进行分类;(3)根据分类结果及它们之间的关系,在每一类中选择有代表性的变量作为重要变量,利用少数几个重要变量进一步作分析计算,如进行回归分析或Q型聚类分析等。工商管理学院信息管理教研室Q Q型聚类分析型聚类分析 Q Q型型是是对对样样品品进进行行分分类类处处理理。Q Q型型聚聚类类分分析析的的目目的的主主要要是是对对样样品品进进行行分分类类。分分类类的的结结果果是是直直观观的的,且且比比传传统统分分类类方方法法更更细细致致、全全面、合理。面、合理。当当然然使使用用不不同同的的分分类类方方法法通通常常会会得得到到不不同同的的分分类类结结果果。对对任任何何观观测测数数据据都都没没有有惟惟一一“正正确确的的”的的分分类类方方法法。实实际际应应用用中中,常常采采用用不不同同的的分分类类方方法法,对对数数据据进进行行分分析析计计算算,以以便便对对分分类类提提供供意意见见,并并由由实实际际工工作作者者决决定定所需要的分类数及分类情况。所需要的分类数及分类情况。工商管理学院信息管理教研室第二节第二节 聚类要素的数据处理聚类要素的数据处理 为了对样品为了对样品(或变量或变量)进行分类,就必须进行分类,就必须研究它们之间的关系。描述样品间亲疏相似研究它们之间的关系。描述样品间亲疏相似程度的统计量很多,目前用得最多的是距离程度的统计量很多,目前用得最多的是距离和相似系数,这两个统计量与变量的类型密和相似系数,这两个统计量与变量的类型密切相关,为此我们首选分析一下变量的类型。切相关,为此我们首选分析一下变量的类型。工商管理学院信息管理教研室一、变量的类型一、变量的类型 根根据据变变量量取取值值的的不不同同可可将将变变量量分分为为以以下下几几种:种:1 1、名名义义变变量量:变变量量值值是是几几个个没没有有次次序序之之分分的的不不同同状状态态,它它给给变变量量值值赋赋予予名名称称。例例如如,性性别别、汽汽车车品品牌牌、职职业业、血血型型、是是否否患患病病、喜爱的颜色等等都是名义变量。喜爱的颜色等等都是名义变量。2 2、有有序序变变量量:变变量量值值是是严严格格有有次次序序的的不不同同状状态态。例例如如产产品品按按质质量量分分为为:不不好好、一一般般、好、很好。文化程度分为高、中、低等。好、很好。文化程度分为高、中、低等。工商管理学院信息管理教研室一、变量的类型一、变量的类型3、区区间间变变量量(或或间间隔隔变变量量):区区间间变变量量是是有有顺顺序序大大小小的的数数值值变变量量,且且数数值值间间的的差差值值是是有有意意义义的的。例例如如考考虑虑温温度度,40度度比比10度度热热30度度,而而40度度和和10度度是是相相对对于于人人们们取取定定的的0度度而而言言的的。这这类类变变量量对对减减法法:两两值值之之差差是是意意义义的的;但对两值的比率是没有意义的。但对两值的比率是没有意义的。4 4、比比率率变变量量(比比例例变变量量):比比率率变变量量也也是是数数值值变变量量,不不仅仅数数值值之之差差有有意意义义,而而且且要要求求有绝对的零点,两数值的比率也是很重要。有绝对的零点,两数值的比率也是很重要。工商管理学院信息管理教研室 上上述述四四类类变变量量中中,名名义义变变量量和和有有序序变变量量也也称称为为属属性性变变量量(或或定定性性变变量量),有有时时也也称称为为离离散散变变量量;而而区区间间变变量量和和比比率率变变量量称称为为定定量量变变量量,有时也称为连续变量。有时也称为连续变量。不不同同类类型型的的变变量量在在定定义义距距离离或或相相似似性性质质测测度度时时有有很很大大差差异异。本本章章主主要要讨讨论论定定量量数数据据的聚类分析问题。的聚类分析问题。工商管理学院信息管理教研室二、聚类要素的数据处理二、聚类要素的数据处理 在在聚聚类类分分析析中中,聚聚类类要要素素的的选选择择是是十十分分重重要要的的,它它直直接接影影响响分分类类结结果果的的准准确确性性和和可可靠靠性性。在在分分类类研研究究中中,被被聚聚类类的的对对象象常常常常是是多多个个要要素素构构成成的的。不不同同要要素素的的数数据据往往往往具具有有不不同同的的单单位位和和量量纲纲,因因而而其其数数值值的的差差异异可可能能是是很很大大的的,这这就就会会对对分分类类结结果果产产生生影影响响。因因此此当当分分类类要要素素的的对对象象确确定定之之后后,在在进进行行聚聚类类分析之前,还要对聚类要素进行数据处理。分析之前,还要对聚类要素进行数据处理。假假设设有有m个个被被聚聚类类的的对对象象(样样品品),每每一一个个被被聚聚类类对对象象(样样品品)都都有有X1,X2,Xn个个要要素素(指指标标或或变变量量)构成。它们所对应的要素数据可用表构成。它们所对应的要素数据可用表3131给出。给出。工商管理学院信息管理教研室表表31观测数据及特征值观测数据及特征值 变量变量样品样品X1XjXnX(1)x11x1jx1n X(i)xi1xijxin X(m)xm1xmjxmn均均 值值标准差标准差s1sjsn工商管理学院信息管理教研室表3-1中 均值工商管理学院信息管理教研室标准差1 1、中心化变换、中心化变换(标准化标准化)分别求出各聚类要素所对应的均值,以各要素的数据减去相应要素的均值,即工商管理学院信息管理教研室 中心化变换是一种标准化处理方法,变换后数据的均值为0,而协差不变,即协差阵为 其中 工商管理学院信息管理教研室 中心化变换是一种方便地计算样本协差阵的变换。2 2、总和标准化变换、总和标准化变换 分别求出各聚类要素所对应的数据的总和,以各要素的数据除以该要素数据的总和,即工商管理学院信息管理教研室 这种标准化方法所得的新数据 工商管理学院信息管理教研室满足3 3、标准差的标准化、标准差的标准化(标准化变换标准化变换)即 工商管理学院信息管理教研室 这种标准化方法所得的新数据 各要素的平均值为0,标准差为1,即有 而且标准化后的数据 与变量的量纲无关。4 4、极大、极大值标值标准化准化(变换变换)即工商管理学院信息管理教研室 经经过过这这种种标标准准化化所所得得的的新新数数据据,各各要要素素的极大值为的极大值为1 1,其余各数值小于,其余各数值小于1 1。5 5、极差正、极差正规规化化变换变换(规规格化格化变换变换)即工商管理学院信息管理教研室 经过这种标准化所得的新数据,各要素的极大值为1,极小值为0;极差为1,其余的数值均在0与1之间。数据是无量纲的量。举例举例 表表3-23-2给给出出了了某某地地区区九九个个农农业业区区的的七七项项经经济济指指标标,其其极极差差正正规规化化变变换换处处理理后后的的数数据据如如表表3-33-3所示。所示。工商管理学院信息管理教研室表表32 32 某地区九个农业区的七项经济指标数据某地区九个农业区的七项经济指标数据 工商管理学院信息管理教研室区代号区代号指指 标标人均耕地人均耕地x x1 1(亩亩/人人)劳均耕地劳均耕地x x2 2(亩亩/个个)水田比重水田比重x x3 3(%)(%)复种指数复种指数x x4 4(%)(%)粮食亩产粮食亩产x x5 5(kg/(kg/亩亩)人均粮食人均粮食x x6 6(kg/(kg/人人)稻谷占粮食稻谷占粮食比重比重x x7 7(%)(%)G14.414.4116.4016.405.635.63 113.60113.60 300.70300.701036.401036.4012.2012.20G24.724.7214.5714.570.390.3995.1095.10 184.90184.90 683.70683.700.850.85G31.841.844.474.475.285.28 148.50148.50 462.30462.30 611.10611.106.496.49G42.692.697.917.910.390.39 111.00111.00 297.20297.20 632.60632.600.920.92G51.221.223.183.1872.0472.04 217.80217.80 816.60816.60 791.10791.1080.3880.38G61.231.233.163.1643.7843.78 179.60179.60 598.20598.20 636.50636.5048.1748.17G71.121.122.722.7265.1565.15 194.70194.70 712.60712.60 634.30634.3080.1780.17G84.404.409.999.995.355.3594.9094.90 245.30245.30 771.70771.707.807.80G92.502.506.216.212.902.9094.8094.80 282.10282.10 574.60574.601.171.17表表33 33 极差正极差正规规化化变换处变换处理后的数据理后的数据 工商管理学院信息管理教研室区代号区代号指指 标标x1x2x3x4x5x6x7G10.910.911.001.000.070.070.150.150.180.181.001.000.140.14G21.001.000.870.870.000.000.000.000.000.000.240.240.000.00G30.200.200.150.150.070.070.440.440.440.440.080.080.070.07G40.440.440.380.380.000.000.130.130.180.180.130.130.000.00G50.030.030.030.031.001.001.001.001.001.000.450.451.001.00G60.030.030.030.030.610.610.690.690.650.650.130.130.590.59G70.000.000.000.000.900.900.810.810.840.840.130.131.001.00G80.910.910.530.530.070.070.000.000.100.100.430.430.090.09G90.380.380.260.260.040.040.000.000.150.150.000.000.000.006 6、极差、极差标标准化准化变换变换 即工商管理学院信息管理教研室 极差标准化变换变换后的数据,每个变量的样本均值为0,极差为1,且,在 以后的分析计算中可以减少误差的产生;同时变化后的数据也是无量纲的量。7 7、对对数数变换变换 即即工商管理学院信息管理教研室 对对数数变变换换可可将将具具有有指指数数特特征征的的数数据据结结构化构化为线为线性数据性数据结结构。构。此此外外,还还有有平平方方根根变变换换,立立方方根根变变换换等等。它它们们的的主主要要作作用用是是把把非非线线性性数数据据结结构构变变为为线线性数据性数据结结构,以适构,以适应应某些某些统计统计方法的需要。方法的需要。第三节第三节 (样品间的样品间的)距离和相似系数的计算距离和相似系数的计算 距离距离是事物是事物(样品样品)之间差异性的测度,之间差异性的测度,而而相似系数相似系数则是其相似性的测度,所以距离则是其相似性的测度,所以距离和相似系数是聚类分析的依据和基础。和相似系数是聚类分析的依据和基础。当聚类要素的数据处理工作完成以后,当聚类要素的数据处理工作完成以后,就要计算分类对象就要计算分类对象(样品样品)之间的距离或相似之间的距离或相似系数,并依据距离或相似系数的矩阵结构进系数,并依据距离或相似系数的矩阵结构进行聚类。行聚类。工商管理学院信息管理教研室一、距离的计算一、距离的计算设观测数据 工商管理学院信息管理教研室 列列成成表表31的的形形式式。如如果果我我们们把把每每一一个个分分类类对对象象(样样品品,共共m个个)的的n个个聚聚类类要要素素看看成成n维维空空间间的的n个个坐坐标标轴轴,则则每每一一个个分分类类对对象象的的n个个要要素素所所构构成成的的n维维数数据据向向量量就就是是n维维空空间间中中的的一一个个点点(即即m个个样样品品看看成成n维维空空间间中中的的m个个点点)。这这样样,各各分分类类对对象象之之间间的的差差异异性性就就可可以以由由它它们所对应的们所对应的n维空间中点之间的距离度量。维空间中点之间的距离度量。关于距离的说明:关于距离的说明:用 工商管理学院信息管理教研室表示样品 和 之间的距离,一般要求:(1)0,对于一切i,j;当=0时=;(2),对于一切i,j;(3),对于一切i,j,k(三角不等式).对于定量变量,常用的距离有:1 1、绝对值距离、绝对值距离 工商管理学院信息管理教研室2 2、欧氏距离、欧氏距离 工商管理学院信息管理教研室3 3、明科夫斯基、明科夫斯基(MinkowskiMinkowski)距离距离 工商管理学院信息管理教研室4 4、切比雪夫距离、切比雪夫距离 工商管理学院信息管理教研室 当明科夫斯基距离p时,有 5 5、兰兰氏距离氏距离 工商管理学院信息管理教研室 这是由Lance和Williams最早提出的,故称为兰氏距离兰氏距离,定义为 这这是是一一个个无无量量纲纲的的量量,克克服服了了明明氏氏距距离离与与各各指指标标的的量量纲纲有有关关的的缺缺点点,且且兰兰氏氏距距离离对对在在的的奇奇异异值值不不敏敏感感,这这样样使使得得它它特特别别适适合合高高度度偏偏倚倚的的数数据据。但但兰兰氏氏距距离离也也没没有有考考虑虑变变量量间间的相关性。的相关性。明明氏氏距距离离和和兰兰氏氏距距离离都都是是假假定定变变量量之之间间相相互互独独立立,即即在在正正交交空空间间中中讨讨论论距距离离,但但在在实实际际问问题题中中,变变量量之之间间往往往往存存在在着着一一定定的的相相关关性性,为为克克服服变变量量之之间间相相关关性性的的影影响响,可可以以采用采用马氏距离马氏距离。工商管理学院信息管理教研室6 6、马马氏距离氏距离 工商管理学院信息管理教研室样样品品 和 的马氏距离为的马氏距离为其中其中S S-1-1为样为样本本协协差差阵阵的逆矩的逆矩阵阵。马马氏氏距距离离虽虽然然可可以以排排除除变变量量之之间间相相关关性性的的干干扰扰,并并且且不不受受量量纲纲的的影影响响,但但是是在在聚聚类类分分析析处处理理之之前前,如如果果用用全全部部数数据据计计算算均均值值和和协协差差阵阵来来求求马马氏氏距距离离,效效果果不不是是很很好好。比比较较合合理理的的办办法法是是用用各各个个类类的的样样本本来来计计算算各各自自的的协协差差阵阵,同同一一类类样样品品间间的的马马氏氏距距离离应应当当用用这这一一类类的的协协差差阵阵来来计计算算,但但类类的的形形成成需需要要依依赖赖于于样样品品间间的的距距离离,而而样样品品间间合合理理的的马马氏氏距距离离又又依依赖赖于于类类,这这就就形形成成了了一一个个恶恶性性循循环环,因因此此在在实实际际聚聚类类分分析析中中,马马氏氏距距离离也也不不是是理理想想的的距离。距离。为为了了克克服服变变量量之之间间相相关关性性的的影影响响,可可采采用用斜交空间距离斜交空间距离。工商管理学院信息管理教研室7 7、斜交空、斜交空间间距离距离 工商管理学院信息管理教研室 由由于于变变量量之之间间存存在在着着不不同同程程度度的的相相关关关关系系,在在这这种种情情况况下下,用用正正交交空空间间距距离离来来计计算算样样品品间间的的距距离离,易易产产生生形形变变,从从而而使使得得用用聚聚类类分分析进行分类时的谱系结构发生变形。析进行分类时的谱系结构发生变形。在在n n维维空空间间中中,为为使使具具有有相相关关性性变变量量的的谱谱系系结结构构不不发发生生变变形形,采采用用斜斜交交空空间间距距离离,即即令令在数据标准化处理下,工商管理学院信息管理教研室为变量和 之间的相关系数。举例举例 据表33中的数据,计算九个农业区之间的绝对值距离矩阵如下:工商管理学院信息管理教研室二、相似系数的计算二、相似系数的计算 样品间的亲疏程度除了用距离描述外,也可用相似系数来表示。常用的相似系数是夹夹角余弦角余弦和相关系数相关系数。工商管理学院信息管理教研室1 1、夹角余弦、夹角余弦工商管理学院信息管理教研室样样品品 的的n n个观测值个观测值 看成看成n n维空间的向量,则维空间的向量,则和和 的夹角的夹角 的余弦称为两向量的相似系数,即的余弦称为两向量的相似系数,即 工商管理学院信息管理教研室时,夹角在上式中,显然有:-1=1,说明两个样和正交时,1。当=0,品完全相似;当=0,说明两个样品不相似。=90,2 2、相关系数、相关系数 工商管理学院信息管理教研室和表示,相关系数就是对数据作标准化处理后的夹角余弦。样品的相关系数亦用即工商管理学院信息管理教研室和。在上式中,和分别为聚类对象(样品)各要素标准化数据的平均值。当 时,=1,表示两个样品线性相关,一般情况下举例举例 据表33中的数据,用夹角余弦公式计算,可得如下的相似系数矩阵:工商管理学院信息管理教研室三、变量间相似系数和距离的计算三、变量间相似系数和距离的计算(略略)聚聚类类分分析析方方法法不不仅仅用用来来对对样样品品进进行行分分类类,有有时时需需要要对对变变量量进进行行分分类类。在在对对变变量量进进行行分分类类时时,通通常常采采用用相相似似系系数数来来表表示示变变量量之之间间的的亲疏程度。亲疏程度。这这部部分分内内容容感感兴兴趣趣的的同同学学可可参参见见指指定定的的参考书或其它相关书籍。参考书或其它相关书籍。工商管理学院信息管理教研室第四节第四节 系统聚类法系统聚类法 系统聚类法是目前在实际应用中使用最系统聚类法是目前在实际应用中使用最多的一类方法。它是将类由多变到少的一种多的一类方法。它是将类由多变到少的一种方法。方法。本节本节m个样品的聚类问题。观测数据记个样品的聚类问题。观测数据记为表为表31的形式,的形式,m个个n维的样品记为:维的样品记为:工商管理学院信息管理教研室一、系统聚类法的基本思想和基本步骤一、系统聚类法的基本思想和基本步骤 设设有有m个个样样品品,每每个个样样品品测测得得n项项指指标标。系系统统聚聚类类方方法法的的基基本本思思想想是是:首首先先定定义义样样品品间间的的距距离离(或或相相似似系系数数)和和类类与与类类之之间间的的距距离离,一一开开始始将将m个个样样品品各各自自自自成成一一类类,这这里里类类间间的的距距离离与与样样品品间间的的距距离离是是等等价价的的;然然后后将将距距离离最最近近的的两两类类合合并并,并并计计算算新新类类与与其其它它类类的的类类间间距距离离,再再按按最最小小距距离离准准则则并并类类。这这样样每每次次缩缩小小一一类类,直直到到所所有有的的样样品品都都并并成成一一类类为为止止。这这个个并并类类过过程程可可以以用用谱谱系系聚聚类类图图形形象象地地表达出来。表达出来。工商管理学院信息管理教研室系统聚类法它的基本步骤系统聚类法它的基本步骤 数数据据变变换换:可可以以使使用用上上节节介介绍绍的的方方法法对对数数据据进进行行变变换换。数数据据变变换换的的目目的的是是为为了了便便于于比较、计算上的方便或改变数据的结构。比较、计算上的方便或改变数据的结构。选选择择度度量量样样品品间间距距离离的的定定义义(如如欧欧氏氏距距离离)及及度度量量类类间间距距离离的的定定义义(如如最最短短距距离离法法,参参见下面见下面“系统聚类分析的方法系统聚类分析的方法”)。)。计算计算m个样品两两间的距离,得样品间个样品两两间的距离,得样品间工商管理学院信息管理教研室的距离矩阵的距离矩阵;系统聚类法它的基本步骤系统聚类法它的基本步骤(续续)一一开开始始(第第一一步步:)m个个样样品品各各自自构构成一类,类的个数成一类,类的个数k=m个类:个类:工商管理学院信息管理教研室 此此时类间时类间的距离就是的距离就是样样品品间间的距离的距离,即即然后然后对对步步骤骤 执执行并行并类过类过程的步程的步骤骤和和;系统聚类法它的基本步骤系统聚类法它的基本步骤(续续)每每次次合合并并类类间间距距离离最最小小的的两两类类为为一一新新类。此时类的总个数类。此时类的总个数k k减少减少1 1类,即类,即工商管理学院信息管理教研室 计计算新算新类类与其它与其它类类的距离,得新的距的距离,得新的距离矩离矩阵阵。若合并后。若合并后类类的的总总个数个数k仍大于仍大于1 1,重复,重复和和步;直到步;直到类类的的总总个数个数为为1 1时时止。止。画画谱谱系聚系聚类图类图;决定分决定分类类个数及个数及类类的成的成员员。例例 设设有有5 5个个产产品品,每每个个产产品品测测得得一一项项指指标标X,其其值值如如下下:1,21,2,4.54.5,6,86,8。试试对对5 5个个产产品品按按此指标进行分类。此指标进行分类。解解:设设样样品品间间的的距距离离取取为为欧欧氏氏距距离离,类类间间的的距距离离取取为为类类间间的的最最短短距距离离,根根据据上上面面介介绍的步骤,计算如下:绍的步骤,计算如下:工商管理学院信息管理教研室计算5个样品:两两两两间间的距离,得初始的的距离,得初始的类间类间距离矩距离矩阵为阵为:一开始m个样品各自构成一类,得5个类:工商管理学院信息管理教研室即类的个数k=5。工商管理学院信息管理教研室可知,首先合并类的总个数k减少1类,变为k=4,故把此步得到和为一新类,记为;此时的新类记为CL4。由 按最短距离法按最短距离法计计算新算新类类CL4与其他与其他类类的距的距离,得新的距离矩离,得新的距离矩阵阵:工商管理学院信息管理教研室01.5 3.5 2.5 0 2 4 0 6 0:因此因此时类时类的的总总个数个数k=4大于大于1类类,重复并,重复并类过类过程。程。工商管理学院信息管理教研室此时类的总个数k减少1类,变为k3,故把此步得到的新类记为CL3。由可知类间距离为1.5时最小,故合并和为一新类,记为:按最短距离法计算新类CL3与其他类的距离,得新的距离矩阵:工商管理学院信息管理教研室因此时类的总个数k=3大于1,重复并类过程。:06202.50工商管理学院信息管理教研室此时类的总个数k减少1类,变为k=2,故把此步得到的新类记为CL2。由可知,应合并和为一新类,记为;按最短距离法计算新类CL2与其他类的距离,得到的新的距离矩阵:0 02.52.5 0 0因此时类的总个数k=2大于1类,重复并类过程。工商管理学院信息管理教研室由可知,最后应合并和为一新类,记为;此时类的总个数k=1,故把此步得到的新类记为CL1。0 0此时所有样品全并成一类,得新的距离矩阵:并类过程至此结束。画谱系聚类图画谱系聚类图 工商管理学院信息管理教研室11谱系聚类图0 1 1.5 2 2.5 3CL4CL3CL2CL1确定类的个数及各类的成员工商管理学院信息管理教研室12若分为两类,则;,若分为三类,则;,确定类的个数及各类的成员工商管理学院信息管理教研室12若分为四类,则若分为五类,则,;,谱系聚类图的使用目的谱系聚类图的使用目的 有有了了谱谱系系聚聚类类图图,用用户户希希望望分分为为几几类类,都可以从谱系聚类图中得到分类结果。都可以从谱系聚类图中得到分类结果。到到底底分分为为几几类类最最合合适适?这这里里并并没没有有绝绝对对正正确确的的原原则则,一一般般可可根根据据实实际际问问题题的的不不同同,从从谱谱系系聚聚类类图图直直观观看看出出,通通过过分分界界值值(阈阈值值)给给出出分分类类,也也可可以以用用近近似似的的统统计计检检验验来来验验证证分分类类个个数数如如何何选选取取更更合合适适(后后面面将将有有较较详详细细叙叙述述)。工商管理学院信息管理教研室二、系统聚类分析的方法二、系统聚类分析的方法 系系统统聚聚类类法法的的聚聚类类原原则则决决定定于于样样品品间间的的距距离离(或或相相似似系系数数)及及类类间间距距离离的的定定义义,类类间间距距离离的的不不同同定定义义就就产产生生了了不不同同的的系系统统聚聚类类分分析析方方法法。下下面面介介绍绍常常用用的的几几种种系系统统聚聚类类分分析析方方法。法。工商管理学院信息管理教研室间的距离。以下用表示样品和之间的距离,当样品间的亲疏关系采用相似系数时,令;用表示类和1 1、最短距离法、最短距离法(SINgleSINgle linkage)linkage)最短距离法是将类与类之间的距离定义为工商管理学院信息管理教研室两类中最近样品之间的距离,即类之间的距离定义为和工商管理学院信息管理教研室当某步类和合并为后,按最短距离法计算新类与其它类的类间距离,递推公式为工商管理学院信息管理教研室 以下,我们以某地区九个农业区的七项经济指标所形成的距离矩阵,用最短距离聚类法对某地区的九个农业区进行聚类分析。从原来的mm距离矩阵,得到一新类后,计算原来各类与新类之间的距离,这样就得到一个新的(m-1)阶的距离矩阵;再从新的距离矩阵中选出最小的,把和归并成新类;再计算各类与新类的距离,这样一直下去,直至各分类对象被归为一类为止。前例前例 九个农业区之间的绝对值距离矩阵如下:工商管理学院信息管理教研室 第一步,在99阶距离矩阵D中,非对角工商管理学院信息管理教研室元素中最小者是,故首先将第4区与第9区并为一类,记为,即分别按照最短距离法递推公式计算,与之间的距离得:D1,10=mind14,d19=min2.19,2.62=2.19D2,10=mind24,d29=min1.47,1.66=1.47D3,10=mind34,d39=min1.23,1.20=1.20D5,10=mind54,d59=min4.77,4.84=4.77D6,10=mind64,d69=min2.99,3.06=2.99D7,10=mind74,d79=min4.06,3.32=3.32D8,10=mind84,d89=min1.29,1.40=1.29工商管理学院信息管理教研室工商管理学院信息管理教研室这样就得到,上的一个新的88阶距离矩阵D(2):,G1G2G3G5G6G7G8G10G1 0G2 1.52 0G3 3.10 2.70 0G5 5.86 6.02 3.64 0G6 4.72 4.46 1.86 1.78 0G7 5.79 5.53 2.93 0.83 1.07 0G8 1.32 0.88 2.24 5.14 3.96 5.03 0G10 2.19 1.47 1.20 4.77 2.99 3.32 1.29 0 第二步,在上一步骤中所得到的新的88阶距离矩阵中,非对角元素中最小者为d57=0.83,故将G5与G7归并为一类,记为G11,即G11=G5,G7。再分别按照最短距离法递工商管理学院信息管理教研室推公式计算,与之间的距离,可得到一个新的77阶距离矩阵D(3):工商管理学院信息管理教研室G1G2G3G6G8G10G11G1 0 G2 1.52 0G3 3.10 2.70 0G6 4.72 4.46 1.86 0G8 1.32 0.88 2.24 3.96 0G10 2.19 1.47 1.20 2.99 1.29 0G11 5.79 5.53 2.93 1.07 5.03 3.32 0 第三步,在第二步所得到的新的77阶距离矩阵中,非对角线元素中最小者为d28=0.88,故将G2与G8归并为一类,记为G12,即G12=G2,G8。再分别按最短距离法递推公式工商管理学院信息管理教研室计算,与离,可得到一个新的66阶距离矩阵D(4):之间的距工商管理学院信息管理教研室G1G3G6G10G11G12G1 0G3 3.10 0G6 4.72 1.86 0G10 2.19 1.20 2.99 0G11 5.79 2.93 1.07 3.32 0G12 1.32 2.24 3.96 1.29 5.03 0 第四步,在第三步中所得到的新的66阶距离矩阵中,非对角线元素中最小者为为d6,11=1.07,故将G6和G11归并为一类,记为G13,即G13=G6,G11=G6,(G5,G7)。工商管理学院信息管理教研室再按照最短距离法递推公式计算,与的55阶距离矩阵D(5):之间的距离,可得到一个新工商管理学院信息管理教研室G1G3G10G12G13G1 0G3 3.10 0G10 2.19 1.20 0G12 1.32 2.24 1.29 0 G13 4.72 1.86 2.99 3.96 0 第五步,在第四步中所得到的新的55阶距离矩阵中,非对角线元素中最小者为 d3,10=1.20,故将G3和G10归并为一类,记为G14,即G14=G3,G10=G3,(G4,G9)。工商管理学院信息管理教研室再按照最短距离法递推公式计算,与阶距离矩阵D(6):之间的距离,可得到一个新的44工商管理学院信息管理教研室G1G12G13G14G1 0G12 1.32 0 G13 4.72 3.96 0G14 2.19 1.29 1.86 0 第六步,在第五步中所得到的新的44阶距离矩阵中,非对角线元素中最小者为 d12,14=1.29,故将G12和G14归并为一类,记为G15,即G15=G12,G14=(G2,G8),(G3,(G4,G9)。工商管理学院信息管理教研室再按照最短距离法递推公式计算,与离矩阵D(7):之间的距离,可得到一个新的33阶距工商管理学院信息管理教研室G1G13G15G1 0G13 4.72 0G15 1.32 1.86 0 第七步,在第六步中所得到的新的33阶距离矩阵中,非对角线元素中最小者为 d1,15=1.32,故将G1和G15归并为一类,记为G16,即G16=G1,G15=G1,(G2,G8),(G3,(G4,G9)。工商管理学院信息管理教研室再按照最短距离法递推公式计算与阵D(8):之间的距离,可得到一个新的22阶距离矩工商管理学院信息管理教研室G13G16G13 0G16 1.86 0 第八步,将G13和G16归并为一类。此时,所有分类对象均被归并为一类。综合上述聚类过程,可以做出最短距离聚类谱系图(如下图所示)。工商管理学院信息管理教研室G10谱系聚类图0 0.5 1 1.5 2G6G5G7G2G8G3G4G9G1G11G12G13G14G15G16G172 2、最长、最长(远远)距离法距离法(COMpleteCOMplete method)method)最长距离法是将类与类之间的距离定义工商管理学院信息管理教研室为两类中最远样品间的距离,即类之间的距离和定义为:工商管理学院信息管理教研室当某步类和合并为后,按最长距离法计算新类与其它类的类间距离,递推公式为 最最长长(远远)距距离离聚聚类类法法使使两两类类合合并并后后与与其其他他类类的的距距离离是是原原来来两两类类的的类类间间距距离离的的最最大大者者,它它加加大大了了合合并并后后的的类类与与其其它它类类的距离,的距离,具有空间距离扩张性质具有空间距离扩张性质。对于前述之例,最长对于前述之例,最长(远远)距离聚类距离聚类法的聚类过程如下:法的聚类过程如下:第一步,在99阶距离矩阵D中,非对角工商管理学院信息管理教研室元素中最小者是,故首先将第4区与第9区并为一类,记为,即分别按照最长距离法递推公式计算,与之间的距离得:D1,10=maxd14,d19=max2.1