第8章-聚类分析-《管理统计学》课件.ppt
第8章 聚类分析8 聚类分析8.1 基本原理和方法8.2 系统聚类法8.3 系统聚类的SPSS应用8.4 K均值聚类法8.5 K均值聚类法的SPSS应用例:对7种产品的销售情况进行检验。共有两个指标,销售额和销售量,其数值分别如下表所示。选择合适的统计方法对这些产品进行分类。现在如果将这七个产品按照销售量和销售额的大小把他们分成两类。很容易得出,产品1,2,3应该是一类的,产品4,5,6,7应该是一类的。如果将他们分成三类,则仍很易得出产品1,2,3还是一类的,产品4,5,6是一类的,产品7是自成一类的。可见对产品的分类事先是没有给定标准的,完全从给出的样本数据出发进行分类。产品1和2,3在一类是因为在销售量和销售额上的接近,与产品4,5,6,7不在一类,则是因为在销售量和销售额上比较大的差距。8.1 基本原理和方法聚类分析:采用定量数学方法,根据一批样品的聚类分析:采用定量数学方法,根据一批样品的多个观测指标,具体找出一些能够度量样品或指多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分标之间相似程度的统计量,以这些统计量为划分类型的依据类型的依据分类的基本思想:把一些相似程度较大的样品分类的基本思想:把一些相似程度较大的样品(或指标)聚合为一类,关系密切的聚合到一个(或指标)聚合为一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)聚合完毕。单位,直到把所有的样品(或指标)聚合完毕。聚类分析 例如:有例如:有例如:有例如:有p p个指标(变量),个指标(变量),个指标(变量),个指标(变量),n n个对象,依据这个对象,依据这个对象,依据这个对象,依据这n n个对象个对象个对象个对象在在在在p p个指标下的数据,对这个指标下的数据,对这个指标下的数据,对这个指标下的数据,对这n n个对象进行聚类。设数据个对象进行聚类。设数据个对象进行聚类。设数据个对象进行聚类。设数据为:为:为:为:每一个对象是每一个对象是每一个对象是每一个对象是p p维空间中的一个点维空间中的一个点维空间中的一个点维空间中的一个点 聚类问题,就是在聚类问题,就是在聚类问题,就是在聚类问题,就是在p p维空间中,对这维空间中,对这维空间中,对这维空间中,对这n n个点的聚类问题个点的聚类问题个点的聚类问题个点的聚类问题聚类分析的分类样本聚类/Q型聚类:对观测量(Case)进行聚类,不同的目的选用不同的指标作为分类的依据变量聚类/R型聚类:能够找出彼此独立且有代表性的自变量,而又不丢失大部分信息,主要是对研究对象的观测变量进行聚类,使得具有共同特征的变量作为一类度量样本之间相似程度的统计量 距离:距离:将一个样品看作将一个样品看作将一个样品看作将一个样品看作P P维空间的一个点,并在空间维空间的一个点,并在空间维空间的一个点,并在空间维空间的一个点,并在空间用某种度量测量点与点之间的距离,距离越近用某种度量测量点与点之间的距离,距离越近用某种度量测量点与点之间的距离,距离越近用某种度量测量点与点之间的距离,距离越近的点归为一类,距离较远的点归为不同的类的点归为一类,距离较远的点归为不同的类的点归为一类,距离较远的点归为不同的类的点归为一类,距离较远的点归为不同的类以以以以d dij ij表示第表示第表示第表示第i i个样本与第个样本与第个样本与第个样本与第j j个样本间的距离,需个样本间的距离,需个样本间的距离,需个样本间的距离,需要满足以下四个条件要满足以下四个条件要满足以下四个条件要满足以下四个条件 d dij ij00,对一切,对一切i i和和j j成立成立 d dij ij0 0,当且仅当,当且仅当i ij j成立成立 d dij ijd dji ji00,对一切,对一切i i和和j j成立成立 d dij ijddikikd dkjkj,对于一切对于一切i i和和j j成立成立相似系数相似系数:变量或样品的关系越密切,其性质就越接近,变量或样品的关系越密切,其性质就越接近,变量或样品的关系越密切,其性质就越接近,变量或样品的关系越密切,其性质就越接近,它们的相似系数的绝对值越接近它们的相似系数的绝对值越接近它们的相似系数的绝对值越接近它们的相似系数的绝对值越接近1 1;反之,它们;反之,它们;反之,它们;反之,它们的相似系数的绝对值越接近于零,即样品的关的相似系数的绝对值越接近于零,即样品的关的相似系数的绝对值越接近于零,即样品的关的相似系数的绝对值越接近于零,即样品的关系越疏远系越疏远系越疏远系越疏远样品之间相似系数大的样品归为一类,样品之样品之间相似系数大的样品归为一类,样品之样品之间相似系数大的样品归为一类,样品之样品之间相似系数大的样品归为一类,样品之间相似系数小的样品归为不同的类,即两点相间相似系数小的样品归为不同的类,即两点相间相似系数小的样品归为不同的类,即两点相间相似系数小的样品归为不同的类,即两点相似系数越接近似系数越接近似系数越接近似系数越接近1 1,就相当于距离越短,即相似的,就相当于距离越短,即相似的,就相当于距离越短,即相似的,就相当于距离越短,即相似的为一类,不相似的属于不同类为一类,不相似的属于不同类为一类,不相似的属于不同类为一类,不相似的属于不同类(2 2)欧氏距离平方(Squared Euclidean Distance):两样本之间的距离是两个样本在每个变量上的相应值之差的平方和。(3)切比雪夫距离:(Chebychev)两样本 之间的距离是两个样本在每个变量上的相应值之差的绝对值的最大值。(6)自定义距离(Customized):两样本x,y 之间的距离是两个样本在每个变量上的相应值之差的绝对值的p次方的总和再求q次方根。如果如果p p=2,=2,q q=2=2是欧氏距离,是欧氏距离,p p=2,=2,q q=1=1是欧式距离是欧式距离平方,平方,p p=1,=1,q q=1 1是马氏距离是马氏距离 。相似系数相似系数的计算相似系数的计算 (1 1)夹角余弦夹角余弦夹角余弦时从向量集合的角度所定义的一种测量夹角余弦时从向量集合的角度所定义的一种测量变量变量之间之间亲疏程度亲疏程度的的相似系数相似系数。它是受相似形的。它是受相似形的启发而来的,在启发而来的,在形状相似形状相似而长度不是主要矛盾时而长度不是主要矛盾时用用夹角余弦夹角余弦能反映出指标之间的关系。能反映出指标之间的关系。设在设在n n维空间的向量:维空间的向量:定义夹角余弦为:定义夹角余弦为:类间距离计算方法根据系统分类法,第一步将 n个样品看作n个类,然后合并距离最近的两类为一个种类。如何计算类与类的距离呢?用D(p,q)表示类p和类q之间的距离,常用的类间距离有以下几种:类间距离计算方法1.最短距离连接法(Nearest neighbor)用两类中所有样本对的距离的最小值作为两类的距离,合并距离最近或相关系数最大的两类。x21x12x22x11类间距离计算方法2.最长距离连接法(Furthest neighbor)用两类中所有样本对的距离的最大值作为两类的距离,合并距离最近或相关系数最大的两类。x22x12x21x11类间距离计算方法3.类间平均距离连接法(Between-groups linkage):将两个类所有的样本对(样本对的两个成员分属于不同的类)的平均距离作为两类的距离,合并距离最近或相关系数最大的两类。此方法利用了两个类中所有的样本信息。4231 类间距离计算方法4.类内平均距离连接法(Within-groups linkage)与类间平均距离连接法类似,但此时的平均距离是指对两个类中所有样本的距离求平均值包括两个类之间的样本对以及两个类内的样本对。4231 类间距离计算方法6.离差平方和法(sum of squares method)该方法是在聚类过程中,将使得类内各样本的欧氏距离总平方和增加最小的两类合并成一类。利用离差平方和法分类的效果较好,但它要求样本之间的距离必须是欧式距离。7.中位数法(median method)此方法是将两类的中位数间的距离作为两类之间的距离,优点是比较稳健。类间距离计算方法如何选择适当的方法聚类,需要依照实际问题的背景,也需要经验。从数理统计角度看,重心法和中位数法距离法不具有单调性,随机模拟的结果表明,最长距离法不具有最优化性。很多实际工作者采用最短距离法进行聚类。聚类分析的类型聚合法:聚合法:聚合法:聚合法:每个样本自成一类每个样本自成一类每个样本自成一类每个样本自成一类 计算各类之间相似程度统计量,把最相似的两类合并成一类计算各类之间相似程度统计量,把最相似的两类合并成一类计算各类之间相似程度统计量,把最相似的两类合并成一类计算各类之间相似程度统计量,把最相似的两类合并成一类 重复上步,直到所有样本归为一类重复上步,直到所有样本归为一类重复上步,直到所有样本归为一类重复上步,直到所有样本归为一类分解法分解法分解法分解法:所有样本归为一类所有样本归为一类所有样本归为一类所有样本归为一类 分为两类分为两类分为两类分为两类 重复上步,一直到每个样本归为一类或不能再细分为止重复上步,一直到每个样本归为一类或不能再细分为止重复上步,一直到每个样本归为一类或不能再细分为止重复上步,一直到每个样本归为一类或不能再细分为止调优法调优法调优法调优法:开始人为将样本初始分类开始人为将样本初始分类开始人为将样本初始分类开始人为将样本初始分类 判断该分类是否最优,如果不是则进行修改判断该分类是否最优,如果不是则进行修改判断该分类是否最优,如果不是则进行修改判断该分类是否最优,如果不是则进行修改 重复上述步骤,直到分类达到最优为止重复上述步骤,直到分类达到最优为止重复上述步骤,直到分类达到最优为止重复上述步骤,直到分类达到最优为止系统聚类方法分类(待续)(1 1)最短距离法)最短距离法(Nearest neighbor)Nearest neighbor)距离最近的样品归入一类距离最近的样品归入一类距离最近的样品归入一类距离最近的样品归入一类 计算新类和单个样品间的距离作为单个样品和类中的样品计算新类和单个样品间的距离作为单个样品和类中的样品计算新类和单个样品间的距离作为单个样品和类中的样品计算新类和单个样品间的距离作为单个样品和类中的样品间的最小距离,尚未合并的样品间的距离并未改变间的最小距离,尚未合并的样品间的距离并未改变间的最小距离,尚未合并的样品间的距离并未改变间的最小距离,尚未合并的样品间的距离并未改变 在每一步,两类之间的距离是它们两个最近点间的距离在每一步,两类之间的距离是它们两个最近点间的距离在每一步,两类之间的距离是它们两个最近点间的距离在每一步,两类之间的距离是它们两个最近点间的距离(2 2)最长距离法()最长距离法(Furthest neighborFurthest neighbor)(3 3)重心法)重心法(4 4)中位数法()中位数法(Median clusteringMedian clustering)系统聚类方法分类(续)(5)类间平均连接法(6)类内平均连接法(7)离差平方和法地区地区园地园地牧草地牧草地居民点及工居民点及工矿矿 交通用地交通用地水利水利设设施施北北 京京12.012.00.20.227.927.93.33.32.62.6天天 津津3.53.50 028.128.12.22.26.56.5河河 北北70.570.579.979.9154.5154.512.012.012.912.9山山 西西29.529.565.865.877.377.36.36.33.33.3内蒙古内蒙古7.37.36560.96560.9123.9123.916.016.09.39.3辽辽 宁宁59.659.634.934.9115.9115.99.29.214.814.8吉吉 林林11.511.5104.4104.484.284.26.76.715.615.6黑黑龙龙江江6.06.0220.8220.8116.1116.111.911.921.221.2上上 海海2.12.10 023.023.02.12.10.20.2江江 苏苏31.631.60.10.1161.0161.013.113.119.319.3浙浙 江江66.166.10 081.781.79.59.513.813.8安安 徽徽33.933.92.82.8133.4133.410.110.122.722.7福福 建建62.962.90.30.350.750.77.97.96.16.1江江 西西27.827.80.40.467.567.57.57.520.520.5山山 东东100.7100.73.43.4209.3209.316.316.325.525.5(数据来源:中国统计年鉴 2009中国统计出版社)操作及其说明Analyze Classify Hierarchical Cluster Analyze Classify Hierarchical Cluster Hierarchical Cluster AnalysisHierarchical Cluster AnalysisHierarchical Cluster Analysis从左侧选入参与聚类分析的变量 选入标签变量选择聚类类型对观测量(样本)进行聚类,对应于样本聚类对变量(指标)进行聚类,对应于变量聚类选择输出结果统计分析统计图表Hierarchical Cluster Analysis:StatisticsStatistics Hierarchical Cluster AnalysisStatistics Hierarchical Cluster Analysis:StatisticsStatistics聚集状态表各项间的距离矩阵类成员栏不显示类成员表,为系统默认值要求列出聚为一定类数的各观测量所属的类某个范围中每步各观测量所属的类Hierarchical Cluster Analysis:MethodAgglomeration schedule continue Method Hierarchical Cluster Analysis:MethodCluster Method选择的聚类方法 Between-groups linkage(Between-groups linkage(组间连接组间连接组间连接组间连接):合并两类的结果使所有的两:合并两类的结果使所有的两:合并两类的结果使所有的两:合并两类的结果使所有的两两项对之间的平均距离最小,项对的两个成员分别属于不同的类,两项对之间的平均距离最小,项对的两个成员分别属于不同的类,两项对之间的平均距离最小,项对的两个成员分别属于不同的类,两项对之间的平均距离最小,项对的两个成员分别属于不同的类,该方法中使用各对之间的距离该方法中使用各对之间的距离该方法中使用各对之间的距离该方法中使用各对之间的距离 Within-groups linkage(Within-groups linkage(组内连接组内连接组内连接组内连接):若当两类合并为一类后,合并:若当两类合并为一类后,合并:若当两类合并为一类后,合并:若当两类合并为一类后,合并后的类中的所有项之间的平均距离最小,两类间的距离即是合并后的类中的所有项之间的平均距离最小,两类间的距离即是合并后的类中的所有项之间的平均距离最小,两类间的距离即是合并后的类中的所有项之间的平均距离最小,两类间的距离即是合并后的类中所有可能的观测量对之间的距离平方后的类中所有可能的观测量对之间的距离平方后的类中所有可能的观测量对之间的距离平方后的类中所有可能的观测量对之间的距离平方 Nearest neighborNearest neighbor(最近邻法):该方法首先合并最近的或最相似(最近邻法):该方法首先合并最近的或最相似(最近邻法):该方法首先合并最近的或最相似(最近邻法):该方法首先合并最近的或最相似的两项,用两类间最近点间的距离代表两类间的距离的两项,用两类间最近点间的距离代表两类间的距离的两项,用两类间最近点间的距离代表两类间的距离的两项,用两类间最近点间的距离代表两类间的距离 Furthest neighborFurthest neighbor:最远邻法:最远邻法:最远邻法:最远邻法/完全连接,用两类之间最远点的距完全连接,用两类之间最远点的距完全连接,用两类之间最远点的距完全连接,用两类之间最远点的距离代表两类之间的距离离代表两类之间的距离离代表两类之间的距离离代表两类之间的距离 Centroid clusteringCentroid clustering(重心法):应与欧氏距离平方法一起使用,(重心法):应与欧氏距离平方法一起使用,(重心法):应与欧氏距离平方法一起使用,(重心法):应与欧氏距离平方法一起使用,像计算所有各项均值之间短距离那样计算两类之间的距离,该距像计算所有各项均值之间短距离那样计算两类之间的距离,该距像计算所有各项均值之间短距离那样计算两类之间的距离,该距像计算所有各项均值之间短距离那样计算两类之间的距离,该距离随聚类的进行不断减小离随聚类的进行不断减小离随聚类的进行不断减小离随聚类的进行不断减小 Median clusteringMedian clustering(中间距离法):应与欧氏平方距离一起使用(中间距离法):应与欧氏平方距离一起使用(中间距离法):应与欧氏平方距离一起使用(中间距离法):应与欧氏平方距离一起使用 Wards methodWards method:离差平方和法,应与欧氏平方距离一起使用:离差平方和法,应与欧氏平方距离一起使用:离差平方和法,应与欧氏平方距离一起使用:离差平方和法,应与欧氏平方距离一起使用距离的测度方法选择(待续)在在MeasureMeasure栏中选择距离计算方法栏中选择距离计算方法 IntervalInterval:应用于等间隔测度的变量。单击矩形框右侧:应用于等间隔测度的变量。单击矩形框右侧:应用于等间隔测度的变量。单击矩形框右侧:应用于等间隔测度的变量。单击矩形框右侧的下箭头展开下拉,选择连续变量距离测度的方法的下箭头展开下拉,选择连续变量距离测度的方法的下箭头展开下拉,选择连续变量距离测度的方法的下箭头展开下拉,选择连续变量距离测度的方法 Eucidean distanceEucidean distance:欧式距离,即两样本间距离为其对应指标:欧式距离,即两样本间距离为其对应指标值之差的平方和的平方根值之差的平方和的平方根 Squrared Eucidean distanceSqurared Eucidean distance:欧式距离平方,即两样本间距离为:欧式距离平方,即两样本间距离为其对应指标值之差的平方和;其对应指标值之差的平方和;CosineCosine:变量矢量的余弦,这是:变量矢量的余弦,这是模型相似性的度量模型相似性的度量 Pearson CorrealationPearson Correalation:相关系数距离:相关系数距离 ChebychevChebychev:切比雪夫距离,即两样本间的距离为两样本对应:切比雪夫距离,即两样本间的距离为两样本对应指标值之差的绝对值中的最大值指标值之差的绝对值中的最大值 BlockBlock:City-BlockCity-Block或或ManhattanManhattan距离,即两样本间的距离为两样距离,即两样本间的距离为两样本对应指标值之差的绝对值和本对应指标值之差的绝对值和 MinkowskiMinkowski:两样本间的距离是一个绝对幂的度量,即两样本:两样本间的距离是一个绝对幂的度量,即两样本对应指标值之差的绝对值的对应指标值之差的绝对值的p p次幂之和的次幂之和的p p次根,次根,p p由用户指定由用户指定 CustomizedCustomized:距离是一个绝对幂的度量,即两样本对应指标值:距离是一个绝对幂的度量,即两样本对应指标值之差的绝对值的之差的绝对值的p p次幂之和的次幂之和的r r次根,次根,p p与与r r由用户指定由用户指定距离的测度方法选择(续)CountsCounts:应用于计数变量。:应用于计数变量。:应用于计数变量。:应用于计数变量。单击其右侧的向下箭头,单击其右侧的向下箭头,单击其右侧的向下箭头,单击其右侧的向下箭头,展开两种选择不相似性测度的方法:展开两种选择不相似性测度的方法:展开两种选择不相似性测度的方法:展开两种选择不相似性测度的方法:Chi-Square measureChi-Square measure:卡方测度,用卡方值测度不相似性。该测:卡方测度,用卡方值测度不相似性。该测度是根据两个集的频数相等的卡方检验,测度产生的值是卡方度是根据两个集的频数相等的卡方检验,测度产生的值是卡方值的平方根,这是系统默认的值的平方根,这是系统默认的 Phi-Square measurePhi-Square measure:两组频数之间的:两组频数之间的2 2 测度,试图考虑减少测度,试图考虑减少样本量对实际度值的实际预测频率减少的影响样本量对实际度值的实际预测频率减少的影响 BinaryBinary:应用于二值变量。单击:应用于二值变量。单击:应用于二值变量。单击:应用于二值变量。单击BinaryBinary右侧的向下箭头右侧的向下箭头右侧的向下箭头右侧的向下箭头展开下拉来选择距离或不相似性测度的方法,首先应展开下拉来选择距离或不相似性测度的方法,首先应展开下拉来选择距离或不相似性测度的方法,首先应展开下拉来选择距离或不相似性测度的方法,首先应明确对二值变量,系统默认用明确对二值变量,系统默认用明确对二值变量,系统默认用明确对二值变量,系统默认用1 1表示某特性出现,用表示某特性出现,用表示某特性出现,用表示某特性出现,用0 0表示某特性不出现表示某特性不出现表示某特性不出现表示某特性不出现确定标准化的方法 Transform ValuesTransform Values:确定标准化的方法。单击:确定标准化的方法。单击standardizestandardize右右侧向下箭头选择标准化的方法:侧向下箭头选择标准化的方法:NoneNone:不进行标准化,是系统默认值:不进行标准化,是系统默认值:不进行标准化,是系统默认值:不进行标准化,是系统默认值 Z scoresZ scores:把数值标准化到:把数值标准化到:把数值标准化到:把数值标准化到Z Z分数。标准化后变量均值为分数。标准化后变量均值为分数。标准化后变量均值为分数。标准化后变量均值为0 0,标准差,标准差,标准差,标准差为为为为1 1,系统将每个值减去被标准化的变量或观测量的均值,再处以,系统将每个值减去被标准化的变量或观测量的均值,再处以,系统将每个值减去被标准化的变量或观测量的均值,再处以,系统将每个值减去被标准化的变量或观测量的均值,再处以其标准差,如果标准差为其标准差,如果标准差为其标准差,如果标准差为其标准差,如果标准差为0 0,则将所有值置为,则将所有值置为,则将所有值置为,则将所有值置为0 0 Range-1 to 1Range-1 to 1:将数值标准化到:将数值标准化到:将数值标准化到:将数值标准化到1 1到到到到1 1范围内范围内范围内范围内 Maxinum mannitudeMaxinum mannitude:把数值标准化到最大值:把数值标准化到最大值:把数值标准化到最大值:把数值标准化到最大值1 1。该方法是把标准。该方法是把标准。该方法是把标准。该方法是把标准化的变量或观测量的值用最大值去除,如果最大值为化的变量或观测量的值用最大值去除,如果最大值为化的变量或观测量的值用最大值去除,如果最大值为化的变量或观测量的值用最大值去除,如果最大值为0 0,则用最小,则用最小,则用最小,则用最小值的绝对值处再加值的绝对值处再加值的绝对值处再加值的绝对值处再加1 1 Range 0 to 1Range 0 to 1:将数值标准化到:将数值标准化到:将数值标准化到:将数值标准化到0 0到到到到1 1范围内范围内范围内范围内 Mean of 1Mean of 1:把数值标准化到一个均值的范围内:把数值标准化到一个均值的范围内:把数值标准化到一个均值的范围内:把数值标准化到一个均值的范围内 Standard deviation of 1Standard deviation of 1:把数值标准化到单位标准差:把数值标准化到单位标准差:把数值标准化到单位标准差:把数值标准化到单位标准差Hierarchical Cluster Analysis:PlotsBetween-groups linkage squared Euclidean distanceBetween-groups linkage squared Euclidean distance(其(其(其(其他为默认设置)他为默认设置)他为默认设置)他为默认设置)“Conitnue”Plots Hierarchical “Conitnue”Plots Hierarchical Cluster AnalysisCluster Analysis:PlotsPlots输出树形图 冰柱图 查看聚类的全过程 指定显示的聚类范围 不生成冰柱 确定显示方向纵向显示 水平显示 Hierarchical Cluster Analysis:Save New Variables DendrogramDendrogram(树形图(其他设置采用系统默认值(树形图(其他设置采用系统默认值 ContinueContinue按钮按钮主对话框主对话框 Save Hierarchical Cluster Save Hierarchical Cluster AnalysisAnalysis:Save New Variables Save New Variables 不建立新变量 单一结果 范围内的结果 样本处理表 Case Processing Summarya,bCasesCasesValidValidMissingMissingTotalTotalN NPercentPercentN NPercentPercentN NPercentPercent1515100.0100.00 0.0.01515100.0100.0a.Squared Euclidean Distance used a.Squared Euclidean Distance used b.Average Linkage(Between Groups)b.Average Linkage(Between Groups)Single solution 设置为3 Continue 主对话框“OK”生成聚类结果聚类过程表聚类过程表 Agglomeration Schedule Agglomeration ScheduleStageStageCluster CombinedCluster CombinedCoefficientsCoefficientsStage Cluster First AppearsStage Cluster First AppearsNextNext Stage StageCluster 1Cluster 1Cluster 2Cluster 2Cluster 1Cluster 1Cluster 2Cluster 21 12 29 967.67067.6700 00 02 22 21 12 2109.005109.0050 01 18 83 310101212794.900794.9000 00 07 74 4111113131033.1801033.1800 00 05 55 5111114141719.6801719.6804 40 08 86 64 47 72013.0202013.0200 00 011117 76 610103062.4403062.4400 03 39 98 81 111114446.4914446.4912 25 511119 93 36 66479.9076479.9070 07 7101010103 315159737.8659737.8659 90 0121211111 14 410213.68010213.6808 86 6121212121 13 316417.37116417.37111111010131313131 18 846321.47446321.47412120 0141414141 15 54.258E74.258E713130 00 0聚类步骤类间的距离样本号聚类步序号下一步步序号冰柱图冰柱图Vertical IcicleVertical IcicleNumberNumber of of clustersclustersCaseCase5 5内内蒙蒙古古8 8黑黑龙龙江江1 15 5山山东东 1 12 2安安徽徽 1 10 0江江苏苏 6 6辽辽宁宁 3 3河河北北 7 7吉吉林林 4 4山山西西 1 14 4江江西西 1 13 3福福建建 1 11 1浙浙江江 9 9上上海海 2 2天天津津 1 1北北京京 1 1X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X2 2X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X3 3X XX XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X4 4X XX XX X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X5 5X XX XX X X X X X X X X X X X X X X X X XX X X X X XX X X X X X X X X X X X X X X X X X X X X X6 6X XX XX XX X X X X X X X X X X X X XX X X X X XX X X X X X X X X X X X X X X X X X X X X X7 7X XX XX XX X X X X X X X X XX XX X X X X XX X X X X X X X X X X X X X X X X X X X X X8 8X XX XX XX X X X X X X X X XX XX X X X X XX X X X X X X X X XX X X X X X X X X X9 9X XX XX XX X X X X XX XX XX X X X X XX X X X X X X X X XX X X X X X X X X X1010X XX XX XX X X X X XX XX XX XX XX X X X X X X X X XX X X X X X X X X X1111X XX XX XX X X X X XX XX XX XX XX XX X X X X XX X X X X X X X X X1212X XX XX XX X X X X XX XX XX XX XX XX XX XX X X X X X X X X X1313X XX XX XX XX XX XX XX XX XX XX XX XX X X X X X X X X X1414X XX XX XX XX XX XX XX XX XX XX XX XX X X X X XX X聚类的树形图聚类的树形图系统聚类法在数据编辑窗口的输出8.4 K均值聚类法K K均值聚类法(快速聚类法均值聚类法(快速聚类法/逐步聚类法)逐步聚类法):需要需要用户指定类别数用户指定类别数 逐步聚类法逐步聚类法逐步聚类法逐步聚类法:先把被聚对象进行初始分类,然后逐步调先把被聚对象进行初始分类,然后逐步调先把被聚对象进行初始分类,然后逐步调先把被聚对象进行初始分类,然后逐步调整,得到最终分类整,得到最终分类整,得到最终分类整,得到最终分类 快速样本聚类快速样本聚类快速样本聚类快速样本聚类:根据被观测的对象的各种特征,即反映根据被观测的对象的各种特征,即反映根据被观测的对象的各种特征,即反映根据被观测的对象的各种特征,即反映被观测对象的特征的各变量进行分类,其特点是被观测对象的特征的各变量进行分类,其特点是被观测对象的特征的各变量进行分类,其特点是被观测对象的特征的各变量进行分类,其特点是 处理速度快处理速度快 占用计算机内存少占用计算机内存少 快速样本聚类适用于大样本的聚类分析快速样本聚类适用于大样本的聚类分析 它能快速地把各观测量分到各类中去它能快速地把各观测量分到各类中去1.1.快速聚类分析概述快速聚类分析概述快速聚类快速聚类也称也称动态聚类动态聚类,其方法简单、占用内存,其方法简单、占用内存少,适合大样本的聚类分析处理。少,适合大样本的聚类分析处理。快速聚类的实质其实是快速聚类的实质其实是分步聚类法分步聚类法,也就是先选,也就是先选定一批定一批初始类初始类中心点,然后让变量或样本向最近中心点,然后让变量或样本向最近的类中心点靠拢,这样凝聚成类,形成初步的分的类中心点靠拢,这样凝聚成类,形成初步的分类。类。然后会对类然后会对类中心点中心点的选点进行的选点进行调整调整,一直调整到,一直调整到比较合理为止。一般快速聚类都要经过多次迭代比较合理为止。一般快速聚类都要经过多次迭代才能形成比较理想的结果。才能形成比较理想的结果。快速聚类分析具体分析步骤在在SPSSSPSS中快速聚类由中快速聚类由 K-Means ClusterK-Means Cluster过程实现,过程实现,使用使用K K均值分类法均值分类法对样本进行聚类,对样本进行聚类,K K是用户指是用户指定的聚类数目。具体分析步骤如下:定的聚类数目。具体分析步骤如下:(1 1)认真选择所研究问题所需的)认真选择所研究问题所需的分析变量分析变量(2 2)按照用户指定的希望按照用户指定的希望聚类的数目聚类的数目(设聚为类,(设聚为类,22K K 样本数),依据某种原则(或人为指定)样本数),依据某种原则(或人为指定)确定确定K K个类的个类的初始类中心点初始类中心点。初始类中心点可以通过初始类中心点可以通过初始类中心点可以通过初始类中心点可以通过两种两种两种两种方法指定:一种是方法指定:一种是方法指定:一种是方法指定:一种是用用用用户自行指定组数据户自行指定组数据户自行指定组数据户自行指定组数据作为个类的初始类中心点,后作为个类的初始类中心点,后作为个类的初始类中心点,后作为个类的初始类中心点,后面会介绍这种方法。另一种是面会介绍这种方法。另一种是面会介绍这种方法。另一种是面会介绍这种方法。另一种是 SPSSSPSS系统自动指系统自动指系统自动指系统自动指定定定定,系统会根据样本数据的具体情况选择有,系统会根据样本数据的具体情况选择有,系统会根据样本数据的具体情况选择有,系统会根据样本数据的具体情况选择有K K个个个个代表性的样本数据作为个类的初始类中心点。代表性的样本数据作为个类的初始类中心点。代表性的样本数据作为个类的初始类中心点。代表性的样本数据作为个类的初始类中心点。快速聚类分析(3 3)计算所有样本数据点到)计算所有样本数据点到K K个类中心点的个类中心点的欧氏欧氏距距离,按照就近原则,把所有样本分派到各中心离,按照就近原则,把所有样本分派到各中心点所在的