第8章-聚类分析-《管理统计学》课件.ppt
《第8章-聚类分析-《管理统计学》课件.ppt》由会员分享,可在线阅读,更多相关《第8章-聚类分析-《管理统计学》课件.ppt(60页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第8章 聚类分析8 聚类分析8.1 基本原理和方法8.2 系统聚类法8.3 系统聚类的SPSS应用8.4 K均值聚类法8.5 K均值聚类法的SPSS应用例:对7种产品的销售情况进行检验。共有两个指标,销售额和销售量,其数值分别如下表所示。选择合适的统计方法对这些产品进行分类。现在如果将这七个产品按照销售量和销售额的大小把他们分成两类。很容易得出,产品1,2,3应该是一类的,产品4,5,6,7应该是一类的。如果将他们分成三类,则仍很易得出产品1,2,3还是一类的,产品4,5,6是一类的,产品7是自成一类的。可见对产品的分类事先是没有给定标准的,完全从给出的样本数据出发进行分类。产品1和2,3在一
2、类是因为在销售量和销售额上的接近,与产品4,5,6,7不在一类,则是因为在销售量和销售额上比较大的差距。8.1 基本原理和方法聚类分析:采用定量数学方法,根据一批样品的聚类分析:采用定量数学方法,根据一批样品的多个观测指标,具体找出一些能够度量样品或指多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分标之间相似程度的统计量,以这些统计量为划分类型的依据类型的依据分类的基本思想:把一些相似程度较大的样品分类的基本思想:把一些相似程度较大的样品(或指标)聚合为一类,关系密切的聚合到一个(或指标)聚合为一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的
3、分类小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)聚合完毕。单位,直到把所有的样品(或指标)聚合完毕。聚类分析 例如:有例如:有例如:有例如:有p p个指标(变量),个指标(变量),个指标(变量),个指标(变量),n n个对象,依据这个对象,依据这个对象,依据这个对象,依据这n n个对象个对象个对象个对象在在在在p p个指标下的数据,对这个指标下的数据,对这个指标下的数据,对这个指标下的数据,对这n n个对象进行聚类。设数据个对象进行聚类。设数据个对象进行聚类。设数据个对象进行聚类。设数据为:为:为:为:每一个对象是每一个对象是每一个对象是每一个对象是p p维空间中
4、的一个点维空间中的一个点维空间中的一个点维空间中的一个点 聚类问题,就是在聚类问题,就是在聚类问题,就是在聚类问题,就是在p p维空间中,对这维空间中,对这维空间中,对这维空间中,对这n n个点的聚类问题个点的聚类问题个点的聚类问题个点的聚类问题聚类分析的分类样本聚类/Q型聚类:对观测量(Case)进行聚类,不同的目的选用不同的指标作为分类的依据变量聚类/R型聚类:能够找出彼此独立且有代表性的自变量,而又不丢失大部分信息,主要是对研究对象的观测变量进行聚类,使得具有共同特征的变量作为一类度量样本之间相似程度的统计量 距离:距离:将一个样品看作将一个样品看作将一个样品看作将一个样品看作P P维空
5、间的一个点,并在空间维空间的一个点,并在空间维空间的一个点,并在空间维空间的一个点,并在空间用某种度量测量点与点之间的距离,距离越近用某种度量测量点与点之间的距离,距离越近用某种度量测量点与点之间的距离,距离越近用某种度量测量点与点之间的距离,距离越近的点归为一类,距离较远的点归为不同的类的点归为一类,距离较远的点归为不同的类的点归为一类,距离较远的点归为不同的类的点归为一类,距离较远的点归为不同的类以以以以d dij ij表示第表示第表示第表示第i i个样本与第个样本与第个样本与第个样本与第j j个样本间的距离,需个样本间的距离,需个样本间的距离,需个样本间的距离,需要满足以下四个条件要满足
6、以下四个条件要满足以下四个条件要满足以下四个条件 d dij ij00,对一切,对一切i i和和j j成立成立 d dij ij0 0,当且仅当,当且仅当i ij j成立成立 d dij ijd dji ji00,对一切,对一切i i和和j j成立成立 d dij ijddikikd dkjkj,对于一切对于一切i i和和j j成立成立相似系数相似系数:变量或样品的关系越密切,其性质就越接近,变量或样品的关系越密切,其性质就越接近,变量或样品的关系越密切,其性质就越接近,变量或样品的关系越密切,其性质就越接近,它们的相似系数的绝对值越接近它们的相似系数的绝对值越接近它们的相似系数的绝对值越接近
7、它们的相似系数的绝对值越接近1 1;反之,它们;反之,它们;反之,它们;反之,它们的相似系数的绝对值越接近于零,即样品的关的相似系数的绝对值越接近于零,即样品的关的相似系数的绝对值越接近于零,即样品的关的相似系数的绝对值越接近于零,即样品的关系越疏远系越疏远系越疏远系越疏远样品之间相似系数大的样品归为一类,样品之样品之间相似系数大的样品归为一类,样品之样品之间相似系数大的样品归为一类,样品之样品之间相似系数大的样品归为一类,样品之间相似系数小的样品归为不同的类,即两点相间相似系数小的样品归为不同的类,即两点相间相似系数小的样品归为不同的类,即两点相间相似系数小的样品归为不同的类,即两点相似系数
8、越接近似系数越接近似系数越接近似系数越接近1 1,就相当于距离越短,即相似的,就相当于距离越短,即相似的,就相当于距离越短,即相似的,就相当于距离越短,即相似的为一类,不相似的属于不同类为一类,不相似的属于不同类为一类,不相似的属于不同类为一类,不相似的属于不同类(2 2)欧氏距离平方(Squared Euclidean Distance):两样本之间的距离是两个样本在每个变量上的相应值之差的平方和。(3)切比雪夫距离:(Chebychev)两样本 之间的距离是两个样本在每个变量上的相应值之差的绝对值的最大值。(6)自定义距离(Customized):两样本x,y 之间的距离是两个样本在每个变
9、量上的相应值之差的绝对值的p次方的总和再求q次方根。如果如果p p=2,=2,q q=2=2是欧氏距离,是欧氏距离,p p=2,=2,q q=1=1是欧式距离是欧式距离平方,平方,p p=1,=1,q q=1 1是马氏距离是马氏距离 。相似系数相似系数的计算相似系数的计算 (1 1)夹角余弦夹角余弦夹角余弦时从向量集合的角度所定义的一种测量夹角余弦时从向量集合的角度所定义的一种测量变量变量之间之间亲疏程度亲疏程度的的相似系数相似系数。它是受相似形的。它是受相似形的启发而来的,在启发而来的,在形状相似形状相似而长度不是主要矛盾时而长度不是主要矛盾时用用夹角余弦夹角余弦能反映出指标之间的关系。能反
10、映出指标之间的关系。设在设在n n维空间的向量:维空间的向量:定义夹角余弦为:定义夹角余弦为:类间距离计算方法根据系统分类法,第一步将 n个样品看作n个类,然后合并距离最近的两类为一个种类。如何计算类与类的距离呢?用D(p,q)表示类p和类q之间的距离,常用的类间距离有以下几种:类间距离计算方法1.最短距离连接法(Nearest neighbor)用两类中所有样本对的距离的最小值作为两类的距离,合并距离最近或相关系数最大的两类。x21x12x22x11类间距离计算方法2.最长距离连接法(Furthest neighbor)用两类中所有样本对的距离的最大值作为两类的距离,合并距离最近或相关系数最
11、大的两类。x22x12x21x11类间距离计算方法3.类间平均距离连接法(Between-groups linkage):将两个类所有的样本对(样本对的两个成员分属于不同的类)的平均距离作为两类的距离,合并距离最近或相关系数最大的两类。此方法利用了两个类中所有的样本信息。4231 类间距离计算方法4.类内平均距离连接法(Within-groups linkage)与类间平均距离连接法类似,但此时的平均距离是指对两个类中所有样本的距离求平均值包括两个类之间的样本对以及两个类内的样本对。4231 类间距离计算方法6.离差平方和法(sum of squares method)该方法是在聚类过程中,将
12、使得类内各样本的欧氏距离总平方和增加最小的两类合并成一类。利用离差平方和法分类的效果较好,但它要求样本之间的距离必须是欧式距离。7.中位数法(median method)此方法是将两类的中位数间的距离作为两类之间的距离,优点是比较稳健。类间距离计算方法如何选择适当的方法聚类,需要依照实际问题的背景,也需要经验。从数理统计角度看,重心法和中位数法距离法不具有单调性,随机模拟的结果表明,最长距离法不具有最优化性。很多实际工作者采用最短距离法进行聚类。聚类分析的类型聚合法:聚合法:聚合法:聚合法:每个样本自成一类每个样本自成一类每个样本自成一类每个样本自成一类 计算各类之间相似程度统计量,把最相似的
13、两类合并成一类计算各类之间相似程度统计量,把最相似的两类合并成一类计算各类之间相似程度统计量,把最相似的两类合并成一类计算各类之间相似程度统计量,把最相似的两类合并成一类 重复上步,直到所有样本归为一类重复上步,直到所有样本归为一类重复上步,直到所有样本归为一类重复上步,直到所有样本归为一类分解法分解法分解法分解法:所有样本归为一类所有样本归为一类所有样本归为一类所有样本归为一类 分为两类分为两类分为两类分为两类 重复上步,一直到每个样本归为一类或不能再细分为止重复上步,一直到每个样本归为一类或不能再细分为止重复上步,一直到每个样本归为一类或不能再细分为止重复上步,一直到每个样本归为一类或不能
14、再细分为止调优法调优法调优法调优法:开始人为将样本初始分类开始人为将样本初始分类开始人为将样本初始分类开始人为将样本初始分类 判断该分类是否最优,如果不是则进行修改判断该分类是否最优,如果不是则进行修改判断该分类是否最优,如果不是则进行修改判断该分类是否最优,如果不是则进行修改 重复上述步骤,直到分类达到最优为止重复上述步骤,直到分类达到最优为止重复上述步骤,直到分类达到最优为止重复上述步骤,直到分类达到最优为止系统聚类方法分类(待续)(1 1)最短距离法)最短距离法(Nearest neighbor)Nearest neighbor)距离最近的样品归入一类距离最近的样品归入一类距离最近的样品
15、归入一类距离最近的样品归入一类 计算新类和单个样品间的距离作为单个样品和类中的样品计算新类和单个样品间的距离作为单个样品和类中的样品计算新类和单个样品间的距离作为单个样品和类中的样品计算新类和单个样品间的距离作为单个样品和类中的样品间的最小距离,尚未合并的样品间的距离并未改变间的最小距离,尚未合并的样品间的距离并未改变间的最小距离,尚未合并的样品间的距离并未改变间的最小距离,尚未合并的样品间的距离并未改变 在每一步,两类之间的距离是它们两个最近点间的距离在每一步,两类之间的距离是它们两个最近点间的距离在每一步,两类之间的距离是它们两个最近点间的距离在每一步,两类之间的距离是它们两个最近点间的距
16、离(2 2)最长距离法()最长距离法(Furthest neighborFurthest neighbor)(3 3)重心法)重心法(4 4)中位数法()中位数法(Median clusteringMedian clustering)系统聚类方法分类(续)(5)类间平均连接法(6)类内平均连接法(7)离差平方和法地区地区园地园地牧草地牧草地居民点及工居民点及工矿矿 交通用地交通用地水利水利设设施施北北 京京12.012.00.20.227.927.93.33.32.62.6天天 津津3.53.50 028.128.12.22.26.56.5河河 北北70.570.579.979.9154.51
17、54.512.012.012.912.9山山 西西29.529.565.865.877.377.36.36.33.33.3内蒙古内蒙古7.37.36560.96560.9123.9123.916.016.09.39.3辽辽 宁宁59.659.634.934.9115.9115.99.29.214.814.8吉吉 林林11.511.5104.4104.484.284.26.76.715.615.6黑黑龙龙江江6.06.0220.8220.8116.1116.111.911.921.221.2上上 海海2.12.10 023.023.02.12.10.20.2江江 苏苏31.631.60.10.1
18、161.0161.013.113.119.319.3浙浙 江江66.166.10 081.781.79.59.513.813.8安安 徽徽33.933.92.82.8133.4133.410.110.122.722.7福福 建建62.962.90.30.350.750.77.97.96.16.1江江 西西27.827.80.40.467.567.57.57.520.520.5山山 东东100.7100.73.43.4209.3209.316.316.325.525.5(数据来源:中国统计年鉴 2009中国统计出版社)操作及其说明Analyze Classify Hierarchical Clu
19、ster Analyze Classify Hierarchical Cluster Hierarchical Cluster AnalysisHierarchical Cluster AnalysisHierarchical Cluster Analysis从左侧选入参与聚类分析的变量 选入标签变量选择聚类类型对观测量(样本)进行聚类,对应于样本聚类对变量(指标)进行聚类,对应于变量聚类选择输出结果统计分析统计图表Hierarchical Cluster Analysis:StatisticsStatistics Hierarchical Cluster AnalysisStatistics
20、 Hierarchical Cluster Analysis:StatisticsStatistics聚集状态表各项间的距离矩阵类成员栏不显示类成员表,为系统默认值要求列出聚为一定类数的各观测量所属的类某个范围中每步各观测量所属的类Hierarchical Cluster Analysis:MethodAgglomeration schedule continue Method Hierarchical Cluster Analysis:MethodCluster Method选择的聚类方法 Between-groups linkage(Between-groups linkage(组间连接组
21、间连接组间连接组间连接):合并两类的结果使所有的两:合并两类的结果使所有的两:合并两类的结果使所有的两:合并两类的结果使所有的两两项对之间的平均距离最小,项对的两个成员分别属于不同的类,两项对之间的平均距离最小,项对的两个成员分别属于不同的类,两项对之间的平均距离最小,项对的两个成员分别属于不同的类,两项对之间的平均距离最小,项对的两个成员分别属于不同的类,该方法中使用各对之间的距离该方法中使用各对之间的距离该方法中使用各对之间的距离该方法中使用各对之间的距离 Within-groups linkage(Within-groups linkage(组内连接组内连接组内连接组内连接):若当两类合
22、并为一类后,合并:若当两类合并为一类后,合并:若当两类合并为一类后,合并:若当两类合并为一类后,合并后的类中的所有项之间的平均距离最小,两类间的距离即是合并后的类中的所有项之间的平均距离最小,两类间的距离即是合并后的类中的所有项之间的平均距离最小,两类间的距离即是合并后的类中的所有项之间的平均距离最小,两类间的距离即是合并后的类中所有可能的观测量对之间的距离平方后的类中所有可能的观测量对之间的距离平方后的类中所有可能的观测量对之间的距离平方后的类中所有可能的观测量对之间的距离平方 Nearest neighborNearest neighbor(最近邻法):该方法首先合并最近的或最相似(最近邻
23、法):该方法首先合并最近的或最相似(最近邻法):该方法首先合并最近的或最相似(最近邻法):该方法首先合并最近的或最相似的两项,用两类间最近点间的距离代表两类间的距离的两项,用两类间最近点间的距离代表两类间的距离的两项,用两类间最近点间的距离代表两类间的距离的两项,用两类间最近点间的距离代表两类间的距离 Furthest neighborFurthest neighbor:最远邻法:最远邻法:最远邻法:最远邻法/完全连接,用两类之间最远点的距完全连接,用两类之间最远点的距完全连接,用两类之间最远点的距完全连接,用两类之间最远点的距离代表两类之间的距离离代表两类之间的距离离代表两类之间的距离离代表
24、两类之间的距离 Centroid clusteringCentroid clustering(重心法):应与欧氏距离平方法一起使用,(重心法):应与欧氏距离平方法一起使用,(重心法):应与欧氏距离平方法一起使用,(重心法):应与欧氏距离平方法一起使用,像计算所有各项均值之间短距离那样计算两类之间的距离,该距像计算所有各项均值之间短距离那样计算两类之间的距离,该距像计算所有各项均值之间短距离那样计算两类之间的距离,该距像计算所有各项均值之间短距离那样计算两类之间的距离,该距离随聚类的进行不断减小离随聚类的进行不断减小离随聚类的进行不断减小离随聚类的进行不断减小 Median clustering
25、Median clustering(中间距离法):应与欧氏平方距离一起使用(中间距离法):应与欧氏平方距离一起使用(中间距离法):应与欧氏平方距离一起使用(中间距离法):应与欧氏平方距离一起使用 Wards methodWards method:离差平方和法,应与欧氏平方距离一起使用:离差平方和法,应与欧氏平方距离一起使用:离差平方和法,应与欧氏平方距离一起使用:离差平方和法,应与欧氏平方距离一起使用距离的测度方法选择(待续)在在MeasureMeasure栏中选择距离计算方法栏中选择距离计算方法 IntervalInterval:应用于等间隔测度的变量。单击矩形框右侧:应用于等间隔测度的变量
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 管理统计学 聚类分析 管理 统计学 课件
限制150内