聚类分析1.ppt
《聚类分析1.ppt》由会员分享,可在线阅读,更多相关《聚类分析1.ppt(35页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第九章第九章SPSS聚类分析聚类分析本章内容9.1 聚类分析的一般问题聚类分析的一般问题9.2 层次聚类层次聚类9.3 K-Means聚类聚类9.1 聚类分析的一般问题9.1.1 聚类分析的意义聚类分析的意义 聚类分析是统计学中研究聚类分析是统计学中研究“物以类聚物以类聚”问题的多元统问题的多元统计分析方法。计分析方法。聚类分析是一种建立分类的多元统计分析方法,它能聚类分析是一种建立分类的多元统计分析方法,它能够将一批样本(或变量)数据根据其诸多特征,按照在性质够将一批样本(或变量)数据根据其诸多特征,按照在性质上的亲疏程度(各变量取值上的总体差异程度)在没有先验上的亲疏程度(各变量取值上的总
2、体差异程度)在没有先验知识(没有事先指定的分类标准)的情况下进行自动分类,知识(没有事先指定的分类标准)的情况下进行自动分类,产生多个分类结果。类内部的个体在特征上具有相似性,不产生多个分类结果。类内部的个体在特征上具有相似性,不同类间个体特征的差异性较大。同类间个体特征的差异性较大。例如,学校里有些同学经常在一起,关系比较例如,学校里有些同学经常在一起,关系比较密切,而他们与另一些同学却很少来往,关系比较密切,而他们与另一些同学却很少来往,关系比较疏远。究其原因可能会发现,经常在一起的同学的疏远。究其原因可能会发现,经常在一起的同学的家庭情况、性格、学习成绩、课余爱好等方面有许家庭情况、性格
3、、学习成绩、课余爱好等方面有许多共同之处,而关系比较疏远的同学在这些方面有多共同之处,而关系比较疏远的同学在这些方面有较大的差异性。为了研究家庭情况、性格、学习成较大的差异性。为了研究家庭情况、性格、学习成绩、课余爱好等是否会成为划分学生小群体的主要绩、课余爱好等是否会成为划分学生小群体的主要决定因素,可以从有关这些方面的数据入手,进行决定因素,可以从有关这些方面的数据入手,进行客观分组,然后比较所得的分组是否与实际相吻合。客观分组,然后比较所得的分组是否与实际相吻合。对学生的客观分组就可采用聚类分析方法。对学生的客观分组就可采用聚类分析方法。聚类分析中,个体之间的聚类分析中,个体之间的“亲疏
4、程度亲疏程度”是极为重要是极为重要的,它将直接影响最终的聚类结果。对的,它将直接影响最终的聚类结果。对“亲疏亲疏”程程度的测度一般有两个角度:第一,个体间的相似程度的测度一般有两个角度:第一,个体间的相似程度;第二,个体间的差异程度。衡量个体间的相似度;第二,个体间的差异程度。衡量个体间的相似程度通常可采用简单相关系数等,个体间的差异程程度通常可采用简单相关系数等,个体间的差异程度通常通过某种距离来测度。度通常通过某种距离来测度。为定义个体间的距离应先将每个样本数据看成为定义个体间的距离应先将每个样本数据看成k维维空间的一个点,通常,点与点之间的距离越小,意空间的一个点,通常,点与点之间的距离
5、越小,意味着他们越味着他们越“亲密亲密”,越有可能聚成一类,点与点,越有可能聚成一类,点与点之间的距离越大,意味着他们越之间的距离越大,意味着他们越“疏远疏远”,越有可,越有可能分别属于不同的类。能分别属于不同的类。9.1.2 聚类分析中聚类分析中“亲疏程度亲疏程度”的度量方法的度量方法例:下表是同一批客户对经常光顾的五座商场在购物环境和例:下表是同一批客户对经常光顾的五座商场在购物环境和服务质量两方面的平均得分,现希望根据这批数据将五座商服务质量两方面的平均得分,现希望根据这批数据将五座商场分类。场分类。7.1.2 聚类分析中“亲疏程度”的度量方法欧式距离(欧式距离(Euclidean di
6、stance)平方欧式距离(平方欧式距离(Squared Euclidean distance)切比雪夫(切比雪夫(Chebychev)距离)距离Block距离距离 1、定距型变量个体间距离的计算方式、定距型变量个体间距离的计算方式 2、计数变量个体间距离的计算方式、计数变量个体间距离的计算方式n卡方(卡方(Chi-Square measure)距离)距离nPhi方(方(Phi-Square measure)距离)距离 3、二值(、二值(Binary)变量个体间距离的计算方式)变量个体间距离的计算方式n简单匹配系数(简单匹配系数(Simple Matching)n雅科比系数(雅科比系数(Jac
7、card)注:聚类分析的几点说明注:聚类分析的几点说明所选择的变量应符合聚类的要求:所选变量应能够从不同的侧面反映所选择的变量应符合聚类的要求:所选变量应能够从不同的侧面反映我们研究的目的;我们研究的目的;各变量的变量值不应有数量级上的差异(对数据进行标准化处理):各变量的变量值不应有数量级上的差异(对数据进行标准化处理):聚类分析是以各种距离来度量个体间的聚类分析是以各种距离来度量个体间的“亲疏亲疏”程度的,从上述各种程度的,从上述各种距离的定义看,数量级将对距离产生较大的影响,并影响最终的聚类距离的定义看,数量级将对距离产生较大的影响,并影响最终的聚类结果。结果。各变量间不应有较强的线性相
8、关关系各变量间不应有较强的线性相关关系9.2 层次聚类9.2.1 层次聚类的两种类型和两种方式层次聚类的两种类型和两种方式 层次聚类又称系统聚类,简单地讲是指聚类过程是按照层次聚类又称系统聚类,简单地讲是指聚类过程是按照一定层次进行的。层次聚类有两种类型,分别是一定层次进行的。层次聚类有两种类型,分别是Q型聚类和型聚类和R型聚类;层次聚类的聚类方式又有两种,分别是凝聚方式型聚类;层次聚类的聚类方式又有两种,分别是凝聚方式聚类和分解方式聚类。聚类和分解方式聚类。Q型聚类型聚类:对样本样本进行聚类,使具有相似特征的样本聚集在一起,差异性大的样本分离开来。R型聚类型聚类:对变量变量进行聚类,使具有相
9、似性的变量聚集在一起,差异性大的变量分离开来,可在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数,达到变量降维的目的。凝聚方式聚类凝聚方式聚类:其过程是,首先,每个个体自成一类;然后,按照某种方法度量所有个体间的亲疏程度,并将其中最“亲密亲密”的个体聚成一小类,形成n-1个类;接下来,再次度量剩余个体和小类间的亲疏程度,并将当前最亲密的个体或小类再聚到一类;重复上述过程,直到所有个体聚成一个大类为止。可见,这种聚类方式对n个个体通过n-1步可凝聚成一大类。分解方式聚类分解方式聚类:其过程是,首先,所有个体都属一大类;然后,按照某种方法度量所有个体间的亲疏程度,将大类中彼此间最
10、“疏远疏远”的个体分离出去,形成两类;接下来,再次度量类中剩余个体间的亲疏程度,并将最疏远的个体再分离出去;重复上述过程,不断进行类分解,直到所有个体自成一类为止。可见,这种聚类方式对包含n个个体的大类通过n-1步可分解成n个个体。9.2.2 个体与小类、小类与小类间个体与小类、小类与小类间“亲疏程度亲疏程度”的的度量方法度量方法 SPSS中提供了多种度量个体与小类、小类与中提供了多种度量个体与小类、小类与小类间小类间“亲疏程度亲疏程度”的方法。与个体间的方法。与个体间“亲疏程度亲疏程度”的测度方法类似,应首先定义个体与小类、小类的测度方法类似,应首先定义个体与小类、小类与小类的距离。距离小的
11、关系亲密,距离大的关系与小类的距离。距离小的关系亲密,距离大的关系疏远。这里的距离是在个体间距离的基础上定义的,疏远。这里的距离是在个体间距离的基础上定义的,常见的距离有:常见的距离有:最近邻居(最近邻居(Nearest Neighbor)距离:个体与小类中每)距离:个体与小类中每个个体距离的最小值。个个体距离的最小值。最远邻居(最远邻居(Furthest Neighbor)距离:个体与小类中)距离:个体与小类中每个个体距离的最大值。每个个体距离的最大值。组间平均链锁(组间平均链锁(Between-groups linkage)距离:个)距离:个体与小类中每个个体距离的平均值。体与小类中每个个
12、体距离的平均值。组内平均链锁(组内平均链锁(Within-groups linkage)距离:个体)距离:个体与小类中每个个体距离以及小类内各个体间距离的平均值。与小类中每个个体距离以及小类内各个体间距离的平均值。重心(重心(Centroid clustering)距离:个体与小类的重心)距离:个体与小类的重心点的距离。重心点通常是由小类中所有样本在各变量上的均点的距离。重心点通常是由小类中所有样本在各变量上的均值所确定的点。值所确定的点。离差平方和法(离差平方和法(Wards method):聚类过程中使小类):聚类过程中使小类内离差平方和增加最小的两小类应首先合并为一类。内离差平方和增加最
13、小的两小类应首先合并为一类。9.2.3 层次聚类的基本操作层次聚类的基本操作 1、选择菜单、选择菜单AnalyzeClassifyHierarchical Cluster,出现窗口:,出现窗口:2、把参与层次聚类分析的变量选到、把参与层次聚类分析的变量选到Variable(s)框中。框中。3、把一个字符型变量作为标记变量选到、把一个字符型变量作为标记变量选到Label Cases by框中,它将大大增强聚类分析结果的可读框中,它将大大增强聚类分析结果的可读性。性。4、在、在Cluster框中选择聚类类型。其中框中选择聚类类型。其中Cases表示进表示进行行Q型聚类(默认类型);(默认类型);V
14、ariables表示进行表示进行R型聚类。5、在、在Display框中选择输出内容。其中框中选择输出内容。其中Statistics表表示输出聚类分析的相关统计量;示输出聚类分析的相关统计量;Plot表示输出聚类分表示输出聚类分析的相关图形。析的相关图形。6、单击、单击Method按钮指定距离的计算方法。按钮指定距离的计算方法。Measure框中给出的是不同变量类型下的个体框中给出的是不同变量类型下的个体距离的计算方法。其中距离的计算方法。其中Interval框中的方法适用于框中的方法适用于连续型定距变量;连续型定距变量;Counts框中的方法适用于品质型框中的方法适用于品质型变量;变量;Bin
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析
限制150内