2012下-第9章-SPSS的聚类分析.ppt
《2012下-第9章-SPSS的聚类分析.ppt》由会员分享,可在线阅读,更多相关《2012下-第9章-SPSS的聚类分析.ppt(58页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1第九章第九章 SPSS的聚类分析的聚类分析授课教师:杨小宝授课教师:杨小宝 副教授副教授北京交通大学北京交通大学 交通运输学院交通运输学院2012.11统计软件及其应用统计软件及其应用2 9.1 聚类分析的一般问题聚类分析的一般问题 9.2 层次聚类层次聚类 9.3 K-Means聚类聚类SPSS的聚类分析的聚类分析39.1 聚类分析的一般问题聚类分析的一般问题9.1.1 聚类分析的意义9.1.2 聚类分析中“亲疏程度”的度量方法9.1.3 聚类分析的几点说明49.1.1 聚类分析的意义聚聚类类分分析析是是一一种种建建立立分分类类的的多多元元统统计计分分析析方方法法,它它能能够够将将一一批批
2、样样本本(或或变变量量)数数据据根根据据其其诸诸多多特特征征,按按照照在在性性质质上上的的亲亲疏疏程程度度(各各变变量量取取值值上上的的总总体体差差异异程程度度)在在没没有有先先验验知知识识(没没有有事事先先指指定定的的分分类类标标准准)的的情情况况下下进进行行自自动动分分类类,产产生生多多个个分分类类结结果果。类类内内部部的的个个体体在在特特征征上上具具有有相相似似性性,不不同同类类间间个个体体特特征的差异性较大。征的差异性较大。5 例例如如,学学校校里里有有些些同同学学经经常常在在一一起起,关关系系比比较较密密切切,而而他他们们与与另另一一些些同同学学却却很很少少来来往往,关关系系比比较较
3、疏疏远远。究究其其原原因因可可能能会会发发现现,经经常常在在一一起起的的同同学学的的家家庭庭情情况况、性性格格、学学习习成成绩绩、课课余余爱爱好好等等方方面面有有许许多多共共同同之之处处,而而关关系系比比较较疏疏远远的的同同学学在在这这些些方方面面有有较较大大的的差差异异性性。为为了了研研究究家家庭庭情情况况、性性格格、学学习习成成绩绩、课课余余爱爱好好等等是是否否会会成成为为划划分分学学生生小小群群体体的的主主要要决决定定因因素素,可可以以从从有有关关这这些些方方面面的的数数据据入入手手,进进行行客客观观分分组组,然然后后比比较较所所得得的的分分组组是是否否与与实实际际相相吻吻合合。对对学学
4、生的客观分组就可采用聚类分析方法。生的客观分组就可采用聚类分析方法。69.1.2 聚类分析中“亲疏程度”的度量方法聚聚类类分分析析中中,个个体体之之间间的的“亲亲疏疏程程度度”是是极极为为重重要要的的,它它将将直直接接影影响响最最终终的的聚聚类类结结果果。对对“亲亲疏疏”程程度度的的测测度度一一般般有有两两个个角角度度:第第一一,个个体体间间的的相相似似程程度度;第第二二,个个体体间间的的差差异异程程度度。衡衡量量个个体体间间的的相相似似程程度度通通常常可可采采用用简简单单相相关关系系数数等等,个个体体间间的的差差异程度通常通过某种距离来测度。异程度通常通过某种距离来测度。7为为定定义义个个体
5、体间间的的距距离离应应先先将将每每个个样样本本数数据据看看成成k维维空空间间的的一一个个点点。通通常常,点点与与点点之之间间的的距距离离越越小小,意意味味着着他他们们越越“亲亲密密”,越越有有可可能能聚聚成成一一类类,点点与与点点之之间间的的距距离离越越大大,意意味味着着他他们们越越“疏疏远远”,越越有有可可能能分分别别属属于不同的类。于不同的类。个体间距离的定义会受变量类型的影响个体间距离的定义会受变量类型的影响。8例例:下下表表是是同同一一批批客客户户对对经经常常光光顾顾的的五五座座商商场场在在购购物物环环境境和和服服务务质质量量两两方方面面的的平平均均得得分分,现现希望根据这批数据将五座
6、商场分类。希望根据这批数据将五座商场分类。9欧式距离(欧式距离(Euclidean distance)平方欧式距离(平方欧式距离(Squared Euclidean distance)=上式的平方切比雪夫(切比雪夫(Chebychev)距离)距离Block距离距离 1、定距型变量个体间距离的计算方式、定距型变量个体间距离的计算方式10选上选上统计量统计量中的中的相相似性矩阵似性矩阵的输出结果的输出结果11 2、计数变量个体间距离的计算方式、计数变量个体间距离的计算方式卡方(卡方(Chi-Square measure)距离)距离Phi方(方(Phi-Square measure)距离)距离 3、
7、二二值值(Binary)变变量量个个体体间间距距离离的的计计算方式算方式简单匹配系数(简单匹配系数(Simple Matching)雅科比系数(雅科比系数(Jaccard)详细见书详细见书第第306306页页12所选择的变量应符合聚类的要求所选择的变量应符合聚类的要求:所选变:所选变量应能够从不同的侧面反映我们研究的目量应能够从不同的侧面反映我们研究的目的;的;各变量间不应有较强的线性相关关系各变量间不应有较强的线性相关关系9.1.3聚类分析的几点说明13各各变变量量的的变变量量值值不不应应有有数数量量级级上上的的差差异异(对对数数据据进进行行标标准准化化处处理理):聚聚类类分分析析是是以以各
8、各种种距距离离来来度度量量个个体体间间的的“亲亲疏疏”程程度度的的,从从上上述述各各种种距距离离的的定定义义看看,数数量量级级将将对对距距离离产生较大的影响,并影响最终的聚类结果产生较大的影响,并影响最终的聚类结果。149.2 层次聚类层次聚类9.2.1 层次聚类的两种类型和两种方式9.2.2 个体与小类、小类与小类间“亲 疏程度”的度量方法9.2.3 层次聚类的基本操作159.2.1 层次聚类的两种类型和两种方式层层次次聚聚类类又又称称系系统统聚聚类类,简简单单地地讲讲是是指指聚聚类过程是按照一定层次进行的。类过程是按照一定层次进行的。层层次次聚聚类类有有两两种种类类型型,分分别别是是Q型型
9、聚聚类类和和R型聚类;型聚类;层层次次聚聚类类的的聚聚类类方方式式又又有有两两种种,分分别别是是凝凝聚方式聚类和分解方式聚类。聚方式聚类和分解方式聚类。169.2.1 层次聚类的两种类型和两种方式Q型型聚聚类类:对对样样本本进进行行聚聚类类,使使具具有有相相似似特特征征的的样样本本聚聚集集在在一一起起,差差异异性性大大的的样样本本分分离离开来。开来。R型型聚聚类类:对对变变量量进进行行聚聚类类,使使具具有有相相似似性性的的变变量量聚聚集集在在一一起起,差差异异性性大大的的变变量量分分离离开开来来,可可在在相相似似变变量量中中选选择择少少数数具具有有代代表表性性的的变变量量参参与与其其他他分分析
10、析,实实现现减减少少变变量量个个数数,达达到变量降维的目的。到变量降维的目的。17凝凝聚聚方方式式聚聚类类:其其过过程程是是,首首先先,每每个个个个体体自自成成一一类类;然然后后,按按照照某某种种方方法法度度量量所所有有个个体体间间的的亲亲疏疏程程度度,并并将将其其中中最最“亲亲密密”的的个个体体聚聚成成一一小小类类,形形成成n-1个个类类;接接下下来来,再再次次度度量量剩剩余余个个体体和和小小类类间间的的亲亲疏疏程程度度,并并将将当当前前最最亲亲密密的的个个体体或或小小类类再再聚聚到到一一类类;重重复复上上述述过过程程,直直到到所所有有个个体体聚聚成成一一个个大大类类为为止止。可可见见,这这
11、种种聚聚类类方方式式对对n个个个个体体通通过过n-1步步可可凝聚成一大类。凝聚成一大类。18分分解解方方式式聚聚类类:其其过过程程是是,首首先先,所所有有个个体体都都属属一一大大类类;然然后后,按按照照某某种种方方法法度度量量所所有有个个体体间间的的亲亲疏疏程程度度,将将大大类类中中彼彼此此间间最最“疏疏远远”的的个个体体分分离离出出去去,形形成成两两类类;接接下下来来,再再次次度度量量类类中中剩剩余余个个体体间间的的亲亲疏疏程程度度,并并将将最最疏疏远远的的个个体体再再分分离离出出去去;重重复复上上述述过过程程,不不断断进进行行类类分分解解,直直到到所所有有个个体体自自成成一一类类为为止止。
12、可可见见,这这种种聚聚类类方方式式对对包包含含n个个个个体体的的大类通过大类通过n-1步可分解成步可分解成n个个体。个个体。199.2.2 个体与小类、小类与小类间“亲疏程度”的度量方法SPSS中中提提供供了了多多种种度度量量个个体体与与小小类类、小小类类与与小小类类间间“亲亲疏疏程程度度”的的方方法法。与与个个体体间间“亲亲疏疏程程度度”的的测测度度方方法法类类似似,应应首首先先定定义义个个体体与与小小类类、小小类类与与小小类类的的距距离离。距距离离小小的的关关系系亲亲密密,距距离离大大的的关关系系疏疏远远。这这里里的的距距离离是是在在个个体体间间距距离离的的基基础础上上定定义义的的,常见的
13、距离有:常见的距离有:20最最近近邻邻居居(Nearest Neighbor)距距离离:个个体体与小类中每个个体距离的最小值。与小类中每个个体距离的最小值。最最远远邻邻居居(Furthest Neighbor)距距离离:个个体与小类中每个个体距离的最大值。体与小类中每个个体距离的最大值。组组间间平平均均链链锁锁(Between-groups linkage)距距离离:个个体体与与小小类类中中每每个个个个体体距距离离的的平平均均值。值。详细见书详细见书第第311311页页21组组内内平平均均链链锁锁(Within-groups linkage)距距离离:个个体体与与小小类类中中每每个个个个体体距
14、距离离以以及及小小类类内内各各个个体间距离的平均值。体间距离的平均值。重重心心(Centroid clustering)距距离离:个个体体与与小小类类的的重重心心点点的的距距离离。重重心心点点通通常常是是由由小小类类中中所有样本在各变量上的均值所确定的点。所有样本在各变量上的均值所确定的点。离离差差平平方方和和法法(Wards method):聚聚类类过过程程中中使使小小类类内内离离差差平平方方和和增增加加最最小小的的两两小小类类应应首先合并为一类。首先合并为一类。229.2.3 层次聚类的基本操作1、选择菜单、选择菜单Analyze Classify Hierarchical Cluster
15、,出现窗口:,出现窗口:聚类分析(商厦评分).sav23 2、把把参参与与层层次次聚聚类类分分析析的的变变量量选选到到Variable(s)框中。框中。3、把把一一个个字字符符型型变变量量作作为为标标记记变变量量选选到到Label Cases by框框中中,它它将将大大大大增增强强聚聚类类分分析析结结果果的的可读性。可读性。4、在在Cluster框框中中选选择择聚聚类类类类型型。其其中中Cases表表示示进进行行Q型型聚聚类类(默默认认类类型型);Variables表表示示进行进行R型聚类。型聚类。5、在在Display框框中中选选择择输输出出内内容容。其其中中Statistics表表示示输输
16、出出聚聚类类分分析析的的相相关关统统计计量量;Plot表表示示输输出聚类分析的相关图形。出聚类分析的相关图形。24 6、单击、单击Method按钮指定距离的计算方法。按钮指定距离的计算方法。方法方法子对话框子对话框25 Measure框框中中给给出出的的是是不不同同变变量量类类型型下下的的个个体体距距离离的的计计算算方方法法。其其中中Interval框框中中的的方方法法适适用用于于连连续续型型定定距距变变量量;Counts框框中中的的方方法法适适用用于于品品质质型型变变量量;Binary框框中中的的方方法法适适用用于于二二值值变变量量。Cluster Method框框中中给给出出的的是是计计算
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2012 SPSS 聚类分析
限制150内