《第6章 聚类分析.ppt》由会员分享,可在线阅读,更多相关《第6章 聚类分析.ppt(48页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第6章 聚类分析 聚类分析聚类分析1、聚类分析概述、聚类分析概述 2、层次聚类法、层次聚类法 3、快速聚类法、快速聚类法主主要要内内容容6.1 聚类分析概述聚类分析概述1、基本概念(一一)概念概念 聚类分析是统计学中研究聚类分析是统计学中研究“物以类聚物以类聚”的一的一种方法种方法,属多元统计分析方法属多元统计分析方法.例如:细分市场、消费行为划分聚类分析是建立一种分类,是将一批样本聚类分析是建立一种分类,是将一批样本(或变或变量量)按照在性质上的按照在性质上的“亲疏亲疏”程度程度,在在没有先验知没有先验知识识的情况下自动进行分类的方法的情况下自动进行分类的方法.其中:类内个其中:类内个体具有
2、较高的相似性体具有较高的相似性,类间的差异性较大。类间的差异性较大。(二二)聚类分析类型及方法聚类分析类型及方法1 1、聚类分析的类型有:聚类分析的类型有:对样本分类,称为对样本分类,称为Q Q型聚类分析型聚类分析 对变量分类,称为对变量分类,称为R R型聚类分析型聚类分析 Q Q型聚类是对样本进行聚类,它使具有相似性特型聚类是对样本进行聚类,它使具有相似性特征的样本聚集在一起,使差异性大的样本分离开来。征的样本聚集在一起,使差异性大的样本分离开来。R R型聚类是对变量进行聚类,它使具有相似性的型聚类是对变量进行聚类,它使具有相似性的变量聚集在一起,差异性大的变量分离开来,可在变量聚集在一起,
3、差异性大的变量分离开来,可在相似变量中选择少数具有代表性的变量参与其他分相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数,达到变量降维的目的。析,实现减少变量个数,达到变量降维的目的。2 2、聚类分析的方法:、聚类分析的方法:系统聚类(层次聚类)系统聚类(层次聚类)非系统聚类(非层次聚类)非系统聚类(非层次聚类)v系统聚类法包括:系统聚类法包括:凝聚方式聚类凝聚方式聚类、分解方式聚、分解方式聚类类v非系统聚类法包括:模糊聚类法、非系统聚类法包括:模糊聚类法、K K均值法均值法(快速聚类法)等等(快速聚类法)等等(三)注意1.聚类分析前所有个体所属的类别是未知的,类别个数一般也是
4、未知的,分析的依据只有原始数据,可能事先没有任何有关类别的信息可参考2.严格地,聚类分析并不是纯粹的统计技术,不象其他多元分析,需要从样本去推断总体,一般不涉及统计量分布,也不需显著性检验。3.聚类分析主要用于探索性研究,其分析结果可提供多个可能的解,最终解的选择需要研究者的主观判断和后续分析。4.聚类分析的解完全依赖于研究者所选择的聚类变量,增加或删除一些变量对最终解都可能产生实质性的影响。2、“亲疏”程度的度量u衡量指标衡量指标相似系数:数据间相似程度的度量,相似系数:数据间相似程度的度量,性质越接近的变量或样品,它们的相似系数越接近于1或一l,聚为一类,不相似的为不同类。距离:数据间差异
5、程度的度量距离:数据间差异程度的度量.距离越近距离越近,越越“亲亲密密”,”,聚成一类聚成一类;距离越远距离越远,越越“疏远疏远”,”,分别属于分别属于不同的类不同的类u衡量对象衡量对象个体间距离个体间距离个体和类、类和类间的距离个体和类、类和类间的距离个体间距离的度量个体间距离的度量设 和是第i和 j 个样品的观测值,则二者之间的距离为:明氏距离特别,欧氏距离(1)明考夫斯基距离明氏距离(定距变量)v明考夫斯基距离主要有以下两个缺点:明明氏氏距距离离的的值值与与各各指指标标的的量量纲纲有有关关,而各指标计量单位的选择有一定的人为性和随意性,各变量计量单位的不同不仅使此距离的实际意义难以说清,
6、而且,任何一个变量计量单位的改变都会使此距离的数值改变,从而使该距离的数值依赖于各变量计量单位的选择。明明氏氏距距离离的的定定义义没没有有考考虑虑各各个个变变量量之之间间的的相相关关性性和和重重要要性性。实际上,明考夫斯基距离是把各个变量都同等看待,将两个样品在各个变量上的离差简单地进行了综合。个体间距离的度量个体间距离的度量(2)2)其他距离其他距离马氏距离马氏距离(BLOCKBLOCK)切比雪夫距离切比雪夫距离(CHEBYCHEV)CHEBYCHEV)余弦夹角余弦夹角(Cosine)(Cosine)卡方距离卡方距离(Chi-Square measure)(Chi-Square measur
7、e)分类变量分类变量个体间距离的度量个体间距离的度量类与类之间距离的度量(1)最短距离(Nearest Neighbor)x21x12x22x11(2)最长距离(Furthest Neighbor)x11x21类与类之间距离的度量(3)组间平均连接(Between-group Linkage)=类与类之间距离的度量(5)重心法(Centroid clustering):均值点的距离类与类之间距离的度量(6)离差平方和法连接(Wards method)2,41,56,5类与类之间距离的度量红绿(2,4,6,5)8.75 离差平方和增加8.752.56.25黄绿(6,5,1,5)14.75 离差平
8、方和增加14.758.56.25黄红(2,4,1,5)10 离差平方和增加10100故按该方法的连接,黄红首先连接。6.2 系统聚类法系统聚类法 系统聚类法(分层聚类法)是一种其聚类过程可以用所谓的谱系结构或树形结构来描绘的方法。事事先不用确定分多少类先不用确定分多少类.系统聚类法的应用特点:可以对变量或记录进行聚类;变量可以为连续或分类变量;提供的距离测量方法非常丰富;结果显示方法丰富;运算速度较慢。1、基本思路(一一)思路思路:聚类过程具有一定的层次性聚类过程具有一定的层次性以合并以合并(凝聚凝聚)的方式聚类的方式聚类(SPSSSPSS采用采用)首先首先,每个个体自成一类每个个体自成一类其
9、次其次,将最将最“亲密亲密”的个体聚成一小类的个体聚成一小类然后然后,将最将最“亲密亲密”的小类或个体再聚成一类的小类或个体再聚成一类重复上述过程重复上述过程,即:把所有的个体和小类聚集即:把所有的个体和小类聚集成越来越大的类,直到所有的个体都到一起成越来越大的类,直到所有的个体都到一起(一大类一大类)为止为止例6.1:为了研究辽宁等5省区某年城镇居民生活消费结构,根据调查资料做类型划分省份x1x2x3x4x5x6x7x8辽宁浙江河南甘肃青海7.90 7.68 9.42 9.16 10.0639.7750.3727.9327.9828.648.49 11.358.209.0110.5212.9
10、413.308.149.3210.0519.2719.2516.1715.9916.1811.0514.599.429.10 8.392.042.751.551.821.9613.2914.879.7611.3510.81G1=G1=辽宁辽宁,G2=G2=浙江浙江,G3=G3=河南河南,G4=G4=甘肃甘肃,G5=G5=青海青海 采用欧氏距离:采用欧氏距离:d12=(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94-13.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)20.5=
11、11.67 d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d35=3.51 d45=2.21 1辽宁 2浙江 3河南 4甘肃 5青海D1=1 0 2 11.67 0 3 13.80 24.63 0 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0河南与甘肃的距离最近,先将二者河南与甘肃的距离最近,先将二者(3 3和和4 4)合为一类)合为一类G6=G3,G4d61=d(3,4)1=mind13,d14=13.12 d62=d(3,4)2=mind23,d24=2
12、4.06d65=d(3,4)5=mind35,d45=2.21 6 1 2 5 6 0D2=1 13.12 0 2 24.06 11.67 0 5 2.21 12.80 23.54 0d71=d(3,4,5)1=mind13,d14,d15=12.80d72=d(3,4,5)2=mind23,d24,d25=23.54 7 1 2D3=7 0 1 12.80 0 2 23.54 11.67 0河南、甘肃与青海并为一新类河南、甘肃与青海并为一新类G7=G6,G5=G3,G4,GG8=G1,G2d78=mind71,d72=12.80 7 8D4=7 0 8 12.8 0河南河南3 3甘肃甘肃4
13、4青海青海5 5辽宁辽宁1 1浙江浙江2 2分层聚类(五五)说明说明聚类分析包括:个案聚类和变量聚类两种。聚类分析包括:个案聚类和变量聚类两种。聚类分析中的变量选择问题聚类分析中的变量选择问题聚类结果仅是所选定变量所具数据特点的反应聚类结果仅是所选定变量所具数据特点的反应.变量应和聚类分析的目标密切相关变量应和聚类分析的目标密切相关(如通信企业客户消如通信企业客户消费行为用通话时长、通话时段、通话流向等费行为用通话时长、通话时段、通话流向等)变量之间不应具有高度相关性变量之间不应具有高度相关性,否则相当于给这些变量否则相当于给这些变量进行了加权进行了加权聚类过程中如果数据在数量级上存在差异时,
14、应进行标准聚类过程中如果数据在数量级上存在差异时,应进行标准化处理。化处理。2、SPSS的分层聚类操作步骤操作步骤1.1.基本操作基本操作A.A.菜单选项菜单选项:AnalyzeclassifyhierachicalAnalyzeclassifyhierachical cluster clusterB.B.选择选择参与聚类分析的变量参与聚类分析的变量参与聚类分析的变量参与聚类分析的变量入入variablesvariables框框C.C.选择一字符型变量作为选择一字符型变量作为个案的标记变量个案的标记变量(label cases)label cases)D.D.选择个案聚类还是变量聚类选择个案聚
15、类还是变量聚类分层聚类操作步骤操作步骤2.2.选择距离计算方法(选择距离计算方法(methodmethod选项)选项)cluster method:cluster method:计算类间距离的方法计算类间距离的方法measure:measure:计算样本距离的方法计算样本距离的方法transform values:transform values:对数据进行标准化处理对数据进行标准化处理by variable:by variable:以以变量为单位标准化,适于个变量为单位标准化,适于个案聚类案聚类 by case:by case:以以个案为单位标准化,适于变量聚个案为单位标准化,适于变量聚类类
16、分层聚类3.3.数据输出(数据输出(statisticsstatistics选项)选项)agglomeration schedule:agglomeration schedule:凝聚状态表(默认)凝聚状态表(默认)distance matrix:distance matrix:样本的距离矩阵样本的距离矩阵cluster membership:cluster membership:类成员类成员none:none:不输出类成员(默认)不输出类成员(默认)single solutionsingle solution:聚成聚成n n类时各样本的归属类时各样本的归属range of solutions
17、:range of solutions:聚成聚成mnmn类时各样本的归类时各样本的归属属(mnmn总样本数总样本数)分层聚类4.4.图形输出(图形输出(plotplot选项)选项)dendrogramdendrogramdendrogramdendrogram:树型图树型图树型图树型图icicle:icicle:冰柱图冰柱图all cluster:all cluster:聚类的每一步均在冰柱图中体现聚类的每一步均在冰柱图中体现specified range of clusters:specified range of clusters:将聚类将聚类为为n n1 1类开类开始到始到n n2 2类
18、结束,间隔类结束,间隔n n3 3类的聚类分析过程在冰柱图类的聚类分析过程在冰柱图中体现中体现orientation:orientation:冰柱图的方向冰柱图的方向vertical:vertical:纵向纵向;horizontal:horizontal:横向横向分层聚类5.5.结果保存(结果保存(结果保存(结果保存(savesavesavesave选项)选项)选项)选项)single solutionsingle solutionsingle solutionsingle solution:生成一新变量存储在聚成生成一新变量存储在聚成n n类时各样本属于哪一类类时各样本属于哪一类(cluN_
19、McluN_M:N:N为聚类数为聚类数,M,M为第几次做的为第几次做的)range of solutionsrange of solutionsrange of solutionsrange of solutions:生成若干个变量分别存生成若干个变量分别存放聚成放聚成nmnm类时各样本的归属情况类时各样本的归属情况应用举例应用举例 例6.1:为了更深入了解我国人口的文化程度状况,现利用1990年全国人口普查数据对全国30个省、直辖市、自治区进行聚类分析。分析选了三个指标:(1)大学以上文化程度人口占全部总人口的比例(DXBZ);(2)初中文化程度的人口占全部总人口的比例(CZBZ);(3)文
20、盲半文盲人口占全部总人口的比例(WMBZ),试分析我国人口文化程度状况。(原始数据见文化程度.sav)。v聚类数目的确定聚类数目的确定各类中心间距离应较大各类中心间距离应较大各类所包含的元素都不应过多或过少各类所包含的元素都不应过多或过少分类数目应符合分析的目的分类数目应符合分析的目的每类应该有自己明确的特征每类应该有自己明确的特征v变变量量的的标标准准化化:如如果果数数据据在在数数量量级级上上存存在在差差异异时,应进行标准化处理。时,应进行标准化处理。聚类分析注意的问题聚类分析注意的问题v共共线线性性问问题题:变变量量之之间间不不应应具具有有高高度度相相关关性性,否否则则相相当当于于给给这这
21、些些变变量量进进行行了了加加权权,对对记记录录聚聚类类结结果果有有较较大大的的影影响响,最最好好先先进进行行预预处处理理(如如剔剔除除或或先先做做因因子分析)子分析)v变变量量选选择择 :变变量量应应和和聚聚类类分分析析的的目目标标密密切切相相关关;原原则则上上应应当当只只引引入入在在不不同同类类间间有有显显著著差差别别的的变变量量。现现阶阶段段,一一般般先先得得出出分分类类结结果果后后进进行行方方差差分分析析,再再结合专业知识来判断。结合专业知识来判断。需要着重注意的问题:v聚类之前的数据准备v能够输出和阅读树状图(谱系聚类图)v聚类之后要求确定各类对象的特点。分层聚类对变量进行聚类例例6.
22、26.2:SPSSSPSS自带数据集自带数据集judges.savjudges.sav是中、是中、法、美等七个国家的专业裁判和未经严格法、美等七个国家的专业裁判和未经严格训练的体育爱好者在评判体育比赛中作为训练的体育爱好者在评判体育比赛中作为裁判对选手的评分情况。请根据评分的差裁判对选手的评分情况。请根据评分的差异考察各裁判打分的相似性并分析。异考察各裁判打分的相似性并分析。6.3 快速聚类法快速聚类法1、快速聚类概述(一一)出发点出发点希望:希望:克服分层聚类在大样本时产生的困难,提高聚克服分层聚类在大样本时产生的困难,提高聚类效率类效率做法:做法:通过事先指定聚类数目的方式提高效率通过事先
23、指定聚类数目的方式提高效率因此,分层聚类可以对不同的聚类数而产生一因此,分层聚类可以对不同的聚类数而产生一系列的聚类解,而快速聚类只能产生单一的聚系列的聚类解,而快速聚类只能产生单一的聚类解类解(二二)思路思路1.1.指定最后要聚成指定最后要聚成K K类类2.2.用户指定用户指定k k个样本作为初始类中心或系统自动确定个样本作为初始类中心或系统自动确定k k个样本个样本作为初始类中心作为初始类中心3.3.系统按照距系统按照距k k个中心距离最近的原则把每个样本分派到各个中心距离最近的原则把每个样本分派到各中心所在的类中去中心所在的类中去,形成一个新的形成一个新的k k类,完成一次迭代类,完成一
24、次迭代4.4.重新计算重新计算k k个类的类中心个类的类中心(计算每类各变量的均值计算每类各变量的均值,以均值以均值点作为类中心点作为类中心)5.5.重复重复3 3步和步和4 4步,直到达到指定的迭代次数或达到终止迭代步,直到达到指定的迭代次数或达到终止迭代的条件的条件各个案的分类在聚类过程中会发生变化各个案的分类在聚类过程中会发生变化动态聚类最终分类分类是否合理选凝聚点初始分类修改分类K-means快速聚类(二二)思路思路 SPSSSPSS中两个判断聚类是否结束的条件中两个判断聚类是否结束的条件,满足满足其中一个即可结束聚类过程其中一个即可结束聚类过程.达到指定迭代次数达到指定迭代次数(ma
25、ximum iteration),maximum iteration),默认默认1010次。次。收敛标准收敛标准(convergence),convergence),默认默认0.020.02(显示(显示0 0),即:),即:本次迭代产生的任意新类本次迭代产生的任意新类,各中心位置变化较小各中心位置变化较小.其其中最大的变化率小于中最大的变化率小于2%.2%.2、SPSS的快速聚类基本操作步骤基本操作步骤A.A.菜单选项:菜单选项:analyzeclassifykanalyzeclassifyk means clustermeans clusterB.B.选定选定参加快速聚类分析的变量参加快速聚
26、类分析的变量到到variablesvariables框框C.C.确定快速聚类的类数确定快速聚类的类数(number of number of clusters).clusters).类数应小于个案总数类数应小于个案总数K-means快速聚类D.D.保存快速聚类的结果保存快速聚类的结果保存快速聚类的结果保存快速聚类的结果(save)save)save)save)cluster membershipcluster membershipcluster membershipcluster membership:将各个案所属类的类将各个案所属类的类号保存到号保存到qcl_qcl_1 1变量中变量中dis
27、tance from cluster center:distance from cluster center:将各样本将各样本距所属类中心距所属类中心的距离保存到的距离保存到qcl_2qcl_2变量中变量中.K-means快速聚类E.E.输出选项输出选项(option)option)initial cluster centers:initial cluster centers:输出输出初始类中心初始类中心点点ANOVA table:ANOVA table:输出各类的方差分析表输出各类的方差分析表cluster information for each case:cluster informat
28、ion for each case:输出输出每个样本的分类结果和距离每个样本的分类结果和距离 快速聚类的应用特点:快速聚类的应用特点:v适适用用于于大大样样本本聚聚类类,样样本本量量大大于于100100时时有有必必要要考考虑;虑;v速度快,节省运算时间;速度快,节省运算时间;v只能对样本(记录)聚类;只能对样本(记录)聚类;v只能是连续变量;只能是连续变量;v要求已知类别数。要求已知类别数。K-means快速聚类应用举例应用举例 例例6.36.3:telco.savtelco.sav数据是反映移动电话客户使用数据是反映移动电话客户使用手机情况的一个数据集。包含手机情况的一个数据集。包含6 6个
29、变量:客户编号、个变量:客户编号、工作日上班时期电话时长、工作日下班时期电话时工作日上班时期电话时长、工作日下班时期电话时长、周末电话时长、国际电话时长、总通话时长和长、周末电话时长、国际电话时长、总通话时长和平均每次通话时长。现希望对移动用户进行细分,平均每次通话时长。现希望对移动用户进行细分,以了解他们不同的手机消费习惯。根据前期调研,以了解他们不同的手机消费习惯。根据前期调研,研究者认为移动用户应当被分为研究者认为移动用户应当被分为5 5个主要群体,现个主要群体,现希望做定量的聚类分析。希望做定量的聚类分析。快速聚类结果:快速聚类结果:v第一类:高端商用客户第一类:高端商用客户(17.8%)(17.8%);v第二类:低端客户第二类:低端客户(43.0%)(43.0%);v第三类:中端商用客户第三类:中端商用客户(9.7%)(9.7%);v第四类:中端日常客户第四类:中端日常客户(28.3%)(28.3%);v第五类:长聊客户第五类:长聊客户(1.3%)(1.3%)。K-means快速聚类Any Question?Thank You!进入第7章
限制150内