《聚类分析的实现精选文档.ppt》由会员分享,可在线阅读,更多相关《聚类分析的实现精选文档.ppt(39页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、聚类分析的实现本讲稿第一页,共三十九页SPSS中的聚类分析中的聚类分析Spss中的聚类功能常用的有两种:快速聚类(迭代过程):K-Means Cluster系统聚类:Hierarchical Cluster 毛本清 2010.08.27本讲稿第二页,共三十九页一、Hierarchical Cluster聚类系统聚类由两种方法:分解法和凝聚法。系统聚类的功能:即可进行样品的聚类,也可进行变量的聚类。系统聚类的原理:即我们前面介绍过的系统聚类方法的原理和过程。毛本清 2010.08.27本讲稿第三页,共三十九页系统聚类的中要进行以下的选择:数据的标准化测度方法的选择:距离方法的选择或相似性、关联程
2、度的选择。聚类方法的选择:即以什么方法聚类,spss中提供了7中方法可进行选择。输出图形的选择:树形图或冰柱图。毛本清 2010.08.27本讲稿第四页,共三十九页系统聚类 毛本清 2010.08.27本讲稿第五页,共三十九页见(一)聚类方法见(一)聚类方法见(见(二)各种距离和相似系数二)各种距离和相似系数 毛本清 2010.08.27本讲稿第六页,共三十九页MethodMethod聚类方法标准化变换亲疏关系指标 毛本清 2010.08.27本讲稿第七页,共三十九页(一)聚类方法(一)聚类方法1.Between-groups linkage 类间平均法 两类距离为两类元素两两之间平均平方距离
3、2.Within-groups linkage 类内平均法两类距离为合并后类中可能元素两两之间平均平方距离3.Nearest neighbor 最短距离法 4.Furthest neighbor 最长距离法5.Centroid clustering 重心法 (欧式距离)6.Median clustering 中间距离法 (欧式距离)7.Ward Method 离差平方法 (欧式距离)毛本清 2010.08.27本讲稿第八页,共三十九页 1.squared euclidean distance 平方欧式距离2.euclidean distance 欧式距离3.cosine 夹角余弦(R型)4.p
4、earson correlation 皮尔逊相关系数(R)5.chebychev 切比雪夫距离(二)各种距离和相似系数(亲疏关系指标)(二)各种距离和相似系数(亲疏关系指标)毛本清 2010.08.27本讲稿第九页,共三十九页6.block 绝对值距离7.minkowski 明考斯基8.customized 毛本清 2010.08.27本讲稿第十页,共三十九页 毛本清 2010.08.27本讲稿第十一页,共三十九页StatisticsStatistics聚类进度表相似矩阵样品或变量的分类情况 毛本清 2010.08.27本讲稿第十二页,共三十九页 毛本清 2010.08.27本讲稿第十三页,共
5、三十九页 凝聚状态表的第一列表示聚类分析的第几步;第二列、第三列表示本步聚类中哪两个样本或小类聚成一类;第四列是相应的样本距离或小类距离;第五列、第六列表明本步聚类中,参与聚类的是样本还是小类。0表示样本,数字n(非0)表示由第n步聚类产生的小类参与本步聚类;第七列表示本步聚类的结果将在下面聚类的第几步中用到。毛本清 2010.08.27本讲稿第十四页,共三十九页 毛本清 2010.08.27本讲稿第十五页,共三十九页PlotPlot树状结构图冰柱图冰柱的方向 毛本清 2010.08.27本讲稿第十六页,共三十九页Number of clustersCase X7 X5 X4 X3 X6 X8
6、 X2 X11XXXXXXXXXXXXXXX2XXXXXXXXXXXXX X3X XXXXXXXXXXX X4X XXXXX XXXXX X5X XXX X XXXXX X6X X X X XXXXX X7X X X X X XXX XVertical Icicle6 67 7 毛本清 2010.08.27本讲稿第十七页,共三十九页 冰柱图因其样子非常象冬天房顶垂下的冰柱得名,它以图形的方式显示层次聚类分析结果,一般从冰柱图的最后一行开始观察,第一列表示类数。两样品之间的“”表示将其两边的样品(类)联结起来聚成新类。毛本清 2010.08.27本讲稿第十八页,共三十九页 毛本清 2010.08
7、.27本讲稿第十九页,共三十九页应用举例应用举例:4-14-1 毛本清 2010.08.27本讲稿第二十页,共三十九页 首先对表4-1中的原始数据进行标准化变换处理,经过运算使数据标准化得到表4-2,使它的每列数据的平均值为0,方差为1,这样表4-1中5列具有不同量纲、不同数量级的数据不同地区数据求出欧氏距离。就能放在一起比较;其次用表4-2中经过标准化处理后的30个 毛本清 2010.08.27本讲稿第二十一页,共三十九页 毛本清 2010.08.27本讲稿第二十二页,共三十九页 毛本清 2010.08.27本讲稿第二十三页,共三十九页表表4-1 毛本清 2010.08.27本讲稿第二十四页
8、,共三十九页 毛本清 2010.08.27本讲稿第二十五页,共三十九页表表 4-24-2 毛本清 2010.08.27本讲稿第二十六页,共三十九页 毛本清 2010.08.27本讲稿第二十七页,共三十九页 毛本清 2010.08.27本讲稿第二十八页,共三十九页K-Means Cluster聚类 毛本清 2010.08.27本讲稿第二十九页,共三十九页K-Means Cluster原理首先,选择n个数值型变量参与聚类分析,最后要求的聚类数为k个;其次,由系统选择k个(聚类的类数)观测量(也可由用户指定)作为聚类的种子。第三,按照距离这些类中心的距离最小的原则把所有观测量(样品)分派到各类重心所
9、在的类中去。第四,这样每类中可能由若干个样品,计算每个类中各个变量的均值,以此作为第二次迭代的中心;第五,然后根据这个中心重复第三、第四步,直到中心的迭代标准达到要求时,聚类过程结束。毛本清 2010.08.27本讲稿第三十页,共三十九页K-Means Cluster聚类过程由AnalyzeClassify K-Means Cluster将个变量放入Variable;输入最后聚类的个数;毛本清 2010.08.27本讲稿第三十一页,共三十九页例例 饮料数据(饮料数据(spssex/drink.sav spssex/drink.sav)16种饮料的热量、咖啡因、钠及价格四种变量 毛本清 2010
10、.08.27本讲稿第三十二页,共三十九页 快速聚类 毛本清 2010.08.27本讲稿第三十三页,共三十九页选项读写凝聚点人为固定分类数ANOVA表,初始凝聚点等 毛本清 2010.08.27本讲稿第三十四页,共三十九页快速聚类法的聚类数由用户指定,分类是唯一的。1.分类数:如希望聚成K类2.聚类方法:method:iterate and clussify(聚类分析的 clussify only(聚类分析过程类中心3.聚类中心:centers4.迭代次数:iterate5.保存分类结果:save每一步都重新计算新的类中心点)点始终为初始类中心点,仅作一次迭代)毛本清 2010.08.27本讲稿
11、第三十五页,共三十九页Initial Cluster Center:快速聚类的初始类中心点(本例由系统自行指定四个类的初始类中心点)指定聚成四类 毛本清 2010.08.27本讲稿第三十六页,共三十九页Iteration History:快速聚类的迭代步骤 在迭代过程中,完成第一次迭代后形成的四个新类中心点距初始类中心点的欧氏距离分别为5.065、12.532、12.275、25.901。第四次迭代后形成的四个新类中心点几乎与上次确定的中心点没有差别。经过四次迭代,快速聚类完成。毛本清 2010.08.27本讲稿第三十七页,共三十九页快速聚类的最终类中心点 毛本清 2010.08.27本讲稿第三十八页,共三十九页Number of Cases in each Cluster:快速聚类的最终结果快速聚类的类成员情况各样本距其所在的类中心的欧氏距离各类中的成员数 毛本清 2010.08.27本讲稿第三十九页,共三十九页
限制150内