第九讲聚类分析.ppt
《第九讲聚类分析.ppt》由会员分享,可在线阅读,更多相关《第九讲聚类分析.ppt(30页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第九讲聚类分析现在学习的是第1页,共30页方法原理方法原理按照个体(记录)的特征将它们分类,使同一类别内的个体具有尽可能高的同质性,而类别之间则具有尽可能高的异质性。为了得到比较合理的分类,首先要采用适当的指标来定量地描述研究对象之间的联系的紧密程度。直观的理解为按空间距离的远近来划分类别 现在学习的是第2页,共30页方法原理方法原理假定研究对象均用所谓的“点”来表示。在聚类分析中,一般的规则是将“距离”较小的点归为同一类,将“距离”较大的点归为不同的类。常见的是对个体分类,也可以对变量分类此时一般使用相似系数作为“距离”测量指标现在学习的是第3页,共30页方法原理方法原理例:根据年龄将人群分
2、成适当的类,从右图可见,人群被分为两类是比较合适的。现在学习的是第4页,共30页方法原理方法原理在右图中可以看到五个样品应当可能被分为两组或者三组,C/D组x和y的取值均偏低,而另三个所在组x和y的取值均偏高分为两类或三类都是可接受的从图中可以直观的理解“距离”的含义现在学习的是第5页,共30页方法原理方法原理当用于聚类的变量逐渐增多时,分析思路完全相同,只是这样简单、清晰的图示展现类别情况变得逐渐不大可能多维空间中的观察可能的解决方法放弃图示化观察,改用复杂的统计指标缩减维度,使得可以在低维度空间进行呈现现在学习的是第6页,共30页特特 点点聚类分析前所有个体所属的类别是未知的,类别个数一般
3、也是未知的,分析的依据就是原始数据,可能事先没有任何有关类别的信息可参考。严格说来聚类分析并不是纯粹的统计技术,它不像其它多元分析法那样,需要从样本去推断总体。一般都涉及不到有关统计量的分布,也不需要进行显著性检验。聚类分析更像是一种建立假设的方法,而对相关假设的检验还需要借助其它统计方法。现在学习的是第7页,共30页聚类分析与聚类分析与SPSS软件软件现在学习的是第8页,共30页TwoStep Cluster过程过程特点:处理对象:分类变量和连续变量处理对象:分类变量和连续变量自动决定最佳分类数快速处理大数据集前提假设:变量间彼此独立分类变量服从多项分布,连续变量服从正态分布模型稳健现在学习
4、的是第9页,共30页TwoStep Cluster过程过程步骤:建立Cluster Features(CF)Tree 确定最佳聚类数分析实例:某汽车制造商为了了解整个汽车市场的形势,希望根据汽车的基本属性和价钱对其进行分类,以有效地提高竞争力。数据:car_sales.savcategorical variable:Vehicle typecontinuous variables:Price in thousands Fuel efficiency现在学习的是第10页,共30页价位低、车型小、省油现在学习的是第11页,共30页在该类中,所有变量均对分类有意义按变量对分类的贡献大小排序Fuel
5、efficiency唯一大于均值现在学习的是第12页,共30页K-means Cluster过程过程k-均值聚类(k-means cluster,也叫快速聚类,quick cluster)要求你先说好要分多少类。假定你说分3类,这个方法还进一步要求你事先确定3个点为“聚类种子”(SPSS软件自动为你选种子);也就是说,把这3个点作为三类中每一类的基石。然后,根据和这三个点的距离远近,把所有点分成三类。再把这三类的中心(均值)作为新的基石或种子(原来“种子”就没用了),再重新按照距离分类。如此叠代下去,直到达到停止叠代的要求(比如,各类最后变化不大了,或者叠代次数太多了)。显然,前面的聚类种子的
6、选择并不必太认真,它们很可能最后还会分到同一类中呢。现在学习的是第13页,共30页K-means Cluster过程过程属于非系统聚类法的一种 方法原理选择(或人为指定)某些记录作为凝聚点按就近原则将其余记录向凝聚点凝集计算出各个初始分类的中心位置(均值)用计算出的中心位置重新进行聚类如此反复循环,直到凝聚点位置收敛为止现在学习的是第14页,共30页K-means Cluster过程过程方法特点要求已知类别数可人为指定初始位置节省运算时间样本量大于100时有必要考虑只能使用连续性变量只能使用连续性变量现在学习的是第15页,共30页K-means Cluster过程过程分析实例分析实例一个电信服
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第九 聚类分析
限制150内