《聚类分析快速聚类分析课件优秀PPT.ppt》由会员分享,可在线阅读,更多相关《聚类分析快速聚类分析课件优秀PPT.ppt(14页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、聚类分析快速聚类分析课件现在学习的是第1页,共14页快速样本聚类的基本概念快速样本聚类的基本概念:当要聚成的类数已知时,使用快速聚类过程可以很快将观测量分到各类中去,其特点是处理速度快,占用内存少。K-Means Cluster执行快速样本聚类,使用K均值分类法对观测量进行聚类。可以完全使用系统默认值执行该命令,也可以对聚类过程设置各种参数进行人为的干预。例如,可以事先指定把数据文件的观测量分为几类:指定是聚类过程中止的判据,或迭代次数等。现在学习的是第2页,共14页 快速聚类适用于大样本的聚类分析,快速聚类适用于大样本的聚类分析,它能快速的把个观测量分到各类中去。它能快速的把个观测量分到各类
2、中去。进行快速样本聚类首先要选择用于聚类分析的变量和类数。参与聚类分析的变量必须是数值型变量,且至少要有一个。为了清楚地表明各观察量最后聚到哪一类,还应该指定一个表明观测量特征的变量作为标识变量,例如编号、姓名之类的变量。聚类必须大于等于2,但是聚类数不能大于数据文件中的观测数。现在学习的是第3页,共14页 如果选择了n个数值型变量参与聚类分析,最后要求聚类数为k。那么可以由系统首先选择k个观测量(也可以由用户指定)作为聚类的种子,n个变量组成n维空间。每个观测量在n维空间中是个点。K个事先指定的观测量就是k个聚类中心点,也称为初始类中心。按照距这几个类中心的距离最小原则把观测量分派到各类中心
3、所在地类中;形成第一次迭代形成的k类。根据组成每一类的观测量计算各变量均值,每一类中的n个均值在n维空间中又形成k个点,这就是第二次迭代的类中心,按照这种方法依次迭代下去,直到达到指定的迭代次数或中止迭代的判别要求时,迭代停止,聚类结束。从上述分析过程可以看出,K-Means Cluster不仅是快速样本聚类过程,而且是一种逐步聚类分析。所谓逐步聚类分析就是先把聚类对象进行初步原始分类,然后逐步进行调整,得到最终分类。现在学习的是第4页,共14页举例:举例:为研究儿童生长发育的分期,调查1253名1个月至7岁儿童的身高(Cm)、体重(Kg)、胸围(Cm)和坐高(Cm)资料。资料作如下处理:先把
4、1个月至7岁划成19个月份段,分算出各指标的平均值,将第一个月的各指标平均值与出生时的各指标平均值比较,求出月平均增长率(%),然后第二个月起的各月份指标平均值与前一月比较,亦求出月平均增长率(%),结果见SPSS软件窗口。欲将儿童生长发育分为四期,故指定聚类的类别数为4,请通过聚类分析确定四个儿童生长发育的起止区间。现在学习的是第5页,共14页表1,初始分类中心现在学习的是第6页,共14页表2,初始分类中心现在学习的是第7页,共14页表3,中止分类中心现在学习的是第8页,共14页表4,方差分析现在学习的是第9页,共14页表5,每类例数现在学习的是第10页,共14页结果分析:结果分析:表1、表
5、2、表3显示:首先系统根据用户的指定,按四类聚合确定初始聚类的各变量中心点,未经K-Means算法迭代,其类别间距离并非最优;经迭代运算后类别间各变量中心值得到修正。现在学习的是第11页,共14页 表4、表5显示:对聚类结果的类别间距离进行方差分析,方差分析表明,类别间距离差异的概率值均0.001,即聚类效果最好。这样,原有19类(即原有的19个月份分组)聚合成4类,第一类还原有1类,第二类还原有1类,第三类还原有2类,第四类还原有15类。具体结果系统以变量名QCL_1存于原始文件中。现在学习的是第12页,共14页最后分析结果:最后分析结果:在原始数据文件中,我们可以清楚地看到聚类结果;参照专业知识,将儿童生长发育分期定为:第一期第一期,出生后至满月,增长率最高。第二期第二期,第二个月起至第三个月,增长率次之。第三期第三期,第三个月起至第八个月,增长率减缓。第四期第四期,第八个月后,增长率显著减缓。现在学习的是第13页,共14页谢谢老师的指导!谢谢老师的指导!Thanks your attention!Thanks your attention!现在学习的是第14页,共14页
限制150内