2022年实验十二聚类分析 .pdf
《2022年实验十二聚类分析 .pdf》由会员分享,可在线阅读,更多相关《2022年实验十二聚类分析 .pdf(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、实验十二聚类分析聚类分析是研究“物以类聚”问题的多元统计分析方法。聚类分析是一种建立分类的多元统计分析方法,它能够将一批样本 (或变量)数据根据其诸多特征, 按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类,产生多个分类结果。类内部的个体在特征上具有相似性,不同类间个体特征的差异性较大。基本思想:分层次聚类和 K-均值聚类;层次聚类又称系统聚类,是指其聚类过程是按照一定层次进行的;层次聚类有两种类型, Q型聚类和 R型聚类。Q型聚类是对样本( case)进行聚类, R型聚类是对变量( variable )进行聚类。K-均值聚类又称快速聚类, 需事先指定聚类数目K和 K个初始类中心, 是
2、一个反复迭代的分类过程,在聚类过程中,样本所属的类会不断调整,直到最终达到稳定为止。注意事项:所选择的变量应符合聚类要求。各变量的变量值不应有数量级上的差异。各变量间不应有较强的线性相关关系。一、层次聚类分析步骤选 择 : 分 析Analyze = 分 类Classify =层 次 聚 类Hierarchical Cluster; 步骤1、 选 择分 析 Analyze= 分 类 Classify=层次 聚类Hierarchical 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1
3、 页,共 5 页 - - - - - - - - - Cluster; 2、把参与层次聚类分析的变量选择到变量Variable (s)框中;3、把一个字符型变量作为标记变量选到标签Lable cases by框中,它将大大增强聚类分析结果的可读性;4、在聚类 Cluster框中选择聚类类型,其中样本Cases 表示 Q型聚类(默认类型),变量Variables表示 R型聚类;5、在 Display 框中选择输出内容。其中统计Statistics表示输出聚类分析的相关统计量,图形Plots 表示输出聚类分析的相关图形。6、 单击方法 Method按钮指定距离的计算方法, 其中聚类方法 Clust
4、er Method框中给出的是计算个体与小类、小类与小类间距离的方法;测量Measure框中给出的是不同变量类型下的个体距离的计算方式。其中Interval框中的方法适用于连续型定距变量;Counts 框中的方法适用于计数型变量;Binary 框中的方法适用于二值变量; 7 、如果参与聚类分析的变量存在数量级上的差异,应在数值变换 Transform Values 框中的标准化 Standardize选项中选择消除数量级差的方法,并指定处理是针对变量还是针对样本。By variable表示针对变量,适于Q型聚类分析;By cases 表示针对样本,适于R型聚类分析。消除数量量纲的方法包括:No
5、ne :表示不进行任何处理 ;Z scores :表示计算 Z 分数。它将各变量值减去均值后除以标准差。标准化后的变量值平均值为0,标准差为 1;Range -1 to 1:表示将各变量值除以全距,处理以后的变量值的范围在-1 1 之间,该方法适于变量值中有负值的变量;Range 0 to 1 :表示将各变量值减去最小值后除以全距,处理以后的变量值的范围在 01 之间;Maximum magnitude of 1 :表示将各变量值除以最大值。处理以后的变量值的最大值为 1;Mean of 1 :表示将各变量值除以均值。Standard deviation of 1:表示将各变量值除以标准差。名
6、师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 5 页 - - - - - - - - - 8 、单击 Statistics按钮指定输出哪些统计量。Agglomeration schedule 表示输出聚类分析的凝聚状态表;Proximity matrix 表示输出个体间的距离矩阵;Cluster Membership框中,None 表示不输出样本所属类, Single Solution表示指定输出当分成n 类时各样本所属类,是单一解。Range of solution 表
7、示指定输出当分成 M至 n 类时各样本所属类,是多个解。 9 、单击 Plots按钮指定输出哪种聚类分析图。Dendrogram选项表示输出聚类分析树形图;在Icicle框中指定输出冰挂图, All clusters表示输出聚类分析每个阶段的冰挂图; Specified range of clusters表示只输出某个阶段的冰挂图,输入从第几步开始,到第几步结束,中间间隔几步;在Orientation框中指定如何显示冰挂图, 其中垂直 Vertical表示纵向显示, 水平 Horizontal表示横向水平显示。 10 、单击 Save 按钮可以将聚类分析结果以变量的形式保存到数据编辑窗口中。生
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年实验十二聚类分析 2022 实验 十二 聚类分析
限制150内