2022年2022年聚类分析上机指导 .pdf
《2022年2022年聚类分析上机指导 .pdf》由会员分享,可在线阅读,更多相关《2022年2022年聚类分析上机指导 .pdf(15页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1 实验六聚类分析动态聚类和变量聚类二、动态聚类法 FASTCLUS过程动态聚类又称为逐步聚类,基本思想是,开始先粗略地分一下类(先选一批凝聚点,让样品向最近的凝聚点聚集,就得到初始分类),然后按照某种最优的原则修改不合理的分类,直到分得比较合理为止。FASTCLUS 过程的一般格式:PROC FASTCLUS MAXCLUSTER=n|RADIUS=t;VAR variables;ID variable;FREQ variable;WEIGHT variable;BY variables;语句说明:PROC FASTCLUS 语句 用来开始 FASTCLUS 过程,必须规定说明项MAXCLU
2、STER=或RADIUS=中的一个。说明项和常用选项:(1)MAXCLUSTER=n|MAXC=n:指定所允许的最大分类数,缺省为 100.(2)RADIUS=t:为选择新的“凝聚点”指定的最小距离名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 15 页 -2 准则。当一个观测点与已有“凝聚点”的最小距离均大于由该选项规定的值t 时,该观测可考虑用来作为新的“凝聚点”。t 的缺省值为 0.(3)DATA=SAS-data-set:给出进行聚类的观测数据集的名字。(4)OUT=SAS-data-set:聚类结果保存都新的数据集中,包含 VAR 中变量,及新变量cluster和dis
3、tance(观测与所属类间的距离)。(5)CLUSTER=name:规定在输出的数据集中用以指示观测属于哪一类的变量名字。缺省为CLUSTER.(6)DRIFT:执行逐个修改法(7)MAXITER=n:指定重新计算类的凝聚点的最大迭代次数。当 n0时,执行按批修改法。缺省为1.(8)DISTANCE:要求输出类均值之间的距离(9)LIST:要求列出所有观测所归入类的类号及观测同最终凝聚点之间的距离。注意事项:应用举例:例2:试用 FASTCLUS 过程对 16个地区农民生活水平的调查数名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页,共 15 页 -3 据(数据集 d641)进行分类。
4、SAS 程序:procfastclusdata=d641 out=out653 maxc=4 list;var x1-x6;id group;run;maxc=4:规定最大分类个数为 4类list:要求列出分类结果。out=out653:指定生成名为 out653 的输出数据集,包含VAR中的变量,新变量 cluster和新变量distance(观测与所属类中心的距离)。主要输出结果:动态聚类的初始凝聚点(数据不标准化)动态聚类的分类结果(数据不标准化)名师资料总结-精品资料欢迎下载-名师精心整理-第 3 页,共 15 页 -4 第一类:北京、浙江第二类:上海第三类:河北、山西、黑龙江、山东、
5、河南第四类:内蒙、辽宁、吉林、江苏、安徽、福建、江西动态聚类产生的各类均值和标准差(数据不标准化)以下 SAS 程序首先调用 STANDARD过程对数据作标准化变化,然后用标准化变换后的数据进行动态聚类分析。名师资料总结-精品资料欢迎下载-名师精心整理-第 4 页,共 15 页 -5 Proc standard data=d641 mean=0 std=1 out=sta653;Var x1-x6;/*将数据集 d641中的变量 x1-x6 标准化,输出到数据集sta653 中*/Proc fastclus data=sta653 out=out654 maxc=4 list;Var x1-x
6、6;id group;Run;主要输出结果:动态聚类的初始凝聚点(数据标准化)动态聚类的分类结果(数据标准化)名师资料总结-精品资料欢迎下载-名师精心整理-第 5 页,共 15 页 -6 第一类:北京第二类:上海第三类:河北、山西、内蒙、山东、河南第四类:天津、辽宁、吉林、黑龙江、江苏、浙江、安徽、福建、江西三、变量聚类VARCLUS 过程VARCLUS过程的一般格式:名师资料总结-精品资料欢迎下载-名师精心整理-第 6 页,共 15 页 -7 PROC VARCLUS语句及选项:数据集选项:(1)DATA=SAS-data-set:指定要分析的数据集,数据 集 可 以 是 通 常 的SAS数
7、 据 集 或 是TYPE=CORR,UCORR(矫 正 过 的 相 关 系 数 矩阵),COV,UCOV 等的数据集。(2)OUTSTAT=SAS-data-ste:生成一个输出数据集,包含均值、标准差、相关系数、类得分系数和类的结构。(3)OUTTREE=SAS-data-set:生成输出数据集,包含有聚类过程的树状结构信息,可用 TREE 过程画树状图。确定分类个数的选项:(1)MAXCLUSTERS=n|MAXC=n:规定所要求的最大分类个数,缺省为变量个数。(2)MINCLUSTERS=n|MINC=n:规定所要求的最小分类名师资料总结-精品资料欢迎下载-名师精心整理-第 7 页,共
8、15 页 -8 个 数,缺 省 从 一 个 类 开 始 试 着 按 照 选 项PROPORTION=或者 MAXEIGEN=进行分裂分类(3)MAXEIGEN=n:规定每一类第二特征值所允许的最大值,缺省,若没有规定选项PROPORTION=或MAXC=,且输入数据集为相关阵时,缺省值为1;若输入数据集为协方差阵时,缺省值为变量方差的均值。该选项不能与CENTROID 同时使用(4)PROPORTION=n|PERCENT=n:规定类分量必须解释的方差比例或百分比。若指定选项CENTROID,缺省为 0.75,否则为0 聚类方式选项:(1)CENTROID:使用重心分量而不是主分量,缺省为主分
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年2022年聚类分析上机指导 2022 聚类分析 上机 指导
限制150内