数据挖掘 实验教案4.docx
《数据挖掘 实验教案4.docx》由会员分享,可在线阅读,更多相关《数据挖掘 实验教案4.docx(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、实验六:用K均值(K-means)算法实现聚类分析一、实验目的1、通过本次试验了解K均值算法实现聚类分析的原理;2、锻炼学生对K均值算法实现聚类分析操作水平;3、通过摹拟和讨论,确保学生深刻体味K均值在整个聚类分析的重要性。二、实验内容本实验的主要内容是通过对wake软件系统的实验,了解K均值算法实现聚 类分析的原理以及具体的实验步骤。三、实验设备(一)实验设备1、计算机控制系统,包括计算机、wake软件等(二)软件环境1、服务器采用Java操作系统;2、操作软件:wake软件四、实验内容和步骤用“Explorer”打开刚才得到的“bank.arff”,并切换到“Cluster。点“Choos
2、e 按钮选择SimpleKMeans,这是WEKA中实现K均值的算法。点击旁边的文 本框,修改numClusters为6,说明我们希翼把这600条实例聚成6类,即K=6。 下面的“seed”参数是要设置一个随机种子,依此产生一个随机数,用来得到K 均值算法中第一次给出的K个簇中心的位置。我们不妨暂时让它就为10o 如下 图所不:选中 “Cluster Mode” 的 “Use training set”,点击 “Start” 按钮,如下图所示:Percentage split 66观察右边“Clusterer output”给出的聚类结果。也可以在左下角Result list 中这次产生的结果
3、上点右键,View in separate windowv在新窗口中浏览结果。 结果如下图所示:kMeansKustex of ILeratlons: 6Within cldfr uzi of squared trrert: l04.741693522332Mi astro values alohlly replaced with vean/wMeClu0rx cantroid*!Attriruzerun Da 二a 09)Cluster# 0(77)4CGI2 (77)3 (147)4 (1C6|.w (117)age42.3”37.129944.216348.31039.11S639.3C
4、1947.4667sexFEMALEFEMMEFEMMXFEKXLEETMKLEMUXMJILETNNEP-CTTYTOTERCTTYR7RALTKNER_CTTYTOWTJWER-CITTTOWNincose21524.031223377.76“27772.3:4621658.43”24J47.32t526353.635419.2842iLaxxiedYMNOYE3nrYE3皿HCchxldxen032i004carMCNONOMCNOYESYESYUYESYE5HCresNOYETcumf KYISnsYESYESVISYTSYTSsorta&aeHCNONOJKNOYES耽pepXCNO
5、NOYt,因YE3Clustered instances077( 139)1 It( 139)2 77( 13,)3 147( 2卬l106( ie i)|结果解释.首先我们注意到结果中有这么一行:这是评价聚类好坏的标准,数值越小说明同一簇实例之间的距离越小。也许 你得到的数值会不一样;实际上如果把“seed”参数改一下,得到的这个数值就 可能会不一样。我们应该多尝试几个seed,并采用这个数值最小的那个结果。接下来Clustercentroids:之后列出了各个簇中心的位置。对于数值型的属 性,簇中心就是它的均值(Mean);分类型的就是它的众数(Mode),也就是说这个属性上取值为众数值的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据挖掘 实验教案4 数据 挖掘 实验 教案
限制150内