聚类实验指导.pdf
1 聚类聚类 实验目的实验目的 通过使用 SQL Sever 自带的聚类算法进行数据挖掘。 算法原理算法原理 Microsoft 聚类分析算法首先标识数据集中的关系并根据这些关系生成一系列分类。 Microsoft 散点图是一种非常有用的方法,可以直观地表示算法如何对数据进行分组,如下 面的关系图所示。 散点图可以表示数据集中的所有事例, 在该图中每个事例就是一个点。 分 类对该图中的点进行分组并阐释该算法所标识的关系。 在最初定义分类后,算法将通过计算确定分类表示点分 组情况的适合程度,然后尝试重新定义这些分组以创建 可以更好地表示数据的分类。 该算法将循环执行此过程, 直到它不能再通过重新定义分类来改进结果为止。 考虑这样一组人员,他们共享类似的人口统计信息并从 Adventure Works 公司购买类似的产品。Adventure Works 这组人员就表示一个数据分类。 数据库中可能存在多个这样的分类。 通过观察构成分类的各列,可以更清楚地了解数据集 中的记录如何相互关联。 数据准备数据准备 1 创建项目创建项目 新建一个 Analysis Service 项目,取名为 Cluster, 图 1 2 2 新建数据源新建数据源 在解决方案资源管理器中,鼠标右键单击“数据源” ,在出现的菜单中选择“新建数据 源” 。在弹出的向导窗口中单击“下一步” ,出现“选择如何定义连接”窗口,在此选择“基 于现有连接或新连接创建数据源” ,在位于下方的列表框中选择 AdventureWorksDW。然后 单击“完成” 。如图 2(如果需要创建新数据源,请参照决策树实验) 图 2 3 新建数据源视图新建数据源视图 在解决方案资源管理器中,鼠标右键单击“数据源视图” ,在出现的菜单中选择“新建 数据源视图” 。 在弹出的向导窗口中单击 “下一步” , 将 “VtargetMail” 表选中, 单击下一步, 单击完成。 至此,数据源与数据源视图全部建好,可以建立数据挖掘模型了。 挖掘挖掘步骤步骤 1 新建挖掘结构 在解决方案资源管理器中,鼠标右键单击“挖掘结构” ,在出现的菜单中选择“新建挖 掘结构” ,在弹出的向导窗口中单击“下一步” ,然后在弹出的“选择定义方法”窗口中选择 “从现有关系数据库或数据仓库” 。单击“下一步” ,出现”选择数据挖掘技术窗口,在下 拉列表中选取 “Microsoft 聚类分析” 。点击“下一步” 。 2 选择数据源 在“指定表类型”窗口中,勾选 VtargetMail 作为事例表。 3 定义输入属性 3 在“指定定型数据”窗口中,选择所需输入属性与键属性。此例以 CustomerKey 为键, 选中 Age, Commute Distance, Gender, House OwnerFlag, Marital Status, Number Cars Owned, Region, Total Children 与 Yearly Income 作为输入属性,完成后选择“确定” 。此刻会回到原 来的页面,点击“下一步” 。如图 3 所示。 图 3 4 选择合适的列的内容 在“显示正确的数据属性”窗口中,点击窗口右下角的“检测” ,系统会自动识别数据 的内容类型及数据类型。但是,此处我们要在系统识别的基础上做修改。Yearly Income 这 个数据从聚类意义的角度来讲, 更有可能希望是离散而不是连续的, 因此将它的内容类型改 正为 Discrete。如图 4 所示。更改完成后,点击“下一步” 。 4 图 4 5 保存模型 在“完成向导”窗口中将挖掘结构名称填写为 Cluster 将挖掘模型名称填写为 Cluster, 并将“允许钻取”复选框勾选上,点击“完成” 。 6 部署模型 本步骤与决策树数据挖掘模型类似,选择视图上方的“挖掘模型查看器”选项卡,弹出 对话框询问是否部署项目, 选择 “是” 。 部署的过程中, 会弹出窗口询问是否处理挖掘模型, 选择“是” 。然后弹出一个”处理挖掘模型“窗口,选择“运行” 。执行完成后点击“关闭” 按钮,回到原来窗口后再点击一次“关闭”按钮。 7 查看模型 到此, 建模完成, 产生的数据挖掘结构接口包含挖掘结构, 挖掘模型, 挖掘模型查看器, 挖掘精确度图表以及挖掘模型预测。 其中在“挖掘结构”选项卡中,主要是呈现数据间的关联性以及分析的变量。 在“挖掘模型”选项卡中,主要是列出所建立的挖掘模型,也可以新增挖掘模型,并且 调整变量,变量使用情况包含 Ignore, Input, Predict, 以及 Predict Only。 在“挖掘模型查看器”选项卡的“分类关系图”中,可以看到此聚类分析的结构,滑动 左边的标尺可以看到类间关联的强弱。 通过定义明暗度变量, 可以观测这一变量在各个分类 中的分布情况,如图 5 所示。 5 图 5 在“挖掘模型查看器”选项卡的“分类剖面图”中,可以看到输入变量在每个分类中的 分布;鼠标单击某个彩色表格,可以看到在“挖掘图例”浮动窗口中,出现了对于此彩色图 示的解释、相关统计量以及此格中属性的主要取值。如图 6. 图 6 “分类特征”主要呈现聚类后所得的每一类的特征,如图 7。 图 7 “分类对比”主要呈现两类间特性的比较,如图 8。 6 图 8 在“挖掘模型预测”选项卡中,可以进行聚类预测,如图 9 图 9 练习练习 基于上面的聚类结果,选择【分类 1】作为分析对象,回答下面问题: 1. 分析它的特征以及与其它分类的差异;与它关联最强的类是哪个? 2. 预测“ProspectiveBuyer”表中有多少人被划分到【分类 1】 ,并对照【分类 1】中的主要 特征,写出预测满足的情况(主要属性取值) 。 3.预测VtargetMail表中Region属性为“North America”, Commute Distance属性为“1-2 Miles” 的客户主要在哪个分类中?单独使用上述一个条件的时候, 客户分类是否一致?如果不一致 的原因是什么?