聚类实验指导.pdf

资源ID：4060723 资源大小：1MB 全文页数：6页
资源格式： PDF 下载积分：2金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要2金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

聚类实验指导.pdf

1 聚类聚类实验目的实验目的通过使用 SQL Sever 自带的聚类算法进行数据挖掘。算法原理算法原理 Microsoft 聚类分析算法首先标识数据集中的关系并根据这些关系生成一系列分类。 Microsoft 散点图是一种非常有用的方法，可以直观地表示算法如何对数据进行分组，如下面的关系图所示。散点图可以表示数据集中的所有事例，在该图中每个事例就是一个点。分类对该图中的点进行分组并阐释该算法所标识的关系。在最初定义分类后，算法将通过计算确定分类表示点分组情况的适合程度，然后尝试重新定义这些分组以创建可以更好地表示数据的分类。该算法将循环执行此过程，直到它不能再通过重新定义分类来改进结果为止。考虑这样一组人员，他们共享类似的人口统计信息并从 Adventure Works 公司购买类似的产品。Adventure Works 这组人员就表示一个数据分类。数据库中可能存在多个这样的分类。通过观察构成分类的各列，可以更清楚地了解数据集中的记录如何相互关联。数据准备数据准备 1 创建项目创建项目新建一个 Analysis Service 项目，取名为 Cluster，图 1 2 2 新建数据源新建数据源在解决方案资源管理器中，鼠标右键单击“数据源” ，在出现的菜单中选择“新建数据源” 。在弹出的向导窗口中单击“下一步” ，出现“选择如何定义连接”窗口，在此选择“基于现有连接或新连接创建数据源” ，在位于下方的列表框中选择 AdventureWorksDW。然后单击“完成” 。如图 2（如果需要创建新数据源，请参照决策树实验）图 2 3 新建数据源视图新建数据源视图在解决方案资源管理器中，鼠标右键单击“数据源视图” ，在出现的菜单中选择“新建数据源视图” 。在弹出的向导窗口中单击 “下一步” ，将 “VtargetMail” 表选中，单击下一步，单击完成。至此，数据源与数据源视图全部建好，可以建立数据挖掘模型了。挖掘挖掘步骤步骤 1 新建挖掘结构在解决方案资源管理器中，鼠标右键单击“挖掘结构” ，在出现的菜单中选择“新建挖掘结构” ，在弹出的向导窗口中单击“下一步” ，然后在弹出的“选择定义方法”窗口中选择 “从现有关系数据库或数据仓库” 。单击“下一步” ，出现”选择数据挖掘技术窗口，在下拉列表中选取 “Microsoft 聚类分析” 。点击“下一步” 。 2 选择数据源在“指定表类型”窗口中，勾选 VtargetMail 作为事例表。 3 定义输入属性 3 在“指定定型数据”窗口中，选择所需输入属性与键属性。此例以 CustomerKey 为键，选中 Age, Commute Distance, Gender, House OwnerFlag, Marital Status, Number Cars Owned, Region, Total Children 与 Yearly Income 作为输入属性，完成后选择“确定” 。此刻会回到原来的页面，点击“下一步” 。如图 3 所示。图 3 4 选择合适的列的内容在“显示正确的数据属性”窗口中，点击窗口右下角的“检测” ，系统会自动识别数据的内容类型及数据类型。但是，此处我们要在系统识别的基础上做修改。Yearly Income 这个数据从聚类意义的角度来讲，更有可能希望是离散而不是连续的，因此将它的内容类型改正为 Discrete。如图 4 所示。更改完成后，点击“下一步” 。 4 图 4 5 保存模型在“完成向导”窗口中将挖掘结构名称填写为 Cluster 将挖掘模型名称填写为 Cluster, 并将“允许钻取”复选框勾选上，点击“完成” 。 6 部署模型本步骤与决策树数据挖掘模型类似，选择视图上方的“挖掘模型查看器”选项卡，弹出对话框询问是否部署项目，选择 “是” 。部署的过程中，会弹出窗口询问是否处理挖掘模型，选择“是” 。然后弹出一个”处理挖掘模型“窗口，选择“运行” 。执行完成后点击“关闭” 按钮，回到原来窗口后再点击一次“关闭”按钮。 7 查看模型到此，建模完成，产生的数据挖掘结构接口包含挖掘结构，挖掘模型，挖掘模型查看器，挖掘精确度图表以及挖掘模型预测。其中在“挖掘结构”选项卡中，主要是呈现数据间的关联性以及分析的变量。在“挖掘模型”选项卡中，主要是列出所建立的挖掘模型，也可以新增挖掘模型，并且调整变量，变量使用情况包含 Ignore, Input, Predict, 以及 Predict Only。在“挖掘模型查看器”选项卡的“分类关系图”中，可以看到此聚类分析的结构，滑动左边的标尺可以看到类间关联的强弱。通过定义明暗度变量，可以观测这一变量在各个分类中的分布情况，如图 5 所示。 5 图 5 在“挖掘模型查看器”选项卡的“分类剖面图”中，可以看到输入变量在每个分类中的分布；鼠标单击某个彩色表格，可以看到在“挖掘图例”浮动窗口中，出现了对于此彩色图示的解释、相关统计量以及此格中属性的主要取值。如图 6. 图 6 “分类特征”主要呈现聚类后所得的每一类的特征，如图 7。图 7 “分类对比”主要呈现两类间特性的比较，如图 8。 6 图 8 在“挖掘模型预测”选项卡中，可以进行聚类预测，如图 9 图 9 练习练习基于上面的聚类结果，选择【分类 1】作为分析对象，回答下面问题： 1. 分析它的特征以及与其它分类的差异；与它关联最强的类是哪个？ 2. 预测“ProspectiveBuyer”表中有多少人被划分到【分类 1】，并对照【分类 1】中的主要特征，写出预测满足的情况（主要属性取值）。 3.预测VtargetMail表中Region属性为“North America”， Commute Distance属性为“1-2 Miles” 的客户主要在哪个分类中？单独使用上述一个条件的时候，客户分类是否一致？如果不一致的原因是什么？

注意事项

本文（聚类实验指导.pdf）为本站会员（奉***）主动上传，淘文阁 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知淘文阁 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。