欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    聚类实验指导.pdf

    • 资源ID:4060723       资源大小:1MB        全文页数:6页
    • 资源格式: PDF        下载积分:2金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要2金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    聚类实验指导.pdf

    1 聚类聚类 实验目的实验目的 通过使用 SQL Sever 自带的聚类算法进行数据挖掘。 算法原理算法原理 Microsoft 聚类分析算法首先标识数据集中的关系并根据这些关系生成一系列分类。 Microsoft 散点图是一种非常有用的方法,可以直观地表示算法如何对数据进行分组,如下 面的关系图所示。 散点图可以表示数据集中的所有事例, 在该图中每个事例就是一个点。 分 类对该图中的点进行分组并阐释该算法所标识的关系。 在最初定义分类后,算法将通过计算确定分类表示点分 组情况的适合程度,然后尝试重新定义这些分组以创建 可以更好地表示数据的分类。 该算法将循环执行此过程, 直到它不能再通过重新定义分类来改进结果为止。 考虑这样一组人员,他们共享类似的人口统计信息并从 Adventure Works 公司购买类似的产品。Adventure Works 这组人员就表示一个数据分类。 数据库中可能存在多个这样的分类。 通过观察构成分类的各列,可以更清楚地了解数据集 中的记录如何相互关联。 数据准备数据准备 1 创建项目创建项目 新建一个 Analysis Service 项目,取名为 Cluster, 图 1 2 2 新建数据源新建数据源 在解决方案资源管理器中,鼠标右键单击“数据源” ,在出现的菜单中选择“新建数据 源” 。在弹出的向导窗口中单击“下一步” ,出现“选择如何定义连接”窗口,在此选择“基 于现有连接或新连接创建数据源” ,在位于下方的列表框中选择 AdventureWorksDW。然后 单击“完成” 。如图 2(如果需要创建新数据源,请参照决策树实验) 图 2 3 新建数据源视图新建数据源视图 在解决方案资源管理器中,鼠标右键单击“数据源视图” ,在出现的菜单中选择“新建 数据源视图” 。 在弹出的向导窗口中单击 “下一步” , 将 “VtargetMail” 表选中, 单击下一步, 单击完成。 至此,数据源与数据源视图全部建好,可以建立数据挖掘模型了。 挖掘挖掘步骤步骤 1 新建挖掘结构 在解决方案资源管理器中,鼠标右键单击“挖掘结构” ,在出现的菜单中选择“新建挖 掘结构” ,在弹出的向导窗口中单击“下一步” ,然后在弹出的“选择定义方法”窗口中选择 “从现有关系数据库或数据仓库” 。单击“下一步” ,出现”选择数据挖掘技术窗口,在下 拉列表中选取 “Microsoft 聚类分析” 。点击“下一步” 。 2 选择数据源 在“指定表类型”窗口中,勾选 VtargetMail 作为事例表。 3 定义输入属性 3 在“指定定型数据”窗口中,选择所需输入属性与键属性。此例以 CustomerKey 为键, 选中 Age, Commute Distance, Gender, House OwnerFlag, Marital Status, Number Cars Owned, Region, Total Children 与 Yearly Income 作为输入属性,完成后选择“确定” 。此刻会回到原 来的页面,点击“下一步” 。如图 3 所示。 图 3 4 选择合适的列的内容 在“显示正确的数据属性”窗口中,点击窗口右下角的“检测” ,系统会自动识别数据 的内容类型及数据类型。但是,此处我们要在系统识别的基础上做修改。Yearly Income 这 个数据从聚类意义的角度来讲, 更有可能希望是离散而不是连续的, 因此将它的内容类型改 正为 Discrete。如图 4 所示。更改完成后,点击“下一步” 。 4 图 4 5 保存模型 在“完成向导”窗口中将挖掘结构名称填写为 Cluster 将挖掘模型名称填写为 Cluster, 并将“允许钻取”复选框勾选上,点击“完成” 。 6 部署模型 本步骤与决策树数据挖掘模型类似,选择视图上方的“挖掘模型查看器”选项卡,弹出 对话框询问是否部署项目, 选择 “是” 。 部署的过程中, 会弹出窗口询问是否处理挖掘模型, 选择“是” 。然后弹出一个”处理挖掘模型“窗口,选择“运行” 。执行完成后点击“关闭” 按钮,回到原来窗口后再点击一次“关闭”按钮。 7 查看模型 到此, 建模完成, 产生的数据挖掘结构接口包含挖掘结构, 挖掘模型, 挖掘模型查看器, 挖掘精确度图表以及挖掘模型预测。 其中在“挖掘结构”选项卡中,主要是呈现数据间的关联性以及分析的变量。 在“挖掘模型”选项卡中,主要是列出所建立的挖掘模型,也可以新增挖掘模型,并且 调整变量,变量使用情况包含 Ignore, Input, Predict, 以及 Predict Only。 在“挖掘模型查看器”选项卡的“分类关系图”中,可以看到此聚类分析的结构,滑动 左边的标尺可以看到类间关联的强弱。 通过定义明暗度变量, 可以观测这一变量在各个分类 中的分布情况,如图 5 所示。 5 图 5 在“挖掘模型查看器”选项卡的“分类剖面图”中,可以看到输入变量在每个分类中的 分布;鼠标单击某个彩色表格,可以看到在“挖掘图例”浮动窗口中,出现了对于此彩色图 示的解释、相关统计量以及此格中属性的主要取值。如图 6. 图 6 “分类特征”主要呈现聚类后所得的每一类的特征,如图 7。 图 7 “分类对比”主要呈现两类间特性的比较,如图 8。 6 图 8 在“挖掘模型预测”选项卡中,可以进行聚类预测,如图 9 图 9 练习练习 基于上面的聚类结果,选择【分类 1】作为分析对象,回答下面问题: 1. 分析它的特征以及与其它分类的差异;与它关联最强的类是哪个? 2. 预测“ProspectiveBuyer”表中有多少人被划分到【分类 1】 ,并对照【分类 1】中的主要 特征,写出预测满足的情况(主要属性取值) 。 3.预测VtargetMail表中Region属性为“North America”, Commute Distance属性为“1-2 Miles” 的客户主要在哪个分类中?单独使用上述一个条件的时候, 客户分类是否一致?如果不一致 的原因是什么?

    注意事项

    本文(聚类实验指导.pdf)为本站会员(奉***)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开