SPSS数据分析与挖掘实战案例精粹第五章.pptx
-
资源ID:66070356
资源大小:3.14MB
全文页数:41页
- 资源格式: PPTX
下载积分:20金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
SPSS数据分析与挖掘实战案例精粹第五章.pptx
第五章 modeler操作入门第五章 modeler操作入门5.1 modeler概述5.2 modeler相关操作5.3 modeler功能5.4 案例分析5.5 进一步学习5.1Modeler概述Modeler界面架构与产品界面简介:一般认为数据挖掘是持续性的项目过程,在这个过程中,数据挖掘的各种算法是数据挖掘过程的核心步骤,但并不是整个项目的全部决定性因素。为了数据挖掘过程更标准化,IBM SPSS Modeler使用的就是CRISP-DM(CRoss Industry Standard Process-for Data Mining),跨行业数据挖掘标准流程),其中一共分为6个步骤:商业理解,数据理解,数据准备,建模,评估,发布。商业理解(business understanding)从商业的角度了解项目的要求和最终目的,确定数据挖掘的目标,制定项目计划。数据理解(data understanding)收集原始数据、探索数据特征、检验数据质量(完整性、正确性)和缺失值的填补等。数据准备(data preparation)涵盖了从原始粗糙数据到构建最终数据集(将作为建模工具的分析对象)的全部工作,为适应建模工具而进行的数据清理(数据变量的选择和转换)等等。建模(modeling)多种建模方法被加以选择和使用,通过优化模型将其参数将被校准为最为理想的值。评估(evaluation)一个关键的评价指标就是看,是否仍然有一些重要的企业问题还没有被充分地加以注意和考虑。发布(deployment)将其发现的结果以及过程组织成为可读文本形式1.数据流构建区一个完整的数据流至少应该包括一个起始节点和一个终端节点。数据流构建区是主要工作区域,我们通过构建和连接一个个节点帮助我们完成数据探索,数据清洗及数据建模等工作。数据流在Modeler中称之为stream,因此modeler保存的文件也是以.str结尾的。2.数据流、结果和模型管理区(1)流:流管理区,同时构建/编辑多个模型流,这个选项可以帮助分析员在对多个流进行切换;(2)结果:将输出/图形的结果保存并进行编辑命名,供下次查看;(3)模型:在该选项卡下,modeler所建立的所有模型都将出现在这里,我们可以通过该选项卡随时查看生产的模型,甚至把模型结果单独保存。3.数据挖掘项目管理区数据挖掘会是一个持续性的项目过程,尤其是在商业数据挖掘当中。可以看到,这里面的阶段设置就是按照CRISP-DM方法论进行划分的,通过这个项目管理区,我们就可以很方便把相应的内容(无论是str文件,结果,模型乃至于word文档都可以归纳进来)对号入座,在每次开展或者继续项目的时候就可以很容易进行查看操作,非常方便分析人员进行管理。4节点区(1)起始节点,这类节点是整个数据流的起点,这类节点之前不能再连接其他节点;(2)中间节点,这类节点往往是数据挖掘过程的一个步骤,可以在它之前和之后都可以且必须接其他节点;(3)终端节点:这类节点代表了数据流(或数据流的分支)结束,这类节点后面不能再接其他节点。节点类型:节点区起始节点源中间节点记录字段终端节点图形建模输出导出IBM SPSS(1)起始节点源节点:包含各数据源类型,通过该节点,可以读取不同类型的数据(spss,excel,text)(2)中间节点记录节点:包含对记录进行处理的各种方法(选择、排序)。字段选择:包含对字段进行处理的各种方法(定义类型)。(3)终端节点图形节点:提供了多种的图形功能,通过图形展示的方式进行数据探索或者对模型效果评估;建模节点:提供各种数据挖掘模型,当该节点运行后会生成“模型节点”,而该节点就属于中间节点。输出节点:提供数据表,交叉表,报告等,可以帮助我借助统计分析来进行适当的数据探索以及结果评估;导出节点:把数据结果导出到各种格式的文件进行保存,导出为excel文件;Statistics节点:调用statistics的功能。数据量小时,单机版SPSS modeler数据量大时,C/S架构运行架构与产品5.2modeler相关操作 基本操作表达式技巧5.2.1 modeler基本操作左键:用于节点选择,按住此键可以将节点进行随时拖动;右键:用于挑出菜单,菜单中包含一系列诸如连接,编辑,复制,删除等功能;滚轮:按住此键移动鼠标可以用于节点间进行连接。5.2.2 modeler的表达式相当于SPSS转换字段节点的导出节点的操作技巧1.超节点若干个相关节点封装成一个超节点(打包)。(1)创建:选中需要封装的若干节点,右击并选择创建”创建超节点”选中需要封装的若干节点,工具栏中单击(2)查看超节点右击超节点并选择“扩展”工具栏中选择“放大”数据流管理区单击相关超节点2.缓冲若包含大量数据的数据流,每次从头执行会耗费大量的时间。缓冲,使数据流的执行不必每次都从头开始。在选定节点上右击选择“缓冲”“启用”命令,会在节点的右上角出现一个标记当第一次执行数据流时,数据流在完成该节点相应计算后,该标记会变绿,表示数据结果已存在内存中,以后再执行数据流,将从该节点执行。当关闭数据流,缓冲数据也会消失,如果希望以后使用缓冲数据,应该选择“缓冲”“保存缓冲”,使缓冲数据保存到硬盘上。下次使用时选择“缓冲”“下载缓冲”即可。3.数据流注解4.参数设置会话参数:可用于当前会话中使用的所有流。菜单栏【工具】-【设置会话参数】流参数:在流脚本中或在流属性对话框中设置,可用于流中的所有节点。菜单栏【工具】-【流属性】-【参数】超节点参数:适用于超节点的封装节点。【超节点】-【定义参数】5.3 modeler功能数据整理案例探索性数据分析案例建立模型、模型检验与模型应用案例 数据整理案例数据挖掘的目标:找出前10个购买金额最多的客户。想法:要知道客户的订单总额,降序排序后,输出前10名客户的信息。拥有的数据库画圈圈的三张表是我们所需要的从数据库中把客户、订单和订单明细导入modeler中。先建立与数据库ODBC连接,【控制面板】-【管理工具】-【数据源】里设置用户DSN,添加Northwind节点,文件指向northwind.mdb从modeler的源中选入数据库节点,导入3张表。探索性数据分析案例商业目的:设计产品套餐进行营销策划数据挖掘的目标:找出产品之间的关系想法:网络节点节点位于“图形”节点下,通过绘制网络图展示变量属性之间的强弱程度,一般用于关联分析以及分类变量之间的关系呈现。网络节点显示具有互动性,且可以改变阈值设置(关联程度低高)、隐藏无关字段、修改布局和生成节点。存在两种类型的网络图:在“网络:中,显示所有选择的分类字段间的关系;在”导向网络“图中,仅显示涉及具体目标字段的关系且需要设定结束字段且仅显示 true 标记在网络图中只显示标记字段(T/F)。这项功能在显示多个产品(购买产品或非购买产品)间的关系时非常实用。如果勾选了“仅显示真值标志”则只看多个购买产品间的关系线值为可以选择以下定义:线值为可以选择以下定义:绝对值绝对值将根据带有成对值的记录数设置阈值。总体百分比总体百分比该成对值的记录占网络图形全部对值的记录的比例。较小较小字段字段/值的百分比值的百分比和较大字段较大字段/值的百分比值的百分比说明要使用较小或较大字段/值来估计百分比。建立模型、模型检验与模型应用案例 商业目的:客户是否对直邮响应数据挖掘的目标:预测客户对直邮的态度想法:决策树,通过训练数据构建决策树,可以高效的对未知的数据进行分类。输出类型:在此指定模型输出为决策树或规则集。组符号:选中则组合属性值输出使用分区数据:如果定义了分区字段,则此选项可确保仅训练分区的数据用于构建模型。为每个分割构建模型:给指定为分割字段的输入字段的每个可能值构建一个单独模型。5.4案例分析项目背景数据挖掘的目地:建立一套有效的药物选择决策支持系统。数据说明商业理解从商业的角度了解项目的要求和最终目的,确定数据挖掘的目标,制定项目计划。这个案例中:我们需要根据病人的个人情况和身体生化指标来确定何种药物对他更合适。收集原始数据、探索数据特征、检验数据质量(完整性、正确性)和缺失值的填补等数据理解初步观察病人情况和身体特征是否与所选药物关系明显数据准备模型建立和评估1.建立最简单的模型并进行初步分析和尝试神神经经网网络络字段要求。必须至少有一个目标字段和一个输入字段。不容易对神经网络进行解释二项:二分类变量。多项:多分类变量,可以指定主效应、全析因或定制。进入法:将所有项直接输入方程中。向前步进法:一边进入一边删减,最终模型便已生成。向后步进法:与向前步进法是相反的。LogisticLogistic2.引入医生的业务经验改进模型模型发布3.开发软件应用