决策树方法在数据挖掘中的应用优秀PPT.ppt

资源ID：65060014 资源大小：4.24MB 全文页数：20页
资源格式： PPT 下载积分：18金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要18金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

决策树方法在数据挖掘中的应用优秀PPT.ppt

决策树方法在数据挖决策树方法在数据挖掘中的应用掘中的应用第1页，本讲稿共20页1 KnowledgeSEEKER简介简介KnowledgeSEEKER是一个由Angoss公司开发的基于决策树的数据分析程序。该程序具有相当完整的分类树分析功能。KnowledgeSEEKER采用了两种著名的决策树分析算法：CHAID和CART算法。CHAID算法可以用来对于分类性数据进行挖掘。CART算法则可以对连续型因变量进行处理。Angoss公司在增强这些算法的用户友好性方面作了大量的工作。优点：响应快，模型，文档易于理解，决策树分析直观，性能良好缺点：决策树不能编辑打印，缺乏数据预处理阶段的函数，没有示例代码第2页，本讲稿共20页1 KnowledgeSEEKER简介简介应用行业案例：Frost National银行CRM收益率、客户满意度、产品功效SASI公司利用其开发行业数据挖掘应用软件（零售行业）Montreal银行客户分片、越区销售模型、市场站的准备、抵押支付的预测、信用风险的分析第3页，本讲稿共20页2 数据准备数据准备使用的样例数据集是从一个团体健康检查中有关高血压的研究项目中得到的。Angoss公司已将这一数据集包括在产品演示中。有关高血压研究方面的数据（表中给出数据集中各个数据列的取值范围及其含义说明）第4页，本讲稿共20页2 数据准备数据准备数据预处理：1）对数据域中所含的整数值进行标注：Hypertension（高血压）域中可以出现整数值1，2，3，这几个值将分别被标注为低，正常，高。TypeOfMilk域中包含整数值15，将分别标注为纯牛奶、2%，脱脂牛奶，奶粉及根本不喝牛奶2）处理导出型的数据域字段Age中包含的值1，2，3分别表示3250岁、5162岁及6373岁。然而，字段Age中通常包含的都是某个人的实际年龄而非整数值1，2，3，因此，字段Age中的值是在数据挖掘开始之前就已经导出了，即按照实际年龄的范围3250岁、5162岁及6373岁对该字段选择适当的值。第5页，本讲稿共20页3 定义研究对象定义研究对象1、定义挖掘目标、定义挖掘目标在开始使用KnowledgeSEEKER之前，有必要定义出挖掘的目标。在给定的数据集的例子中展示了哪些饮食因素会对人的血压高低有关键性的影响。其挖掘的目标可以明确地描述为：分析出饮食因素对血压偏低、正常及偏高所产生的影响。分析出饮食因素对血压偏低、正常及偏高所产生的影响。第6页，本讲稿共20页3 定义研究对象定义研究对象2、启动、启动第7页，本讲稿共20页3 定义研究对象定义研究对象3、设置因变量、设置因变量一开始，字段Hypertension就已经被自动设置为因变量。稍后，还将改变因变量的设置。打开bpress数据集之后将出现如图所示的屏幕。第8页，本讲稿共20页第9页，本讲稿共20页3 定义研究对象定义研究对象图中的根结点对应的是因变量。在根节点中血压已经分别被分为3类：偏低、正常和偏高。我们现在要了解的是血压偏低、正常和偏高的人都分别具有哪些特征。从图中可以看出：研究对象中有18%的人（即66个人）血压偏低研究对象中有60%的人（即217个人）血压正常研究对象中有21%的人（即77个人）血压偏高第10页，本讲稿共20页4 建立模型建立模型目前KnowledgeSEEKER已经构造出模型树的下一层分支。当然，模型树还可以自动生成出多层分支。图中的模型树的下一层分支表明上一层的双亲节点是按年龄（age）进行分叉的。年龄只是影响血压的一个变量，但是在目前这个例子中，年龄似乎是导致一个人的血压是否偏高的最重要因素。如图所示，研究对象按年龄分为以下3组：3250岁，5162岁，6373岁它们分别对应于模型树的三个叶节点。此外，还可以用除Age以外的其他字段为模型树创建新的叶节点。在模型树上通过指定其它字段以创建新的叶节点称为分叉。对于当前这个数据集，系统会自动发现12个分叉。第11页，本讲稿共20页5 理解模型理解模型1）观察其分叉）观察其分叉观察其分叉将使我们可以看到除年龄以外对血压还有影响的其他重要变量的作用。KnowledgeSEEKER可以计算出所有变量对血压影响的大小并将使它们按顺序排列起来。用另一个变量直接在根节点下面构造叶节点即可进入模型树的另一个分叉。这样，我们就可以很容易地观察到其他数据元素对血压的影响。对于自动生成的每一个分叉所作的概述将为我们考虑下一步的研究方向提供有益的线索。很明显，所获得的信息中有一些符合我们的预先估计；然而，我们从数据集中也发现了一些预先没有估计到的结果，如人的身高与其高血压之间的关系就是我们预先没有估计到的。第12页，本讲稿共20页5 理解模型理解模型2）进入特定分叉）进入特定分叉3）扩展模型树）扩展模型树以smoking为分叉变量构造的模型树目前还只有一层。我们可以对这棵模型树作进一步扩展。在模型树的第二层中选择经常吸烟者相对应的节点，然后，在Grow下拉菜单中选择Find Split，即可以看到如图所示的屏幕。第13页，本讲稿共20页第14页，本讲稿共20页5 理解模型理解模型KnowledgeSEEKER发现对于描述经常吸烟者特征最为有效的分组变量就是年龄。也就是说，对于经常吸烟的人而言，年龄将是确定其是否患高血压的最关键的指标，数据表明年龄在6373岁之间经常吸烟的人当中有56.7%患有高血压，而年龄在3251岁之间且经常吸烟的人当中患有高血压的比例仅为4.8%。为进一步描述经常吸烟者的特征，KnowledgeSEEKER总共发现了6个分叉变量，分别是Age，Height，PorkLastWeek，DrinkPattern，Gender以及SaltConsumption。其中以年龄最为有效。第15页，本讲稿共20页5 理解模型理解模型4）强制分叉）强制分叉有时我们还想观察一下那些没有自动发现的变量的作用。例如，我们可能想知道PoultryLastWeek对人们患有高血压有什么影响。为此，我们可以在模型树上作强制分叉。第16页，本讲稿共20页5 理解模型理解模型5）对模型进行验证）对模型进行验证当我们从一个数据集中发现某些结果之后，总是希望能够用另外一个数据集再对其进行验证。Angoss将那些用于验证的数据集又称为测试分区（Test Partition）。KnowledgeSEEKER允许我们用另一个数据集（即测试分区）对新发现的结果进行验证。第17页，本讲稿共20页5 理解模型理解模型6）重新定义挖掘对象）重新定义挖掘对象假如我们想要改变所研究的内容（例如，想要研究饮酒数量不同的人之间的差别），那么就需要重新定义研究对象。改变模型树的根节点为DrinkPattern，即新的模型树的根节点对应的因变量为DrinkPattern，其中可以含有下列值：Regular（经常饮酒）Occasional（偶然饮酒）Former（以前曾经饮酒）Never（从不饮酒）可以对这棵以DrinkPattern为因变量的模型树作进一步的扩展。虽然这期间使用KnowledgeSEEKER的工作方式与前面是一样的，但所要研究的内容与前面完全不同了，即现在要研究的是人们的饮酒方式及其影响。第18页，本讲稿共20页5 理解模型理解模型7）模型树的自动扩展）模型树的自动扩展前面所演示的都是如何一个一个节点地扩展模型树。此外，还可以让系统对模型树作自动扩展。8）数据分布）数据分布KnowledgeSEEKER提供了若干种方法以便我们能够对正在挖掘的数据的状态进行观察。首先，我们能够通过KnowledgeSEEKER对正在挖掘的原始数据进行详细观察。另外，还可以通过KnowledgeSEEKER对数据几种不同数据项的交叉列表视图进行观察。第19页，本讲稿共20页6 预测预测现在我们已经有了一个可以用来作预测的模型。虽然用决策树来做决策不是一个可以自动进行的过程，但KnowledgeSEEKER允许我们将所有变量的分叉保存在外部文件中。此外，我们还可以用百分比的形式计算出每一个分叉的重要性。使用上述信息，将使我们有可能产生出有助于预测的规则。第20页，本讲稿共20页

注意事项

本文（决策树方法在数据挖掘中的应用优秀PPT.ppt）为本站会员（石***）主动上传，淘文阁 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知淘文阁 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。