决策树方法在数据挖掘中的应用优秀PPT.ppt
《决策树方法在数据挖掘中的应用优秀PPT.ppt》由会员分享,可在线阅读,更多相关《决策树方法在数据挖掘中的应用优秀PPT.ppt(20页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、决策树方法在数据挖决策树方法在数据挖掘中的应用掘中的应用第1页,本讲稿共20页1 KnowledgeSEEKER简介简介KnowledgeSEEKER是一个由Angoss公司开发的基于决策树的数据分析程序。该程序具有相当完整的分类树分析功能。KnowledgeSEEKER采用了两种著名的决策树分析算法:CHAID和CART算法。CHAID算法可以用来对于分类性数据进行挖掘。CART算法则可以对连续型因变量进行处理。Angoss公司在增强这些算法的用户友好性方面作了大量的工作。优点:响应快,模型,文档易于理解,决策树分析直观,性能良好缺点:决策树不能编辑打印,缺乏数据预处理阶段的函数,没有示例代
2、码第2页,本讲稿共20页1 KnowledgeSEEKER简介简介应用行业案例:Frost National银行CRM收益率、客户满意度、产品功效SASI公司利用其开发行业数据挖掘应用软件(零售行业)Montreal银行客户分片、越区销售模型、市场站的准备、抵押支付的预测、信用风险的分析第3页,本讲稿共20页2 数据准备数据准备使用的样例数据集是从一个团体健康检查中有关高血压的研究项目中得到的。Angoss公司已将这一数据集包括在产品演示中。有关高血压研究方面的数据(表中给出数据集中各个数据列的取值范围及其含义说明)第4页,本讲稿共20页2 数据准备数据准备数据预处理:1)对数据域中所含的整数
3、值进行标注:Hypertension(高血压)域中可以出现整数值1,2,3,这几个值将分别被标注为低,正常,高。TypeOfMilk域中包含整数值15,将分别标注为纯牛奶、2%,脱脂牛奶,奶粉及根本不喝牛奶2)处理导出型的数据域字段Age中包含的值1,2,3分别表示3250岁、5162岁及6373岁。然而,字段Age中通常包含的都是某个人的实际年龄而非整数值1,2,3,因此,字段Age中的值是在数据挖掘开始之前就已经导出了,即按照实际年龄的范围3250岁、5162岁及6373岁对该字段选择适当的值。第5页,本讲稿共20页3 定义研究对象定义研究对象1、定义挖掘目标、定义挖掘目标在开始使用Kno
4、wledgeSEEKER之前,有必要定义出挖掘的目标。在给定的数据集的例子中展示了哪些饮食因素会对人的血压高低有关键性的影响。其挖掘的目标可以明确地描述为:分析出饮食因素对血压偏低、正常及偏高所产生的影响。分析出饮食因素对血压偏低、正常及偏高所产生的影响。第6页,本讲稿共20页3 定义研究对象定义研究对象2、启动、启动第7页,本讲稿共20页3 定义研究对象定义研究对象3、设置因变量、设置因变量一开始,字段Hypertension就已经被自动设置为因变量。稍后,还将改变因变量的设置。打开bpress数据集之后将出现如图所示的屏幕。第8页,本讲稿共20页第9页,本讲稿共20页3 定义研究对象定义研
5、究对象 图中的根结点对应的是因变量。在根节点中血压已经分别被分为3类:偏低、正常和偏高。我们现在要了解的是血压偏低、正常和偏高的人都分别具有哪些特征。从图中可以看出:研究对象中有18%的人(即66个人)血压偏低研究对象中有60%的人(即217个人)血压正常研究对象中有21%的人(即77个人)血压偏高第10页,本讲稿共20页4 建立模型建立模型目前KnowledgeSEEKER已经构造出模型树的下一层分支。当然,模型树还可以自动生成出多层分支。图中的模型树的下一层分支表明上一层的双亲节点是按年龄(age)进行分叉的。年龄只是影响血压的一个变量,但是在目前这个例子中,年龄似乎是导致一个人的血压是否
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 决策树 方法 数据 挖掘 中的 应用 优秀 PPT
限制150内