数据挖掘中的分类预测之决策树算法.docx





《数据挖掘中的分类预测之决策树算法.docx》由会员分享,可在线阅读,更多相关《数据挖掘中的分类预测之决策树算法.docx(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘中的分类预测之决策树算法分类与预测餐饮企业经常会碰到下面的问题怎样预测将来一段时间内哪些顾客会流失哪些顾客最有可能成为VIP客户怎样预测一种心产品的销售量和在哪种类型的客户中会较受欢送除此之外餐厅经理需要通过数据分析来解析具有某些特征的顾客的消费习惯/这些都是分类与预测的例子。常见的分类预测算法贝叶斯贝叶斯Bayes分类算法是一类利用概率统计知识进展分类的算法如朴素贝叶斯NaiveBayes算法。这些算法主要利用Bayes定理来预测一个未知类别的样本属于各个类别的可能性选择其中可能性最大的一个类别作为该样本的最终类别。决策树决策树是用于分类以及预测的主要技术之一决策树学习是以实例为根底
2、的归纳学习算法它着眼于从一组无次序、无规那么的实例中推理出以决策树表示的分类规那么。人工神经网络人工神经网络ArtificialNeuralNetworksANN是一种应用类似于大脑神经突触联接的构造进展信息处理的数学模型。在这种模型中大量的节点或者称神经元或者单元之间互相联接构成网络即神经网络以到达处理信息的目的。支持向量机支持向量机SVMSupportVectorMachine是Vapnik根据统计学习理论提出的一种新的学习方法43它的最大特点是根据构造风险最小化准那么以最大化分类间隔构造最优分类超平面来进步学习机的泛化才能较好地解决了非线性、高维数、部分极小点等问题。决策树简介决策树(D
3、ecisionTree)是一个预测模型他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象而每个分叉途径那么代表的某个可能的属性值而每个叶结点那么对应从根节点到该叶节点所经历的途径所表示的对象的值。决策树仅有单一输出假设欲有复数输出可以建立独立的决策树以处理不同输出。数据挖掘中决策树是一种经常要用到的技术可以用于分析数据同样可以以用来作预测。例如记录根据上述数据构造出如下决策树信息熵、条件熵以及信息增益信息熵信息熵也称为香农熵是随机变量的期望。度量信息的不确定程度。信息的熵越大信息就越不容易搞清楚。处理信息就是为了把信息搞清楚就是熵减少的经过。决定信息的不确定性或讲复杂程度主
4、要因素是概率。我们要获得随机变量D的取值结果至少要进展1次试验试验次数与随机变量D可能的取值数量(2种)的对数函数Log有联络。Log21(以2为底)。因此熵的计算公式是条件熵条件熵是通过获得更多的信息来消除一元模型中的不确定性。也就是通过二元或者多元模型来降低一元模型的熵。我们知道的信息越多信息的不确定性越小。例如只使用一元模型时我们无法根据用户历史数据中的购置频率来判断这个用户本次是否也会购置。因为不确定性太大。在参加了促销活动商品价格等信息后在二元模型中我们可以发现用户购置与促销活动或商品价格变化之间的联络。并通过购置与促销活动一起出现的概率以及不同促销活动时购置出现的概率来降低不确定性
5、。以下公式为属性A的信息条件熵。用属性A出现的概率乘以属性A确定的情况下相应分类的信息熵。信息增益信息增益用来衡量信息之间相关性的指标。用于度量属性A降低样本集合X熵的奉献大小。信息增益越大不确定性越小越适于对X分类。详细的计算方法就熵与条件熵之间的差。公式如下ID3算法原理奥卡姆剃刀OccamsRazor,OckhamsRazor又称“奥坎的剃刀是由14世纪逻辑学家、圣方济各会修士奥卡姆的威廉WilliamofOccam约1285年度至1349年度提出他在?箴言书注?2卷15题讲“切勿浪费较多东西去做用较少的东西同样可以做好的事情。简单点讲便是besimple。ID3算法IterativeD
6、ichotomiser3迭代二叉树3代是一个由RossQuinlan创造的用于决策树的算法。这个算法便是建立在上述所介绍的奥卡姆剃刀的根底上越是小型的决策树越优于大的决策树besimple简单理论。尽管如此该算法也不是总是生成最小的树形构造而是一个启发式算法。OK从信息论知识中我们知道期望信息越小信息增益越大进而纯度越高。ID3算法的核心思想就是以信息增益度量属性选择选择分裂后信息增益(很快由下文你就会知道信息增益又是怎么一回事)最大的属性进展分裂。该算法采用自顶向下的贪心搜索遍历可能的决策树空间。算法流程对当前样本集合计算所有属性的信息增益选择信息增益最大的属性作为测试属性把测试属性取值一样
7、的样本划为同一个子样本集假设子样本集的类别属性只含有单个属性那么分支为叶子节点判断其属性之并标上相应的符号然后返回调用途否那么对子样本集递归调用本算法。缺点由于ID3决策树算法采用信息增益作为选择测试属性的标准会偏向于选择取值较多的即所谓的高度分支属性而这类属性并不一定是最优属性。并且其只能处理离散属性对于连续类型属性需要对其进展离散化。为解析决倾向于选择高度分支属性的问题采用信息增益率作为选择测试属性的标准这样便有了C4.5决策树算法。常用的还有CART,SLIQ,SPRINT,PUBLIC等。决策树实例这是一家高尔夫球俱乐部的历史数据里面记录了不同天气状况用户来打高尔夫球的历史记录。我们要
8、做的是通过构建决策树来预测用户是否会来打高尔夫球。这里用户是否来打球是一个一元模型具有不确定性熵值很高。我们无法仅通过Yes以及No的频率来判断用户明天是否会来。因此需要借助天气的信息来减少不确定性。下面分别记录到了4种天气情况我们通过计算条件熵以及互信息来开场构建决策树的第一步构建根决策点。构建根决策节点构建根决策点的方法就是寻找4种天气情况中与打高尔夫球相关性最高的一个。首先我们来看PlayGolf这个一元模型的熵来看看这件事的不确定性有多高.一元模型的熵即信息熵在一元模型中仅通过历史数据的概率来看预测PlayGolf是一件非常不确定的事情在14条历史数据中打球的概率为64%不打球的概率为
9、36%。熵值到达了0.940。这与之前抛硬币的例子很像。在无法改变历史数据的概率时我们需要借助更多的信息来降低不确定性。也就是计算条件熵。二元模型条件熵计算二元模型的条件熵需要知道PlayGolf与4种天气情况一起出现的概率和在不同天气情况下PlayGolf出现的条件概率。下面我们分别来计算这两类概率。出现概率条件概率条件熵信息增益在已知PlayGolf的一元模型熵以及不同天气条件下的二元模型熵后。我们就可以通过信息增益来度量哪种天气与PlayGolf的相关性最高了。构建根节点在整个决策树中Outlook因为与PlayGolf的相关性最高所以作为决策树的根节点。以Outlook作为根节点后决策
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 中的 分类 预测 决策树 算法

限制150内