决策树剪枝ppt课件.pptx
《决策树剪枝ppt课件.pptx》由会员分享,可在线阅读,更多相关《决策树剪枝ppt课件.pptx(21页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、决策树剪枝算法目 录CONTENTS1234先剪枝错误率降低剪枝悲观剪枝代价复杂度剪枝在有些时候,一棵经过训练的决策树过于“繁茂”,知识过多,或者说得到的规则集合过大。经过剪枝,可以得到一棵相对简洁的决策树,较少的规则使得在进行分类预测时,决策树效率更高。同时,剪枝也可以减少过拟合过拟合现象的发生。为什么需要剪枝为什么需要剪枝1.怎么剪?2.剪枝后效果如何?先剪枝先剪枝通过提前停止树的构建而对树剪枝,一旦停止,节点就是树叶,该树叶持有子集元祖最频繁的类。停止决策树生长最简单的方法有:1.定义一个高度,当决策树达到该高度时就停止决策树的生长2.达到某个节点的实例具有相同的特征向量,即使这些实例不
2、属于同一类,也可以停止决策树的生长。3.定义一个阈值,当达到某个节点的实例个数小于阈值时就可以停止决策树的生长。或定义一个阈值,通过计算每次扩张对系统性能的增益,并比较增益值或定义一个阈值,通过计算每次扩张对系统性能的增益,并比较增益值与该阈值大小来决定是否停止决策树的生长。与该阈值大小来决定是否停止决策树的生长。不足:阈值不好设置,过大决策树过于简单;过小,有多余树枝,过于茂盛。后剪枝方法后剪枝方法后剪枝(postpruning):它首先构造完整的决策树,允许树过度拟合训练数据,然后对那些置信度不够的节点子树用叶子节点来代替,该叶子的类标号用该节点子树中最频繁的类标记。相比于先剪枝,这种方法
3、更常用,正是因为在先剪枝方法中精确地估计何时停止树增长很困难。后剪枝方法主要有以下几个方法:Reduced-Error Pruning (REP,错误率降低剪枝)Pesimistic-Error Pruning (PEP,悲观错误剪枝)Cost-Complexity Pruning (CCP,代价复杂度剪枝)REP 错误率降低剪枝错误率降低剪枝REP方法是一种比较简单的后剪枝的方法,在该方法中,可用的数据被分成两个样例集合:一个训练集训练集用来生成决策树,一个分离的验证集验证集用来评估这个决策树在后续数据上的精度,确切地说是用来评估修剪这个决策树的影响。这个方法的动机是:即使学习器可能会被训练
4、集中的随机错误和巧合规律所误导,但验证集合不大可能表现出同样的随机波动。所以验证集可以用来对过度拟合训练集中的虚假特征提供防护检验。该剪枝方法考虑将树上的每个节点作为修剪的候选对象,决定是否修剪这个结点,步骤如下。REP 错误率降低剪枝错误率降低剪枝1)删除以此结点为根的子树2)使其成为叶子节点3)赋予该节点关联的训练数据的最常见分类4)当修剪后的树对于验证集合的性能不会比原来的树差时,才真正删除该结点5)算法终止的条件:以bootom-up方式遍历所有的子树,直到没有任何子树可以替换使得测试数据集的表现得以改进。因为训练集合的过拟合,使得验证集合数据能够对其进行修正,反复进行上面的操作,从底
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 决策树 剪枝 ppt 课件
限制150内