决策树学习.ppt
《决策树学习.ppt》由会员分享,可在线阅读,更多相关《决策树学习.ppt(38页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、决策树学习2003.11.181现在学习的是第1页,共38页2003.11.182概论 决策树学习是应用最广的归纳推理算法之一 是一种逼近离散值函数的方法 很好的健壮性 能够学习析取表达式 ID3, Assistant, C4.5 搜索一个完整表示的假设空间 归纳偏置是优先选择较小的树 决策树表示了多个if-then规则现在学习的是第2页,共38页2003.11.183提纲 决策树定义 适用问题特征 基本ID3算法 决策树学习的归纳偏置 训练数据的过度拟合 更深入的话题现在学习的是第3页,共38页2003.11.184决策树表示法 决策树 通过把实例从根节点排列到某个叶子节点来分类实例。 叶子
2、节点即为实例所属的分类 树上每个节点说明了对实例的某个属性的测试 节点的每个后继分支对应于该属性的一个可能值 图3-1 决策树代表实例属性值约束的合取的析取式。从树根到树叶的每一条路径对应一组属性测试的合取,树本身对应这些合取的析取。现在学习的是第4页,共38页2003.11.185决策树学习的适用问题适用问题的特征 实例由“属性-值”对表示 目标函数具有离散的输出值可能需要析取的描述 训练数据可以包含错误训练数据可以包含缺少属性值的实例问题举例 根据疾病分类患者 根据起因分类设备故障根据拖欠支付的可能性分类贷款申请分类问题 核心任务是把样例分类到各可能的离散值对应的类别现在学习的是第5页,共
3、38页2003.11.186基本的决策树学习算法 大多数决策树学习算法是一种核心算法的变体 采用自顶向下的贪婪搜索遍历可能的决策树空间 ID3是这种算法的代表现在学习的是第6页,共38页2003.11.187基本的决策树学习算法(2) ID3的思想 自顶向下构造决策树 从“哪一个属性将在树的根节点被测试”开始 使用统计测试来确定每一个实例属性单独分类训练样例的能力 ID3的过程 分类能力最好的属性被选作树的根节点 根节点的每个可能值产生一个分支 训练样例排列到适当的分支 重复上面的过程现在学习的是第7页,共38页2003.11.188表3-1 用于学习布尔函数的ID3算法概要ID3(Examp
4、les, Target_attribute, Attributes)创建树的root节点如果Examples都为正,返回label=+的单节点树root如果Examples都为反,返回label=-的单节点树root如果Attributes为空,那么返回单节点root,label=Examples中最普遍的Target_attribute值否则开始AAttributes中分类examples能力最好的属性root的决策属性A对于A的每个可能值vi在root下加一个新的分支对应测试A=vi令Examplesvi为Examples中满足A属性值为vi的子集如果Examplesvi为空在这个新分支下
5、加一个叶子节点,节点的label=Examples中最普遍的Target_attribute值否则在新分支下加一个子树ID3( Examplesvi,Target_attribute,Attributes-A)结束返回root现在学习的是第8页,共38页2003.11.189最佳分类属性信息增益用来衡量给定的属性区分训练样例的能力ID3算法在增长树的每一步使用信息增益从候选属性中选择属性用熵度量样例的均一性熵刻画了任意样例集的纯度给定包含关于某个目标概念的正反样例的样例集S,那么S相对这个布尔型分类的熵为Entropy(S)=-p+log2p+ - p-log2p-信息论中对熵的一种解释,熵确
6、定了要编码集合S中任意成员的分类所需要的最少二进制位数更一般地,如果目标属性具有c个不同的值,那么S相对于c个状态的分类的熵定义为 Entropy(S)=ciiipp12log现在学习的是第9页,共38页2003.11.1810最佳分类属性(2) 用信息增益度量期望的熵降低 属性的信息增益,由于使用这个属性分割样例而导致的期望熵降低 Gain(S,A)是在知道属性A的值后可以节省的二进制位数 例子)()(|)(),(AValuesvvvSEntropySSSEntropyASGain现在学习的是第10页,共38页2003.11.1811ID3算法举例 表3-2 继续这个过程,直到满足以下两个条
7、件中的一个 所有的属性已经被这条路经包括 与这个节点关联的所有训练样例都具有相同的目标属性值现在学习的是第11页,共38页2003.11.1812决策树学习中的假设空间搜索 观察ID3的搜索空间和搜索策略,认识到这个算法的优势和不足 假设空间包含所有的决策树,它是关于现有属性的有限离散值函数的一个完整空间 维护单一的当前假设(不同于第二章的变型空间候选消除算法) 不进行回溯,可能收敛到局部最优 每一步使用所有的训练样例,不同于基于单独的训练样例递增作出决定,容错性增强现在学习的是第12页,共38页2003.11.1813决策树学习的归纳偏置 ID3的搜索策略 优先选择较短的树 选择那些信息增益
8、高的属性离根节点较近的树 很难准确刻画ID3的归纳偏置 近似的ID3的归纳偏置 较短的树比较长的树优先 近似在于ID3得到局部最优,而不一定是全局最优 一个精确具有这个归纳偏置的算法,BFS-ID3 更贴切近似的归纳偏置 较短的树比较长的树优先,信息增益高的属性更靠近根节点的树优先现在学习的是第13页,共38页2003.11.1814限定偏置和优选偏置 ID3和候选消除算法的比较 ID3的搜索范围是一个完整的假设空间,但不彻底地搜索这个空间 候选消除算法的搜索范围是不完整的假设空间,但彻底地搜索这个空间 ID3的归纳偏置完全是搜索策略排序假设的结果,来自搜索策略 候选消除算法完全是假设表示的表
9、达能力的结果,来自对搜索空间的定义现在学习的是第14页,共38页2003.11.1815限定偏置和优选偏置 优选偏置 ID3的归纳偏置是对某种假设胜过其他假设的一种优选,对最终可列举的假设没有硬性限制 限定偏置 候选消除算法的偏置是对待考虑假设的一种限定 通常优选偏置比限定偏置更符合归纳学习的需要 优选偏置和限定偏置的结合 考虑第1章的例子现在学习的是第15页,共38页2003.11.1816为什么短的假设优先 ID3的归纳偏置的哲学基础 奥坎姆剃刀 优先选择拟合数据的最简单的假设 科学上的例子 物理学家优先选择行星运动的简单假设 简单假设的数量远比复杂假设的数量少 简单假设对训练样例的针对性
10、更小,更像是泛化的规律,而不是训练样例的另一种描述现在学习的是第16页,共38页2003.11.1817为什么短的假设优先 奥坎姆剃刀的困难 我们反问,使用上页的推理,应该优先选择包含恰好17个叶子节点和11个非叶子节点的决策树? 假设的规模由学习器内部使用的特定表示决定 从生物进化的观点看内部表示和奥坎姆剃刀原则现在学习的是第17页,共38页2003.11.1818决策树学习的常见问题 决策树学习的实际问题 确定决策树增长的深度 处理连续值的属性 选择一个适当的属性筛选度量标准 处理属性值不完整的训练数据 处理不同代价的属性 提高计算效率 针对这些问题,ID3被扩展成C4.5现在学习的是第1
11、8页,共38页2003.11.1819避免过度拟合数据 过度拟合 对于一个假设,当存在其他的假设对训练样例的拟合比它差,但事实上在实例的整个分布上表现得却更好时,我们说这个假设过度拟合训练样例 定义:给定一个假设空间H,一个假设hH,如果存在其他的假设hH,使得在训练样例上h的错误率比h小,但在整个实例分布上h的错误率比h小,那么就说假设h过度拟合训练数据。 图3-6的例子 现在学习的是第19页,共38页2003.11.1820避免过度拟合数据(2) 导致过度拟合的原因 一种可能原因是训练样例含有随机错误或噪声 当训练数据没有噪声时,过度拟合也有可能发生,特别是当少量的样例被关联到叶子节点时,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 决策树 学习
限制150内