决策树、信息论、ID3、C45算法.pptx





《决策树、信息论、ID3、C45算法.pptx》由会员分享,可在线阅读,更多相关《决策树、信息论、ID3、C45算法.pptx(76页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、C4.5算法讲解算法讲解2012.11.29C4.5算法算法ID3算法算法知识结构知识结构决策树基础决策树基础信息论基础信息论基础决策树基础决策树基础女孩家长女孩家长安排相亲安排相亲女孩女孩不厌其烦不厌其烦女孩女孩提出决策树提出决策树父母筛选父母筛选候选男士候选男士决策树基础决策树基础有向无环有向无环 二叉二叉/多叉树多叉树父节点:没有子节点的节点父节点:没有子节点的节点内部节点:有父节点、子节点的节点内部节点:有父节点、子节点的节点叶节点:有父节点没有子节点的节点叶节点:有父节点没有子节点的节点父节点父节点内部节点内部节点叶节点叶节点分割属性分割属性+判断规则判断规则类别标识类别标识决策树基
2、础决策树基础父节点父节点内部节点内部节点叶节点叶节点(类别标识)(类别标识)(分割属性(分割属性+判断规则)判断规则)决策树基础决策树基础训练集:训练集:数据的集合,用于生成树(模型)测试集:测试集:用于测试树(模型)的性能决策树作用:决策树作用:通过训练集算法指导下生成决策树新数据进行划分否则是“三拍三拍”决策训练集训练集算法算法决策树决策树新数据新数据决策决策决策树基础决策树基础 实例实例No.头痛肌肉痛体温患流感1是(1)是(1)正常(0)N(0)2是(1)是(1)高(1)Y(1)3是(1)是(1)很高(2)Y(1)4否(0)是(1)正常(0)N(0)5否(0)否(0)高(1)N(0)6
3、否(0)是(1)很高(2)N(1)7是(1)否(0)高(1)Y(1)决策树怎么做?谁是父节点?决策树怎么做?谁是父节点?谁是下一层子节点?为什么是它?谁是下一层子节点?为什么是它?l头-肌肉-体温l头-体温-肌肉l肌肉-头-体温l肌肉-体温-头l体温-头-肌肉l体温-肌肉-头三三 拍拍 决决 策策决策树基础决策树基础)¥)¥JK)I*&Fkl9*&%*&UIDOFGJNo.天气气温湿度风类别1晴热高无N2晴热高有N3多云热高无P4雨适中高无P5雨冷正常无P6雨冷正常有N7多云冷正常有PNo.天气气温湿度风类别8晴适中高无N9晴冷正常无P10雨适中正常无P11晴适中正常有P12多云适中高有P13
4、多云热正常无P14雨适中高有N怎么生成好的?怎么生成好的?哪个好?哪个好?种决策树方案种决策树方案决策树基础决策树基础N个分割属性的训练集个分割属性的训练集决策树基础决策树基础好的决策树好的决策树:(MDL准则下为例)准则下为例)Minimum Description Lengthn训练集中大多数数据符合这棵树n例外的数据单独编码描述决策树用的描述决策树用的bit描述例外数据用描述例外数据用bit哪个好?哪个好?决策树基础(选择掌握)决策树基础(选择掌握)如何描述决策树体温体温头痛头痛很高很高正常正常高高YNYN否否是是流感决策树流感决策树 深度优先遍历决策树深度优先遍历决策树 用用1 1标注
5、父子节点标注父子节点 用用0 0标注叶节点标注叶节点 记录分割属性记录分割属性 1,1,体温体温,0,Y,1,0,Y,1,头疼头疼,0,Y,0,N,0,N,0,Y,0,N,0,N层次少层次少+分枝少分枝少 占用存储空间小占用存储空间小 决策计算时间快决策计算时间快决策树基础决策树基础C4.5算法算法ID3算法算法决策树基础决策树基础信息论基础信息论基础选哪个?选哪个?怎么生成好的?怎么生成好的?Next One!信息论基础信息论基础辨析辨析先验概率先验概率信息量信息量信息论基础信息论基础先验概率先验概率对事件对事件X的某一结果进行讨论:的某一结果进行讨论:例:在没有任何帮助的情况下,奥例:在没
6、有任何帮助的情况下,奥/罗谁赢的概率罗谁赢的概率P(x1=奥)奥)=P(x2=罗)罗)信息论基础信息论基础信息量信息量信息论基础信息论基础辨析辨析先验概率先验概率信息量信息量先验熵先验熵信息论基础信息论基础先验熵先验熵自信息量自信息量熵熵H(X)原意:热力学中形容失序现象和复杂程度原意:热力学中形容失序现象和复杂程度 现意:一个事件现意:一个事件X的平均信息量的平均信息量熵越大,不确定性就越大,正确估计其值的可能熵越大,不确定性就越大,正确估计其值的可能性就越小。性就越小。XXXXXX熵熵=XXX=XXX的信息量的加权的信息量的加权信息论基础信息论基础先验熵先验熵自信息量自信息量熵熵H(X)原
7、意:热力学中形容失序现象和复杂程度原意:热力学中形容失序现象和复杂程度 现意:通信中一个事件的平均信息量现意:通信中一个事件的平均信息量信息论基础信息论基础熵熵H(X)自信息量自信息量科学发展观指导下的和谐社会,失序现象和复杂科学发展观指导下的和谐社会,失序现象和复杂程度远低于万恶的资本主义社会!程度远低于万恶的资本主义社会!事件的可能结果发生几率越相近,则熵越大事件的可能结果发生几率越相近,则熵越大信息论基础信息论基础辨析辨析先验概率先验概率信息量信息量先验熵先验熵后验概率后验概率信息论基础信息论基础对事件对事件X的某一结果进行讨论:的某一结果进行讨论:例:已知民意调查结果,猜奥例:已知民意
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 决策树 信息论 ID3 C45 算法

限制150内