模式识别决策树分类.ppt

上传人：石***

文档编号：39350706

上传时间：2022-09-07

格式：PPT

页数：12

大小：1.51MB

( 4.5 )

《模式识别决策树分类.ppt》由会员分享，可在线阅读，更多相关《模式识别决策树分类.ppt（12页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、模式识别决策树分类2022-9-71现在学习的是第1页，共12页数据实例 PlayTennis数据库片段：2022-9-72现在学习的是第2页，共12页决策树实例关于PlayTennis的决策树：High Overcast Normal Strong Weak Sunny Rain Outlook Wind Humidity No Yes Yes No Yes 2022-9-73现在学习的是第3页，共12页决策树学习算法的代表早在1986年的时候，Quinlan就提出了著名的ID3算法。（Published on MLJ）用ID3算法长树的基本思想：分类能力最好的属性被测试并创建树的根结点

2、测试属性每个可能的值产生一个分支训练样本划分到适当的分支形成儿子结点重复上面的过程，直到所有的结点都是叶子结点两个问题：什么属性最好？什么结点才是叶子结点？两个问题：什么属性最好？什么结点才是叶子结点？2022-9-74现在学习的是第4页，共12页信息增益（Information Gain）属性A划分样本集S的信息增益Gain(S,A)为：Gain(S,A)=E(S)E(S,A)其中，E(S)为划分样本集S为c个类的熵；E(S,A)为属性A划分样本集S导致的期望熵。2022-9-75现在学习的是第5页，共12页熵（Entropy）划分样本集S为c个类的熵E(S)为：其中，pi ni/n，

3、为S中的样本属于第i类Ci的概率，n为S中样本的个数。ciiippSE12log2022-9-76现在学习的是第6页，共12页期望熵（Expected Entropy）属性A划分样本集S导致的期望熵E(S,A)为：其中，Values(A)为属性A取值的集合；Sv为S中A取值为v的样本子集，Sv=sSA(s)=v；E(Sv)为将Sv中的样本划分为c个类的信息熵。|Sv|/|S|为Sv和S中的样本个数之比。AValuesvvvSESSASE,2022-9-77现在学习的是第7页，共12页回味ID3算法 ID3算法每一步选择具有最大信息增益的属性作为测试属性来长树。直到最大的信息增益为也零为止。（两

4、个问题的解决两个问题的解决）熵（Entropy）刻画了样本集的纯度，长树的过程是一个熵降低、信息增益、从混沌到有序的过程。（长树的物理意义长树的物理意义）2022-9-78现在学习的是第8页，共12页伪代码算法 Decision_Tree（samples,attribute_list）输入由离散值属性描述的训练样本集samples；候选属性集合atrribute_list。输出一棵决策树。方法 (1)创建节点N；(2)if samples 都在同一类C中 then (3)返回N作为叶节点，以类C标记；(4)if attribute_list为空 then 2022-9-79现在学习的是第

5、9页，共12页伪代码（续）(5)返回N作为叶节点，以samples中最普遍的类标记；/多数表决(6)选择attribute_list中具有最高信息增益的属性test_attribute；(7)以test_attribute标记节点N；(8)for each test_attribute的已知值v /划分samples(9)由节点N分出一个对应test_attribute=v的分支；(10)令Sv为samples中test_attribute=v的样本集合；/一个划分块(11)if Sv为空 then(12)加上一个叶节点，以samples中最普遍的类标记；(13)else 加入一个由Decis

6、ion_Tree(Sv,attribute_listtest_attribute)返回的节点。2022-9-710现在学习的是第10页，共12页ID3算法的不足及改进 ID3算法存在的主要不足：过度拟合问题(tree prunning)处理连续属性值问题(discretization)处理缺少属性值问题(replacement)属性选择的度量标准问题(heuristic measure)针对这些不足，Quinlan做了一系列的改进，并于1993年形成了C4.5算法。（C4.5:Programs for Machine Learning）2022-9-711现在学习的是第11页，共12页决策树学习总结决策树（Decision Tree）学习是以样本为基础的归纳学习方法，它采用自顶向下的递归方式来构造决策树。（贪心算法贪心算法）决策树的表现形式是类似于流程图的树结构，在决策树的内部结点进行属性值测试，并根据属性值判断由该结点引出的分支，最后在决策树的叶子结点分类。（学习阶段、训练阶段学习阶段、训练阶段）由训练样本集学到决策树后，为了对未知样本分类，需要在决策树上测试未知样本的属性值。测试路径由根结点到某个叶子结点，叶子结点代表的类就是未知样本所属的类。（工作阶段、测试阶段工作阶段、测试阶段）2022-9-712现在学习的是第12页，共12页

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

18 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 模式识别决策树分类

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：模式识别决策树分类.ppt
链接地址：https://www.taowenge.com/p-39350706.html