欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    模式识别决策树分类.ppt

    • 资源ID:39350706       资源大小:1.51MB        全文页数:12页
    • 资源格式: PPT        下载积分:18金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要18金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    模式识别决策树分类.ppt

    模式识别决策树分类2022-9-71现在学习的是第1页,共12页数据实例 PlayTennis数据库片段:2022-9-72现在学习的是第2页,共12页决策树实例 关于PlayTennis的决策树:High Overcast Normal Strong Weak Sunny Rain Outlook Wind Humidity No Yes Yes No Yes 2022-9-73现在学习的是第3页,共12页决策树学习算法的代表 早在1986年的时候,Quinlan就提出了著名的ID3算法。(Published on MLJ)用ID3算法长树的基本思想:分类能力最好的属性被测试并创建树的根结点 测试属性每个可能的值产生一个分支 训练样本划分到适当的分支形成儿子结点 重复上面的过程,直到所有的结点都是叶子结点两个问题:什么属性最好?什么结点才是叶子结点?两个问题:什么属性最好?什么结点才是叶子结点?2022-9-74现在学习的是第4页,共12页信息增益(Information Gain)属性A划分样本集S的信息增益Gain(S,A)为:Gain(S,A)=E(S)E(S,A)其中,E(S)为划分样本集S为c个类的熵;E(S,A)为属性A划分样本集S导致的期望熵。2022-9-75现在学习的是第5页,共12页熵(Entropy)划分样本集S为c个类的熵E(S)为:其中,pi ni/n,为S中的样本属于第i类Ci的概率,n为S中样本的个数。ciiippSE12log2022-9-76现在学习的是第6页,共12页期望熵(Expected Entropy)属性A划分样本集S导致的期望熵E(S,A)为:其中,Values(A)为属性A取值的集合;Sv为S中A取值为v的样本子集,Sv=sSA(s)=v;E(Sv)为将Sv中的样本划分为c个类的信息熵。|Sv|/|S|为Sv和S中的样本个数之比。AValuesvvvSESSASE,2022-9-77现在学习的是第7页,共12页回味ID3算法 ID3算法每一步选择具有最大信息增益的属性作为测试属性来长树。直到最大的信息增益为也零为止。(两个问题的解决两个问题的解决)熵(Entropy)刻画了样本集的纯度,长树的过程是一个熵降低、信息增益、从混沌到有序的过程。(长树的物理意义长树的物理意义)2022-9-78现在学习的是第8页,共12页伪代码 算法 Decision_Tree(samples,attribute_list)输入 由离散值属性描述的训练样本集samples;候选属性集合atrribute_list。输出 一棵决策树。方法 (1)创建节点N;(2)if samples 都在同一类C中 then (3)返回N作为叶节点,以类C标记;(4)if attribute_list为空 then 2022-9-79现在学习的是第9页,共12页伪代码(续)(5)返回N作为叶节点,以samples中最普遍的类标记;/多数表决(6)选择attribute_list中具有最高信息增益的属性test_attribute;(7)以test_attribute标记节点N;(8)for each test_attribute的已知值v /划分samples(9)由节点N分出一个对应test_attribute=v的分支;(10)令Sv为samples中test_attribute=v的样本集合;/一个划分块(11)if Sv为空 then(12)加上一个叶节点,以samples中最普遍的类标记;(13)else 加入一个由Decision_Tree(Sv,attribute_listtest_attribute)返回的节点。2022-9-710现在学习的是第10页,共12页ID3算法的不足及改进 ID3算法存在的主要不足:过度拟合问题(tree prunning)处理连续属性值问题(discretization)处理缺少属性值问题(replacement)属性选择的度量标准问题(heuristic measure)针对这些不足,Quinlan做了一系列的改进,并于1993年形成了C4.5算法。(C4.5:Programs for Machine Learning)2022-9-711现在学习的是第11页,共12页决策树学习总结 决策树(Decision Tree)学习是以样本为基础的归纳学习方法,它采用自顶向下的递归方式来构造决策树。(贪心算法贪心算法)决策树的表现形式是类似于流程图的树结构,在决策树的内部结点进行属性值测试,并根据属性值判断由该结点引出的分支,最后在决策树的叶子结点分类。(学习阶段、训练阶段学习阶段、训练阶段)由训练样本集学到决策树后,为了对未知样本分类,需要在决策树上测试未知样本的属性值。测试路径由根结点到某个叶子结点,叶子结点代表的类就是未知样本所属的类。(工作阶段、测试阶段工作阶段、测试阶段)2022-9-712现在学习的是第12页,共12页

    注意事项

    本文(模式识别决策树分类.ppt)为本站会员(石***)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开