第6章 ID3决策树.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《第6章 ID3决策树.ppt》由会员分享,可在线阅读,更多相关《第6章 ID3决策树.ppt(39页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第6章 ID3决策树分类算法主讲教师:唐德玉本结要点一、引言二、什么是决策树三、决策树的建立(ID3算法)四、Microsoft SQL Server 2005实践决策树五、决策树的数据准备2*你能判定他/她买计算机的可能性大不大吗?3医 药信息分析与应用课程组 姓名姓名年龄年龄收入收入学生学生信誉信誉电话电话地址地址邮编邮编买计算买计算机机张三张三234000是是良良281-322-03282714 Ave.M77388买买李四李四342800否否优优713-239-78305606 Holly Cr78766买买王二王二701900否否优优281-242-32222000 Bell Blv
2、d.70244不买不买赵五赵五18900是是良良281-550-0544100 Main Street70244买买刘兰刘兰342500否否优优713-239-7430606 Holly Ct78566买买杨俊杨俊278900否否优优281-355-7990233 Rice Blvd.70388不买不买张毅张毅389500否否优优281-556-0544399 Sugar Rd.78244买买*一、引例决策树的用途4医药信息分析与应用课程组计数计数年龄年龄收入收入学生学生信誉信誉归类:买归类:买计算机?计算机?64青青高高否否良良不买不买64青青高高否否优优不买不买128中中高高否否良良买买6
3、0老老中中否否良良买买64老老低低是是良良买买64老老低低是是优优不买不买64中中低低是是优优买买128青青中中否否良良不买不买64青青低低是是良良买买132老老中中是是良良买买64青青中中是是优优买买32中中中中否否优优买买32中中高高是是良良买买63老老中中否否优优不买不买1 老老中中否否优优买买假定公司收集了左表数据,假定公司收集了左表数据,那么对于任意给定的客人那么对于任意给定的客人(测试样例),你能帮助公(测试样例),你能帮助公司将这位客人归类吗?司将这位客人归类吗?即:你能预测这位客人是属即:你能预测这位客人是属于于“买买”计算机的那一类,计算机的那一类,还是属于还是属于“不买不买
4、”计算机的计算机的那一类?那一类?又:你需要多少有关这位客又:你需要多少有关这位客人的信息才能回答这个问题人的信息才能回答这个问题?决策树可以帮助你解决决策树可以帮助你解决好好这这个问题个问题*决策树的用途*5医药信息分析与应用课程组计数计数年龄年龄收入收入学生学生信誉信誉归类:买归类:买计算机?计算机?64青青高高否否良良不买不买64青青高高否否优优不买不买128中中高高否否良良买买60老老中中否否良良买买64老老低低是是良良买买64老老低低是是优优不买不买64中中低低是是优优买买128青青中中否否良良不买不买64青青低低是是良良买买132老老中中是是良良买买64青青中中是是优优买买32中中
5、中中否否优优买买32中中高高是是良良买买63老老中中否否优优不买不买1 老老中中否否优优买买谁在买计算机?谁在买计算机?他他/她会买计算机吗?她会买计算机吗?年龄?年龄?学生?学生?信誉?信誉?买买青青中中老老否否是是优优良良不买不买买买买买不买不买决策树的用途*6医药信息分析与应用课程组一棵很糟糕的决策树一棵很糟糕的决策树收入?收入?学生?学生?青中否是高低中信誉?信誉?良优年龄?年龄?不买不买买买买买不买不买计数计数年龄年龄收入收入学生学生信誉信誉归类:买归类:买计算机?计算机?64青青高高否否良良不买不买64青青高高否否优优不买不买128中中高高否否良良买买60老老中中否否良良买买64老
6、老低低是是良良买买64老老低低是是优优不买不买64中中低低是是优优买买128青青中中否否良良不买不买64青青低低是是良良买买132老老中中是是良良买买64青青中中是是优优买买32中中中中否否优优买买32中中高高是是良良买买63老老中中否否优优不买不买1 老老中中否否优优买买二、什么是决策树A decision tree is a flow-chart-like tree structure,where each internal node denotes a test on an attribute,each branch represents an outcome of the test,a
7、nd leaf nodes represent classes or class distributions.*7医药信息分析与应用课程组年龄年龄?学生?学生?信誉?信誉?买买青青中中老老否否是是优优良良否否买买买买否否三、决策树的建立1.决策树建立的关键2.对测试样例的信息期望(The expected information needed to classify a given sample(中文可能称:评价函数)w信息期望 的分析与计算w平均信息期望w信息期望的减少(Gain)3.决策树建立步骤(例)*8医药信息分析与应用课程组1.决策树建立的关键1、决策树建立的关键*9医药信息分析与应
8、用课程组树根?树根?建立一个好的决建立一个好的决策树的关键是决策树的关键是决定树根和子树根定树根和子树根的属性的属性计数计数年龄年龄收入收入学生学生信誉信誉归类:买归类:买计算机?计算机?64青青高高否否良良不买不买64青青高高否否优优不买不买128中中高高否否良良买买60老老中中否否良良买买64老老低低是是良良买买64老老低低是是优优不买不买64中中低低是是优优买买128青青中中否否良良不买不买64青青低低是是良良买买132老老中中是是良良买买64青青中中是是优优买买32中中中中否否优优买买32中中高高是是良良买买63老老中中否否优优不买不买1 老老中中否否优优买买*10医药信息分析与应用课
9、程组年龄年龄计计数数年年龄龄收收入入学学生生信信誉誉归类:买计算归类:买计算机?机?64青青高高否否良良不买不买64青青高高否否优优不买不买128青青中中否否良良不买不买64青青低低是是良良买买64青青中中是是优优买买计数计数年龄年龄收入收入学生学生信誉信誉归类:买计算机?归类:买计算机?128中中高高否否良良买买64中中低低是是优优买买32中中中中否否优优买买32中中高高是是良良买买计数计数年龄年龄收入收入学生学生信誉信誉归类:买计算机?归类:买计算机?60老老中中否否良良买买64老老低低是是良良买买64老老低低是是优优不买不买132老老中中是是良良买买63老老中中否否优优不买不买1 老老中
10、中否否优优买买青青中中老老1.决策树建立的关键2.对测试样例的信息期望张三属于哪一类?为了回答该问题,对张三的信息期望值是多少?*11医药信息分析与应用课程组年年龄龄计数年龄收入学生信誉归类:买计算机?归类:买计算机?64青高否良不买64青高否优不买128中高否良买60老中否良买64老低是良买64老低是优不买64中低是优买128青中否良不买64青低是良买132老中是良买64青中是优买32中中否优买32中高是良买63老中否优不买1 老中否优买计数年龄收入学生信誉归类:买计算机?归类:买计算机?64青高否良不买64青高否优不买128青中否良不买64青低是良买64青中是优买计数年龄收入学生信誉归类:
11、买计算机?归类:买计算机?128中高否良买64中低是优买32中中否优买32中高是良买计数年龄收入学生信誉归类:买计算机?归类:买计算机?60老中否良买64老低是良买64老低是优不买132老中是良买63老中否优不买1 老中否优买*12医药信息分析与应用课程组年年龄龄计数年龄收入学生信誉归类:买计算机?归类:买计算机?64青高否良不买64青高否优不买128中高否良买60老中否良买64老低是良买64老低是优不买64中低是优买128青中否良不买64青低是良买132老中是良买64青中是优买32中中否优买32中高是良买63老中否优不买1 老中否优买计数年龄收入学生信誉归类:买计算机?归类:买计算机?64青
12、高否良不买64青高否优不买128青中否良不买64青低是良买64青中是优买计数年龄收入学生信誉归类:买计算机?归类:买计算机?128中高否良买64中低是优买32中中否优买32中高是良买计数年龄收入学生信誉归类:买计算机?归类:买计算机?60老中否良买64老低是良买64老低是优不买132老中是良买63老中否优不买1 老中否优买2.对测试样例的信息期望2.2.对测试样例的信息期望对测试样例的信息期望让我们称所需要研究的属性为“分类属性”。假设该属性共分m类,而它们每一类在数据表中计数的总和分别为s1,s2,sm。令 s=s1+s2+sm那么对于任一样例,决定它所属类别的信息期望可以用下面的公式来计算
13、:I(s1,s2,sm)=-pi log2(pi)其中 pi=si/s*13医药信息分析与应用课程组 i=1m计数年龄收入学生信誉归类:买计算机?归类:买计算机?64青高否良不买64青高否优不买128中高否良买60老中否良买64老低是良买64老低是优不买64中低是优买128青中否良不买64青低是良买132老中是良买64青中是优买32中中否优买32中高是良买63老中否优不买1 老中否优买*14医药信息分析与应用课程组例:左表分类属性:买计算机?该属性共分两类(m=2):买/不买s1=641,s2=383s=s1+s2=1024p1=s1/s=641/1024=0.6260p2=s2/s=383/
14、1024=0.3740 I(s1,s2)=I(641,383)=-(p1 log2(p1)+p2 log2(p2)=0.95372.对测试样例的信息期望计数年龄收入学生信誉归类:买计算机?归类:买计算机?64青高否良不买64青高否优不买128中高否良买60老中否良买64老低是良买64老低是优不买64中低是优买128青中否良不买64青低是良买132老中是良买64青中是优买32中中否优买32中高是良买63老中否优不买1 老中否优买*15医药信息分析与应用课程组2.对测试样例的信息期望讨论:“买”/“不买”计算机的人数之间的比例对于信息期望值的影响I(641,383)=0.9537I(512,512
15、)=I(4,4)=1I(51,973)=I(973,51)=0.2856I(0,1024)=I(256,0)=0I(128,256)=0.9183I(257,127)=0.9157信息期望的数值与分类属性中各类计数之间的比例有关信息期望的数值与计数总数无关计数年龄收入学生信誉归类:买计算机?归类:买计算机?64青高否良不买64青高否优不买128中高否良买60老中否良买64老低是良买64老低是优不买64中低是优买128青中否良不买64青低是良买132老中是良买64青中是优买32中中否优买32中高是良买63老中否优不买1 老中否优买*16医药信息分析与应用课程组2.对测试样例的信息期望年年龄龄计数
16、年龄收入学生信誉归类:买计算机?归类:买计算机?64青高否良不买64青高否优不买128中高否良买60老中否良买64老低是良买64老低是优不买64中低是优买128青中否良不买64青低是良买132老中是良买64青中是优买32中中否优买32中高是良买63老中否优不买1 老中否优买计数年龄收入学生信誉归类:买计算机?归类:买计算机?64青高否良不买64青高否优不买128青中否良不买64青低是良买64青中是优买计数年龄收入学生信誉归类:买计算机?归类:买计算机?128中高否良买64中低是优买32中中否优买32中高是良买计数年龄收入学生信誉归类:买计算机?归类:买计算机?60老中否良买64老低是良买64老
17、低是优不买132老中是良买63老中否优不买1 老中否优买*17医药信息分析与应用课程组2.对测试样例的信息期望信息期望的减少信息期望的减少(又称又称Gain)=信息期望信息期望 平均信息期望平均信息期望 基于节点数据表基于节点数据表基于该节点的所有直系基于该节点的所有直系分支数据表分支数据表*18医药信息分析与应用课程组2.对测试样例的信息期望平均信息期望,E,是节点各直系分支的信息期望值的加权总和1)假定选择年龄作树根节点,则:青年组:I(128,256)=0.9183中年组:I(256,0)=0老年组:I(257,127)=0.9157青年组比例:(128+256)/1024=0.375中
18、年组比例:256/1024=0.25老年组比例:(257+127)/1024=0.375平均信息期望(加权总和):E(年龄)=0.375*0.9183+0.25*0+0.375*0.9157=0.6877Gain(年龄)=I(641,383)-E(年龄)=0.9537 0.6877=0.2660计数年龄收入学生信誉归类:买计算机?归类:买计算机?64青高否良不买64青高否优不买128青中否良不买64青低是良买64青中是优买计数年龄收入学生信誉归类:买计算机?归类:买计算机?128中高否良买64中低是优买32中中否优买32中高是良买计数年龄收入学生信誉归类:买计算机?归类:买计算机?60老中否良
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第6章 ID3决策树 ID3 决策树
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内