决策树分类--ppt课件.ppt





《决策树分类--ppt课件.ppt》由会员分享,可在线阅读,更多相关《决策树分类--ppt课件.ppt(96页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、火灾袭来时要迅速疏散逃生,不可蜂拥而出或留恋财物,要当机立断,披上浸湿的衣服或裹上湿毛毯、湿被褥勇敢地冲出去决策树分类决策树分类王成(副教授)王成(副教授)计算机科学与技术学院计算机科学与技术学院1ppt课件火灾袭来时要迅速疏散逃生,不可蜂拥而出或留恋财物,要当机立断,披上浸湿的衣服或裹上湿毛毯、湿被褥勇敢地冲出去主要内容主要内容什么是决策树ID3算法算法改进C4.5算法CART算法火灾袭来时要迅速疏散逃生,不可蜂拥而出或留恋财物,要当机立断,披上浸湿的衣服或裹上湿毛毯、湿被褥勇敢地冲出去Decision Tree ModelingDecision Tree Modeling决策树是一种简单且
2、应用广泛的决策树是一种简单且应用广泛的决策树是一种简单且应用广泛的决策树是一种简单且应用广泛的预测预测预测预测方法方法方法方法火灾袭来时要迅速疏散逃生,不可蜂拥而出或留恋财物,要当机立断,披上浸湿的衣服或裹上湿毛毯、湿被褥勇敢地冲出去决策树决策树火灾袭来时要迅速疏散逃生,不可蜂拥而出或留恋财物,要当机立断,披上浸湿的衣服或裹上湿毛毯、湿被褥勇敢地冲出去火灾袭来时要迅速疏散逃生,不可蜂拥而出或留恋财物,要当机立断,披上浸湿的衣服或裹上湿毛毯、湿被褥勇敢地冲出去图图3.1 3.1 常见的决策树形式常见的决策树形式决策树主要有二元分支(决策树主要有二元分支(binary splitbinary sp
3、lit)树和多分支()树和多分支(multiway splitmultiway split)树。)树。一般时候采用二元分裂,因为二元分裂在穷举搜索中更加灵活。一般时候采用二元分裂,因为二元分裂在穷举搜索中更加灵活。决策树形式决策树形式火灾袭来时要迅速疏散逃生,不可蜂拥而出或留恋财物,要当机立断,披上浸湿的衣服或裹上湿毛毯、湿被褥勇敢地冲出去决策树决策树决决策策树树(Decision Tree)又称为判判定定树树,是运用于分类的一种树树结结构构。其中的每个内内部部结结点点(internal node)代表对某个属性的一次测测试试,每条边边代表一个测测试试结结果果,叶叶结结点点(leaf)代表某个
4、类类(class)或者类类的的分分布布(class class distributiondistribution),),最上面的结点是根结点根结点决决策策树树提供了一种展示在在什什么么条条件件下下会得到什什么么类类别别这类规则规则的方法。下例是为了解决这个问题而建立的一棵决决策策树树,从中可以看到决策树的基本组成部分:决策结点决策结点、分支分支和叶结点叶结点火灾袭来时要迅速疏散逃生,不可蜂拥而出或留恋财物,要当机立断,披上浸湿的衣服或裹上湿毛毯、湿被褥勇敢地冲出去决策树决策树下图给出了一个商商业业上上使使用用的的决决策策树树的例子。它表示了一个关关心心电电子子产产品品的的用用户户是是否否会会购
5、购买买PC(buys_computer)的知识,用它可以预测某条记录(某个人)的购买意向预测某条记录(某个人)的购买意向火灾袭来时要迅速疏散逃生,不可蜂拥而出或留恋财物,要当机立断,披上浸湿的衣服或裹上湿毛毯、湿被褥勇敢地冲出去决策树决策树这棵决策树对销售记录进行分类,指出一个电子产品消费者是否会购买一台计算机“buys_computer”。每个内部结点(方形框)代表对某个属性的一次检测。每个叶结点(椭圆框)代表一个类:buys_computers=yes 或者 buys_computers=no在这个例子中,特征向量为:(age,student,credit_rating,buys_comp
6、uters)被决策数据的格式为:(age,student,credit_rating)输入新的被决策的记录,可以预测该记录隶属于哪个类。火灾袭来时要迅速疏散逃生,不可蜂拥而出或留恋财物,要当机立断,披上浸湿的衣服或裹上湿毛毯、湿被褥勇敢地冲出去使用决策树进行分类使用决策树进行分类第1步:利用训练集建立并精化一棵决策树,建立决策树模型。这个过程实际上是一个从数据中获取知识,进行机器学习的过程第2步:利用生成完毕的决策树对输入数据进行分类。对输入的记录,从根结点依次测试记录的属性值,直到到达某个叶结点,从而找到该记录所在的类火灾袭来时要迅速疏散逃生,不可蜂拥而出或留恋财物,要当机立断,披上浸湿的衣
7、服或裹上湿毛毯、湿被褥勇敢地冲出去主要内容主要内容什么是决策树ID3算法算法改进C4.5算法CART算法火灾袭来时要迅速疏散逃生,不可蜂拥而出或留恋财物,要当机立断,披上浸湿的衣服或裹上湿毛毯、湿被褥勇敢地冲出去如何从训练数据中学习决策树如何从训练数据中学习决策树?贷款申请数据集火灾袭来时要迅速疏散逃生,不可蜂拥而出或留恋财物,要当机立断,披上浸湿的衣服或裹上湿毛毯、湿被褥勇敢地冲出去如何从训练数据中学习决策树如何从训练数据中学习决策树?Age?youngmiddleoldNo:3Yes:2No:2Yes:3No:4Yes:1Own_house?truefalseNo:0Yes:6No:6Ye
8、s:3(a)(b)两种可能的根节点选取方式哪种更好?火灾袭来时要迅速疏散逃生,不可蜂拥而出或留恋财物,要当机立断,披上浸湿的衣服或裹上湿毛毯、湿被褥勇敢地冲出去ID3算法算法ID3算法主要针对属性选择问题使用信息增益度选择测试属性火灾袭来时要迅速疏散逃生,不可蜂拥而出或留恋财物,要当机立断,披上浸湿的衣服或裹上湿毛毯、湿被褥勇敢地冲出去ID3决策树建立算法决策树建立算法1 决定分类属性集合;决定分类属性集合;2 对目前的数据表,建立一个节点对目前的数据表,建立一个节点N3 如果数据库中的数据都属于同一个类,如果数据库中的数据都属于同一个类,N就是树叶,在树叶上就是树叶,在树叶上 标出所属的类标
9、出所属的类(纯的类别纯的类别)4 如果数据表中没有其他属性可以考虑,则如果数据表中没有其他属性可以考虑,则N也是树叶,按照少也是树叶,按照少 数服从多数的原则在树叶上标出所属类别数服从多数的原则在树叶上标出所属类别(不纯的类别不纯的类别)5 否则,否则,根据平均信息期望值根据平均信息期望值E或或GAIN值选出一个最佳属性作值选出一个最佳属性作 为节点为节点N的测试属性的测试属性6 节点属性选定后,对于该属性中的每个值:节点属性选定后,对于该属性中的每个值:从从N生成一个分支,并将数据表中与该分支有关的数据收集形生成一个分支,并将数据表中与该分支有关的数据收集形 成分支节点的数据表,在表中删除节
10、点属性那一栏成分支节点的数据表,在表中删除节点属性那一栏 7如果分支数据表属性非空,则转如果分支数据表属性非空,则转1,运用以上算法从该节点建立子树,运用以上算法从该节点建立子树火灾袭来时要迅速疏散逃生,不可蜂拥而出或留恋财物,要当机立断,披上浸湿的衣服或裹上湿毛毯、湿被褥勇敢地冲出去信息熵信息熵(Entropy)我们常说信息很多,或信息很少,但却很难说清楚信息到底有多少比如一本50多万字的史记有多少信息量?或一套莎士比亚全集有多少信息量?这个问题几千年来都没有人给出很好的解答,直到1948年,香农(Claude Shannon)在他著名的论文“通信的数学原理”中提出了信信息息熵熵的概念,才解
11、决了信信息息的的度度量量问问题题,并且量化出信息的作用量化出信息的作用火灾袭来时要迅速疏散逃生,不可蜂拥而出或留恋财物,要当机立断,披上浸湿的衣服或裹上湿毛毯、湿被褥勇敢地冲出去信息熵信息熵(Entropy)一条信息的信息量和它的不确定性有着直接的关系比如,要搞清楚一件非常不确定的事,或是我们一无所知的事情,就需要了解大量信息。相反,如果我们对某件事已经有了较多了解,那么不需要太多信息就能把它搞清楚从这个角度看,信息量就等于不确定性的多少如何量化信息的度量呢?火灾袭来时要迅速疏散逃生,不可蜂拥而出或留恋财物,要当机立断,披上浸湿的衣服或裹上湿毛毯、湿被褥勇敢地冲出去信息熵信息熵(Entropy
12、)假如我错过了一个有32支球队参加的足球赛,赛后我问一个知道比赛结果的观众“哪支球队是冠军”?他不愿意直接告诉我,而让我猜,每猜一次,他要收一元钱才肯告诉我是否猜对,那我需要付多少钱才能知道谁是冠军呢?我可以把球队编号,从1到32,然后问“冠军球队在1-16号中吗?”,假如他告诉我猜对了,我就接着问“冠军在1-8号中吗?”,假如他说猜错了,那我就知道冠军在9-16号中。这样只要5次,我就能知道哪支球队是冠军当然,香农不是用钱,而是用比特(bit)来度量信息量,在上例中,这条消息的信息量是5比特信息量的比特数和所有可能情况的对数有关,例如本例中,信息量=log(球队数),即 5=log(32)火
13、灾袭来时要迅速疏散逃生,不可蜂拥而出或留恋财物,要当机立断,披上浸湿的衣服或裹上湿毛毯、湿被褥勇敢地冲出去信息熵信息熵(Entropy)实际上可能不需要5次就能猜出谁是冠军,因为一些强队得冠的可能性更高,因此第一次猜测时可以把少数几支强队分成一组,其它球队分成另一组,然后猜冠军球队是否在那几支强队中这样,也许三次或四次就能猜出结果。因此,当每支球队夺冠的可能性(概率)不等时,这条信息的信息量比5比特少香农指出,它的准确信息量应该是p1,p2,.,p32分别是这32支球队夺冠概率,香农把它称作信息熵,单位为比特信息熵,单位为比特;可以算出,当32支球队夺冠概率相同时,对应的信息熵为5比特。火灾袭
14、来时要迅速疏散逃生,不可蜂拥而出或留恋财物,要当机立断,披上浸湿的衣服或裹上湿毛毯、湿被褥勇敢地冲出去信息熵信息熵(Entropy)对于任意一个随机变量X(比如夺冠球队),它的熵定义为变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大火灾袭来时要迅速疏散逃生,不可蜂拥而出或留恋财物,要当机立断,披上浸湿的衣服或裹上湿毛毯、湿被褥勇敢地冲出去数据集的信息熵数据集的信息熵设数据集D中有m个不同的类C1,C2,C3,.,Cm设 Ci,D是数据集D中Ci类的样本的集合,|D|和|Ci,D|分别是D和 Ci,D中的样本个数其中pi是数据集D中任意样本属于类Ci的概率,用 估计数据集D的信息
15、熵:火灾袭来时要迅速疏散逃生,不可蜂拥而出或留恋财物,要当机立断,披上浸湿的衣服或裹上湿毛毯、湿被褥勇敢地冲出去例例:计算对下列数据集分类所需的信息熵计算对下列数据集分类所需的信息熵|D|=14|C1,D|=5|C2,D|=9火灾袭来时要迅速疏散逃生,不可蜂拥而出或留恋财物,要当机立断,披上浸湿的衣服或裹上湿毛毯、湿被褥勇敢地冲出去使用熵衡量数据纯度使用熵衡量数据纯度假设有一个数据集合假设有一个数据集合D,其中只有两个类,一个是正例类,一个是负例类,其中只有两个类,一个是正例类,一个是负例类计算计算D中正例类和负例类在三种不同的组分下熵的变化情况。中正例类和负例类在三种不同的组分下熵的变化情况
16、。(1)D中包含有中包含有50%的正例和的正例和50%的负例。的负例。H(D)=-0.5*log20.5-0.5*log20.5=1(2)D中包含有中包含有20%的正例和的正例和80%的负例。的负例。H(D)=-0.2*log20.2-0.8*log20.8=0.722(3)D中包含有中包含有100%的正例和的正例和0%的负例。的负例。H(D)=-1*log21-0*log20=0可以看到一个趋势,可以看到一个趋势,当数据变得越来越当数据变得越来越“纯纯”时,熵的值变得越来越小时,熵的值变得越来越小。当当D中中正反例所占比例相同时,熵取最大值正反例所占比例相同时,熵取最大值。当当D 中中所有数
17、据都只属于一个类时,熵得到最小值所有数据都只属于一个类时,熵得到最小值。因此因此熵可以作为数据纯净度或混乱度的衡量指标熵可以作为数据纯净度或混乱度的衡量指标。这正是决策树学习中。这正是决策树学习中需要的。需要的。火灾袭来时要迅速疏散逃生,不可蜂拥而出或留恋财物,要当机立断,披上浸湿的衣服或裹上湿毛毯、湿被褥勇敢地冲出去数据集的信息熵数据集的信息熵假设按属性 A 划分 D 中的样本,且属性 A 根据训练数据的观测具有 v 个不同取值 a1,a2,.,aj,.,av。如果 A 是离散值离散值,可依属性 A 将 D 划分为 v 个子集 D1,D2,.,Dj,.,Dv 其中,Dj为D中的样本子集,它们
18、在A上具有属性值aj 这些划分将对应于从该节点A出来的分支。按属性A对D划分后,数据集的信息熵:其中,充当第 j 个划分的权重。InfoA(D)越小,表示划分的纯度越高火灾袭来时要迅速疏散逃生,不可蜂拥而出或留恋财物,要当机立断,披上浸湿的衣服或裹上湿毛毯、湿被褥勇敢地冲出去信息增益信息增益选择具有最高信息增益Gain(A)的属性A作为分裂属性按照能做“最佳分类”的属性A划分,使完成样本分类需要的信息量最小火灾袭来时要迅速疏散逃生,不可蜂拥而出或留恋财物,要当机立断,披上浸湿的衣服或裹上湿毛毯、湿被褥勇敢地冲出去确定第一次分裂的属性:按确定第一次分裂的属性:按年龄年龄划分划分年龄40的有5个,
19、其中2个为“否”Info年龄(D)Gain(年龄)=Info(D)-Info年龄(D)=0.940-0.694=0.246火灾袭来时要迅速疏散逃生,不可蜂拥而出或留恋财物,要当机立断,披上浸湿的衣服或裹上湿毛毯、湿被褥勇敢地冲出去确定第一次分裂的属性:按收入划分确定第一次分裂的属性:按收入划分收入=高的有4个,其中2个为“否”收入=中的有6个,其中2个为“否”收入=低的有4个,其中1个为“否”Info收入(D)Gain(收入)=Info(D)-Info收入(D)=0.940-0.911=0.029火灾袭来时要迅速疏散逃生,不可蜂拥而出或留恋财物,要当机立断,披上浸湿的衣服或裹上湿毛毯、湿被褥勇
20、敢地冲出去确定第一次分裂的属性:按学生划分确定第一次分裂的属性:按学生划分是学生的有7个,其中1个为“否”不是学生的有7个,其中4个为“否”Info学生(D)Gain(学生)=Info(D)-Info学生(D)=0.940-0.788=0.152火灾袭来时要迅速疏散逃生,不可蜂拥而出或留恋财物,要当机立断,披上浸湿的衣服或裹上湿毛毯、湿被褥勇敢地冲出去确定第一次分裂的属性:按信用划分确定第一次分裂的属性:按信用划分信用好的有6个,其中3个为“否”信用一般的有8个,其中2个为“否”Info信用(D)Gain(信用)=Info(D)-Info信用(D)=0.940-0.892=0.048火灾袭来时
21、要迅速疏散逃生,不可蜂拥而出或留恋财物,要当机立断,披上浸湿的衣服或裹上湿毛毯、湿被褥勇敢地冲出去确定第一次分裂的属性确定第一次分裂的属性年龄40“年龄”属性具体最高信息增益,成为分裂属性火灾袭来时要迅速疏散逃生,不可蜂拥而出或留恋财物,要当机立断,披上浸湿的衣服或裹上湿毛毯、湿被褥勇敢地冲出去 Info收入(D)=2/5*(-2/2*log2/2-0/2*log0/2)+2/5*(-1/2*log1/2-1/2*log1/2)+1/5*(-1/1*log1/1-0/1*log0/1)=0.400 Info学生(D)=3/5*(-3/3*log3/3-0/3*log0/3)+2/5*(-2/2
22、*log2/2-0/2*log0/2)=0 Info信用(D)=3/5*(-2/3*log2/3-1/3*log1/3)+2/5*(-1/2*log1/2-1/2*log1/2)=0.951“学生”属性具体最高信息增益,成为分裂属性确定第二次分裂的属性确定第二次分裂的属性火灾袭来时要迅速疏散逃生,不可蜂拥而出或留恋财物,要当机立断,披上浸湿的衣服或裹上湿毛毯、湿被褥勇敢地冲出去年龄40学生不买买不是学生是学生.买火灾袭来时要迅速疏散逃生,不可蜂拥而出或留恋财物,要当机立断,披上浸湿的衣服或裹上湿毛毯、湿被褥勇敢地冲出去ID3决策树建立算法决策树建立算法1 决定分类属性;决定分类属性;2 对目前
23、的数据表,建立一个节点对目前的数据表,建立一个节点N3 如果数据库中的数据都属于同一个类,如果数据库中的数据都属于同一个类,N就是树叶,在树叶上就是树叶,在树叶上 标出所属的类标出所属的类4 如果数据表中没有其他属性可以考虑,则如果数据表中没有其他属性可以考虑,则N也是树叶,按照少也是树叶,按照少 数服从多数的原则在树叶上标出所属类别数服从多数的原则在树叶上标出所属类别5 否则,否则,根据平均信息期望值根据平均信息期望值E或或GAIN值选出一个最佳属性作值选出一个最佳属性作 为节点为节点N的测试属性的测试属性6 节点属性选定后,对于该属性中的每个值:节点属性选定后,对于该属性中的每个值:从从N
24、生成一个分支,并将数据表中与该分支有关的数据收集形生成一个分支,并将数据表中与该分支有关的数据收集形 成分支节点的数据表,在表中删除节点属性那一栏成分支节点的数据表,在表中删除节点属性那一栏7如果分支数据表属性非空,则转如果分支数据表属性非空,则转1,运用以上算法从该节点建立子树,运用以上算法从该节点建立子树火灾袭来时要迅速疏散逃生,不可蜂拥而出或留恋财物,要当机立断,披上浸湿的衣服或裹上湿毛毯、湿被褥勇敢地冲出去它它首首先先对对数数据据进进行行处处理理,利利用用归归纳纳法法生生成成可可读读的的规规则则和和决决策策树树,然然后后使使用用决决策策对对新新数数据据进进行行分分析析。本本质质上上决决
25、策策树树是是通通过过一一系系列列规规则则对对数数据据进进行行分分类类的的过过程程。决决策策树树技技术术发发现现数据模式和规则的核心是采用数据模式和规则的核心是采用递归分割的贪婪算法递归分割的贪婪算法。决策树的基本原理决策树的基本原理 火灾袭来时要迅速疏散逃生,不可蜂拥而出或留恋财物,要当机立断,披上浸湿的衣服或裹上湿毛毯、湿被褥勇敢地冲出去分类决策树分类决策树A decision tree is so called because the predictive model can be represented in a tree-like structure.the target is cat
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 决策树 分类 ppt 课件

限制150内