数据挖掘决策树算法及应用拓展学习教案.pptx





《数据挖掘决策树算法及应用拓展学习教案.pptx》由会员分享,可在线阅读,更多相关《数据挖掘决策树算法及应用拓展学习教案.pptx(36页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘决策树算法数据挖掘决策树算法(sun f)及应用拓展及应用拓展第一页,共36页。第1页/共36页第二页,共36页。决策树生成决策树生成(shn chn)(shn chn)基本思想:基本思想:用途:提取用途:提取(tq)(tq)分类规则,进行分类预测分类规则,进行分类预测判定树分类算法output训练集决策树input第2页/共36页第三页,共36页。决策树示意图决策树示意图第3页/共36页第四页,共36页。使用决策树进行使用决策树进行(jnxng)(jnxng)分类分类决策树决策树 一个树性的结构一个树性的结构内部节点上选用一个属性进行分割内部节点上选用一个属性进行分割每个分叉都是分割
2、的一个部分每个分叉都是分割的一个部分叶子节点表示叶子节点表示(biosh)(biosh)一个分布一个分布决策树生成算法分成两个步骤决策树生成算法分成两个步骤树的生成树的生成开始,数据都在根节点开始,数据都在根节点递归的进行数据分片递归的进行数据分片树的修剪树的修剪去掉一些可能是噪音或者异常的数据去掉一些可能是噪音或者异常的数据决策树使用决策树使用:对未知数据进行分割对未知数据进行分割按照决策树上采用的分割属性逐层往下,直到叶子节点按照决策树上采用的分割属性逐层往下,直到叶子节点第4页/共36页第五页,共36页。决策树算法决策树算法(sun f)(sun f)基本基本(jbn)(jbn)算法(贪
3、心算法)算法(贪心算法)自上而下分而治之的方法自上而下分而治之的方法开始时,所有的数据都在根节点开始时,所有的数据都在根节点属性都是种类字段属性都是种类字段(如果是连续的,将其离散化如果是连续的,将其离散化)所有记录用所选属性递归的进行分割所有记录用所选属性递归的进行分割属性的选择是基于一个启发式规则或者一个统计的度量属性的选择是基于一个启发式规则或者一个统计的度量 (如如,information gain),information gain)停止分割的条件停止分割的条件一个节点上的数据都是属于同一个类别一个节点上的数据都是属于同一个类别没有属性可以再用于对数据进行分割没有属性可以再用于对数据
4、进行分割第5页/共36页第六页,共36页。伪代码伪代码(di m)(Building Tree)(di m)(Building Tree)Procedure BuildTree(S)Procedure BuildTree(S)用数据用数据(shj)(shj)集集S S初始化根节点初始化根节点R R 用根结点用根结点R R初始化队列初始化队列Q QWhile Q is not Empty do While Q is not Empty do 取出队列取出队列Q Q中的第一个节点中的第一个节点N Nif N if N 不纯不纯(Pure)(Pure)for for 每一个属性每一个属性 A A估计
5、该节点在估计该节点在A A上的信息增益上的信息增益 选出最佳的属性,将选出最佳的属性,将N N分裂为分裂为N1N1、N2N2 第6页/共36页第七页,共36页。属性属性(shxng)(shxng)选择的统计度量选择的统计度量信息增益信息增益Information gain(ID3/C4.5)Information gain(ID3/C4.5)所有属性假设都是种类字段所有属性假设都是种类字段经过修改之后可以经过修改之后可以(ky)(ky)适用于数值字段适用于数值字段基尼指数基尼指数Gini index(IBM IntelligentMiner)Gini index(IBM Intelligent
6、Miner)能够适用于种类和数值字段能够适用于种类和数值字段第7页/共36页第八页,共36页。信息信息(xnx)(xnx)增益度度量增益度度量(ID3/C4.5)(ID3/C4.5)任意任意(rny)(rny)样本分类的期望信息:样本分类的期望信息:I(s1,s2,sm)=I(s1,s2,sm)=Pi log2(pi)Pi log2(pi)(i=1.m)(i=1.m)其中,数据集为其中,数据集为S S,m m为为S S的分类数目,的分类数目,Pi PiCiCi为某分类标号,为某分类标号,PiPi为任意为任意(rny)(rny)样本属于样本属于CiCi的的概率,概率,si si为分类为分类CiC
7、i上的样本数上的样本数由由A A划分为子集的熵:划分为子集的熵:E(A)=(s1j+smj)/s*I(s1j+E(A)=(s1j+smj)/s*I(s1j+smj)+smj)A A为属性,具有为属性,具有V V个不同的取值个不同的取值信息增益:信息增益:Gain(A)=I(s1,s2,sm)Gain(A)=I(s1,s2,sm)E(A)E(A)第8页/共36页第九页,共36页。训练训练(xnlin)(xnlin)集集(举例举例)ID3算法(sun f)第9页/共36页第十页,共36页。使用信息使用信息(xnx)(xnx)增益进行属性选择增益进行属性选择ggClass P:buys_comput
8、er=Class P:buys_computer=“yesyes”ggClass N:buys_computer Class N:buys_computer=“nono”ggI(p,n)=I(9,5)=0.940I(p,n)=I(9,5)=0.940ggCompute the entropy for Compute the entropy for ageage:HenceHenceSimilarlySimilarly第10页/共36页第十一页,共36页。Decision Tree(Decision Tree(结果结果(ji gu)(ji gu)输出输出)age?overcaststudent?
9、credit rating?noyesfairexcellent40nonoyesyesyes30.40第11页/共36页第十二页,共36页。u符号描述u贝叶斯理论(lln)u贝叶斯分类器u实验结果与分析贝叶斯分类器贝叶斯分类器第12页/共36页第十三页,共36页。=A1A2.Am,是由所有未知类别的可能样本组成的集合;c=A1A2.AmC是由所有已知类别的样本组成的集合。D c是训练样例集合。中的元素(yun s)x表示为x=。c中的元素(yun s)x表示为x=。其中ai表示第i个属性的某个取值。描述描述(mio sh)(mio sh)用到的符号用到的符号 我们用Ai表示第i个属性(shx
10、ng),C表示决策属性(shxng);aik表示第i个属性(shxng)的第k个取值,cj表示第j类;加上绝对值则表示相应的个数,如|Ai|表示第i个属性(shxng)的取值个数,|cj|表示第j类样例个数。第13页/共36页第十四页,共36页。设x是一个(y)类别未知的数据样本,cj为某个类别,若数据样本x属于一个(y)特定的类别cj,那么分类问题就是决定P(cj|x),即在获得数据样本x时,确定x的最佳分类。所谓最佳分类,一种办法是把它定义为在给定数据集D中不同类别cj先验概率的条件下最可能(most probable)分类。贝叶斯理论提供了计算这种可能性的一种直接方法 更精确地讲,贝叶斯
11、法则基于假设的先验概率、给定假设下观察(gunch)到不同数据的概率,提供了一种计算假设概率的方法贝叶斯定理贝叶斯定理(dngl)(dngl)第14页/共36页第十五页,共36页。贝叶斯公式贝叶斯公式(gngsh)(gngsh)u 先验概率P(cj)P(cj|x)=P(x|cj)P(cj)P(x)u 联合(linh)概率P(x|cj)u 后验概率(gil)P(cj|x)第15页/共36页第十六页,共36页。如果没有这一先验知识,那么可以简单地将每一候选类别赋予相同的先验概率。不过通常我们(w men)可以用样例中属于cj的样例数|cj|比上总样例数|D|来近似,即先验概率先验概率P(cP(cj
12、 j)P(cj)代表还没有训练数据前,cj拥有的初始概率。P(cj)常被称为cj的先验概率(prior probability),它反映了我们所拥有的关于cj是正确分类机会的背景知识(zh shi),它应该是独立于样本的。第16页/共36页第十七页,共36页。联合概率是指当已知类别为cj的条件(tiojin)下,看到样本x出现的概率。联合联合(linh)(linh)概率概率P(x|cj)P(x|cj)若设x=则P(x|cj)=P(a1,a2am|cj)第17页/共36页第十八页,共36页。后验概率后验概率(gil)P(cj|x)(gil)P(cj|x)即给定数据样本x时cj成立的概率(gil)
13、,而这正是我们所感兴趣的 P(cj|x)被称为C的后验概率(gil)(posterior probability),因为它反映了在看到数据样本x后cj成立的置信度第18页/共36页第十九页,共36页。贝叶斯分类贝叶斯分类(fn li)(fn li)我们现在我们现在(xinzi)(xinzi)计算计算P(cMAP|x)=max P(cj|x)j(1,|C|)P(cMAP|x)=max P(cj|x)j(1,|C|)则则P(cMAP|x)P(cMAP|x)称为最大后验概率称为最大后验概率(gil)(gil)然后我们就把然后我们就把x x分到分到cMAPcMAP类中类中第19页/共36页第二十页,共
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 决策树 算法 应用 拓展 学习 教案

限制150内