决策树算法及应用拓展PPT讲稿.ppt
《决策树算法及应用拓展PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《决策树算法及应用拓展PPT讲稿.ppt(41页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、决策树算法及应用拓展第1页,共41页,编辑于2022年,星期五概述(一)n传统挖掘方法的局限性n只重视从数据库中提取规则,忽视了库中数据的变化n挖掘所用的数据来自稳定的环境,人为干预较少第2页,共41页,编辑于2022年,星期五概述(二)n捕捉新旧数据变化的目的:n挖掘出变化的趋势n例:啤酒尿布n阻止/延缓不利变化的发生n例:金融危机银行的信贷策略n差异挖掘算法的主要思想:n合理合理比较新/旧数据的挖掘结果,并清晰的描述其变化部分第3页,共41页,编辑于2022年,星期五预备知识一(Building Tree)n基本思想:n用途:提取分类规则,进行分类预测判定树分类算法output训练集决策树
2、input第4页,共41页,编辑于2022年,星期五使用决策树进行分类n决策树 n一个树性的结构n内部节点上选用一个属性进行分割n每个分叉都是分割的一个部分n叶子节点表示一个分布n决策树生成算法分成两个步骤n树的生成n开始,数据都在根节点n递归的进行数据分片n树的修剪n去掉一些可能是噪音或者异常的数据n决策树使用:对未知数据进行分割n按照决策树上采用的分割属性逐层往下,直到一个叶子节点第5页,共41页,编辑于2022年,星期五决策树算法n基本算法(贪心算法)n自上而下分而治之的方法n开始时,所有的数据都在根节点n属性都是种类字段(如果是连续的,将其离散化)n所有记录用所选属性递归的进行分割n属
3、性的选择是基于一个启发式规则或者一个统计的度量(如,information gain)n停止分割的条件n一个节点上的数据都是属于同一个类别n没有属性可以再用于对数据进行分割第6页,共41页,编辑于2022年,星期五伪代码(Building Tree)Procedure BuildTree(S)用数据集S初始化根节点R 用根结点R初始化队列QWhile Q is not Empty do 取出队列Q中的第一个节点Nif N 不纯(Pure)for 每一个属性 A估计该节点在A上的信息增益 选出最佳的属性,将N分裂为N1、N2第7页,共41页,编辑于2022年,星期五属性选择的统计度量n信息增益I
4、nformation gain(ID3/C4.5)n所有属性假设都是种类字段n经过修改之后可以适用于数值字段n基尼指数Gini index(IBM IntelligentMiner)n能够适用于种类和数值字段第8页,共41页,编辑于2022年,星期五信息增益度度量(ID3/C4.5)n任意样本分类的期望信息:nI(s1,s2,sm)=Pi log2(pi)(i=1.m)n其中,数据集为S,m为S的分类数目,PinCi为某分类标号,Pi为任意样本属于Ci的概率,si为分类Ci上的样本数n由A划分为子集的熵:nE(A)=(s1j+smj)/s*I(s1j+smj)nA为属性,具有V个不同的取值n信
5、息增益:Gain(A)=I(s1,s2,sm)E(A)第9页,共41页,编辑于2022年,星期五训练集(举例)ID3算法第10页,共41页,编辑于2022年,星期五使用信息增益进行属性选择gClass P:buys_computer=“yes”gClass N:buys_computer=“no”gI(p,n)=I(9,5)=0.940gCompute the entropy for age:HenceSimilarly第11页,共41页,编辑于2022年,星期五Decision Tree(结果输出结果输出)age?overcaststudent?credit rating?noyesfair
6、excellent40nonoyesyesyes30.40第12页,共41页,编辑于2022年,星期五基尼指数 Gini Index(IBM IntelligentMiner)n集合T包含N个类别的记录,那么其Gini指标就是pj 类别j出现的频率n如果集合T分成两部分 N1 and N2。那么这个分割的Gini就是n提供最小Ginisplit 就被选择作为分割的标准(对于每个属性都要遍历所有可以的分割方法).第13页,共41页,编辑于2022年,星期五预备知识二(Pruning Tree)n目的:n消除决策树的过适应(OverFitting)问题n实质:消除训练集中的异常和噪声n两种方法:n
7、先剪枝法(Public 算法)n后剪枝法(Sprint 算法)第14页,共41页,编辑于2022年,星期五两种剪枝标准n最小描述长度原则(MDL)n思想:最简单的解释最期望的n做法:对Decision-Tree 进行二进位编码,编码所需二进位最少的树即为“最佳剪枝树”n期望错误率最小原则n思想:选择期望错误率最小的子树进行剪枝n对树中的内部节点计算其剪枝/不剪枝可能出现的期望错误率,比较后加以取舍第15页,共41页,编辑于2022年,星期五Cost of Encoding Data Recordsn对n条记录进行分类编码的代价(2种方法)nn 记录数,k 类数目,ni属于类i的记录数第16页,
8、共41页,编辑于2022年,星期五Cost of Encoding Treen编码树结构本身的代价n编码每个分裂节点的代价n确定分类属性的代价n确定分类属性值的代价&其中,v是该节点上不同属性值的个数n编码每个树叶上的记录分类的代价第17页,共41页,编辑于2022年,星期五剪枝算法n设N为欲计算其最小代价的节点n两种情形:nN是叶结点C(S)+1 Cost1nN是内部节点,有两个子节点N1、N2n已剪去N1、N2,N成为叶子节点 Cost1n计算N节点及其子树的代价,使用递归过程 Csplit(N)+1+minCost1+minCost2 Cost2 比较Cost1和Cost2,选取代价较小
9、者代价较小者作为返回值第18页,共41页,编辑于2022年,星期五计算最小子树代价的伪代码Procedure ComputeCost&Prune(Node N)if N 是叶子节点,return(C(S)+1)minCost1=Compute&Prune(Node N1)minCost2=Compute&Prune(Node N2)minCostN=minC(S)+1,Csplit(N)+1+minCost1 +minCost2 if minCostN=C(S)+1 Prune child nodes N1 and N2 return minCostN第19页,共41页,编辑于2022年,星期
10、五引入Public算法n一般做法:先建树,后剪枝nPublic算法:建树的同时进行剪枝n思想:在一定量(用户定义参数)的节点分裂后/周期性的进行部分树的剪枝n存在的问题:可能高估(Over-Estimate)被剪节点的值n改进:采纳低估(Under-Estimate)节点代价的策略第20页,共41页,编辑于2022年,星期五具体思路n三种叶节点:n有待扩展:需计算子树代价下界n不能扩展(纯节点)n剪枝后的结点C(S)+1第21页,共41页,编辑于2022年,星期五改进算法的伪代码Procedure ComputCoste&Prune(Node N)If N是仍待扩展的结点,return N节点
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 决策树 算法 应用 拓展 PPT 讲稿
限制150内