决策树与随机森林ppt课件.pptx
《决策树与随机森林ppt课件.pptx》由会员分享,可在线阅读,更多相关《决策树与随机森林ppt课件.pptx(59页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确1/60目标任务与主要内容o复习信息熵n熵、联合熵、条件熵、互信息o决策树学习算法n信息增益nID3、C4.5、CARToBagging与随机森林的思想n投票机制o分类算法的评价指标nROC曲线和AUC值在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确2/60决策树的实例(Weka自带测试数据)注:Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免
2、费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品-Clementine)的,基于JAVA环境下开源的机器学习(machine learning)以及数据挖掘(data minining)软件。它和它的源代码可在其官方网站下载。在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确3/60复习:熵o将离散随机变量X的概率分布为P(X=xi),则定义熵为:o若P为连续随机变量,则概率分布变成概率密度函数,求和符号变成积分符号。o在不引起混淆的情况下,下面谈到的“概率分布函数”,其含义是:n1、若X为离散随机变量,则该名称为概率分布函数;
3、n2、若X为连续随机变量,则该名称为概率密度函数。在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确4/60对熵的理解o熵是随机变量不确定性的度量,不确定性越大,熵值越大;若随机变量退化成定值,熵为0n均匀分布是“最不确定”的分布o熵其实定义了一个函数(概率分布函数)到一个值(信息熵)的映射。nP(x)H (函数数值)n泛函o回忆一下关于“变分推导”章节中对于泛函的内容。在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确5/60联合熵和条件熵o两个随机变量X,Y的联合分布,可以形
4、成联合熵Joint Entropy,用H(X,Y)表示oH(X,Y)H(Y)n(X,Y)发生所包含的信息熵,减去Y单独发生包含的信息熵在Y发生的前提下,X发生“新”带来的信息熵n该式子定义为Y发生前提下,X的熵:o条件熵H(X|Y)=H(X,Y)H(Y)在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确6/60推导条件熵的定义式在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确7/60相对熵o相对熵,又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散
5、度等o设p(x)、q(x)是X中取值的两个概率分布,则p对q的相对熵是o说明:n相对熵可以度量两个随机变量的“距离”o在“贝叶斯网络”、“变分推导”章节使用过n一般的,D(p|q)D(q|p)nD(p|q)0、D(q|p)0 提示:凸函数中的Jensen不等式在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确8/60互信息o两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。oI(X,Y)=D(P(X,Y)|P(X)P(Y)在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提
6、出的问题也很明确9/60计算H(X)-I(X,Y)在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确10/60整理得到的等式oH(X|Y)=H(X,Y)-H(Y)n条件熵定义oH(X|Y)=H(X)-I(X,Y)n根据互信息定义展开得到n有些文献将I(X,Y)=H(Y)H(Y|X)作为互信息的定义式o对偶式nH(Y|X)=H(X,Y)-H(X)nH(Y|X)=H(Y)-I(X,Y)oI(X,Y)=H(X)+H(Y)-H(X,Y)n有些文献将该式作为互信息的定义式o试证明:H(X|Y)H(X),H(Y|X)H(Y)在整堂课的教学中,刘教师
7、总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确11/60强大的Venn图:帮助记忆在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确12/60决策树示意图在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确13/60决策树(Decision Tree)o决策树是一种树型结构,其中每个内部结点表示在一个属性上的测试,每个分支代表一个测试输出,每个叶结点代表一种类别。o决策树学习是以实例为基础的归纳学习。o决策树学习采用的是自顶向下的递归方法,其基
8、本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处的熵值为零,此时每个叶节点中的实例都属于同一类。在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确14/60决策树学习算法的特点o决策树学习算法的最大优点是,它可以自学习。在学习的过程中,不需要使用者了解过多背景知识,只需要对训练实例进行较好的标注,就能够进行学习。n显然,属于有监督学习。n从一类无序、无规则的事物(概念)中推理出决策树表示的分类规则。在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确15/60决策树学习
9、的生成算法o建立决策树的关键,即在当前状态下选择哪个属性作为分类依据。根据不同的目标函数,建立决策树主要有一下三种算法。nID3nC4.5nCART在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确16/60信息增益o概念:当熵和条件熵中的概率由数据估计(特别是极大似然估计)得到时,所对应的熵和条件熵分别称为经验熵和经验条件熵。o信息增益表示得知特征A的信息而使得类X的信息的不确定性减少的程度。o定义:特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即:ng(D,
10、A)=H(D)H(D|A)n显然,这即为训练数据集D和特征A的互信息。在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确17/60基本记号o设训练数据集为D,|D|表示其容量,即样本个数。设有K个类Ck,k=1,2,K,|Ck|为属于类Ck的样本个数。k|Ck|=|D|。设特征A有n个不同的取值a1,a2an,根据特征A的取值将D划分为n个子集D1,D2,Dn,|Di|为Di的样本个数,i|Di|=D。记子集Di中属于类Ck的样本的集合为Dik,|Dik|为Dik的样本个数。在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置
11、具有一定的梯度,由浅入深,所提出的问题也很明确18/60信息增益的计算方法o计算数据集D的经验熵o计算特征A对数据集D的经验条件熵H(D|A)o计算信息增益:g(D,A)=H(D)H(D|A)在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确19/60经验条件熵H(D|A)在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确20/60其他目标o信息增益率:gr(D,A)=g(D,A)/H(A)o基尼指数:在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,
12、由浅入深,所提出的问题也很明确21/60讨论(一家之言)o考察基尼指数的图像、熵、分类误差率三者之间的关系n将f(x)=-lnx在x0=1处一阶展开,忽略高阶无穷小,得到f(x)1-x在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确22/60三种决策树学习算法o适应信息增益来进行特征选择的决策树学习过程,即为ID3决策。o所以如果是取值更多的属性,更容易使得数据更“纯”,其信息增益更大,决策树会首先挑选这个属性作为树的顶点。结果训练出来的形状是一棵庞大且深度很浅的树,这样的划分是极为不合理的。oC4.5:信息增益率 gr(D,A)=g
13、(D,A)/H(A)oCART:基尼指数o总结:一个属性的信息增益越大,表明属性对样本的熵减少的能力更强,这个属性使得数据由不确定性变成确定性的能力越强。在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确23/60决策树的例子o对于下面的数据,希望分割成红色和绿色两个类在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确24/60决策树的生成过程在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确25/60决策树的生成过程在整
14、堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确26/60决策树的生成过程在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确27/60决策树的生成过程在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确28/60决策树的生成过程在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确29/60决策树的生成过程在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一
15、定的梯度,由浅入深,所提出的问题也很明确30/60决策树的生成过程在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确31/60决策树的生成过程在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确32/60决策树的生成过程在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确33/60决策树的过拟合o决策树对训练属于有很好的分类能力,但对未知的测试数据未必有好的分类能力,泛化能力弱,即可能发生过拟合现象。n剪枝n随机森林在整堂课的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 决策树 随机 森林 ppt 课件
限制150内