第4章分类基本概念决策树与模型评估.ppt
《第4章分类基本概念决策树与模型评估.ppt》由会员分享,可在线阅读,更多相关《第4章分类基本概念决策树与模型评估.ppt(91页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第4章分类基本概念决策树与模型评估 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望l 分类的是利用一个分类函数(分类模型、分类的是利用一个分类函数(分类模型、分类器),该模型能把数据库中的数据影射到分类器),该模型能把数据库中的数据影射到给定类别中的一个。给定类别中的一个。分类分类l训训练练集集:数数据据库库中中为为建建立立模模型型而而被被分分析析的的数数据元组形成训练集。据元组形成训练集。l训练集中的单个元组称为训练集中的单个元组称为训练样本训练样本,每个训每个
2、训练样本有一个类别标记。练样本有一个类别标记。l一个具体样本的形式可为一个具体样本的形式可为:(v1,v2,.,:(v1,v2,.,vn;c);vn;c);其中其中vivi表示属性值表示属性值,c,c表示类别。表示类别。l测试集:用于评估分类模型的准确率测试集:用于评估分类模型的准确率数据分类数据分类一个两步过程一个两步过程(1)l第一步,建立一个模型,描述预定数据类集和概念集假定每个元组属于一个预定义的类,由一个类标号属性确定学习模型可以用分类规则、决策树或数学公式的形式提供数据分类数据分类一个两步过程一个两步过程(2)l第二步,使用模型,对将来的或未知的对象进行分类首先评估模型的预测准确率
3、u对每个测试样本,将已知的类标号和该样本的学习模型类预测比较u模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比u测试集要独立于训练样本集,否则会出现“过分适应数据”的情况l如果准确性能被接受,则分类规则就可用来对新数如果准确性能被接受,则分类规则就可用来对新数据进行分类据进行分类 有监督的学习有监督的学习 VS.无监督的学习无监督的学习l有监督的学习(用于分类)模型的学习在被告知每个训练样本属于哪个类的“监督”下进行新数据使用训练数据集中得到的规则进行分类l无监督的学习(用于聚类)每个训练样本的类编号是未知的,要学习的类集合或数量也可能是事先未知的通过一系列的度量、观察来建立数据中
4、的类编号或进行聚类分类模型的构造方法分类模型的构造方法l1.1.机器学习方法:机器学习方法:l决策树法决策树法l规则归纳规则归纳l2.2.统计方法:统计方法:知识表示是判别函数和原型事例知识表示是判别函数和原型事例l贝叶斯法贝叶斯法l非参数法非参数法(近邻学习或基于事例的学习近邻学习或基于事例的学习)l3.3.神经网络方法神经网络方法:lBPBP算法算法,模型表示是前向反馈神经网络模型模型表示是前向反馈神经网络模型l4.4.粗糙集粗糙集(rough set)(rough set)知识表示是产生式规则知识表示是产生式规则一个决策树的例子一个决策树的例子categoricalcategorical
5、continuousclassRefundMarStTaxIncYESNONONOYesNoMarried Single,Divorced 80KSplitting Attributes训练数据训练数据模型模型:决策树决策树决策树的另一个例子决策树的另一个例子categoricalcategoricalcontinuousclassMarStRefundTaxIncYESNONONOYesNoMarried Single,Divorced 80K用决策树归纳分类用决策树归纳分类l什么是决策树?类似于流程图的树结构每个内部节点表示在一个属性上的测试每个分枝代表一个测试输出每个树叶节点代表类或类分
6、布l决策树的生成由两个阶段组成决策树构建u开始时,所有的训练样本都在根节点u递归的通过选定的属性,来划分样本(必须是离散值)树剪枝u许多分枝反映的是训练数据中的噪声和孤立点,树剪枝试图检测和剪去这种分枝l决策树的使用:对未知样本进行分类通过将样本的属性值与决策树相比较决策树分类任务决策树分类任务Decision Tree一个决策树的例子一个决策树的例子categoricalcategoricalcontinuousclassRefundMarStTaxIncYESNONONOYesNoMarried Single,Divorced 80KSplitting Attributes训练数据训练数据
7、模型模型:决策树决策树应用决策树进行分类应用决策树进行分类RefundMarStTaxIncYESNONONOYesNoMarried Single,Divorced 80K测试数据测试数据Start from the root of tree.应用决策树进行分类应用决策树进行分类RefundMarStTaxIncYESNONONOYesNoMarried Single,Divorced 80K测试数据测试数据应用决策树进行分类应用决策树进行分类RefundMarStTaxIncYESNONONOYesNoMarried Single,Divorced 80K测试数据测试数据应用决策树进行分类
8、应用决策树进行分类RefundMarStTaxIncYESNONONOYesNoMarried Single,Divorced 80K测试数据测试数据应用决策树进行分类应用决策树进行分类RefundMarStTaxIncYESNONONOYesNoMarried Single,Divorced 80K测试数据测试数据应用决策树进行分类应用决策树进行分类RefundMarStTaxIncYESNONONOYesNoMarried Single,Divorced 80K测试数据测试数据Assign Cheat to“No”决策树分类决策树分类Decision Tree决策树决策树l有许多决策树算法
9、:l lHuntHunt算法算法算法算法l l信息增益信息增益信息增益信息增益Information gainInformation gain(ID3)l l增益比率增益比率增益比率增益比率Gain rationGain ration(C4.5)l l基尼指数基尼指数基尼指数基尼指数Gini indexGini index(SLIQ,SPRINT)Hunt 算法算法l设 Dt 是与结点 t相关联的训练记录集l算法步骤:如果Dt 中所有记录都属于同一个类 yt,则t是叶结点,用yt标记如果 Dt 中包含属于多个类的记录,则选择一个属性测试条件,将记录划分成较小的子集。对于测试条件的每个输出,创建
10、一个子结点,并根据测试结果将Dt中的记录分布到子结点中。然后,对于每个子结点,递归地调用该算法Dt?Hunt算法算法Dont CheatRefundDont CheatDont CheatYesNoRefundDont CheatYesNoMaritalStatusDont CheatCheatSingle,DivorcedMarriedTaxableIncomeDont Cheat=80KRefundDont CheatYesNoMaritalStatusDont CheatCheatSingle,DivorcedMarried决策树决策树lHunt算法采用贪心策略构建决策树.在选择划分数据
11、的属性时,采取一系列局部最优决策来构造决策树.l决策树归纳的设计问题如何分裂训练记录u怎样为不同类型的属性指定测试条件?u怎样评估每种测试条件?如何停止分裂过程决策树决策树lHunt算法采用贪心策略构建决策树.在选择划分数据的属性时,采取一系列局部最优决策来构造决策树.l决策树归纳的设计问题如何分裂训练记录u怎样为不同类型的属性指定测试条件?u怎样评估每种测试条件?如何停止分裂过程怎样为不同类型的属性指定测试条件怎样为不同类型的属性指定测试条件?l依赖于属性的类型标称序数连续l依赖于划分的路数2路划分多路划分基于标称属性的分裂基于标称属性的分裂l多路划分:划分数(输出数)取决于该属性不同属性值
12、的个数.l二元划分:划分数为2,这种划分要考虑创建k个属性值的二元划分的所有2k-1-1种方法.CarTypeFamilySportsLuxuryCarTypeFamily,LuxurySportsCarTypeSports,LuxuryFamilyORCarTypeFamily,SportsLuxury l多路划分:划分数(输出数)取决于该属性不同属性值的个数.l二元划分:划分数为2,需要保持序数属性值的有序性.基于序数属性的划分基于序数属性的划分SizeSmallMediumLargeSizeMedium,LargeSmallSizeSmall,MediumLargeORSizeSmall
13、,LargeMedium基于连续属性的划分基于连续属性的划分l多路划分:viAvi+1(i=1,k)l二元划分:(A v)or(A v)考虑所有的划分点,选择一个最佳划分点v基于连续属性的划分基于连续属性的划分决策树决策树l决策树归纳的设计问题如何分裂训练记录u怎样为不同类型的属性指定测试条件?u怎样评估每种测试条件?如何停止分裂过程怎样选择最佳划分?怎样选择最佳划分?在划分前在划分前:10 个记录个记录 class 0,10 个记录个记录 class 1怎样选择最佳划分?怎样选择最佳划分?l选择最佳划分的度量通常是根据划分后子结点不纯性的程度。不纯性的程度越低,类分布就越倾斜 l结点不纯性的
14、度量:不纯性大不纯性大不纯性小不纯性小怎样找到最佳划分?怎样找到最佳划分?B?YesNoNode N3Node N4A?YesNoNode N1Node N2划分前划分前:M0M1M2M3M4M12M34Gain=M0 M12 vs M0 M34结点不纯性的测量结点不纯性的测量lGinilEntropylclassification error不纯性的测量不纯性的测量:GINIl给定结点t的Gini值计算:(p(j|t)是在结点t中,类j发生的概率).当类分布均衡时,Gini值达到最大值(1-1/nc)相反当只有一个类时,Gini值达到最小值0计算计算 GINI的例子的例子P(C1)=0/6=
15、0 P(C2)=6/6=1Gini=1 P(C1)2 P(C2)2=1 0 1=0 P(C1)=1/6 P(C2)=5/6Gini=1 (1/6)2 (5/6)2=0.278P(C1)=2/6 P(C2)=4/6Gini=1 (2/6)2 (4/6)2=0.444基于基于 GINI的划分的划分l当一个结点 p 分割成 k 个部分(孩子),划分的质量可由下面公式计算 ni=孩子结点 i的记录数,n =父结点 p的记录数.二元属性二元属性:计算计算 GINIl对于二元属性,结点被划分成两个部分l得到的GINI值越小,这种划分越可行.B?YesNoNode N1Node N2Gini(N1)=1 (
16、5/6)2 (2/6)2=0.194 Gini(N2)=1 (1/6)2 (4/6)2=0.528Gini split=7/12*0.194+5/12*0.528=0.333标称属性标称属性:计算计算Ginil多路划分l二元划分l一般多路划分的Gini值比二元划分小,这一结果并不奇怪,因为二元划分实际上合并了多路划分的某些输出,自然降低了子集的纯度Multi-way splitTwo-way split(find best partition of values)连续属性连续属性:计算计算 Ginil使用二元划分l划分点v选择N个记录中所有属性值作为划分点l对每个划分进行类计数,A v and
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分类 基本概念 决策树 模型 评估
限制150内