第3章_分类与决策树bccm.pptx





《第3章_分类与决策树bccm.pptx》由会员分享,可在线阅读,更多相关《第3章_分类与决策树bccm.pptx(73页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第3章章分类与预测分类与预测主要内容v分类与决策树概述分类与决策树概述vID3、C4.5与与C5.0vCART分类 VS.预测v分类和预测是两种数据分析形式,用于提取描述重要数据类或预测未来分类和预测是两种数据分析形式,用于提取描述重要数据类或预测未来的数据趋势的数据趋势 的模型的模型分类:分类:v预测类对象的分类标号(或离散值)预测类对象的分类标号(或离散值)v根据训练数据集和类标号属性,构建模型来分类现有数据,并用根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据来分类新数据预测:预测:v建立连续函数值模型建立连续函数值模型v比如预测空缺值,或者预测顾客在计算机设备上的
2、花费比如预测空缺值,或者预测顾客在计算机设备上的花费v典型应用典型应用欺诈检测、市场定位、性能预测、医疗诊断欺诈检测、市场定位、性能预测、医疗诊断v分类是一种应用非常广泛的数据挖掘技术分类是一种应用非常广泛的数据挖掘技术 v分类与预测的区别:分类与预测的区别:当估计的属性值是离散值时,这就是当估计的属性值是离散值时,这就是分类分类;当估计的属性值是连续值时,这就是当估计的属性值是连续值时,这就是预测预测。分类和预测分类和预测-示例示例v分类分类银行贷款员需要分析数据,来弄清哪些贷款申请银行贷款员需要分析数据,来弄清哪些贷款申请者是安全的,哪些是有风险的(将贷款申请者分者是安全的,哪些是有风险的
3、(将贷款申请者分为为“安全安全”和和“有风险有风险”两类)两类)v我们需要构造一个分类器来预测类属编号,比如预测我们需要构造一个分类器来预测类属编号,比如预测顾客属类顾客属类v预测预测银行贷款员需要预测贷给某个顾客多少钱是安全银行贷款员需要预测贷给某个顾客多少钱是安全的的v构造一个预测器,预测一个连续值函数或有序值,常构造一个预测器,预测一个连续值函数或有序值,常用方法是回归分析用方法是回归分析数据分类数据分类一个两步过程一个两步过程(1)v第一步,也成为学习步,目标是建立描述预先定义的数第一步,也成为学习步,目标是建立描述预先定义的数据类或概念集的分类器据类或概念集的分类器分类算法通过分析或
4、从训练集分类算法通过分析或从训练集“学习学习”来构造分类器。来构造分类器。训练集由数据库元组(用训练集由数据库元组(用n维属性向量表示)和他们相对维属性向量表示)和他们相对应的类编号组成;假定每个元组属于一个预定义的类应的类编号组成;假定每个元组属于一个预定义的类v训练元组:训练数据集中的单个元组训练元组:训练数据集中的单个元组学习模型可以用分类规则、决策树或数学公式的形式提学习模型可以用分类规则、决策树或数学公式的形式提供供数据分类数据分类一个两步过程一个两步过程(2)v第二步,使用模型,对将来的或未知的对象进行分类第二步,使用模型,对将来的或未知的对象进行分类首先评估模型的预测准确率首先评
5、估模型的预测准确率v对每个测试样本,将已知的类标号和该样本的学习模型类预测比对每个测试样本,将已知的类标号和该样本的学习模型类预测比较较v模型在给定测试集上的准确率是正确被模型分类的测试样本的百模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比分比v测试集要独立于训练样本集,否则会出现测试集要独立于训练样本集,否则会出现“过分拟合过分拟合”的情况的情况第一步建立模型训练数据集分类算法IF rank=professorOR years 6THEN tenured=yes 分类规则第二步用模型进行分类分类规则测试集未知数据(Jeff,Professor,4)Tenured?监督学习监督学
6、习 VS.无监督学习无监督学习v监督学习(用于分类)监督学习(用于分类)模型的学习在被告知每个训练样本属于哪个类的模型的学习在被告知每个训练样本属于哪个类的“指导指导”下进行下进行新数据使用训练数据集中得到的规则进行分类新数据使用训练数据集中得到的规则进行分类v无监督学习(用于聚类)无监督学习(用于聚类)每个训练样本的类编号是未知的,要学习的类集每个训练样本的类编号是未知的,要学习的类集合或数量也可能是事先未知的合或数量也可能是事先未知的通过一系列的度量、观察来建立数据中的类编号通过一系列的度量、观察来建立数据中的类编号或进行聚类或进行聚类数据预测的两步过程数据预测的两步过程v数据预测也是一个
7、两步的过程,类似于前面描述的数据分类数据预测也是一个两步的过程,类似于前面描述的数据分类对于预测,没有对于预测,没有“类标号属性类标号属性”要预测的属性是连续值,而不是离散值,该属性可简称要预测的属性是连续值,而不是离散值,该属性可简称“预测属性预测属性”vE.g.银行贷款员需要预测贷给某个顾客多少钱是安全银行贷款员需要预测贷给某个顾客多少钱是安全的的v预测器可以看作一个映射或函数预测器可以看作一个映射或函数y=f(X)其中其中X是输入;是输入;y是输出,是一个连续或有序的值是输出,是一个连续或有序的值与分类类似,准确率的预测,也要使用单独的测试集与分类类似,准确率的预测,也要使用单独的测试集
8、3.1 决策树概述决策树概述v决策树决策树(Decision Tree)一种描述概念空间的有效的归纳推理办法。一种描述概念空间的有效的归纳推理办法。基于决策树的学习方法可以进行不相关的基于决策树的学习方法可以进行不相关的多概念学习,具有简单快捷的优势,已经多概念学习,具有简单快捷的优势,已经在各个领域取得广泛应用。在各个领域取得广泛应用。v决策树是一种树型结构,其中每个内部结决策树是一种树型结构,其中每个内部结点表示在一个属性上的测试,每个分支代点表示在一个属性上的测试,每个分支代表一个测试输出,每个叶结点代表一种类表一个测试输出,每个叶结点代表一种类别。别。v决策树学习是以实例为基础的归纳学
9、习。决策树学习是以实例为基础的归纳学习。v从一类无序、无规则的事物(概念)中推理出决策树表示的分类规则。从一类无序、无规则的事物(概念)中推理出决策树表示的分类规则。v概念分类学习算法:来源于概念分类学习算法:来源于Hunt,Marin和和Stone 于于1966年研制的年研制的CLS学习系统,用于学习学习系统,用于学习单个概念。单个概念。1979年年,J.R.Quinlan 给出给出ID3算法,并在算法,并在1983年和年和1986年对年对ID3 进行了总结和简化,使其成为决策树学习算法的典型。进行了总结和简化,使其成为决策树学习算法的典型。Schlimmer 和和Fisher 于于1986
10、年对年对ID3进行改造,在每个可能的决进行改造,在每个可能的决策树节点创建缓冲区,使决策树可以递增式生成,得到策树节点创建缓冲区,使决策树可以递增式生成,得到ID4算法。算法。1988年,年,Utgoff 在在ID4基础上提出了基础上提出了ID5学习算法,进一步提高学习算法,进一步提高了效率。了效率。1993年,年,Quinlan 进一步发展了进一步发展了ID3算法,改进成算法,改进成C4.5算法。算法。另一类决策树算法为另一类决策树算法为CART,与,与C4.5不同的是,不同的是,CART的决策树的决策树由二元逻辑问题生成,每个树节点只有两个分枝,分别包括学习由二元逻辑问题生成,每个树节点只
11、有两个分枝,分别包括学习实例的正例与反例。实例的正例与反例。v其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处的熵值为零,此时每个叶节点中的实例都属于同一类。点处的熵值为零,此时每个叶节点中的实例都属于同一类。v决策树学习采用的是自顶向下的递归方法。决策树学习采用的是自顶向下的递归方法。v决策树的每一层节点依照某一属性值向下分为子节点,待分决策树的每一层节点依照某一属性值向下分为子节点,待分类的实例在每一节点处与该节点相关的属性值进行比较,根类的实例在每一节点处与该节点相关的属性值进行比较,根据不同的比较结果向相应的子
12、节点扩展,这一过程在到达决据不同的比较结果向相应的子节点扩展,这一过程在到达决策树的叶节点时结束,此时得到结论。策树的叶节点时结束,此时得到结论。v从根节点到叶节点的每一条路经都对应着一条合理的规则,从根节点到叶节点的每一条路经都对应着一条合理的规则,规则间各个部分(各个层的条件)的关系是合取关系。整个规则间各个部分(各个层的条件)的关系是合取关系。整个决策树就对应着一组析取的规则。决策树就对应着一组析取的规则。v决策树学习算法的最大优点是,它可以自学习。在学习的过决策树学习算法的最大优点是,它可以自学习。在学习的过程中,不需要使用者了解过多背景知识,只需要对训练例子程中,不需要使用者了解过多
13、背景知识,只需要对训练例子进行较好的标注,就能够进行学习。如果在应用中发现不符进行较好的标注,就能够进行学习。如果在应用中发现不符合规则的实例,程序会询问用户该实例的正确分类,从而生合规则的实例,程序会询问用户该实例的正确分类,从而生成新的分枝和叶子,并添加到树中。成新的分枝和叶子,并添加到树中。v树是由节点和分枝组成的层树是由节点和分枝组成的层次数据结构。节点用于存贮次数据结构。节点用于存贮信息或知识,分枝用于连接信息或知识,分枝用于连接各个节点。树是图的一个特各个节点。树是图的一个特例,图是更一般的数学结构,例,图是更一般的数学结构,如贝叶斯网络。如贝叶斯网络。v决策树是描述分类过程的一决
14、策树是描述分类过程的一种数据结构,从上端的根节种数据结构,从上端的根节点开始,各种分类原则被引点开始,各种分类原则被引用进来,并依这些分类原则用进来,并依这些分类原则将根节点的数据集划分为子将根节点的数据集划分为子集,这一划分过程直到某种集,这一划分过程直到某种约束条件满足而结束。约束条件满足而结束。根结点根结点个子大个子大可能是松鼠可能是松鼠可能是老鼠可能是老鼠可能是大象可能是大象在水里在水里会吱吱叫会吱吱叫鼻子长鼻子长脖子长脖子长个子小个子小不会吱吱叫不会吱吱叫鼻子短鼻子短脖子短脖子短可能是长颈鹿可能是长颈鹿在陆地上在陆地上可能是犀牛可能是犀牛可能是河马可能是河马v可可以以看看到到,一一个
15、个决决策策树树的的内内部部结结点点包包含含学学习习的的实实例例,每每层层分分枝枝代代表表了了实实例例的的一一个个属属性性的的可可能能取取值值,叶叶节节点点是是最最终终划划分分成成的的类类。如如果果判判定定是是二二元元的的,那那么么构构造造的的将将是是一一棵棵二二叉叉树树,在在树树中中每每回回答答一一个个 问问 题题 就就 降降 到到 树树 的的 下下 一一 层层,这这 类类 树树 一一 般般 称称 为为CART(Classification And Regression Tree)。)。v判判定定结结构构可可以以机机械械的的转转变变成成产产生生式式规规则则。可可以以通通过过对对结结构构进进行行
16、广广度度优优先先搜搜索索,并并在在每每个个节节点点生生成成“IFTHEN”规规则则来来实实现现。如如图图6-13的决策树可以转换成下规则:的决策树可以转换成下规则:IF“个子大个子大”THEN IF“脖子短脖子短”THEN IF“鼻子长鼻子长”THEN 可能是大象可能是大象形式化表示成形式化表示成 根结点根结点个个 子子大大可可能能是是松松鼠鼠可可能能是是老老鼠鼠可可能能是是大大象象在在 水水里里会会 吱吱 吱吱叫叫鼻鼻 子子长长脖脖 子子长长个子小个子小不不会会吱吱吱吱叫叫鼻鼻 子子短短脖脖 子子短短可可能能是是长长颈颈鹿鹿在在 陆陆 地地上上可可能能是是犀犀牛牛可可能能是是河河马马v构造一
17、棵决策树要解决四个问题:构造一棵决策树要解决四个问题:收集待分类的数据,这些数据的所有属性应该是完全标注的。收集待分类的数据,这些数据的所有属性应该是完全标注的。设计分类原则,即数据的哪些属性可以被用来分类,以及如何将该属性量化。设计分类原则,即数据的哪些属性可以被用来分类,以及如何将该属性量化。分类原则的选择,即在众多分类准则中,每一步选择哪一准则使最终的树更分类原则的选择,即在众多分类准则中,每一步选择哪一准则使最终的树更令人满意。令人满意。设计分类停止条件,实际应用中数据的属性很多,真正有分类意义的属性往设计分类停止条件,实际应用中数据的属性很多,真正有分类意义的属性往往是有限几个,因此
18、在必要的时候应该停止数据集分裂:往是有限几个,因此在必要的时候应该停止数据集分裂:v该节点包含的数据太少不足以分裂,该节点包含的数据太少不足以分裂,v继续分裂数据集对树生成的目标继续分裂数据集对树生成的目标(例如例如ID3中的熵下降准则中的熵下降准则)没有贡献,没有贡献,v树的深度过大不宜再分。树的深度过大不宜再分。v通用的决策树分裂目标是整棵树的熵总量最小,每一步分裂时,选择使熵减小通用的决策树分裂目标是整棵树的熵总量最小,每一步分裂时,选择使熵减小最大的准则,这种方案使最具有分类潜力的准则最先被提取出来最大的准则,这种方案使最具有分类潜力的准则最先被提取出来 预测变量目标变量记录样本类标号
19、属性类别集合:类别集合:Class=“优优”,“良良”,“差差”决策树的基本原理 根节点根节点叶子节点叶子节点分裂属性分裂属性分裂谓词分裂谓词 每一个叶子节点都被确定一个类标号每一个叶子节点都被确定一个类标号 v每一个节点都代表了一个数据集。每一个节点都代表了一个数据集。根节点根节点1代表了初始数据集代表了初始数据集D其它节点都是数据集其它节点都是数据集D的子集。的子集。v例如,节点例如,节点2代表数据集代表数据集D中年龄小于中年龄小于40岁的那部分样本组成岁的那部分样本组成的数据集。的数据集。v子节点是父节点的子集。子节点是父节点的子集。vIf(年龄年龄40)and(职业职业=“学生学生”o
20、r职业职业=“教师教师”)Then 信用等级信用等级=“优优”vIf(年龄年龄40)and(职业职业!=“学生学生”and职业职业!=“教师教师”)Then 信用等级信用等级=“良良”vIf(年龄年龄40)and(月薪月薪3000)Then 信用等级信用等级=“优优”v决策树是指具有下列三个性质的树:决策树是指具有下列三个性质的树:每个非叶子节点都被标记一个分裂属性每个非叶子节点都被标记一个分裂属性Ai;每个分支都被标记一个分裂谓词,这个分裂谓每个分支都被标记一个分裂谓词,这个分裂谓词是分裂父节点的具体依据;词是分裂父节点的具体依据;每个叶子节点都被标记一个类标号每个叶子节点都被标记一个类标号
21、CjC。v任何一个决策树算法,其核心步骤都是为任何一个决策树算法,其核心步骤都是为每一次分裂确定一个每一次分裂确定一个分裂属性分裂属性,即究竟按,即究竟按照哪一个属性来把当前数据集划分为若干照哪一个属性来把当前数据集划分为若干个子集,从而形成若干个个子集,从而形成若干个“树枝树枝”。v熵熵,是是数数据据集集中中的的不不确确定定性性、突突发发性性或或随随机机性性的的程度的度量。程度的度量。v当当一一个个数数据据集集中中的的记记录录全全部部都都属属于于同同一一类类的的时时候候,则没有不确定性,这种情况下的熵就为则没有不确定性,这种情况下的熵就为0。v决决策策树树分分裂裂的的基基本本原原则则是是,数
22、数据据集集被被分分裂裂为为若若干干个个子子集集后后,要要使使每每个个子子集集中中的的数数据据尽尽可可能能的的“纯纯”,也也就就是是说说子子集集中中的的记记录录要要尽尽可可能能属属于于同同一一个个类类别别。如如果果套套用用熵熵的的概概念念,即即要要使使分分裂裂后后各各子子集集的熵尽可能的小。的熵尽可能的小。3.2 ID3、C4.5与与C5.0v数据集数据集D被按照分裂属性被按照分裂属性“年龄年龄”分裂为两分裂为两个子集个子集D1 和和D2 信息增益信息增益:Gain(D,年龄年龄)=H(D)P(D1)H(D1)+P(D2)H(D2)v显显然然,如如果果D1和和D2中中的的数数据据越越“纯纯”,H
23、(D1)和和H(D2)就就越越小小,信信息息增益就越大,或者说熵下降得越多。增益就越大,或者说熵下降得越多。v按按照照这这个个方方法法,测测试试每每一一个个属属性性的的信信息息增增益益,选选择择增增益益值值最最大大的的属属性性作作为为分裂属性。分裂属性。信息熵计算举例信息熵计算举例v令令C1对应对应“是是”,C2对应对应“否否”。那么。那么C1有有9个样个样本,本,C2有有5个样本,所以数据集个样本,所以数据集D的熵为:的熵为:决策树归纳策略(1)v输入输入数据划分数据划分D是训练元组和对应类标号的集合是训练元组和对应类标号的集合attribute_list,候选属性的集合候选属性的集合Att
24、ribute_selection_method,指定选择属性的启发性过程,指定选择属性的启发性过程算法步骤算法步骤1.树以代表训练样本的单个节点(树以代表训练样本的单个节点(N)开始)开始2.如果样本都在同一个类,则该节点成为树叶,并用该类标记如果样本都在同一个类,则该节点成为树叶,并用该类标记3.否则,算法调用否则,算法调用Attribute_selection_method,选择能够最,选择能够最好的将样本分类的属性;确定好的将样本分类的属性;确定“分裂准则分裂准则”,指出,指出“分裂点分裂点”或或“分裂子集分裂子集”。决策树归纳策略(2)4.对测试属性每个已知的值,创建一个分支,对测试属
25、性每个已知的值,创建一个分支,并以此划分元组并以此划分元组5.算法使用同样的过程,递归的形成每个划分算法使用同样的过程,递归的形成每个划分上的元组决策树。一旦一个属性出现在一个上的元组决策树。一旦一个属性出现在一个节点上,就不在该节点的任何子节点上出现节点上,就不在该节点的任何子节点上出现6.递归划分步骤停止的条件递归划分步骤停止的条件划分划分D(在(在N节点提供)的所有元组属于同一类节点提供)的所有元组属于同一类没有剩余属性可以用来进一步划分元组没有剩余属性可以用来进一步划分元组使用多数表决使用多数表决没有剩余的样本没有剩余的样本给定分支没有元组,则以给定分支没有元组,则以D中多数类创建一个
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分类 决策树 bccm

限制150内