分类预测-决策树方法33886.pptx
《分类预测-决策树方法33886.pptx》由会员分享,可在线阅读,更多相关《分类预测-决策树方法33886.pptx(46页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2023/3/30数据库新技术(数据挖掘)1/344.建立模型之决策树1.分类预测的概念2.什么是决策树什么是决策树3.决策树的核心问题决策树的核心问题决策树的生长,模型建立决策树的生长,模型建立决策树的修剪决策树的修剪4.C5.0算法及其应用实例算法及其应用实例n信息熵和信息增益信息熵和信息增益n修剪算法修剪算法2023/3/30数据库新技术(数据挖掘)2/344.1 分类预测概念n目的(通用)目的(通用)n学习模型建立的算法学习模型建立的算法n了解该算法在相应数据挖掘问题中的应用了解该算法在相应数据挖掘问题中的应用n分类预测的含义分类预测的含义n分类预测算法的类型分类预测算法的类型2023
2、/3/30数据库新技术(数据挖掘)3/344.1 分类预测概念n目的(通用)目的(通用)n分类预测的含义分类预测的含义1.通过对现有数据的学习通过对现有数据的学习建立起拟合数据的模型建立起拟合数据的模型2.利用该模型对未来新数据进行分类,具备预测能力利用该模型对未来新数据进行分类,具备预测能力n分类预测算法的类型分类预测算法的类型2023/3/30数据库新技术(数据挖掘)4/344.1 分类预测概念n目的(通用)目的(通用)n分类预测的含义分类预测的含义n分类预测算法的类型分类预测算法的类型n分析新数据在离散型输出变量上的取值分析新数据在离散型输出变量上的取值分类决策树分类决策树n分析新数据在
3、数值型(连续)输出变量上的取值分析新数据在数值型(连续)输出变量上的取值回归决策树回归决策树2023/3/30数据库新技术(数据挖掘)5/34聚类、分类和模式识别n聚类聚类n子集划分,把一个集合分割为无交集的子集;子集划分,把一个集合分割为无交集的子集;n模式分类模式分类n标识出样本归属的子集(标签)标识出样本归属的子集(标签)n模式识别模式识别n标识出样本对应的个体(样例)本身,或标识出标识出样本对应的个体(样例)本身,或标识出样本所属子集本身(如考古、物种鉴别等)样本所属子集本身(如考古、物种鉴别等)n【注注】样本,只需是个体或集合的特征表示样本,只需是个体或集合的特征表示2023/3/3
4、0数据库新技术(数据挖掘)6/34从二分类问题开始n很多问题可以归结为很多问题可以归结为1.上课、习题,以及考试都不是目的,只是为一个上课、习题,以及考试都不是目的,只是为一个结果:及格?通过?优秀结果:及格?通过?优秀2.看电影:这是好人还是坏人看电影:这是好人还是坏人3.求职:多项测试之后,决定求职:多项测试之后,决定喜欢还是不喜欢?满意还是不满意?喜欢还是不喜欢?满意还是不满意?4.研究方向:研究方向:Major in or out在上述选择过程中,涉及到多个因素,如何在上述选择过程中,涉及到多个因素,如何比较比较不同因素重要性不同因素重要性的差别的差别?2023/3/30数据库新技术(
5、数据挖掘)7/34在“虚度的日子”的判别中最关键的是哪一个因素?n睡眠时间睡眠时间:6/7/8/9/10n成功事例数目成功事例数目:1/2/3n开心指数开心指数:快乐、忧伤、愤怒、平淡、无聊n人际交往人际交往:有成效、封闭n健康指数健康指数:生病、恢复、亚健康、正常n学思比数学思比数:10:1,3:1,2:1,1:22023/3/30数据库新技术(数据挖掘)8/34基于树型结构的排序算法n树中节点的位置的确定和调整是通过对每一个节点中某个特定域的属性值排序决定,n通常,树中节点都具有该属性n二叉排序树二叉排序树n堆排序堆排序n如果树中节点没有现成的公共属性,无法据以比较节点以安排其在生成树中位
6、置,怎么办?2023/3/30数据库新技术(数据挖掘)9/342.什么是决策树n决策树来自决策论,由多个决策分支和可能的结果 (包括资源成本和风险)组成,用来创建到达目标的规划;nA Decision tree is a tree with branching nodes with a choice between two or more choices.n也可以用来表示算法。n分类预测:决策树表示n决策树学习结果:表示为决策树形式的离散值离散值(布尔)函数;nNode,test attributesnBranches,valuesnRoot Node,first attributenLeaf
7、 Nodes,discrete valuesn决策树的表示?2023/3/30数据库新技术(数据挖掘)10/34两类问题两类问题,右图右图IF(Outlook=Sunny)(Humidity=High)THEN PlayTennis=?IF(Outlook=Sunny)(Humidity=Normal)THEN PlayTennis=?两步骤求解过程:两步骤求解过程:Training examples:Day Outlook Temp.Humidity Wind Play TennisD1 Sunny Hot High Weak NoD2 Overcast Hot High Strong Ye
8、s 1.归纳推理求得一般性结论(决策树生成决策树生成学习学习)2.由决策树演绎推理得到新样例对应的结果演绎推理得到新样例对应的结果;OutlookSunnyOvercastRainHumidityYesWindHighNormalYesNoStrongWeakYesNo2.1 决策树学习决策树学习 和分类预测和分类预测2023/3/30数据库新技术(数据挖掘)11/34决策树生成算法有指导学习n样本数据中既包含输入字段、也包含输出字段n学习阶段,生成决策树模型n基于特定属性值比较,放置样本在生成树上n修剪生成树的特定算法n分类预测阶段,判断分类结果n基于逻辑,即通过对输入字段取值的布尔逻辑比较
9、实现对输出变量的(分类)值的预测2023/3/30数据库新技术(数据挖掘)12/34决策树分类算法基于逻辑n样本数据中既包含输入字段、也包含输出字段n学习阶段,生成决策树模型n分类预测阶段,判断分类结果n基于逻辑,即通过对输入字段取值的布尔逻辑比较基于逻辑,即通过对输入字段取值的布尔逻辑比较实现对输出变量的实现对输出变量的(分类分类)值的预测值的预测n每个叶子节点对应一条推理规则,作为对新的数据每个叶子节点对应一条推理规则,作为对新的数据对象进行分类预测的依据。对象进行分类预测的依据。2023/3/30数据库新技术(数据挖掘)13/343.决策树的核心问题n决策树的生成决策树的生成对训练样本进
10、行分组对训练样本进行分组n关键,确定树根节点和分支准则关键,确定树根节点和分支准则n停止生长时机停止生长时机n决策树的修剪决策树的修剪解决过度拟合问题解决过度拟合问题n预先修剪,限值决策树的充分生长,如:限制树的高度预先修剪,限值决策树的充分生长,如:限制树的高度n滞后修剪,待决策树充分生长完毕后再进行修剪滞后修剪,待决策树充分生长完毕后再进行修剪n当节点和分支数较多时,显然不合适当节点和分支数较多时,显然不合适2023/3/30数据库新技术(数据挖掘)14/343.1 决策树表示法n决策树决策树n通过把样本从根节点排列到通过把样本从根节点排列到某个叶某个叶子节点子节点来分类样本来分类样本n叶
11、子节点即为样本所属的分类n树上每个节点说明了对样本的某个树上每个节点说明了对样本的某个属性的测试属性的测试,如:湿度如:湿度n节点的每个后继分支对应于该属性节点的每个后继分支对应于该属性的一个可能值的一个可能值,Highn决策树代表样本的属性值约束的决策树代表样本的属性值约束的合取的析取式合取的析取式OutlookSunnyOvercastRainHumidityYesWindHighNormalYesNoStrongWeakYesNo2023/3/30数据库新技术(数据挖掘)15/34OutlookSunnyOvercastRainHumidityYesWindHighNormalYesNo
12、StrongWeakYesNo决策树例图的逻辑表达式n决策树代表实例属性值约束的合取的析取式。n从树根到树叶的每一条路径对应一组属性测试的合取从树根到树叶的每一条路径对应一组属性测试的合取n树本身对应这些合取的析取。树本身对应这些合取的析取。n(Outlook=Sunny Humidity=High)(Outlook=Sunny Humidity=Normal)(Outlook=Overcast)(Outlook=Rain Wind=Weak)(Outlook=Rain Wind=Strong)注意注意:右面的决策树中没有Temperature(温度)属性;而Outlook的属性值有三个。20
13、23/3/30数据库新技术(数据挖掘)16/343.2 决策树学习的适用问题n适用问题的特征适用问题的特征n实例由实例由“属性属性-值值”对表示对表示(传统的数据库记录属性数据库记录属性)n目标函数具有离散的输出值n可能需要析取的描述可能需要析取的描述n训练数据可以包含错误/训练数据可以包含缺少属性值的实例训练数据可以包含缺少属性值的实例n问题举例问题举例n分类问题分类问题n核心任务是把新核心任务是把新(旧旧)样例分派到各可能的离散值对应的类别样例分派到各可能的离散值对应的类别2023/3/30数据库新技术(数据挖掘)17/343.2 决策树方法的适用问题n适用问题的特征适用问题的特征n问题举
14、例问题举例n根据疾病分类患者根据疾病分类患者/根据起因分类设备故障根据起因分类设备故障n根据拖欠支付的可能性根据拖欠支付的可能性分类贷款申请分类贷款申请(是否拒绝是否拒绝)n根据人员分类情形更新数据库记录数据根据人员分类情形更新数据库记录数据创新点?大型稀疏库创新点?大型稀疏库n分类问题分类问题n核心任务是把新核心任务是把新(旧旧)样例分派到各可能的离散值对应的类别样例分派到各可能的离散值对应的类别2023/3/30数据库新技术(数据挖掘)18/344.C5.0算法n大多数决策树学习算法是一种核心算法的变体n采用自顶向下的贪婪搜索采用自顶向下的贪婪搜索 遍历遍历 可能的决策树空间可能的决策树空
15、间nID3 Iterative Dichotomiser 3是这种算法的代表是这种算法的代表,ID3C4.5C5.0n如何安排节点在树中的顺序n树(堆)结构排序,需要树中节点具有相同属性,比较其属性值大小;而后移动节点n如何定义这个可以在决策树中进行比较的属性?换言之,该属性测度如何计算以便于比较?2023/3/30数据库新技术(数据挖掘)19/344.1 ID3算法n算法思想:如何安排节点在树中的顺序如何安排节点在树中的顺序n自顶向下构造决策树n从“哪一个属性将在树的根节点被测试哪一个属性将在树的根节点被测试”开始?使用统计测试统计测试来确定每一个实例属性单独单独分类 训练样例的能力nID3
16、的算法执行过程对样例集合对样例集合S 分类能力分类能力最好的属性属性被选作树的根节点根节点的每个可能值产生一个分支训练样例排列到适当的分支训练样例排列到适当的分支n重复上面的过程,直到训练样例被安排到适当的叶子上确定对应的分类2023/3/30数据库新技术(数据挖掘)20/344.1.1 最佳分类属性n信息增益信息增益n用来衡量给定的属性区分训练样例的能力,用来衡量给定的属性区分训练样例的能力,中间(间接)中间(间接)中间(间接)中间(间接)表示属性表示属性表示属性表示属性nID3算法在生成算法在生成 树树 的每一步使用的每一步使用信息增益信息增益从候选属性中从候选属性中选择属性选择属性n用熵
17、度量样例的均一性用熵度量样例的均一性 2023/3/30数据库新技术(数据挖掘)21/344.1.1 最佳分类属性n信息增益信息增益n用熵度量样例的均一性用熵度量样例的均一性n熵刻画了任意样例集合熵刻画了任意样例集合 S 的纯度的纯度n给定包含关于某个目标概念的正反样例的样例集给定包含关于某个目标概念的正反样例的样例集S,那么,那么 S 相对这个布尔型分类(函数)的熵为相对这个布尔型分类(函数)的熵为 n信息论中对熵的一种解释:信息论中对熵的一种解释:熵熵确定了确定了要编码集合要编码集合S中任意中任意成员的分类所需要的最少二进制位数;熵值越大,需要的成员的分类所需要的最少二进制位数;熵值越大,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分类 预测 决策树 方法 33886
限制150内