决策树课题ppt课件.ppt
《决策树课题ppt课件.ppt》由会员分享,可在线阅读,更多相关《决策树课题ppt课件.ppt(49页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、决策树决策树 决策树算法是一种归纳分类算法,它通过对训练集的学习,挖掘出有用的规则,用于对新集进行预测。 有监督的学习。 非参数学习算法。对每个输入使用由该区域的训练数据计算得到的对应的局部模型。 决策树归纳的基本算法是贪心算法,自顶向下递归方式构造决策树。贪心算法:在每一步选择中都采取在当前状态下最好/优的选择。 在其生成过程中,分割方法即属性选择度量属性选择度量是关键。通过属性选择度量,选择出最好的将样本分类的属性。 简介简介决策树的结构决策树的结构 决策树算法以树状结构表示数据分类的结果。每个决策点实现一个具有离散输出的测试函数,记为分支。 根节点 非叶子节点(决策点) 叶子节点 分支决
2、策树的结构决策树的结构4根部节点(root node)非叶子节点(non-leaf node)(代表测试的条件,对数据属性的测试)分支(branches)(代表测试的结果)叶节点(leaf node)(代表分类后所获得的分类标记)2022-8-8单变量树单变量树 每个内部节点中的测试只使用一个输入维。如果使用的输入维 是离散的,取n个可能的值之一,则该节点检测 的值,并取相应的分支,实现一个n路划分。 决策点具有离散分支,而数值输入应当离散化。如果 是数值的(有序的),则测试函数是比较: 其中 是适当选择阈值。该决策节点将输入空间一份为二: 和 ,称为一个二元划分。 决策树根据所选取的属性是数
3、值型还是离散型,每次将数据划分成两个或n个子集。然后使用对应的子集递归地进行划分,直到不需要划分,此时,创建一个树叶节点标记它。jxjxjx0: )(mjmwxxf0mw0 | mjmwxxL0 | mjmwxxR决策树分类决策树分类1.训练阶段 从给定的训练数据集DB,构造出一棵决策树 class = DecisionTree( DB )2.分类阶段 从根开始,按照决策树的分类属性逐层往下划分,直到叶节点,获得概念(决策、分类)结果。 y = DecisionTree( x )Example of a Decision Tree Another Example of Decision Tre
4、e Apply Model to Test DataRefundMarStTaxIncYESNONONOYesNoMarried Single, Divorced 80KRefund Marital Status Taxable Income Cheat No Married 80K ? 10 Test DataStart from the root of tree.Apply Model to Test DataRefundMarStTaxIncYESNONONOYesNoMarried Single, Divorced 80KRefund Marital Status Taxable In
5、come Cheat No Married 80K ? 10 Test DataApply Model to Test DataRefundMarStTaxIncYESNONONOYesNoMarried Single, Divorced 80KRefund Marital Status Taxable Income Cheat No Married 80K ? 10 Test DataApply Model to Test DataRefundMarStTaxIncYESNONONOYesNoMarried Single, Divorced 80KRefund Marital Status
6、Taxable Income Cheat No Married 80K ? 10 Test DataApply Model to Test DataRefundMarStTaxIncYESNONONOYesNoMarried Single, Divorced 80KRefund Marital Status Taxable Income Cheat No Married 80K ? 10 Test DataApply Model to Test DataRefundMarStTaxIncYESNONONOYesNoMarried Single, Divorced 80KRefund Marit
7、al Status Taxable Income Cheat No Married 80K ? 10 Test DataAssign Cheat to “No”决策树原理决策树原理基本算法(贪心算法)基本算法(贪心算法)自上而下分而治之的方法开始时,所有的数据都在根节点属性都是离散值字段 (如果是连续的,将其离散化)所有记录用所选属性递归的进行分割属性的选择是基于一个启发式规则或者一个统计的度量 (如, information gain)停止分割的条件停止分割的条件一个节点上的数据都是属于同一个类别没有属性可以再用于对数据进行分割算法:算法:Generate_decision_treeGene
8、rate_decision_tree由给定的训练数据产生一棵决策树由给定的训练数据产生一棵决策树输入:训练数据集输入:训练数据集samplessamples,用离散值属性表示;候选属性的集合,用离散值属性表示;候选属性的集合attribute_listattribute_list。输出:一棵决策树输出:一棵决策树方法:方法:(1 1)创建结点)创建结点N N;(2 2)if samples if samples 都在同一个类都在同一个类C thenC then(3 3)返回)返回N N作为叶结点,用类作为叶结点,用类C C标记;标记;(4 4)if attribute_list if attr
9、ibute_list 为空为空 then then (5 5)返回)返回N N作为叶结点,标记作为叶结点,标记samplessamples中最普通的类;中最普通的类; / /多数表决多数表决(6 6)选择)选择attribute_listattribute_list中的最优分类属性中的最优分类属性test_attributetest_attribute; / /用信息增益作为属性选择度量用信息增益作为属性选择度量(7 7)标记结点)标记结点N N为为test_attributetest_attribute;(8 8)for each test_attributefor each test_at
10、tribute中的已知值中的已知值ai /ai /划分划分samplessamples(9 9)由结点)由结点N N生长出一个条件为生长出一个条件为test_attributetest_attributeaiai的分枝;的分枝;(1010)设)设sisi为为samplessamples中中test_attributetest_attributeaiai的样本集合;的样本集合;/一个划分一个划分(1111)if siif si为空为空 then then(1212)加上一个叶结点,标记为标记)加上一个叶结点,标记为标记samplessamples中最普通的类;中最普通的类; / /多数表决多数表
11、决(1313)else else 加上一个由加上一个由Generate_decision_treeGenerate_decision_tree(si, attribute_list-test_attributesi, attribute_list-test_attribute)返回的结点)返回的结点;例子:算法过程例子:算法过程TidRefundMaritalStatusTaxableIncomeCheat1YesSingle125KNo2NoMarried100KNo3NoSingle70KNo4YesMarried120KNo5NoDivorced95KYes6NoMarried60KNo
12、7YesDivorced220KNo8NoSingle85KYes9NoMarried75KNo10NoSingle90KYes10RefundYesNo1. samples = 1,2,3,4,5,6,7,8,9,10 attribute_list = Refund, MarSt, TaxInc 假设选择Refund为最优分割属性:2. samples = 1,4,7 attribute_list = MarSt, TaxInc 3. samples = 2,3,5,6,8,9,10 attribute_list = MarSt, TaxInc 例子:算法过程例子:算法过程TidRefund
13、MaritalStatusTaxableIncomeCheat1YesSingle125KNo2NoMarried100KNo3NoSingle70KNo4YesMarried120KNo5NoDivorced95KYes6NoMarried60KNo7YesDivorced220KNo8NoSingle85KYes9NoMarried75KNo10NoSingle90KYes10RefundYesNosamples中所有样本属于同一个类Cheat=No2. samples = 1,4,7 attribute_list = MarSt, TaxInc NO例子:算法过程例子:算法过程TidRe
14、fundMaritalStatusTaxableIncomeCheat1YesSingle125KNo2NoMarried100KNo3NoSingle70KNo4YesMarried120KNo5NoDivorced95KYes6NoMarried60KNo7YesDivorced220KNo8NoSingle85KYes9NoMarried75KNo10NoSingle90KYes10RefundYesNo假设选择MarSt为最优分割属性:3. samples = 2,3,5,6,8,9,10 attribute_list = MarSt, TaxInc NOMarStSingleMarr
15、iedDivorced4. samples = 3,8,10 , attribute_list = TaxInc5. samples = 5,7 , attribute_list = TaxInc6. samples = 2,9 , attribute_list = TaxInc例子:算法过程例子:算法过程TidRefundMaritalStatusTaxableIncomeCheat1YesSingle125KNo2NoMarried100KNo3NoSingle70KNo4YesMarried120KNo5NoDivorced95KYes6NoMarried60KNo7YesDivorce
16、d220KNo8NoSingle85KYes9NoMarried75KNo10NoSingle90KYes10RefundYesNo选择TaxInc为最优分割属性:4. samples = 3,8,10 attribute_list = TaxInc NOMarStSingleMarriedDivorcedTaxInc= 80KYESNO问题1:分类从哪个属性开始? 选择分裂变量的标准问题2:为什么工资以80为界限? 找到被选择的变量的分裂点的标准(连续变量情况) 分类划分的优劣用不纯性度量不纯性度量来分析。如果对于所有分支,划分后选择相同分支的所有实例都属于相同的类,则这个划分是纯的。对于节
17、点m,令 为到达节点m的训练实例数, 个实例中 个属于 类,而 。如果一个实例到节点m,则它属于 类的概率估计为: 节点m是纯的,如果对于所有i, 为0或1。当到达节点m的所有实例都不属于 类时, 为0,当到达节点m的所有实例都属于 类时, 为1。 一种度量不纯性的可能函数是熵函数(entropy)。mNimNiCmiimNNmimimiNNpmxCp),|( mNiCimpiCiCimpimp Father of information theory证明熵与信息内容的不确定程度有等价关系 系统科学领域三大论之一p C.Shannon的信息论信息熵信息熵p 熵(entropy)12121222
18、2entropy( ,)logloglognnnp pppppppp 描述物质系统状态:该状态可能出现的程度。 平均信息量 若一个系统中存在多个事件E1,E2,En 每个事件出现的概率是p1,p2,pn 则这个系统的平均信息量是 指的是系统的混乱的程度!(bits) 系统越无序、越混乱,熵就越大。 构造决策树,熵定义为无序性度量。 选择一个属性划分数据,使得子女节点上数据的类值(例中“yes”或“no”)大部分都相同(低无序性)。 如果一个节点上的数据类值在可能的类值上均匀分布,则称节点的熵(无序性)最大。 如果一个节点上的数据的类值对于所有数据都相同,则熵最小。 通过分裂,得到尽可能纯的节点
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 决策树 课题 ppt 课件
限制150内