2022年机器学习算法总结-决策树 .docx
《2022年机器学习算法总结-决策树 .docx》由会员分享,可在线阅读,更多相关《2022年机器学习算法总结-决策树 .docx(33页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选学习资料 - - - - - - - - - 第三章 决策树决策树 Decision Tree是在已知各种情形发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评判项目风险, 判定其可行性的决策分析方法, 是直观运用概率分析的一种图解法;由于这种决策分支画成图形很像一棵树的枝干,故称决策树;在机器学习中,决策树是一个猜测模型,他代表的是对象属性与对象值之间的一种映射关系;Entropy = 系统的凌乱程度,使用算法 ID3, C4.5 和 C5.0 生成树算法使用熵;这一度量是基于信息学理论中熵的概念;2.1 决策树模型与学习2.1.1 决策树模型定义 2.1 决策树分
2、类决策树模型是一种描述对实例进行分类的树形结构;决策树由结点 node和有向边 directed edge组成; 决策点, 是对几种可能方案的挑选, 即最终挑选的最正确方案; 假如断策属于多级决策, 就决策树的中间可以有多个决策点,为最终决策方案为最终决策方案; 状态节点,代表备选方案的经济成效期望值以决策树根部的决策点,通过各状态节点的经济成效的比照, 依据肯定的决策标准就可以选出最正确方案;由状态节点引出 的分支称为概率枝, 概率枝的数目表示可能显现的自然状态数目每个分枝上要注 明该状态显现的概率; 结果节点, 将每个方案在各种自然状态下取得的损益值标注于结果节点的右端;名师归纳总结 -
3、- - - - - -第 1 页,共 20 页精选学习资料 - - - - - - - - - 2.1.2 决策树学习决策树是以实例为基础的归纳学习算法;它从一组无次序、 无规章的元组中推理出决策树表示形式的分类规章;它采 用自顶向下的递归方式, 在决策树的内部结点进行属性值的比较,并依据不同的 属性值从该结点向下分支, 叶结点是要学习划分的类; 从根到叶结点的一条路径 就对应着一条合取规章,整个决策树就对应着一组析取表达式规章;1986 年 Quinlan 提出了闻名的 ID3 算法;在 ID3 算法的基础上, 1993 年 Quinlan 又提出 了 C4.5 算法;为了适应处理大规模数据
4、集的需要,后来又提出了假设干改良的算 法 , 其 中SLIQsuper-vised learning in quest 和 SPRINT scalable parallelizableinduction of decision trees 2.1.3 决策树分析法 决策树分析法是常用的风险分析决策方法;是比较有代表性的两个算法;该方法是一种用树形图来描述各方案在将来收益的运算; 比较以及挑选的方法, 其决策是以期望值为标准的;它利用了概率论的原理,并且利用一种树形图作为分析工具;它利用了概率论的原理, 并且利用一种树形图作为分析工具;其基本原理是用决策点代表决策问题, 用方案分枝代表可供挑选的
5、方案,用概率分枝代表方案可能显现的各种结果, 经过对各种方案在各种结果条件下损益值的运算比较,为决策者供应决策依据;名师归纳总结 - - - - - - -第 2 页,共 20 页精选学习资料 - - - - - - - - - 决策树分析法是常用的风险分析决策方法;该方法是一种用树形图来描述各方案在将来收益的运算; 比较以及挑选的方法, 其决策是以期望值为标准的;人们对将来可能会遇到好几种不同的情形;每种情形均有显现的可能, 人们目前无法确知,但是可以依据以前的资料来推断各种自然状态显现的概率;在这样的条 件下,人们运算的各种方案在将来的经济成效只能是考虑到各种自然状态显现的 概率的期望值,
6、与将来的实际收益不会完全相等;假如一个决策树只在树的根部有一决策点,就称为单级决策; 假设一个决策不仅在树的根部有决策点,而且在树的中间也有决策点,就称为多级决策;科学的决策是现代治理者的一项重要职责;我们在企业治理实践中, 常遇到的情形是:假设干个可行性方案制订出来了,分析一下企业内、外部环境,大部 分条件是己知的, 但仍存在肯定的不确定因素; 每个方案的执行都可能显现几种结果,各种结果的显现有肯定的概率,企业决策存在着肯定的胜算,也存在着一定的风险;这时,决策的标准只能是期望值;即,各种状态下的加权平均值;针对上述问题,用决策树法来解决不失为一种好的挑选;决策树法作为一种决策技术, 已被广
7、泛地应用于企业的投资决策之中,它是 随机决策模型中最常见、 最普及的一种规策模式和方法此方法,有效地掌握了决 策带来的风险;所谓决策树法,就是运用树状图表示各决策的期望值, 通过运算,不 最终优选出效益最大、 成本最小的决策方法; 决策树法属于风险型决策方法,同于确定型决策方法, 二者适用的条件也不同; 应用决策树决策方法必需具备以 下条件:1 有决策者期望到达的明确目标;2 存在决策者可以挑选的两个以上的可行备选方案;3 存在着决策者无法掌握的两种以上的自然状态 济进展动向等 ; 如气候变化、市场行情、经4 不同行动方案在不同自然状态下的收益值或缺失值 简称损益值 可以运算出来;5 决策者能
8、估量出不同的自然状态发生概率;名师归纳总结 - - - - - - -第 3 页,共 20 页精选学习资料 - - - - - - - - - 2.2 特点挑选2.2.1 特点挑选问题1、为什么要做特点挑选 在有限的样本数目下, 用大量的特点来设计分类器运算开销太大而且分类性能 差;2、特点挑选的确切含义 将高维空间的样本通过映射或者是变换的方式转换到低维空间,到达降维的目 的,然后通过特点选取删选掉冗余和不相关的特点来进一步降维;3、特点选取的原就 猎取尽可能小的特点子集, 不显著降低分类精度、 不影响类分布以及特点子集 应具有稳固适应性强等特点 4、特点挑选需要考虑的问题 a、确定挑选算法
9、,在答应的时间内以最小的代价找出最小的、最能描述类别 的特点组合, b、确定评判标准,衡量特点组合是否是最优,得到特点猎取操作 的停止条件;5、特点猎取方法a、依据特点子集的形成方式可以分为三种,穷举法exhaustion 、启示法heuristic和随机法random;穷举法需要遍历特点空间中全部的特点组合,所以方法复杂度最大,有用性不强;启示法通过采纳期望的人工机器调度规章,重复迭代产生递增的特点子集, 复杂度略低于穷举法, 但是只能猎取近似最优解;立刻方法分为完全随机方法和概率随机方法两种,对参数设置的依靠性较强;b、依据特点评判标准来分,依据评判函数与分类器的关怀,可以分为挑选器和封装
10、器两种, 挑选器的评判函数与分类器无关,封装器采纳分类器的错误概率作为评判函数; 挑选器的评判函数可以细分为距离测度、信息测度、 相关性测度和一样性测度; 距离测度用距离来衡量样本之间的相像度,不确定性特点来分类;6、特点猎取方法的选取原就 a、处理的数据类型信息测度用利用最小名师归纳总结 - - - - - - -第 4 页,共 20 页精选学习资料 - - - - - - - - - b、处理的问题规模 c、问题需要分类的数量 d、对噪声的容忍才能 e、无噪声环境下,产生稳固性好、最优特点子集的才能;特点挑选的一般过程可用图1 表示;第一从特点全集中产生出一个特点子集,然后用评判函数对该特
11、点子集进行评判,评判的结果与停止准就进行比较,假设评判结果比停止准就好就停止, 否就就连续产生下一组特点子集,连续进行特点挑选;选出来的特点子集一般仍要验证其有效性;综上所述,特点挑选过程一般包括产生过程,评判函数,停止准就,验证过程,这 4 个部分; 1 产生过程 Generation Procedure 产生过程是搜寻特征子集的过程, 负责为评判函数供应特点子集;搜寻特点子集的过程有多种,将在 2.2 小节绽开介绍; 2 评判函数 Evaluation Function 评判函数是评判一个特点子集好坏程度的一个准就;3 停止准就 Stopping Criterion 停止准就是与评判函数相
12、关的, 一般是一个阈值, 当评判函数值到达这个阈值后就可停止搜寻; 4 验证过程 Validation 的特点子集的有效性;2.2.2 信息增益Procedure 在验证数据集上验证选出来信息增益Kullback Leibler divergence 又称 information divergence ,information gain,relative entropy 或者 KLIC;在概率论和信息论中,信息增益是非对称的,用以度量两种概率分布 P和 Q的差异;信息增益描述了当使用Q进行编码时, 再使用 P 进行编码的差异; 通常P代表样本或观看值的分布, 也有可能是精确运算的理论分布; Q
13、代表一种理论,模型,描述或者对 P 的近似;尽管信息增益通常被直观地作为是一种度量或距离,但事实上信息增益并不名师归纳总结 是;就比方信息增益不是对称的, 从 P到 Q的信息增益通常不等于从Q到 P的信第 5 页,共 20 页息增益;信息增益是f 增益 f-divergences的一种特别情形;在1951 年由Solomon Kullback 和 Richard Leibler第一提出作为两个分布的直接增益- - - - - - -精选学习资料 - - - - - - - - - directed divergence;它与微积分中的增益不同,但可以从Bregman 增益Bregman div
14、ergence 推导得到;在信息增益中,重要性的衡量标准就是看特点能够为分类系统带来多少信息,带来的信息越多,该特点越重要;因此先回忆一下信息论中有关信息量就是“ 熵”的定义;说有这么一个变量 X,它可能的取值有n 多种,分别是X1,X2,X,Xn ,每一种取到的概率分别是P P 1, 2,Pn,那么 X的熵就定义为:HnPlog2P21i1意思就是一个变量可能的变化越多反而跟变量详细的取值没有任何关系,只和值的种类多少以及发生概率有关 ,它携带的信息量就越大因此我始终觉得我们的政策法规信息量特别大,由于它变化许多,基本朝令夕改,笑;对分类系统来说,类别 C是变量,它可能的取值是 C C 1,
15、 2, , Cn,而每一个类别显现的概率是 P C 1, P C 2, , P Cn ,因此 n 就是类别的总数;此时分n类系统的熵就可以表示为:H C P C i . log 2 P C i 2 2i 1信息增益是针对一个一个的特点而言的,就是看一个特点 t ,系统有它和没它的时候信息量各是多少, 两者的差值就是这个特点给系统带来的信息量,即增益;系统含有特点 t 的时候信息量很好运算, 就是刚刚的式子, 它表示的是包含全部特点时系统的信息量;问题是当系统不包含t 时,信息量如何运算?我们换个角度想问题,把系统要做的事情想象成这样: 说教室里有许多座位, 同学们每次上课进来的时候可以任凭坐,
16、因而变化是很大的许多种可能的座次情形;但是现在有一个座位,看黑板很清晰, 听老师讲也很清晰, 于是校长的小舅子的姐姐的女儿托关系真辗转啊,把这个座位定下来了,每次只能给她坐,别人不行,此时情形怎样?对于座次的可能情形来说, 我们很简洁看出以下两种情形是等价的: 1教室里没有这个座位;2教室里虽然有这个座位,但其他人不能坐由于反正它也不能参加到变化中来,它是不变的 ;名师归纳总结 - - - - - - -第 6 页,共 20 页精选学习资料 - - - - - - - - - 对应到我们的系统中,就是下面的等价: 1系统不包含特点 t ;2系统虽然包含特点 t ,但是 t 已经固定了,不能变化
17、;我们运算分类系统不包含特点t 的时候,就使用情形2来代替,就是计算当一个特点 t 不能变化时, 系统的信息量是多少; 这个信息量其实也有特地的名称,就叫做“ 条件熵”,条件嘛,自然就是指“t 已经固定“ 这个条件;,xn ,但是问题接踵而至,例如一个特点 X,它可能的取值有 n 多种 1, 2,当运算条件熵而需要把它固定的时候,要把它固定在哪一个值上呢?答案是每一种可能都要固定一下, 运算 n 个值,然后取均值才是条件熵; 而取均值也不是简 单的加一加然后除以 n,而是要用每个值显现的概率来算平均简洁懂得,就是 一个值显现的可能性比较大, 固定在它上面时算出来的信息量占的比重就要多一 些;因
18、此有这样两个条件熵的表达式:H C|Xx i23这是指特点 X 被固定为值 xi 时的条件熵,H C X24这是指特点 X 被固定时的条件熵, 留意与上式在意义上的区分; 从刚刚运算均值 的争论可以看出来,其次个式子与第一个式子的关系就是:nH C|XPH C|Xx 1P H C|Xx 2.P H C|Xxni1PH C|Xx i252.2.3 熵在信息论中, 要对符号进行编码, 一个符号的熵就是要表示这个符号所需要 的最少二进制数位数;这是一个极限;这也是信息压缩的基础;条件熵,当两个符号之间存在某种关系,或者两个随机变量不相互独立的时候,对于 A,B 两个随机大事,非独立,知道A 的情形,
19、 B的不确定性削减;举例来说,假设 S 是一个关于布尔概念的有14 个样例的集合,它包括9 个正例和 5 个反例我们采纳记号 9+ ,5- 来概括这样的数据样例 ,那么 S 相对于这个布尔样例的熵为:名师归纳总结 - - - - - - -第 7 页,共 20 页精选学习资料 - - - - - - - - - Entropy 9 ,59 /14 log 9 /14 25 /14log 5 /14 20.940留意,假如S的全部成员属于同一类,Entropy S 0,例如,假如全部的成员是正的 p 1,那么 p- 就是 0,于是 Entropy S 1*log 2 1 0log 2 0 0;
20、另外 S 的正反样例数量相等,Entropy S 1;S的正反样例数量不等,熵介于 0,1 之间,如下列图所示:/ 依据详细属性和值来运算熵double ComputeEntropyvector vector remain_state, string attribute, string value,bool ifparent vector count 2,0; unsigned int i,j; bool done_flag = false;/ 哨兵值forj = 1; j MAXLEN; j+ ifdone_flag break; if.attribute_rowj pareattribut
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年机器学习算法总结-决策树 2022 机器 学习 算法 总结 决策树
限制150内