(本科)第11章-决策树.pdf
《(本科)第11章-决策树.pdf》由会员分享,可在线阅读,更多相关《(本科)第11章-决策树.pdf(44页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、(c) 2020,陈强,机器学习及 R 应用,高等教育出版社 1 第第 11 章章 决策树决策树 KNN 算法是一种简便的非参数方法,但对于噪音变量并不稳健。根本原因在于,KNN 在寻找邻居时,并未考虑响应变量y的信息。 “决策树”(decision tree)本质上也是一种近邻方法,可视为“自适应近邻法”(adaptive nearest neighbor)。 由于决策树在进行节点分裂时考虑了y的信息,故更有“智慧” ,不受噪音变量的影响,且适用于高维数据。 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 2 决策树的思想与雏形形成于 1960 年代,而成熟于 1980 年代。
2、在统计学领 域 , 以 Breiman, Friedman, Stone and Olshen(1984) 的 经 典 著 作Classification and Regression Trees 为代表,简称 CART 算法。 在计算机领域, 则以 Quinlan (1979, 1986)为代表, 提出 ID3 算法(Iterative Dichotomiser 3),后演变为 C4.5 与 C5.0 算法 (C 表示 Classifier)。这两种算法比较类似,效果接近。本书主要介绍 CART 算法,但也提及 C5.0 算法。 如果将决策树用于分类问题,则称为“分类树”(classific
3、ation tree)。如果将决策树用于回归问题,则称为“回归树”(regression tree)。 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 3 11.1 分类树的启发案例分类树的启发案例 Breiman et al. (1984)研究了 UCSD 医学中心的一个案例。 当心梗病人进入 UCSD 医学中心后 24 小时内, 测量 19 个变量, 包括血压、年龄以及 17 个排序或虚拟变量。数据集中包含 215 个病人,其中 37人为高危病人。 研究目的是为了快速预测哪些心梗病人为“高危病人”(High risk,记为H,无法活过 30 天),而哪些是“低危病人” (Lo
4、w risk,记为 L,可活过30 天),从而更好地配置医疗资源。 Breiman et al. (1984)建立了如下分类树,参见图 11.1。 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 4 图 11.1 UCSD 医学中心判断高危病人的分类树 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 5 在图 11.1 中,首先从顶部的根节点(root node)出发,考察病人“收缩压是否低于或等于 91” 。 如果答案为 “是” , 则向左, 到达终节点(terminal node)或叶节点(leaf node),归类为 H(高危);反之,则向右,到下一个内节点(
5、internal node)。 此时, 需回答的问题为 “年龄是否小于或等于 62.5 岁” 。 如何答案为 “是” ,则向左,到达终节点,归类为 L(低危);反之,则继续向右,到再下一个内节点。 此时,需回答的问题为“是否窦性心动过速” 。如何答案为“是” ,则向左,到达终节点,归类为 H(高危);反之,则继续向右,到达终节点,归类为 L(低危)。 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 6 在图 11.1 中,终节点(叶节点)为方形表示,为决策树的最底端,不再分裂。 在分裂之前,所有样本点都在最顶端的根节点,而根节点与终节点之间的节点均称为“内节点” 。 建立分类树模
6、型之后,要进行预测十分简单。只要将观测值从决策树放下(drop an observation down the tree), 回答一系列的是或否问题(是则向左,否即向右),看它落入哪片叶节点。 然后使用“多数票规则”(majority vote rule)进行预测,即看落入该叶节点的训练数据最多为哪类。 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 7 Breiman et al. (1984)发现,由于决策树不对函数形式作任何假设,故比较稳健,其预测效果可能优于参数方法(比如判别分析、逻辑回归)。 只要决策树不过于枝繁叶茂(a bushy tree), 则其可解释性(inte
7、rpretability)很强,甚至不用数学方程! 在以上案例中,虽然数据集共有 19 个特征变量,但所估计的分类树只用到 3 个变量。 通过图 11.1 的决策树模型, 可清晰地知道高危与低危病人的类型。 比如,模型所识别的高危病人可分为两种类型,即收缩压低于或等于 91 者(血压过低);或收缩压虽高于 91,但年龄大于 62.5 岁,且窦性心动过速者。 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 8 11.2 二叉树的数学本质二叉树的数学本质 CART算法所用的决策树为二叉树(binary tree), 即每次总是将 “母节点”(parent node)一分为二,分裂(s
8、plit)为两个“子节点”(child node),直至到达终节点。 二叉树将“特征空间”(feature space,也称 predictor space)进行“递归分割”(recursive partitioning),每次总是沿着与某个特征变量jx轴平行的方向进行切割(axis-parallel splits),切成“矩形”(rectangle)或“超矩形”(hyper-rectangle)区域,即所谓“箱体”(boxes)。 分类树是通过分割特征空间进行分类的分类器(classifier as partition)。 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 9 假
9、设只有两个特征变量12( ,)x x, 则递归分裂的一种可能结果如图11.2。 首先根据是否11xt进行分裂。 然后,根据是否22xt进行分割,得到终节点1R与2R。 接着,根据是否13xt进行分裂,得到终节点3R。 最后,根据是否24xt进行分割,得到终节点4R与5R。相应的决策树参见图 11.3。 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 10 图 11.2 决策树对特征空间的递归分割 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 11 图 11.3 两个特征变量的决策树 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 12 对于三维以上的
10、特征空间, 无法使用类似于图 11.2 的方法来展示递归分割;但依然可用图 11.3 的树状结构来表示(这两种表示法等价),因为决策树每次仅使用一个变量进行分裂(splitting)。 决策树模型将特征空间分割为若干(超)矩形的终节点。 在进行预测时,每个终节点只有一个共同的预测值。 对于分类问题,此预测值为该终节点所有训练样本的最常见类别(most commonly occurring class)。 对于回归问题,此预测值为该终节点所有训练样本的平均值。 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 13 在数学上,决策树为“分段常值函数”(piecewise consta
11、nt function),参见图 11.4。 这意味着,以决策树估计的函数( )f x竟然不是连续函数! 但这并不妨碍决策树成为一种灵活而有用的算法,特别是作为“基学习器”(base learner)广泛用于随机森林与提升法(参见第 12-13 章)。 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 14 图 11.4 作为分段常值函数的决策树 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 15 在理论上,可以考虑任意形状的分区。比如,KNN 算法所定义的近邻区域一般是不规则的。 但决策树限制划分区域为超矩形,不仅可来计算上的方便,而且也便于解释(每次分叉在形式上
12、都是某变量jxt)。 在划分超矩形区域时,为何不一步到位,同时估计这些超矩形区域? 因为这些超矩形的维度太高,同时估计在计算上不可行。决策树采取了一种“自上而下”(top-down),每次仅分裂一个变量的方法。这是一种“贪心算法”(greedy algorithm),每次仅选择一个最优的分裂变量,而未通盘考虑全局的最优分区。 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 16 11.3 分类树的分裂准则分类树的分裂准则 对于 CART 算法的二叉树,在每个节点进行分裂时,需要确定选择什么“分裂变量”(split variable)进行分裂,以及在该变量的什么临界值(cut)进行
13、分裂。 对于分类树,我们希望在节点分裂之后,其两个子节点内部的“纯度”(purity)最高。 分裂之后,数据的“不纯度”(impurity)应下降最多。 假设响应变量y共分K类,取值为1,yK。 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 17 在节点t(node t),记y不同取值的相应概率(频率)为1,Kpp,其中0kp ,且11Kkkp。 作为分裂准则(splitting criterion),希望定义一个节点不纯度函数(node impurity function)1(,)0Kpp。 该函数应具备以下性质: (1) 当11KppK时,不纯度最高,即1(,)Kpp达到最
14、大值。 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 18 (2) 当且仅当12(,)(1,0,0)Kp pp,(0,1,0),或(0,0,1)时,不纯度为 0,即1(,)Kpp达到最小值 0。 (3) 1(,)Kpp关于自变量1(,)Kpp是对称的。 满足这些性质的函数并不唯一。一个自然的选择是使用错分率(misclassification rate)作为不纯度函数: 11Err(,)1max,KKpppp (11.1) 其中,1max,Kpp为最多类别的发生频率,而11max,Kpp则为以最多类别预测时的错分率。 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社
15、 19 对于二分类问题,错分率简化为 11121111 00.5 Err(,)1max,11 10.5pifpp pppp ifp (11.2) 将错分率视为1p的函数,则错分率在10.5p 处达到最大值 0.5,然后以10.5p 为中心,向两边线性递减,呈三角形状,参见图 11.5。 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 20 图 11.5 错分率函数 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 21 由图 11.5 可知,错分率为“分段线性函数”(piecewise linear function),对于“不纯度”的度量并不敏感,故实际效果不太好。
16、 实践中常用的两个不纯度函数分别为基尼指数(Gini index)与“信息熵”(information entropy)。 基尼指数度量的是,从概率分布1(,)Kpp中随机抽取两个观测值,则这两个观测值的类别不一致的概率为 22111111Gini(,)(1)1KKKKKkkkkkkkkkppppppp (11.3) (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 22 其中,21Kkkp可视为随机抽取的两个观测值之类别一致的概率。 对于二分类问题,基尼指数可写为 22121111Gini(,)1(1)2(1)p ppppp (11.4) 其中,11(1)pp可视为两点分布(Be
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 本科 11 决策树
限制150内