决策树模型(共11页).docx





《决策树模型(共11页).docx》由会员分享,可在线阅读,更多相关《决策树模型(共11页).docx(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上决策树(分类与回归方法)1. 决策树模型(1) 定义:分类决策树是一种描述对实例进行分类的树形结构(2) 组成:节点 内部节点:表示一个特征或者属性 叶节点:表示一个类有向边(3) 分类过程 从根节点开始,对实例的某一特征进行测试(特征选取) 根据测试结果,讲实例分配到其子节点(每一个子节点对应着该特征的一个取值) 递归的对实例进行测试并分配,直到叶节点 将实例分配到叶节点的类中(决策树生成) 为避免过拟合进行剪枝处理(决策树剪枝)(4) 决策树学习:学习的本质:从训练数据集中归纳出一组分类规则,在学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型.决策树的
2、构建: 构建根节点,将所有训练集都放在根节点,选择一个最优特征 按照这一特征将训练数据集分割为子集 如果这些子集能够被正确分类,构建叶节点 如果还有子集不能被正确分类 对这些子集选择新的最优特征,继续对其进行分割,构建新的节点2. 特征选择特征选择在于选取对训练数据具有分类能力的特征,准则通常是信息增益或则信息增益比.u 熵(entropy)表示随机变量不确定性的度量熵越大随机变量的不确定性就越大条件熵:H(Y/X)表示在已知随机变量X的条件下随机变量Y得不确定性.u 信息增益表示得知特征X的信息从而得到类Y的信息的不确定性减少的程度,特征A对于训练数据集D的信息增益为g(D,A)=H(D)-
3、H(D/A)选择方法:对训练数据集(子集)D,计算每个特征的信息增益,比较大小,选择信息增益最大的特征参数:具体算法:输入:训练数据集D与特征A具体计算例子:P62注:信息增益值的大小是相对于训练数据集而言的,并没有绝对意义u 信息增益比:3. 决策树的生成只考虑局部最优u ID3算法核心:在决策树的各个节点上应用信息增益准则选择特征,递归的构建决策树具体方法:从根节点开始,对节点计算所有可能的特征的信息增益,选择信息增益最大的特征作为节点的特征,由该特征的不同取值建立子节点 再对子节点递归的应用上述方法,构建决策树 直到所有特征的信息增益很小或者没有特征可以选择为止算法:u C4.5(用信息
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 决策树 模型 11

限制150内