(41)--ch2决策树模式识别.pdf

资源ID：96640844 资源大小：1.44MB 全文页数：48页
资源格式： PDF 下载积分：20金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要20金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

(41)--ch2决策树模式识别.pdf

决策树方法引言引言决策树原理决策树原理决策树决策树ID3ID3方法构建方法构建过学习与剪枝过学习与剪枝随机森林随机森林主要内容引言引言决策树学习决策树学习有监督有监督学习属性为离散值离散值应用广泛表示为if if-thenthen规则引言引言决策树的结构决策树的结构引言引言决策树分类决策树分类训练阶段训练阶段从给定的训练数据集DB，构造出一棵决策树=()分类阶段分类阶段从根开始按照决策树的分类属性逐层往下划分，直到叶节点，获得分类结果=()引言引言决策树举例决策树举例引言引言决策树举例决策树举例引言引言决策树举例决策树举例引言引言决策树举例决策树举例决策树原理决策树原理基本算法基本算法贪心算法贪心算法自上而下自上而下开始时所有数据所有数据在根节点根节点选择某属性某属性对样本进行划分决策树原理决策树原理中止条件：中止条件：一个节点上的数据属于同一个类别同一个类别没有属性没有属性可以再用于分割决策树原理决策树原理算法过程算法过程1 Samples=1,2,3,4,5,6,7,8,9,101 Samples=1,2,3,4,5,6,7,8,9,10Attribute_listAttribute_list=颜色，形状，尺寸颜色，形状，尺寸 Samples=1,4,7Samples=1,4,7决策树原理决策树原理算法过程算法过程2 Samples=2,3,5,6,8,9,102 Samples=2,3,5,6,8,9,10Attribute_listAttribute_list=形状，尺寸形状，尺寸 Samples=2,6,9Samples=2,6,9决策树原理决策树原理算法过程算法过程2 Samples=3,5,8,102 Samples=3,5,8,10Attribute_listAttribute_list=尺寸尺寸决策树原理决策树原理算法过程算法过程2 Samples=3,8,5,102 Samples=3,8,5,10Attribute_listAttribute_list=决策树原理决策树原理算法过程算法过程1,4,71,4,72,6,92,6,93,83,85,105,10本节结束本节结束决策树方法引言引言决策树原理决策树原理ID3ID3方法方法过学习与剪枝过学习与剪枝随机森林随机森林主要内容ID3ID3方法方法信息熵（信息熵（EntropyEntropy）熵熵：描述物质系统状态平均信息量平均信息量：系统中存在事件事件,每个事件出现的概率概率,=ID3ID3方法方法系统越无序无序越混乱混乱熵越大大结点的类值均匀分布均匀分布结点熵最大最大结点上的数据类值相同类值相同结点熵最小最小ID3ID3方法方法选择一个属性，使子结点数据类值相同类值相同通过分裂，得到尽可能纯尽可能纯的结点降低系统熵降低系统熵ID3ID3方法方法信息增益信息增益属性属性对于数据集数据集的信息增益信息增益(,),=()ID3ID3方法方法天气数据天气数据是否打网球是否打网球OutlookTemperatureHumidityWindyPlay?sunnyhothighfalseNosunnyhothightrueNoovercasthothighfalseYesrainmildhighfalseYesraincoolnormalfalseYesraincoolnormaltrueNoovercastcoolnormaltrueYessunnymildhighfalseNosunnycoolnormalfalseYesrainmildnormalfalseYessunnymildnormaltrueYesovercastmildhightrueYesovercasthotnormalfalseYesrainmildhightrueNoID3ID3方法方法算法步骤算法步骤（1 1）计算样本集的信息熵）计算样本集的信息熵9 9个YesYes，5 5个NoNo,=loglog=.ID3ID3方法方法ID3ID3方法方法算法步骤算法步骤（2 2）以）以outlookoutlook属性为例属性为例sunny sunny ,overcast overcast (,)rain rain (,)ID3ID3方法方法算法步骤算法步骤（3 3）计算信息增益）计算信息增益,=.,+,+,=.ID3ID3方法方法算法步骤算法步骤（4 4）依次计算每个属性的信息增益）依次计算每个属性的信息增益 =0.247 =0.029 =0.152 =0.048 ID3ID3方法方法算法步骤算法步骤（5 5）选择获得最大信息增益的属性）选择获得最大信息增益的属性 =0.247 ID3ID3方法方法算法步骤算法步骤（5 5）选择获得最大信息增益的属性）选择获得最大信息增益的属性 =0.247 ID3ID3方法方法算法步骤算法步骤（6 6）以此类推，继续划分）以此类推，继续划分当天气为晴天气为晴的时，其他属性产生增益为：=.=.=.ID3ID3方法方法算法步骤算法步骤（6 6）以此类推，继续划分）以此类推，继续划分ID3ID3方法方法算法步骤算法步骤（6 6）以此类推，继续划分）以此类推，继续划分ID3ID3方法方法算法步骤算法步骤（7 7）当所有叶结点是）当所有叶结点是纯的纯的，划分过程终止，划分过程终止理想情况可能无法达到当数据不可进一步划分终止ID3ID3方法方法OutlookTemperatureHumidityWindyPlay?sunnyhothighfalseNosunnyhothightrueNoovercasthothighfalseYesrainmildhighfalseYesraincoolnormalfalseYesraincoolnormaltrueNoovercastcoolnormaltrueYessunnymildhighfalseNosunnycoolnormalfalseYesrainmildnormalfalseYessunnymildnormaltrueYesovercastmildhightrueYesovercasthotnormalfalseYesrainmildhightrueNoovercasthighnormalfalsetruesunnyrainNoNoYesYesYesOutlookHumidityWindyID3ID3方法方法算法特点算法特点未未搜索整个空间找到第一棵可接受可接受的树优先选择复杂度小复杂度小的树算法不回溯不回溯本节结束本节结束决策树方法引言引言决策树原理决策树原理ID3ID3方法方法过学习与剪枝过学习与剪枝随机森林随机森林主要内容过学习与剪枝过学习与剪枝也叫过拟合问题（过拟合问题（OverOver-fittingfitting）训练数据少训练数据少不能覆盖真实分布影响分类模型的泛化能力泛化能力决策树节点过多节点过多、分支过深分支过深过学习与剪枝过学习与剪枝解决方法解决方法：剪枝（剪枝（PrunningPrunning）先剪枝先剪枝：控制控制决策树生长后剪枝后剪枝：允许允许决策树过拟合生长，之后进行修剪修剪过学习与剪枝过学习与剪枝先剪枝先剪枝数据划分法数据划分法阈值法阈值法信息增益的统计显著性分析信息增益的统计显著性分析过学习与剪枝过学习与剪枝后剪枝后剪枝减少分类错误修剪法减少分类错误修剪法最小代价与复杂性的折中最小代价与复杂性的折中最小描述长度准则最小描述长度准则随机森林随机森林数据具有随机性随机性决策树算法更容易受到影响过拟合过拟合利用自举（自举（BootstrapBootstrap）思想随机构建一个决策树的“森林森林”（Random ForestsRandom Forests）随机森林随机森林基本步骤：基本步骤：（1）对训练集进行自举重采样自举重采样 N N个个子训练集（2）对每个子训练集每个子训练集构建一棵决策树（mm个特征个特征）（3）对“森林”“森林”的决策结果进行投票投票随机森林随机森林本章结束本章结束

注意事项

本文（(41)--ch2决策树模式识别.pdf）为本站会员（奉***）主动上传，淘文阁 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知淘文阁 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。