人工智能和机器学习--PPT11-决策树.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《人工智能和机器学习--PPT11-决策树.pdf》由会员分享,可在线阅读,更多相关《人工智能和机器学习--PPT11-决策树.pdf(67页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、决策树王秋月中国人民大学信息学院K近邻:近邻: 模型就是训练数据模型就是训练数据 拟合训练数据很快拟合训练数据很快 只是存储数据只是存储数据 预测比较慢预测比较慢 需要计算大量的距离需要计算大量的距离 判定边界较灵活判定边界较灵活YX不同分类器的特点逻辑回归:逻辑回归: 模型就是参数模型就是参数 拟合训练数据可能较慢拟合训练数据可能较慢 必须找到最优参数必须找到最优参数 预测较快预测较快 计算期望值计算期望值 判定边界较简单,缺乏灵判定边界较简单,缺乏灵活性活性X0.01.0Probability0.51 =1+(0+ 1 + )不同分类器的特点DayOutlookTemperatureHum
2、idityWindPlayTennisD1SunnyHotHighWeakNoD2SunnyHotHighStrongNoD3OvercastHotHighWeakYesD4RainMildHighWeakYesD5RainCoolNormalWeakYesD6RainCoolNormalStrongNoD7OvercastCoolNormalStrongYesD8SunnyMildHighWeakNoD9SunnyCoolNormalWeakYesD10RainMildNormalWeakYesD11SunnyMildNormalStrongYesD12OvercastMildHighStr
3、ongYesD13OvercastHotNormalWeakYesD14RainMildHighStrongNo决策树介绍 想要根据想要根据temperature, humidity, wind,outlook来预测是否打网球来预测是否打网球决策树介绍 想要根据想要根据temperature, humidity, wind,outlook来预测是否打网球来预测是否打网球 使用特征来划分数据,进使用特征来划分数据,进而预测结果而预测结果决策树介绍PlayTennisNoTennisTemperature:= Mild 想要根据想要根据temperature, humidity, wind,out
4、look来预测是否打网球来预测是否打网球 使用特征来划分数据,进使用特征来划分数据,进而预测结果而预测结果决策树介绍PlayTennisNoTennisTemperature:= MildNodesLeaves 想要根据想要根据temperature, humidity, wind,outlook来预测是否打网球来预测是否打网球 使用特征来划分数据,进使用特征来划分数据,进而预测结果而预测结果决策树介绍PlayTennisNo TennisNoTennisTemperature:= MildHumidity:= NormalNodesLeaves 想要根据想要根据temperature, hu
5、midity, wind,outlook来预测是否打网球来预测是否打网球 使用特征来划分数据,进使用特征来划分数据,进而预测结果而预测结果 预测类别结果的预测类别结果的决策树决策树决策树介绍PlayTennisNo TennisNoTennisTemperature:= MildHumidity:= Normal预测连续值的回归树 例如:使用喜马拉雅山脉例如:使用喜马拉雅山脉的坡度和高度的坡度和高度 预测平均降水量(连续值)预测平均降水量(连续值)48.50 in.13.67 in.55.42 in.Elevation: 7900ft.Slope: 2.5预测连续值的回归树 例如:使用喜马拉雅
6、山脉例如:使用喜马拉雅山脉的坡度和高度的坡度和高度 预测平均降水量(连续值)预测平均降水量(连续值)48.50 in.13.67 in.55.42 in.Elevation: 7900ft.Slope:= MildNo TennisPlay TennisLeaves创建最优决策树 使用贪婪搜索:每一步使用贪婪搜索:每一步寻找最优划分寻找最优划分 什么是最优划分?什么是最优划分?Temperature:= MildNo TennisPlay TennisLeaves创建最优决策树 使用贪婪搜索:每一步使用贪婪搜索:每一步寻找最优划分寻找最优划分 什么是最优划分?什么是最优划分? 最大化不纯度减小
7、量的最大化不纯度减小量的划分划分Temperature:= MildNo TennisPlay TennisLeaves创建最优决策树 使用贪婪搜索:每一步使用贪婪搜索:每一步寻找最优划分寻找最优划分 什么是最优划分?什么是最优划分? 最大化不纯度减小量的最大化不纯度减小量的划分划分 如何度量不纯度?如何度量不纯度?Temperature:= MildNo TennisPlay TennisLeaves创建最优决策树分类错误公式:分类错误公式:2Yes2 No6Yes2 NoPlayTennis8Yes4 NoNo TennisTemperature:= Mild基于分类错误的划分分类错误公式
8、:分类错误公式:基于分类错误的划分划分前的分类错误:划分前的分类错误:1 8/12 = 0.33332Yes2 No6Yes2 NoPlayTennis8Yes4 NoNo TennisTemperature:= Mild分类错误公式:分类错误公式:基于分类错误的划分划分后左边的分类错误:划分后左边的分类错误:1 2/4= 0.50002Yes2 No6Yes2 NoPlayTennis8Yes4 NoNo TennisTemperature:= Mild0.3333分类错误公式:分类错误公式:基于分类错误的划分划分后右边的分类错误:划分后右边的分类错误:1 6/8= 0.25002Yes2
9、No6Yes2 NoPlayTennis8Yes4 NoTemperature:= Mild0.3333No Tennis0.5000分类错误公式:分类错误公式:基于分类错误的划分分类错误的变化:分类错误的变化:0.3333 4/12 0.5000 8/120.25002Yes2 NoNo Tennis0.5000PlayTennis0.25006Yes2 No8Yes4 NoTemperature:= Mild0.3333分类错误公式:分类错误公式:基于分类错误的划分分类错误的变化:分类错误的变化:0.3333 4/12 0.5000 8/120.2500= 02Yes2 NoNo Tenn
10、is0.5000PlayTennis0.25006Yes2 No8Yes4 NoTemperature:= Mild0.3333 使用分类错误,分裂停止使用分类错误,分裂停止 问题:叶子节点仍然不是问题:叶子节点仍然不是同质的同质的 尝试另外一个性能指标?尝试另外一个性能指标?2Yes2 No6Yes2 NoPlayTennis8Yes4 NoNo TennisTemperature:= Mild基于分类错误的划分2Yes2 No6Yes2 NoPlayTennis8Yes4 NoNo TennisTemperature:= Mild基于熵的划分熵的公式:熵的公式:熵的公式熵的公式:基于熵的划
11、分2Yes2 No6Yes2 NoPlayTennisNo TennisTemperature:= Mild8Yes4 No划分前的熵:划分前的熵:8/12*2(8/12)4/12*2(4/12)= 0.9183基于熵的划分划分后左边的熵:划分后左边的熵:2/4*2(2/4)2/4*2(2/4)= 1.00002Yes2 No6Yes2 NoPlayTennisNo TennisTemperature:= Mild8Yes4 No0.9183熵的公式熵的公式:基于熵的划分划分后右边的熵:划分后右边的熵:6/8*2(6/8)2/8*2(2/8)= 0.81132Yes2 No6Yes2 NoPl
12、ayTennisTemperature:= Mild8Yes4 No0.9183No Tennis1.0000熵的公式熵的公式:基于熵的划分熵的变化:熵的变化:0.9183 4/121.0000 8/120.8113= 0.04412Yes2 No6Yes2 NoTemperature:= Mild8Yes4 No0.9183No Tennis1.0000PlayTennis0.8113熵的公式熵的公式 基于熵的划分允许继续基于熵的划分允许继续分裂下去分裂下去 最终达到叶子节点同质最终达到叶子节点同质的目标的目标 为什么熵可以达到这一为什么熵可以达到这一目标,而分类错误不行?目标,而分类错误不
13、行?2Yes2 No6Yes2 NoPlayTennisNo TennisTemperature:= Mild8Yes4 No基于熵的划分 分类错误是一个平坦函数,分类错误是一个平坦函数,在中心点达到最大值在中心点达到最大值分类错误 vs 熵0.00.5Purity1.0Classification ErrorError 分类错误是一个平坦函数,分类错误是一个平坦函数,在中心点达到最大值在中心点达到最大值 中心点表示的是中心点表示的是50/50的的歧义划分歧义划分分类错误 vs 熵0.00.5Purity1.0Classification ErrorError 分类错误是一个平坦函数,分类错误
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 机器 学习 PPT11 决策树
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内