2022年决策树的基本算法[归 .pdf
《2022年决策树的基本算法[归 .pdf》由会员分享,可在线阅读,更多相关《2022年决策树的基本算法[归 .pdf(3页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、3 决策树的基本算法-ID3算法3.1 ID3算法的提出决策树方法的起源是概念学习系统(Concept Learning System, CLS),然后发展到 ID3 方法而成为高峰。 Quinlan 提出的 ID31,3,4算法通过对一个例子集进行学习生成一棵决策树 , 现假设一个例子仅属于两种分类之一: 正例, 即符合被学习的目标概念的例子 ; 反例, 即不符合目标概念的例子。另外, 假设例子的所有属性都是离散属性。3.2 ID3算法描述在决策树归纳方法中 , 通常使用信息增益方法来帮助确定生成每个结点时所应选择的合适属性 , 这样就可以选择具有最高信息增益( 熵减少的程度最大 ) 的属性
2、作为当前结点的测试属性, 以便使对以后所划分获得的训练样本子集进行分类所需要信息最小 , 也就是说 , 利用该属性进行当前 ( 结点所含 )样本集合划分 , 将会使得所产生的各样本子集中的 “不同类别混合程度” 降为最低。 因此采用这样一种信息论方法将帮助有效减少对象分类所需要的划分次数。设 S为一个包含 s 个数据样本的集合 , 类别属性可以取 m个不同的值 , 对应于m个不同的类别 Ci, i 1,2,3,m。假设 si为类别 Ci中的样本个数 , 那么要对一个给定数据对象进行分类所需要的信息量为 I(s1,s2, ,sm)= - pilog(pi) (1)其中 pi= 即为 S中属于类别
3、 Ci的概率。设一个属性 A取 v 个不同的值 a1,a2, , ,av, 利用属性 A可以将集合 S划分为 v 个子集 S1,S2, ,Sv, 其中 Sj 包含了 S集合中属性 A取 aj 值的数据样本 ,若属性 A被选为测试属性 (用于对当前样本集进行划分), 设 Sij为子集 Sj中属于Ci类别的样本集 , 利用属性 A划分当前样本集合所需要的信息熵:4 算法在教师课堂教学评估系统的应用名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 3 页 - - - - - -
4、- - - 决策树的构造主要分为两个阶段: 建树阶段和调整阶段。以一个教师课堂教学评估系统为例 , 对决策树分类的应用进行讨论。主要讨论课堂教学评估数据库中的数据挖掘和知识发现。4.1 数据转换和预处理该课堂教学评估指标体系表共分若干项, 经研究可归纳为教学态度6、 教学内容 7、教学方法 8、教学效果 9、评价 A10共五个项目 ( 见表) 。实际数据见表 4-1。表 4-1 教师课堂教学评估质量等级和区段数据A1A6A7A8A9A10192.692.691.3392.5592.6287.0586.2780.985.0587.05390.4592.7786.289.990.45498.396
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年决策树的基本算法归 2022 决策树 基本 算法
限制150内