机器学习入门机器学习入门 (25).pdf
《机器学习入门机器学习入门 (25).pdf》由会员分享,可在线阅读,更多相关《机器学习入门机器学习入门 (25).pdf(15页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、决策树的基本流程和划分2.1 决策树的基本流程输入:过程:函数函数TreeGenerate(D,A)1:生成结点生成结点node;2:if D中样本全属于同一类别中样本全属于同一类别C then 3:将将node标记为标记为C类叶结点类叶结点return4:end if 5:if A=0 OR D中样本在中样本在A上取值相同上取值相同then6:将将node标记为叶结点,其类别标记为标记为叶结点,其类别标记为D中样本数最多的类中样本数最多的类;return 7:end if 8:从从A中选择最优划分属性中选择最优划分属性a*;9:for a*的每一个值的每一个值do 10:为为node生成一个
2、分支生成一个分支;令令Dv表示表示D中在中在a*上取值为的样本子集上取值为的样本子集;11:if Dv为空为空then12:将分支结点标记为叶结点,其类别标记为将分支结点标记为叶结点,其类别标记为D中样本最多的类中样本最多的类;return 13:else 14:以以TreeGenerate(Dv,A *)为分支结点为分支结点15:end if 16:end for 输出:流程来自周志华教授机器学习训练集训练集D=(X1,Y1),(X2,Y2),.,(Xm,Ym);属性集属性集A=a1,a2,.,ad.以以node为根结点的一棵决策树为根结点的一棵决策树何为最优?2.2 量化纯度Gini系数G
3、ini系数熵(Entropy)熵(Entropy)错误率错误率2.2 量化纯度-熵2.3 信息熵和信息增益信息熵(information entropy)是度量样本集合纯度信息熵(information entropy)是度量样本集合纯度最常用的一种指标.假定当前样本集合D中第k类样本最常用的一种指标.假定当前样本集合D中第k类样本所占的比例为Pk(k=1,2,.,|Y|),则D的信息熵所占的比例为Pk(k=1,2,.,|Y|),则D的信息熵定义为定义为Ent(D)的值越小,则D的纯度越高Ent(D)的值越小,则D的纯度越高2.3 信息熵和信息增益假定离散属性a有V个可能的取值,若使用a来假定
4、离散属性a有V个可能的取值,若使用a来对样本集D进行划分,则会产生V个分支结点,其中第v个分支对样本集D进行划分,则会产生V个分支结点,其中第v个分支结点包含了D中所有在属性a上取值为a v的样本,记为Dv结点包含了D中所有在属性a上取值为a v的样本,记为Dv根据信息熵定义公式计算出Dv的信息熵,再考虑到不同的分支根据信息熵定义公式计算出Dv的信息熵,再考虑到不同的分支结点所包含的样本数不同,给分支结点赋予权重|Dv|/|D|,结点所包含的样本数不同,给分支结点赋予权重|Dv|/|D|,即样本数越多的分支结点的影响越大,于是可计算出用属性a即样本数越多的分支结点的影响越大,于是可计算出用属性
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器学习入门机器学习入门 25 机器 学习 入门 25
限制150内