欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    第八章机器学习-决策树ID3算法的实例解析课件.ppt

    • 资源ID:82445277       资源大小:296.01KB        全文页数:52页
    • 资源格式: PPT        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第八章机器学习-决策树ID3算法的实例解析课件.ppt

    决策决策树模型模型排名排名挖掘主题挖掘主题算法算法得票数得票数发表时间发表时间作者作者陈述陈述人人1分类C4.5611993Quinlan,J.RHiroshi Motoda2聚类k-Means 601967MacQueen,J.BJoydeep Ghosh3统计学习SVM 581995Vapnik,V.NQiangYang4关联分析Apriori 521994Rakesh Agrawal Christos Faloutsos5统计学习EM482000McLachlan,GJoydeep Ghosh 6链接挖掘PageRank461998Brin,S.Christos Faloutsos7集装与推进AdaBoost451997Freund,Y.Zhi-Hua Zhou 8分类kNN451996Hastie,TVipin Kumar 9分类Nave Bayes452001Hand,D.JQiang Yang 10分类CART341984L.BreimanDan Steinberg 共有145人参加了ICDM 2006 Panel(会议的专题讨论),并对18种候选算法进行投票,选出了数据挖掘10大算法ICDM 2006会议的算法投票结果会议的算法投票结果信息信息的定量的定量描述描述衡量信息多少的物理量称为信息量。n n若概率很大,受信者事先已有所估计,则该消息信若概率很大,受信者事先已有所估计,则该消息信息量就很小;息量就很小;n n若若概率很小,受信者感觉很突然,该消息所含信息概率很小,受信者感觉很突然,该消息所含信息量就量就很大。很大。信息量的定义n根据客观事实和人们的习惯概念,函数f(p)应满足以下条件:1.f(p)应是概率p的严格单调递减函数,即当p1p2,f(p1)f(p2);2.当p=1时,f(p)=0;3.当p=0时,f(p)=;4.两个独立事件的联合信息量应等于它们分别的信息量之和。对信信息量息量的的认识理解理解n n信息量的定义信息量的定义n n若一个消息若一个消息x x出现出现的概率的概率为为p p,则这一消息所含的信息量则这一消息所含的信息量为为其中,对数的底大于其中,对数的底大于1 1n n信息量信息量单位单位n n以以2 2为底时,单位为为底时,单位为 bitbit(binary unitbinary unit,比特,比特)n n以以e e为底时,单位为为底时,单位为 natnat(natural unitnatural unit,奈特,奈特)n n以以1010为底时,单位为为底时,单位为 harthart(HartleyHartley,哈特),哈特)n n抛一枚均匀硬抛一枚均匀硬币,出,出现正面与反面的信息量正面与反面的信息量是多少?是多少?解解:出:出现正面与反面的概率均正面与反面的概率均为0.5,它,它们的信息量的信息量是是I(正正)=-lbp(正正)=-lb0.5=1bI(反反)=-lbp(反反)=-lb0.5=1bn n抛一枚畸形硬抛一枚畸形硬币,出,出现正面与反面的概率分正面与反面的概率分别是是1/4,3/4,出出现正面与反面正面与反面时的信息量的信息量是多少?是多少?解解:出:出现正面与反面的概率分正面与反面的概率分别是是1/4,3/4,它,它们的信息量的信息量是是I(正正)=-lbp(正正)=-lb1/4=2bI(反反)=-lbp(反反)=-lb3/4=0.415b信源含有的信息量是信源发出的所有可能消息的平均不确定性,香农把信源所含有的信息量称为信息熵,是指每个符号所含信息量的统计平均值。m种符号的平均信息量为n n抛一枚均匀硬抛一枚均匀硬币的信息的信息熵是多少?是多少?解解:出:出现正面与反面的概率均正面与反面的概率均为0.5,信息,信息熵是是n n抛一枚畸形硬抛一枚畸形硬币,出,出现正面与反面的概率分正面与反面的概率分别是是1/4,3/4,出出现正面与反面正面与反面时的信息量的信息量是多少?是多少?解解:出:出现正面与反面的概率分正面与反面的概率分别是是1/4,3/4,信息,信息熵是是例:气象预报12条件自信息量在事件yj出现的条件下,随机事件xi发生的条件概率为p(xi|yj),则它的条件自信息量定义为条件概率对数的负值:13条件条件熵n在给定yj条件下,xi的条件自信息量为I(xi|yj),X集合的条件熵H(X|yj)为在给定Y(即各个yj)条件下,X集合的条件熵H(X|Y)条件熵H(X|Y)表示已知Y后,X的不确定度是否适合打垒球的决策表天气天气温度温度湿度湿度风速风速活动活动晴炎热高弱取消晴炎热高强取消阴炎热高弱进行雨适中高弱进行雨寒冷正常弱进行雨寒冷正常强取消阴寒冷正常强进行晴适中高弱取消晴寒冷正常弱进行雨适中正常弱进行晴适中正常强进行阴适中高强进行阴炎热正常弱进行雨适中高强取消是否进行垒球活动进行取消晴阴雨晴阴雨进行取消活动的熵活动有2个属性值,进行,取消。其熵为:H(活动)=-(9/14)*log(9/14)-(5/14)*log(5/14)=0.94进行取消已知户外户外的天气情况下活动的条件熵户外外有三个属性值,晴,阴和雨。其熵分别为:nH(活动|户外=晴)=-(2/5)*log2(2/5)-(3/5)*log2(3/5)=0.971nH(活动|户外=阴)=-(4/4)*log2(4/4)=0nH(活动|户外=雨)=-(3/5)*log2(3/5)-(2/5)*log2(2/5)=0.971进行取消晴阴雨已知户外户外时时活动的条件熵H(活动|户外)=5/14*H(活动|户外=晴)+4/14*H(活动|户外=阴)+5/14*H(活动|户外=雨)=(5/14)*0.971+(4/14)*0+(5/14)*0.971=0.693晴阴雨平均互信息I(活动;户外外)=H(活动)-H(活动|户外)=0.94-0.693=0.246是否适合打垒球的决策表天气天气温度温度湿度湿度风速风速活动活动晴炎热高弱取消晴炎热高强取消阴炎热高弱进行雨适中高弱进行雨寒冷正常弱进行雨寒冷正常强取消阴寒冷正常强进行晴适中高弱取消晴寒冷正常弱进行雨适中正常弱进行晴适中正常强进行阴适中高强进行阴炎热正常弱进行雨适中高强取消活动的熵H(活动)=-(9/14)*lb(9/14)-(5/14)*lb(5/14)=0.94天气天气 温度温度 湿度湿度 风速速 活活动 阴 炎热 高 弱 进行 雨 适中 高 弱 进行 雨 寒冷 正常 弱 进行 阴 寒冷 正常 强 进行 晴 寒冷 正常 弱 进行 雨 适中 正常 弱 进行 晴 适中 正常 强 进行 阴 适中 高 强 进行 阴 炎热 正常 弱 进行 晴 炎热 高 弱 取消 晴 炎热 高 强 取消 雨 寒冷 正常 强 取消 晴 适中 高 弱 取消 雨 适中 高 强 取消 已知天气时活动的条件熵H(活动|天气天气)=5/14*H(活动|天气天气=晴)+4/14*H(活动|天气天气=阴)+5/14*H(活动|天气天气=雨)=(5/14)*0.971+(4/14)*0+(5/14)*0.971=0.693温度温度 湿度湿度 风速速 天气天气 活活动 寒冷 正常 弱 晴 进行 适中 正常 强 晴 进行 炎热 高 弱 晴 取消 炎热 高 强 晴 取消 适中 高 弱 晴 取消 炎热 高 弱 阴 进行 寒冷 正常 强 阴 进行 适中 高 强 阴 进行 炎热 正常 弱 阴 进行 适中 高 弱 雨 进行 寒冷 正常 弱 雨 进行 适中 正常 弱 雨 进行 寒冷 正常 强 雨 取消 适中 高 强 雨 取消 天气天气 湿度湿度 风速速 温度温度 活活动 阴 高 弱 炎热 进行 阴 正常 弱 炎热 进行 晴 高 弱 炎热 取消 晴 高 强 炎热 取消 雨 高 弱 适中 进行 雨 正常 弱 适中 进行 晴 正常 强 适中 进行 阴 高 强 适中 进行 晴 高 弱 适中 取消 雨 高 强 适中 取消 雨 正常 弱 寒冷 进行 阴 正常 强 寒冷 进行 晴 正常 弱 寒冷 进行 雨 正常 强 寒冷 取消 已知温度时活动的条件熵H(活动|温度)=0.911天气天气 温度温度 风速速 湿度湿度 活活动 阴 炎热 弱 高 进行 雨 适中 弱 高 进行 阴 适中 强 高 进行 晴 炎热 弱 高 取消 晴 炎热 强 高 取消 晴 适中 弱 高 取消 雨 适中 强 高 取消 雨 寒冷 弱 正常 进行 阴 寒冷 强 正常 进行 晴 寒冷 弱 正常 进行 雨 适中 弱 正常 进行 晴 适中 强 正常 进行 阴 炎热 弱 正常 进行 雨 寒冷 强 正常 取消 H(活动|湿度)=0.789已知湿度时活动的条件熵天气天气 温度温度 湿度湿度 风速速 活活动 阴 寒冷 正常 强 进行 晴 适中 正常 强 进行 阴 适中 高 强 进行 晴 炎热 高 强 取消 雨 寒冷 正常 强 取消 雨 适中 高 强 取消 阴 炎热 高 弱 进行 雨 适中 高 弱 进行 雨 寒冷 正常 弱 进行 晴 寒冷 正常 弱 进行 雨 适中 正常 弱 进行 阴 炎热 正常 弱 进行 晴 炎热 高 弱 取消 晴 适中 高 弱 取消 H(活动|风速)=0.892已知风速时活动的条件熵各互信息量nI(活活动;天气天气)=H(活活动)-H(活活动|天气天气)=0.94-0.693=0.246nI(活活动;温度)=H(活活动)-H(活动|温度)=0.94-0.911=0.029nI(活活动;湿度)=H(活活动)-H(活动|湿度)=0.94-0.789=0.151nI(活活动;风速)=H(活活动)-H(活动|风速)=0.94-0.892=0.048天气天气温度温度湿度湿度风速风速活动活动晴炎热高弱取消晴炎热高强取消阴炎热高弱进行雨适中高弱进行雨寒冷正常弱进行雨寒冷正常强取消阴寒冷正常强进行晴适中高弱取消晴寒冷正常弱进行雨适中正常弱进行晴适中正常强进行阴适中高强进行阴炎热正常弱进行雨适中高强取消温度温度 湿度湿度 风速速 活活动 寒冷 正常 弱 进行 适中 正常 强 进行 炎热 高 弱 取消 炎热 高 强 取消 适中 高 弱 取消 温度温度 湿度湿度 风速速 活活动 适中 高 弱 进行 寒冷 正常 弱 进行 适中 正常 弱 进行 寒冷 正常 强 取消 适中 高 强 取消 温度 湿度 风速 活动 炎热 高 弱 进行 寒冷 正常 强 进行 适中 高 强 进行 炎热 正常 弱 进行 阴晴雨天气天气 温度温度 湿度湿度 风速速 活活动 晴 寒冷 正常 弱 进行 晴 适中 正常 强 进行 晴 炎热 高 弱 取消 晴 炎热 高 强 取消 晴 适中 高 弱 取消 阴 炎热 高 弱 进行 阴 寒冷 正常 强 进行 阴 适中 高 强 进行 阴 炎热 正常 弱 进行 雨 适中 高 弱 进行 雨 寒冷 正常 弱 进行 雨 适中 正常 弱 进行 雨 寒冷 正常 强 取消 雨 适中 高 强 取消 ID3算法生成的决策树ID3算法ID3(A:条件属性集合,d:决策属性,U:训练集)返回一棵决策树if U为空,返回一个值为Failure的单结点;/一般不会出现这种情况,为了程序的健壮性if U是由其值均为相同决策属性值的记录组成,返回一个带有该值的单结点;/此分支至此结束if A为空,则返回一个单结点,其值为在U的记录中找出的频率最高的决策属性值;/这时对记录将出现误分类将A中属性之间具有最大I(d;a)的属性赋给a;将属性a的值赋给aj|j=1,2,m;将分别由对应于a的值的aj的记录组成的U的子集赋值给uj|j=1,2,m;返回一棵树,其根标记为a,树枝标记为a1,a2,am;再分别构造以下树:ID3(A-a,d,u1),ID3(A-a,d,u2),ID3(A-a,d,um);/递归算法2003.11.1830决策树学习的常见问题n决策树学习的实际问题n确定决策树增长的深度n处理连续值的属性n选择一个适当的属性筛选度量标准n处理属性值不完整的训练数据n处理不同代价的属性n提高计算效率n针对这些问题,ID3被扩展成C4.52003.11.1831避免过度拟合数据n过度拟合n对于一个假设,当存在其他的假设对训练样例的拟合比它差,但事实上在实例的整个分布上表现得却更好时,我们说这个假设过度拟合训练样例n定义:给定一个假设空间H,一个假设hH,如果存在其他的假设hH,使得在训练样例上h的错误率比h小,但在整个实例分布上h的错误率比h小,那么就说假设h过度拟合训练数据。2003.11.1832避免过度拟合数据(2)n导致过度拟合的原因n一种可能原因是训练样例含有随机错误或噪声n当训练数据没有噪声时,过度拟合也有可能发生,特别是当少量的样例被关联到叶子节点时,很可能出现巧合的规律性,使得一些属性恰巧可以很好地分割样例,但却与实际的目标函数并无关系。33避免过度拟合数据(3)n避免过度拟合的方法n及早停止树增长n后修剪法n两种方法的特点n第一种方法更直观n第一种方法中,精确地估计何时停止树增长很困难n第二种方法被证明在实践中更成功2003.11.1834避免过度拟合数据(4)n避免过度拟合的关键n使用什么样的准则来确定最终正确树的规模n解决方法n使用与训练样例截然不同的一套分离的样例,来评估通过后修剪方法从树上修建节点的效用。n使用所有可用数据进行训练,但进行统计测试来估计扩展(或修剪)一个特定的节点是否有可能改善在训练集合外的实例上的性能。n使用一个明确的标准来衡量训练样例和决策树的复杂度,当这个编码的长度最小时停止树增长。2003.11.1835避免过度拟合数据(5)n方法评述n第一种方法是最普通的,常被称为训练和验证集法。n可用数据分成两个样例集合:n训练集合,形成学习到的假设n验证集合,评估这个假设在后续数据上的精度n方法的动机:即使学习器可能会被训练集合误导,但验证集合不大可能表现出同样的随机波动n验证集合应该足够大,以便它本身可提供具有统计意义的实例样本。n常见的做法是,样例的三分之二作训练集合,三分之一作验证集合。2003.11.1836错误率降低修剪n将树上的每一个节点作为修剪得候选对象n修剪步骤n删除以此节点为根的子树,使它成为叶结点n把和该节点关联的训练样例的最常见分类赋给它n反复修剪节点,每次总是选取那些删除后可以最大提高决策树在验证集合上的精度的节点n继续修剪,直到进一步的修剪是有害的为止n数据分成3个子集n训练样例,形成决策树n验证样例,修剪决策树n测试样例,精度的无偏估计n如果有大量的数据可供使用,那么使用分离的数据集合来引导修剪2003.11.1837规则后修剪n从训练集合推导出决策树,增长决策树直到尽可能好地拟合训练数据,允许过度拟合发生n将决策树转化为等价的规则集合,方法是为从根节点到叶节点的每一条路径创建一条规则n通过删除任何能导致估计精度提高的前件来修剪每一条规则n按照修剪过的规则的估计精度对它们进行排序,并按这样的顺序应用这些规则来分类后来的实例2003.11.1838规则后修剪(2)n例子nif(outlook=sunny)(Humidity=High)then PlayTennis=Non考虑删除先行词(outlook=sunny)和(Humidity=High)n选择使估计精度有最大提升的步骤n考虑修剪第二个前件2003.11.1839规则后修剪(3)n规则精度估计方法n使用与训练集不相交的验证集n基于训练集合本身n被C4.5使用,使用一种保守估计来弥补训练数据有利于当前规则的估计偏置n过程n先计算规则在它应用的训练样例上的精度n然后假定此估计精度为二项式分布,并计算它的标准差n对于一个给定的置信区间,采用下界估计作为规则性能的度量n评论n对于大的数据集,保守预测非常接近观察精度,随着数据集合的减小,离观察精度越来越远n不是统计有效,但是实践中发现有效2003.11.1840规则后修剪(4)n把决策树转化成规则集的好处n可以区分决策节点使用的不同上下文n消除了根节点附近的属性测试和叶节点附近的属性测试的区别n提高了可读性2003.11.1841合并连续值属性nID3被限制为取离散值的属性n学习到的决策树要预测的目标属性必须是离散的n树的决策节点的属性也必须是离散的n简单删除上面第2个限制的方法n通过动态地定义新的离散值属性来实现,即先把连续值属性的值域分割为离散的区间集合2003.11.1842合并连续值属性(2)n例子,Temperature应该定义什么样的基于阈值的布尔属性n选择产生最大信息增益的阈值n按照连续属性排列样例,确定目标分类不同的相邻实例n产生一组候选阈值,它们的值是相应的A值之间的中间值n可以证明产生最大信息增益的c值位于这样的边界中(Fayyad1991)n通过计算与每个候选阈值关联的信息增益评估这些候选值n方法的扩展n连续的属性分割成多个区间,而不是单一阈值的两个空间2003.11.1843小结和补充读物n决策树学习为概念学习和学习其他离散值的函数提供了一个实用的方法nID3算法n贪婪算法n从根向下推断决策树n搜索完整的假设空间n归纳偏置,较小的树n过度拟合问题nID3算法的扩展2003.11.1844附录nC4.5 is a software extension of the basic ID3 algorithm designed by Quinlan to address the following issues not dealt with by ID3:nAvoiding overfitting the data nDetermining how deeply to grow a decision tree.nReduced error pruning.nRule post-pruning.nHandling continuous attributes.ne.g.,temperature nChoosing an appropriate attribute selection measure.nHandling training data with missing attribute values.nHandling attributes with differing costs.nImproving computational efficiency.分类器评价标准n预测准确度n计算复杂度n模型描述的简洁度:产生式规则准确度分析一般采用召回率r(Recall)和精准率p(Precision)这两个指标衡量分类器的准确度。个好的分类器应同时具有较高的召回率和精准率,当然这两个指标一般情况下是互斥的,有时要根据需要在这两个指标间作某种权衡和妥协。召回率r(Recall)和精准率p(Precision)为了定义这两个指标,引入分类中常用的两个基本概念,Relevant和Retrieved。nRelevant:真正属于某类的集合nRetrieved:判断属于某类的集合召回率反映了分类器正确分类的对象在真正归入该类的对象中所占的比率,而精准率反映了分类器正确分类的对象在系统归入该类的对象中所占的比率。RelevantRetrievedRelevantRetrievedRelevantRetrievedRelevantRetrievedF1n召回率和精准率反映了分类质量的两个不同侧面,两者必须综合考虑,不可偏废,因此,可引入一种新的评价指标F1,该指标综合了这两种因素,其公式如下:构造分类器的主要步骤将现有的已知类别的数据划分为训练集和测试集两部分。构造分类算法对训练集进行学习,得到一个分类模型,它可以以分类规则、决策树或数学公式等形式给出。使用分类模型对测试集进行检测,如果符合测试要求(如分类精度),则进行;否则,返回。应用得到的分类模型对未知类别的数据进行分类。训练数据和测试数据的划分方法其中,对于步骤(1),目前主要有两种划分方法:1.保持(holdout)方法。保持方法将已知数据随机划分为训练数据和测试数据两部分,一般是三分之二作为训练数据,另外三分之一作为测试数据。使用训练数据导出分类模型,它在测试数据上的分类精度作为最终的分类精度。2.k折交叉验证(k-fold cross validation)方法。k折交叉验证则将已知数据随机划分为k个大致相等的数据子集S1,S2,Sk,训练和测试重复进行k次。在第i次过程中,Si作为测试数据,其余的子集则作为训练数据。最终分类器的分类精度取k次测试分类精度的平均值。这种方法适用于原始数据量较小的情况,这时不适合直接应用保持方法。作业n给出决策树方法的模型、策略、算法;nC4.5决策树方法中的信息增益比的特点?nC4.5决策树方法生成的决策树的特点?

    注意事项

    本文(第八章机器学习-决策树ID3算法的实例解析课件.ppt)为本站会员(飞****2)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开