欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    (7.4.1)--7.4惰性学习法.pdf

    • 资源ID:57972091       资源大小:553.58KB        全文页数:12页
    • 资源格式: PDF        下载积分:8金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要8金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    (7.4.1)--7.4惰性学习法.pdf

    第第7章章 分类分类目录目录 CONTENTS2 7.17.27.37.4分类概述分类概述决策树决策树朴素贝叶斯分类朴素贝叶斯分类惰性学习法惰性学习法7.57.6神经网络神经网络分类模型的评估分类模型的评估Chapter 7.4惰性学习法惰性学习法 惰性学习法并不急于在收到测试对象之前构造分类模型。当接收一个训练集时,惰性学习法只是简单地存储或稍加处理每个训练对象,直到测试对象出现,才构造分类模型。主要包括以下几种方法:K最邻近分类法(KNN)局部加权回归法 基于案例的推理37.4 惰性学习法K邻近算法的思想邻近算法的思想4 从训练集中找出k个最接近测试对象的训练对象,再从这k个对象中确定主导类别,将此类别值赋给测试对象。假设训练对象有n个属性,每个对象由n维空间的一个点表示,则整个训练集处于n维模式空间中。每当给定一个测试对象c,K近邻算法计算c到每个训练对象的距离,并找到最接近c的k个训练对象,这k个训练对象就是c的k个“最近邻”。然后,将测试对象c指派到“最近邻”中对象数量最多的类。当k=1时,测试对象被指派到与它最近的训练对象所属的类。7.4 惰性学习法K邻近算法的描述邻近算法的描述47.4 惰性学习法K近邻算法进行分类时需要考虑4个关键要素:被标记的训练对象的集合,即训练集,用来决定一个测试对象的类别。距离(或相似度)指标,用来计算对象间的邻近程度。一般情况下,采用欧几里德距离或曼哈顿距离。对于给定的具有n个属性的对象x和y,欧几里德距离与曼哈顿距离分别由公式(7-19)和公式(7-20)计算,其中?是两个对象属性k对应值的差。?,?=?=1?(7-19)?,?=?=1?(7-20)最近邻的个数k。k的值可以通过实验来确定。对于小数据集,取k=1常常会得到比其他值更好的效果,而在样本充足的情况下,往往选择较大的k值。从k个“最近邻”中选择目标类别的方法。47.4 惰性学习法例7.8 K近邻算法实例iris.arff数据集包含了150条关于花的数据,这些数据被等分为三类Iris物种:Setosa、Versicolor和Virginica,每朵花的数据描述四项特征:花萼长度、花萼宽度、花瓣长度和花瓣宽度。表7-8和表7-9分别是iris.arff训练数据与测试数据的示例。ID花萼长度花萼长度花萼宽度花萼宽度花瓣长度花瓣长度花瓣宽度花瓣宽度物种物种1234567895.14.95.07.06.96.76.36.97.23.53.03.43.23.13.12.83.13.01.41.41.54.74.94.45.15.45.80.20.20.21.41.51.41.52.11.6SetosaSetosaSetosaVersicolorVersicolorVersicolorVirginicaVirginicaVirginica表7-8 Iris物种的训练数据ID花萼长度花萼长度花萼宽度花萼宽度花瓣长度花瓣长度花瓣宽度花瓣宽度物种物种*6.43.15.51.8?表7-9 Iris物种的测试数据47.4 惰性学习法解:目标是确定表7-9中测试数据的物种。选取欧几里德距离来计算该测试对象与每个训练对象之间的距离(保留两位小数):?,1?=?6.4 5.1?+?3.1 3.5?+?5.5 1.4?+?1.8 0.2?=4.61?,2?=?6.4 4.9?+?3.1 3.0?+?5.5 1.4?+?1.8 0.2?=4.65?,3?=?6.4 5.0?+?3.1 3.4?+?5.5 1.5?+?1.8 0.2?=4.54?,4?=?6.4 7.0?+?3.1 3.2?+?5.5 4.7?+?1.8 1.4?=1.08?,5?=?6.4 6.9?+?3.1 3.1?+?5.5 4.9?+?1.8 1.5?=0.84?,6?=?6.4 6.7?+?3.1 3.1?+?5.5 4.4?+?1.8 1.4?=1.21?,7?=?6.4 6.3?+?3.1 2.8?+?5.5 5.1?+?1.8 1.5?=0.59?,8?=?6.4 6.9?+?3.1 3.1?+?5.5 5.4?+?1.8 2.1?=0.59?,9?=?6.4 7.2?+?3.1 3.0?+?5.5 5.8?+?1.8 1.6?=0.88算法:K近邻分类算法。输入:数据集D是具有n个训练元组和对应类标号的集合;近邻数目k;待分类数据X输出:数据X所属的类别K邻近算法伪代码邻近算法伪代码57.4 惰性学习法方法:从数据集D中取A1Ak作为X的初始近邻,计算与待分类数据X间的欧式距离d(X,Ai),i=1,2,k;按d(X,Ai)升序排序,得到最远样本与X间的距离Distmaxd(X,Aj)|j=1,2,k;for(i=k+1;i=n;i+)计算ai与X间的距离d(X,Ai);if(d(X,Ai)Dist)then 用Ai代替最远样本;按照d(X,Ai)升序排序,得到最远样本与X间的距离Distmaxd(X,Aj)|j=1,2,k;end for 计算前k个样本Ai(i=1,2,k)所属类别的概率,具有最大概率的类别即为数据X的类。K邻近算法伪代码邻近算法伪代码57.4 惰性学习法距离指标的选择:最佳测距方法应该满足这种性质:对象之间距离越小,它们同属于一个类别的可能性越大。K邻近算法性能邻近算法性能6K邻近算法的性能受一些关键因素的影响7.4 惰性学习法K值的选择:如果k值选择过小,结果会对噪声点的影响特别敏感;反之,k值选择过大,那么近邻中就可能包含太多种类别的点。目标类别的选择:最简单的做法是如之前所述的投票方式,然后对每个投票依据距离进行加权THANKS FOR YOUR ATTENTION感谢指导!感谢指导!

    注意事项

    本文((7.4.1)--7.4惰性学习法.pdf)为本站会员(刘静)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开