(7.4.1)--7.4惰性学习法.pdf

资源ID：57972091 资源大小：553.58KB 全文页数：12页
资源格式： PDF 下载积分：8金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要8金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

(7.4.1)--7.4惰性学习法.pdf

第第7章章分类分类目录目录 CONTENTS2 7.17.27.37.4分类概述分类概述决策树决策树朴素贝叶斯分类朴素贝叶斯分类惰性学习法惰性学习法7.57.6神经网络神经网络分类模型的评估分类模型的评估Chapter 7.4惰性学习法惰性学习法惰性学习法并不急于在收到测试对象之前构造分类模型。当接收一个训练集时，惰性学习法只是简单地存储或稍加处理每个训练对象，直到测试对象出现，才构造分类模型。主要包括以下几种方法：K最邻近分类法（KNN）局部加权回归法基于案例的推理37.4 惰性学习法K邻近算法的思想邻近算法的思想4 从训练集中找出k个最接近测试对象的训练对象，再从这k个对象中确定主导类别，将此类别值赋给测试对象。假设训练对象有n个属性，每个对象由n维空间的一个点表示，则整个训练集处于n维模式空间中。每当给定一个测试对象c，K近邻算法计算c到每个训练对象的距离，并找到最接近c的k个训练对象，这k个训练对象就是c的k个“最近邻”。然后，将测试对象c指派到“最近邻”中对象数量最多的类。当k=1时，测试对象被指派到与它最近的训练对象所属的类。7.4 惰性学习法K邻近算法的描述邻近算法的描述47.4 惰性学习法K近邻算法进行分类时需要考虑4个关键要素：被标记的训练对象的集合，即训练集，用来决定一个测试对象的类别。距离（或相似度）指标，用来计算对象间的邻近程度。一般情况下，采用欧几里德距离或曼哈顿距离。对于给定的具有n个属性的对象x和y，欧几里德距离与曼哈顿距离分别由公式（7-19）和公式（7-20）计算，其中?是两个对象属性k对应值的差。?,?=?=1?(7-19)?,?=?=1?(7-20)最近邻的个数k。k的值可以通过实验来确定。对于小数据集，取k=1常常会得到比其他值更好的效果，而在样本充足的情况下，往往选择较大的k值。从k个“最近邻”中选择目标类别的方法。47.4 惰性学习法例7.8 K近邻算法实例iris.arff数据集包含了150条关于花的数据，这些数据被等分为三类Iris物种:Setosa、Versicolor和Virginica，每朵花的数据描述四项特征:花萼长度、花萼宽度、花瓣长度和花瓣宽度。表7-8和表7-9分别是iris.arff训练数据与测试数据的示例。ID花萼长度花萼长度花萼宽度花萼宽度花瓣长度花瓣长度花瓣宽度花瓣宽度物种物种1234567895.14.95.07.06.96.76.36.97.23.53.03.43.23.13.12.83.13.01.41.41.54.74.94.45.15.45.80.20.20.21.41.51.41.52.11.6SetosaSetosaSetosaVersicolorVersicolorVersicolorVirginicaVirginicaVirginica表7-8 Iris物种的训练数据ID花萼长度花萼长度花萼宽度花萼宽度花瓣长度花瓣长度花瓣宽度花瓣宽度物种物种*6.43.15.51.8？表7-9 Iris物种的测试数据47.4 惰性学习法解：目标是确定表7-9中测试数据的物种。选取欧几里德距离来计算该测试对象与每个训练对象之间的距离（保留两位小数）：?,1?=?6.4 5.1?+?3.1 3.5?+?5.5 1.4?+?1.8 0.2?=4.61?,2?=?6.4 4.9?+?3.1 3.0?+?5.5 1.4?+?1.8 0.2?=4.65?,3?=?6.4 5.0?+?3.1 3.4?+?5.5 1.5?+?1.8 0.2?=4.54?,4?=?6.4 7.0?+?3.1 3.2?+?5.5 4.7?+?1.8 1.4?=1.08?,5?=?6.4 6.9?+?3.1 3.1?+?5.5 4.9?+?1.8 1.5?=0.84?,6?=?6.4 6.7?+?3.1 3.1?+?5.5 4.4?+?1.8 1.4?=1.21?,7?=?6.4 6.3?+?3.1 2.8?+?5.5 5.1?+?1.8 1.5?=0.59?,8?=?6.4 6.9?+?3.1 3.1?+?5.5 5.4?+?1.8 2.1?=0.59?,9?=?6.4 7.2?+?3.1 3.0?+?5.5 5.8?+?1.8 1.6?=0.88算法：K近邻分类算法。输入：数据集D是具有n个训练元组和对应类标号的集合；近邻数目k；待分类数据X输出：数据X所属的类别K邻近算法伪代码邻近算法伪代码57.4 惰性学习法方法：从数据集D中取A1Ak作为X的初始近邻，计算与待分类数据X间的欧式距离d(X,Ai),i=1,2,k；按d(X,Ai)升序排序，得到最远样本与X间的距离Distmaxd(X,Aj)|j=1,2,k；for(i=k+1;i=n;i+)计算ai与X间的距离d(X,Ai)；if(d(X,Ai)Dist)then 用Ai代替最远样本；按照d(X,Ai)升序排序，得到最远样本与X间的距离Distmaxd(X,Aj)|j=1,2,k;end for 计算前k个样本Ai(i=1,2,k)所属类别的概率，具有最大概率的类别即为数据X的类。K邻近算法伪代码邻近算法伪代码57.4 惰性学习法距离指标的选择：最佳测距方法应该满足这种性质:对象之间距离越小，它们同属于一个类别的可能性越大。K邻近算法性能邻近算法性能6K邻近算法的性能受一些关键因素的影响7.4 惰性学习法K值的选择：如果k值选择过小，结果会对噪声点的影响特别敏感；反之，k值选择过大，那么近邻中就可能包含太多种类别的点。目标类别的选择：最简单的做法是如之前所述的投票方式，然后对每个投票依据距离进行加权THANKS FOR YOUR ATTENTION感谢指导！感谢指导！

注意事项

本文（(7.4.1)--7.4惰性学习法.pdf）为本站会员（刘静）主动上传，淘文阁 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知淘文阁 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。