(7.4.1)--7.4惰性学习法.pdf
第第7章章 分类分类目录目录 CONTENTS2 7.17.27.37.4分类概述分类概述决策树决策树朴素贝叶斯分类朴素贝叶斯分类惰性学习法惰性学习法7.57.6神经网络神经网络分类模型的评估分类模型的评估Chapter 7.4惰性学习法惰性学习法 惰性学习法并不急于在收到测试对象之前构造分类模型。当接收一个训练集时,惰性学习法只是简单地存储或稍加处理每个训练对象,直到测试对象出现,才构造分类模型。主要包括以下几种方法:K最邻近分类法(KNN)局部加权回归法 基于案例的推理37.4 惰性学习法K邻近算法的思想邻近算法的思想4 从训练集中找出k个最接近测试对象的训练对象,再从这k个对象中确定主导类别,将此类别值赋给测试对象。假设训练对象有n个属性,每个对象由n维空间的一个点表示,则整个训练集处于n维模式空间中。每当给定一个测试对象c,K近邻算法计算c到每个训练对象的距离,并找到最接近c的k个训练对象,这k个训练对象就是c的k个“最近邻”。然后,将测试对象c指派到“最近邻”中对象数量最多的类。当k=1时,测试对象被指派到与它最近的训练对象所属的类。7.4 惰性学习法K邻近算法的描述邻近算法的描述47.4 惰性学习法K近邻算法进行分类时需要考虑4个关键要素:被标记的训练对象的集合,即训练集,用来决定一个测试对象的类别。距离(或相似度)指标,用来计算对象间的邻近程度。一般情况下,采用欧几里德距离或曼哈顿距离。对于给定的具有n个属性的对象x和y,欧几里德距离与曼哈顿距离分别由公式(7-19)和公式(7-20)计算,其中?是两个对象属性k对应值的差。?,?=?=1?(7-19)?,?=?=1?(7-20)最近邻的个数k。k的值可以通过实验来确定。对于小数据集,取k=1常常会得到比其他值更好的效果,而在样本充足的情况下,往往选择较大的k值。从k个“最近邻”中选择目标类别的方法。47.4 惰性学习法例7.8 K近邻算法实例iris.arff数据集包含了150条关于花的数据,这些数据被等分为三类Iris物种:Setosa、Versicolor和Virginica,每朵花的数据描述四项特征:花萼长度、花萼宽度、花瓣长度和花瓣宽度。表7-8和表7-9分别是iris.arff训练数据与测试数据的示例。ID花萼长度花萼长度花萼宽度花萼宽度花瓣长度花瓣长度花瓣宽度花瓣宽度物种物种1234567895.14.95.07.06.96.76.36.97.23.53.03.43.23.13.12.83.13.01.41.41.54.74.94.45.15.45.80.20.20.21.41.51.41.52.11.6SetosaSetosaSetosaVersicolorVersicolorVersicolorVirginicaVirginicaVirginica表7-8 Iris物种的训练数据ID花萼长度花萼长度花萼宽度花萼宽度花瓣长度花瓣长度花瓣宽度花瓣宽度物种物种*6.43.15.51.8?表7-9 Iris物种的测试数据47.4 惰性学习法解:目标是确定表7-9中测试数据的物种。选取欧几里德距离来计算该测试对象与每个训练对象之间的距离(保留两位小数):?,1?=?6.4 5.1?+?3.1 3.5?+?5.5 1.4?+?1.8 0.2?=4.61?,2?=?6.4 4.9?+?3.1 3.0?+?5.5 1.4?+?1.8 0.2?=4.65?,3?=?6.4 5.0?+?3.1 3.4?+?5.5 1.5?+?1.8 0.2?=4.54?,4?=?6.4 7.0?+?3.1 3.2?+?5.5 4.7?+?1.8 1.4?=1.08?,5?=?6.4 6.9?+?3.1 3.1?+?5.5 4.9?+?1.8 1.5?=0.84?,6?=?6.4 6.7?+?3.1 3.1?+?5.5 4.4?+?1.8 1.4?=1.21?,7?=?6.4 6.3?+?3.1 2.8?+?5.5 5.1?+?1.8 1.5?=0.59?,8?=?6.4 6.9?+?3.1 3.1?+?5.5 5.4?+?1.8 2.1?=0.59?,9?=?6.4 7.2?+?3.1 3.0?+?5.5 5.8?+?1.8 1.6?=0.88算法:K近邻分类算法。输入:数据集D是具有n个训练元组和对应类标号的集合;近邻数目k;待分类数据X输出:数据X所属的类别K邻近算法伪代码邻近算法伪代码57.4 惰性学习法方法:从数据集D中取A1Ak作为X的初始近邻,计算与待分类数据X间的欧式距离d(X,Ai),i=1,2,k;按d(X,Ai)升序排序,得到最远样本与X间的距离Distmaxd(X,Aj)|j=1,2,k;for(i=k+1;i=n;i+)计算ai与X间的距离d(X,Ai);if(d(X,Ai)Dist)then 用Ai代替最远样本;按照d(X,Ai)升序排序,得到最远样本与X间的距离Distmaxd(X,Aj)|j=1,2,k;end for 计算前k个样本Ai(i=1,2,k)所属类别的概率,具有最大概率的类别即为数据X的类。K邻近算法伪代码邻近算法伪代码57.4 惰性学习法距离指标的选择:最佳测距方法应该满足这种性质:对象之间距离越小,它们同属于一个类别的可能性越大。K邻近算法性能邻近算法性能6K邻近算法的性能受一些关键因素的影响7.4 惰性学习法K值的选择:如果k值选择过小,结果会对噪声点的影响特别敏感;反之,k值选择过大,那么近邻中就可能包含太多种类别的点。目标类别的选择:最简单的做法是如之前所述的投票方式,然后对每个投票依据距离进行加权THANKS FOR YOUR ATTENTION感谢指导!感谢指导!