KNN讲解资料.ppt
《KNN讲解资料.ppt》由会员分享,可在线阅读,更多相关《KNN讲解资料.ppt(35页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2022-8-142主要内容主要内容1 1 引言引言2 KNN2 KNN的基本思想的基本思想3 3 KN KNN N算法的实现算法的实现4 4 KNN KNN的优缺点的优缺点5 5 KNN KNN的一些改进策略的一些改进策略6 6 KNN KNN在实际问题中的应用在实际问题中的应用2022-8-1431 1 引言引言分类(分类(ClassificationClassification)是数据挖掘领域是数据挖掘领域中的一种重要的技术,它是从一组已知的训中的一种重要的技术,它是从一组已知的训练样本中发现分类模型,并且使用这个分类练样本中发现分类模型,并且使用这个分类模型来预测待分类样本。建立一个有
2、效的分模型来预测待分类样本。建立一个有效的分类算法模型最终将待分类的样本进行处理是类算法模型最终将待分类的样本进行处理是非常有必要的。非常有必要的。2022-8-144目前常用的分类算法主要有:朴素贝叶目前常用的分类算法主要有:朴素贝叶斯分类算法(斯分类算法(NaNave Bayesve Bayes)、支持向量机分)、支持向量机分类算法(类算法(Support Vector MachinesSupport Vector Machines)、)、 KNNKNN最近邻算法最近邻算法(k-Nearest Neighbo(k-Nearest Neighbors)rs)、神、神经网络算法(经网络算法(N
3、NetNNet)以及决策树()以及决策树(Decision Decision TreeTree)等等。)等等。2022-8-1458/14/20225KNNKNN算法是一个理论上比较成熟的方法,算法是一个理论上比较成熟的方法,最初由最初由CoverCover和和HartHart于于19681968年提出,其思路年提出,其思路非常简单直观,易于快速实现。非常简单直观,易于快速实现。因此,因此,KNNKNN算法以其实现的简单性及较算法以其实现的简单性及较高的分类准确性在中文文本自动分类等领域高的分类准确性在中文文本自动分类等领域得到了广泛应用。得到了广泛应用。2022-8-1462 KNN2 KN
4、N的基本思想的基本思想根据根据距离函数距离函数计算待分类样本计算待分类样本X X和每个训和每个训练样本的距离(作为练样本的距离(作为相似度相似度),选择与待分类),选择与待分类样本距离最小的样本距离最小的K K个样本作为个样本作为X X的的K K个最邻近,个最邻近,最后以最后以X X的的K K个最邻近中的大多数所属的类别作个最邻近中的大多数所属的类别作为为X X的类别。的类别。KNNKNN可以说是一种最直接的用来分类未知可以说是一种最直接的用来分类未知数据的方法。数据的方法。2022-8-147 简单来说,简单来说,KNNKNN可以看成:有那么一堆你可以看成:有那么一堆你已经知道分类的数据,然
5、后当一个新数据进入已经知道分类的数据,然后当一个新数据进入的时候,就开始跟训练数据里的每个点求距离的时候,就开始跟训练数据里的每个点求距离,然后挑出离这个数据最近的,然后挑出离这个数据最近的K K个点,看看这个点,看看这K K个点属于什么类型,然后用少数服从多数的原个点属于什么类型,然后用少数服从多数的原则,给新数据归类。则,给新数据归类。2022-8-1482022-8-1493 3 KN KNN N算法的实现算法的实现(1)(1)问题描述问题描述 数据集:数据集:iris.datairis.data标准数据集标准数据集- -鸢尾花。鸢尾花。 采用采用KNNKNN算法对算法对iris.dat
6、airis.data分类。为了操作分类。为了操作方便,对各组数据添加方便,对各组数据添加rowNorowNo属性属性, ,第一组第一组rowNo=1rowNo=1,共有,共有150150组数据组数据, ,选择选择rowNorowNo模模3 3不等不等于于0 0的的100100组作为训练数据集,剩下的组作为训练数据集,剩下的5050组做测组做测试数据集。试数据集。2022-8-1410初始化距离为最大值;初始化距离为最大值;计算未知样本和每个训练样本的距离计算未知样本和每个训练样本的距离distdist;得到目前得到目前K K个最临近样本中的最大距离个最临近样本中的最大距离maxdistmaxd
7、ist;(2)(2)实现步骤:实现步骤:2022-8-1411如果如果distdist小于小于maxdistmaxdist,则将该训练样本作为,则将该训练样本作为K-K-最近邻样本;最近邻样本;重复步骤重复步骤2 2、3 3、4 4,直到所有未知样本和所有训,直到所有未知样本和所有训练样本的距离都算完;练样本的距离都算完;统计统计K-K-最近邻样本中每个类标号出现的次数;最近邻样本中每个类标号出现的次数;选择出现频率最大的类标号作为未知样本的类选择出现频率最大的类标号作为未知样本的类标号。标号。2022-8-14124 KNN4 KNN的优缺点的优缺点u优点优点(1)(1)算法思路较为简单,易
8、于实现;算法思路较为简单,易于实现;(2)(2)当有新样本要加入训练集中时,无需重当有新样本要加入训练集中时,无需重新训练(即重新训练的代价低);新训练(即重新训练的代价低);(3)(3)计算时间和空间线性于训练集的规模计算时间和空间线性于训练集的规模(在一些场合不算太大)。(在一些场合不算太大)。2022-8-1413u不足不足(1)(1)分类速度慢分类速度慢; KNNKNN算法的时间复杂度和存储空间会随着算法的时间复杂度和存储空间会随着训练集规模和特征维数的增大而快速增加。训练集规模和特征维数的增大而快速增加。因为每次新的待分样本都必须与所有训练集因为每次新的待分样本都必须与所有训练集一同
9、计算比较相似度,以便取出靠前的一同计算比较相似度,以便取出靠前的K K个已个已分类样本。整个算法的时间复杂度可以用分类样本。整个算法的时间复杂度可以用O(mO(m* *n)n)表示,其中表示,其中m m是选出的特征项是选出的特征项( (属性属性) )的的个数,而个数,而n n是训练集样本的个数。是训练集样本的个数。2022-8-1414(2)(2)各属性的各属性的权重相同权重相同,影响了准确率;,影响了准确率; 当样本不平衡时,如一个类的样本容量很大当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的一
10、个新样本时,该样本的K K个邻居中大容量类的样个邻居中大容量类的样本占多数。该算法只计算本占多数。该算法只计算“最近的最近的”邻居样本,邻居样本,如果某一类的样本数量很大,那么可能目标样本如果某一类的样本数量很大,那么可能目标样本并不接近这类样本,却会将目标样本分到该类下并不接近这类样本,却会将目标样本分到该类下,影响分类准确率。,影响分类准确率。2022-8-1415(3)(3)样本库容量依赖性较强;样本库容量依赖性较强;(4)(4)K K值不好确定值不好确定; k k值选择过小,得到的近邻数过少,会降值选择过小,得到的近邻数过少,会降低分类精度,同时也会放大噪声数据的干扰;低分类精度,同时
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- KNN 讲解 资料
限制150内