K-means聚类算法PPT参考幻灯片课件.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《K-means聚类算法PPT参考幻灯片课件.ppt》由会员分享,可在线阅读,更多相关《K-means聚类算法PPT参考幻灯片课件.ppt(26页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、K-meansK-means聚类算法聚类算法报告人:张鸣磊报告人:张鸣磊12022-5-11 K-means算法是很典型的基于距离的聚算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就即认为两个对象的距离越近,其相似度就越大。越大。 该算法认为类是由距离靠近的对象组成该算法认为类是由距离靠近的对象组成的,因此把得到紧凑且独立的类作为最终的,因此把得到紧凑且独立的类作为最终目标。目标。22022-5-11 假设数据集合为假设数据集合为(x1, x2, , xn)(x1, x2, , xn),并,并且每个且每个
2、xixi为为d d维的向量,维的向量,K-meansK-means聚类的目聚类的目的是,在给定分类组数的是,在给定分类组数k k(k nk n)值的条)值的条件下,将原始数据分成件下,将原始数据分成k k类:类: S = S1, S2, , SkS = S1, S2, , Sk 在数值模型上,即对以下表达式求最小值:在数值模型上,即对以下表达式求最小值:32022-5-11算法过程:算法过程:(1)随机选取)随机选取K个对象作为初始聚类中心;个对象作为初始聚类中心;(2)将数据样本集合中的样本按照最小距离)将数据样本集合中的样本按照最小距离原则分配到最邻近聚类;原则分配到最邻近聚类;(3)根据
3、聚类的结果,重新计算)根据聚类的结果,重新计算K个聚类的个聚类的中心,并作为新的聚类中心;中心,并作为新的聚类中心;(4)重复步骤)重复步骤2.3直到聚类中心不再变化。直到聚类中心不再变化。42022-5-11数学表达式:数学表达式:n:样本数。:样本数。k:样本分为:样本分为k类。类。rnk:第:第n个样本点是否属于第个样本点是否属于第k类,属于则类,属于则rnk=1, 不属于则不属于则rnk=0。K:第:第k个中心点。个中心点。52022-5-11k-means k-means 要做的就是最小化要做的就是最小化这个函数。这个函数。迭代的方法:迭代的方法: 1 1、固定、固定K K,得到,得
4、到r rnknk。 2 2、固定、固定r rnknk,求出最优的,求出最优的K K。62022-5-11 求求r rnknk 求求K72022-5-1182022-5-11K-meansK-means算法性能分析算法性能分析优点:优点: 1 1、k-k-均值算法框架清晰,简单,均值算法框架清晰,简单,容易理解。容易理解。 2 2、对于处理大数据集,这个算法、对于处理大数据集,这个算法是相对可伸缩和高效的,计算的复杂是相对可伸缩和高效的,计算的复杂度为度为O(NKt)O(NKt),其中,其中N N是数据对象的数目,是数据对象的数目,t t是迭代的次数。一般来说,是迭代的次数。一般来说,KNKN,
5、tN tN 。 3 3、当结果类是密集的,而类与类、当结果类是密集的,而类与类之间区别明显时,它的效果最好。之间区别明显时,它的效果最好。92022-5-11缺点:缺点: 1 1、要求必须事先给出要生成的类的数、要求必须事先给出要生成的类的数目目k k,这个这个k k值的选定是非常难以估值的选定是非常难以估计。计。 2 2、对初值敏感,对于不同的初始值,、对初值敏感,对于不同的初始值,可能会导致不同的聚类结果。可能会导致不同的聚类结果。 3 3、对于、对于 噪声噪声 和孤立点数据敏感,少和孤立点数据敏感,少量的该类数据能够对平均值产生极大影响。量的该类数据能够对平均值产生极大影响。102022
6、-5-11K-meansK-means算法变体算法变体(一)(一)k-medoidsk-medoids算法(算法(K-K-中心点算法)中心点算法) 不采用聚类中对象的平均值作为参照点,不采用聚类中对象的平均值作为参照点,而是选用聚类中位置最中心的对象,即中而是选用聚类中位置最中心的对象,即中心点(心点(medoidmedoid)作为参照点。)作为参照点。112022-5-11K-K-中心点算法思想:中心点算法思想: 首先随机选择首先随机选择k k个对象作为中心,把每个对象作为中心,把每 个对象分配给离它最近的中心。个对象分配给离它最近的中心。 然后随机地选择一个非中心对象替换然后随机地选择一个
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- means 算法 PPT 参考 幻灯片 课件
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内