聚类简介及最新发展介绍.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《聚类简介及最新发展介绍.docx》由会员分享,可在线阅读,更多相关《聚类简介及最新发展介绍.docx(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、这种聚类周的算法一开始把数据空间划分成为有限个单元cell)的网格结构,全部 的处理都是以单个的单元为对象的。这么处理的一个明显的好处就是处理速度非常快,一般 这是与目标数据库中记录的个数无关的,它只与把数据空间分为多少个单元有关。这种聚类的算法给每一个聚类假定一个模型,跟着去找寻能够不错地满足这个模 型的数据集。而一个模型的类型可以是除了以上五种基于不同根底量的聚类算法以外,还存在着使用模糊聚类的算法, 基于图论的聚类算法等等。不同的算法有着不一样的使用场景,有的算法思想容易,适合 在小数据集中使用;而有一些呢,那么使用在大数据集中会更加好,因为它可以发现任意形 状的类簇。3 K-means
2、聚类算法K-means算法属于基于划分的聚类算法,是一种最简单的无监督学习的算法,也是 十大经典数据挖掘算法之一。James MacQucen 在 1967 年第一次使用了 “K-mcansK-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标, 即认为两个对象的距离越近,其似度就越大。该算法认为类簇是由距离靠近的对象组成的, 因此把得到紧凑且独立的类簇作为最终目标。K-means算法常常以欧式距离作为相似度测度,算法经常假设给定的数据集X=xJm = L2,,M, x中的样本用d个描述属性Ai,A2, .Ad来表示。数据样本=(即,%d), Xj=(Xji,.,Xjd)
3、,其中Xii,.)id和x,.,Xjd分别是样本片和番的相对应的d个描述属性Ai,A2,,Ad的具体取值。样本Xi和番之间的相似度通常用它 们之间的距离d(Xi. Xj)来表示,距离越小,样本片和Xj越相似,差异度越小;距离越大,样本Xi和X避不相似,差异度越大。K-means算法常常以欧式距离作为相似度度量,欧式距离公式为:d(Xi,Xj) =12(Xik- XjJ2k = l(3-DK-means聚类算法选择类簇中的质心作为该类的代表点类C中有n个样本点,设 为Pi/,Pi.2,,Pim,那么这个类的代表点(种子点)就是:(3-2)KK个聚类子集Xi,X2,,Xk;各个聚类子集中的样本数量
4、分别为口,皿,, 麻;各个聚类子集的均值代表点(也称聚类中心)分别为im,im,mK:KE = 22(p-mi)2i = lpeXj(3-3)3. 2 K-means聚类算法的描述St印1:从数据集中随机抽取k个质心作为初始聚类的中心;Step 2:计算数据集中所有的点到这k个点的距离,将点归到离其最近的聚类里;Step 3:调整聚类中心,即将聚类的中心移动到聚类的几何中心(即平均值)处;Step 4:重复第2步和第3步,直到聚类的中心不再移动,此时算法收敛。3. 3 K-means聚类算法的重要问题1 K值的选取3. 3. 2初始中心点的选取从算法的描述可见,初始类簇的中心点对聚类的结果的影
5、响非常大,一旦初始值选 取得不够好,那么可能导致无法得到有效的聚类结果。假设要更好地解决该问题,那么可以考虑遗传算法。3. 3. 3时间复杂度算法的时间复杂度为O(N*K*T), N为样本的数量,K为类簇的数量,而T为迭代 的次数。当K和T均远远小于样本数量N时,复杂度为0(N),具有最优复杂度。3. 4 K-means聚类算法的总结K-mcans聚类算法的缺点:(1) K值和初始中心点的选取困难;(2)(3 )对噪声点和孤立点很敏感,少量的该类数据将对中心点的计算产生非常大 的影响;(4)只能发现类球状的类簇。4聚类的最新开展Rodriguez 10发表的文章,为聚类算法的设计提供了一种新的
6、思路。这个新聚类算法的核心思想在于对聚类中心的刻画上,作者认为聚类中心同时拥有 以下两个特点:“距离”相对更大;考虑待聚类的数据集S = Xi|i = 12“,N, dij = dist(Xi,x/表示数据点受看两者之间的某种距离,卜二,为相应的指标集。对于S中的任何数据点XiPQi。4. 1聚类中心Pi的定义它包括截断核和高斯核两种计算方式。截断核:Pi =,X(d - df)jels0)(4-1)X(x) = %;(4-2)参数 为截断距离,需要由用户事先指点。由定义易知,Pi表示的是S中与Xi之间的距离小于4的数据点的个数。高斯核:P尸S e岑jism(4-3)济的定义设叫21表示pJi
7、的一个降序排列的下标序,即它满足Pqi Pq2 PqN那么可定义mint%/ 2 2 q8q. = j 2n -q% j ;(2)计算0务3并生成其降序排列下标序81;计算及旧/1Step 2:确定聚类中心并初始化数据点归类属性标记具体为假设为聚类中心,且归属第k个类簇-1,其他情况Step 3:对非聚类中心数据点进行归类;Step 4:假设网 I那么将每个类簇中的数据点进一步分为类簇中心和类簇边缘。4. 3聚类算法结果展示图4-3各种情况的测试结果如图4-3所示,该算法能够很好地适应各种不同形状的类簇的情况,可拓展性比较 |W O4. 4聚类算法小结Rodriguez 10提出的算法在本质上
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 简介 最新 发展 介绍
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内