聚类算法以Kmeans算法为例.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《聚类算法以Kmeans算法为例.ppt》由会员分享,可在线阅读,更多相关《聚类算法以Kmeans算法为例.ppt(16页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、聚类算法-以K-means 算法为例安英博 分类是指将数据归于一系列已知类别之中的某个类的分类过程。分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候。聚类是根据客体属性对一系列未分类的客体进行类别的识别,把一组个体按照相似性归成若干类。聚类属于无监督学习。分类和聚类 在商业上,聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来,并且概括出每一类消费者的消费习惯。它作为数据挖掘中的一个模块,可以作为一个单独的工具来发现数据库中分布的一些深层的信息,并且概括出每一类的特点,
2、或者把注意力放在某一个特定的类上做进一步的分析。聚类分析的算法可以分为划分法、层次法、基于密度的方法、基于网格的方法、基于模型的方法。其中,最广泛使用的聚类算法k-means 算法属于划分法。聚类算法给 定 一 个 有N 个 元 组 或 者 纪 录 的 数 据 集,划 分 法 将 构 造K个 分 组,每 一 个 分 组 就 代 表 一 个 聚 类,KN。而 且 这K 个 分组满足下列条件:(1)每一个分组至少包含一个数据纪录;(2)每 一 个 数 据 纪 录 属 于 且 仅 属 于 一 个 分 组(某 些 模 糊聚类算法中该条件可以放宽);对 于 给 定 的K,算 法 首 先 给 出 一 个
3、初 始 的 分 组 方 法,以 后通 过 反 复 迭 代 的 方 法 改 变 分 组,使 得 每 一 次 改 进 之 后 的 分 组方 案 都 较 前 一 次 好,而 所 谓 好 的 标 准 就 是:同 一 分 组 中 的 记录越近越好,而不同分组中的纪录越远越好。划分法k-means 算法,也被称为k-均值或k-平均。该算法首先随机地选择k 个对象作为初始的k 个簇的质心;然后对剩余的每个对象,根据其与各个质心的距离,将它赋给最近的簇,然后重新计算每个簇的质心;这个过程不断重复,直到准则函数收敛。通常采用的准则函数为平方误差和准则函数,即 SSE(sum of the squared err
4、or),其定义如下:SSE 是数据库中所有对象的平方误差总和,p 为数据对象,mi是簇Ci的平均值。这个准则函数使生成的结果尽可能的紧凑和独立。k-means 算法下面给出k-means 算法的具体步骤:(l)给定大小为n 的数据集,令I=1,选取k 个初始聚类中心 Zj(I),j=1,2,3,k;(2)计算每个数据对象与聚类中心的距离D(xi,Zj(I),i=1,2,3n,j=l,2,3,k,如果满足D(xi,Zk(I)=minD(xi,Zj(I),i=l,2,3,n 则 xiC k;(3)计算k 个新的聚类中心:即取聚类中所有元素各自维度的算术平均数;(4)判断:若Zj(I+1)Zj(I)
5、,j=l,2,3,k,则I=I+1,返回(2);否则算法结束。k-means 算法描述 距离D 的计算方法1.欧几里得距离:其意义就是两个元素在欧氏空间中的集合距离,因为其直观易懂且可解释性强,被广泛用于标识两个标量元素的相异度。2.曼哈顿距离:3.闵可夫斯基距离:k-means 算法描述K-Means 的算法如下:随机在图中取k(这里k=2)个种子点。对图中的所有点求到这k 个种子点的距离,假如点 Pi 离种子点 Si 最近,那么 Pi 属于 Si 点群。(上图中,我们可以看到A、B 属于上面的种子点,C、D、E 属于下面中部的种子点)移动种子点到属于他的“点群”的中心。(见图上的第三步)然
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 算法 Kmeans
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内