(本科)第9章 聚类方法ppt课件.pptx
《(本科)第9章 聚类方法ppt课件.pptx》由会员分享,可在线阅读,更多相关《(本科)第9章 聚类方法ppt课件.pptx(41页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、课程主讲人:第9章 聚类方法医学大数据分析聚类方法高等教育出版社CONTENTS目 录1聚类的概念2聚类与分类的区别3划分方法4层次聚类4聚类算法评估1聚类的概念什么是聚类? 什么是聚类?聚类分析是将物理的或者抽象的数据集合划分为多个类别的过程,聚类之后的每个类别中任意两个数据样本之间具有较高的相似度,而不同类别的数据样本之间具有较低的相似度。每一类称为一个簇。聚类和分类的区别 有监督学习 学习器通过对大量有标记的训练集进行学习,从而建立模型用于预测未见示例的标记,例如神经网络和决策树 无监督学习 无训练样本,仅根据测试样本的在特征空间分布情况来进行标记/聚簇有监督学习无监督学习分类图示训练数
2、据待分类数据聚类图示聚类中没有任何指导信息,完全按照数据的分布进行类别划分2划分方法距离度量距离度量3划分方法划分方法给定n个数据对象的数据集D,以及要生成的簇数k,划分算法把数据分成k(kn)个分区,其中每个分区代表一个簇。使得在同一个簇中对象是“相似的”,而不同簇中的对象是“相异的”。也就是说,它将数据划分为k个组,同时满足如下的要求:1.每个组至少包含一个对象;2.每个对象必须属于且只属于一个组,同时某些模糊划分技术中第二个要求可以放宽。划分方法主要包含以下两种:1.K-均值算法2.K-中心点算法k均值聚类给定k,算法的处理流程如下:Step1:从D中任意选择k个对象作为初始簇中心;St
3、ep2:将每个对象根据其与各个簇中心的距离,重新分配到与它最近的簇中;Step3:计算每个簇的平均值,并用该平均值代表相应的簇;Step4:回到第2步,直到不再有新的分配发生。k均值聚类(a) (b)(c) (d)k均值聚类优点1. 相对高效的:算法复杂度O(tkn),其中n是数据对象的个数,k是簇的个数,t是迭代的次数,通常k,tn2. 当簇是密集的,簇与簇之间区别明显时,它的效果较好。缺点1. 只有当平均值有意义的情况下才能使用,对于类别字段不适用;2. 必须事先给定要生成的簇的个数k;3. 对“噪声”和异常数据敏感;4. 不能发现非球形的簇,难以达到全局最优k均值聚类缺陷(a) 聚类-预
4、期结果 (b)原始数据 (c) 结果较差聚类k-中心点聚类k-均值算法对离群点非常敏感。因为拥有极端值的对象将在很大程度上影响数据的分布。k-中心点:用中心点(位于簇最中心位置的对象)而不是簇中对象的平均值作为参考点。k-中心点聚类算法实现的过程:1. 设置聚类簇数k,从数据集中随机选择k个数据点作为初始簇中心。2. 计算其余数据点到聚类簇中心的距离,并将其分配到距离最近的簇中。3. 随机选择一个非簇中心代替最开始的初始中心,并进行重新分配剩余的数据。4. 计算代替后的总代价,如果该总代价小于代替之前的总代价,则用该非簇中心对象代替原来的簇中心,否则不替换。5. 重复执行步骤3-4,直到没有簇
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 本科第9章 聚类方法ppt课件 本科 方法 ppt 课件
限制150内