5.1 聚类分析.pptx
《5.1 聚类分析.pptx》由会员分享,可在线阅读,更多相关《5.1 聚类分析.pptx(20页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、聚类分析,授课人:,目录,01,何为聚类分析,02,常见聚类方法,03,聚类性能度量,PART 01,何为聚类分析,聚类分析是一种典型的无监督学习,也就是在事先不知道每个样本的类别,没有对应的标签值的情况下,可以对未知类别的样本按照一定的规则划分成若干个类簇,这些类簇具有如下特点:,l 同一个类簇中的样本尽可能相似(或性质相同、距离相近)。 l 不同的类簇中的样本尽可能不相似(或性质不相同,距离较远)。,即聚类分析算法不依赖训练模型和历史样本数据,仅针对当前待分析的样本运行聚类算法,将样本划分成不同的几个类别,从而揭示样本间的内在性质和相互之间的联系规律。,何为聚类分析,聚类方法的应用场景:,
2、何为聚类分析,一些鸢尾花样本分布图,右图是一些鸢尾类植物的样本分布图,按萼片长度、高度和花瓣长度显示在三维空间里,仅仅从观察数据的角度是很难将这些样本分成不同的簇群,也不知道将它们分成几个簇群比较合适。问题是,我们还必须要去探索这些鸢尾花到底有几个品种?甚至是否还存在一些未知的品种?,何为聚类分析,样本被分为3个簇,假设有样本分为以下3个簇,那么如何描述簇的基本特征以区分各个簇的差异呢?,聚类得到的簇可以用聚类中心、簇大小、簇密度和簇 描述等特征来表示簇的特点。 1.聚类中心是一个簇中所有样本点的均值(质心), 如右图中的符号。 2.簇大小表示簇中所含样本的数量。 3.簇密度表示簇中样本点的紧
3、密程度,越紧密说明簇内样本的相似度越高。 4. 簇描述是簇中样本的业务特征,如簇号。,何为聚类分析,思考: 有哪些常用的聚类方法对样本进行聚类分析呢?,何为聚类分析,PART 02,常见聚类方法,常见聚类方法,基于划分的聚类,基于层次的聚类,基于密度的聚类,常见聚类方法,基于划分的聚类,基于划分的方法是简单、常用的一种聚类方法,它通过将对象划分为互斥的簇进行聚类, 每个对象属于且仅属于一个簇,划分结果旨在使簇之间的相似性低,簇内部的相似度高,基于划分的经典算法有k均值、k-medoids算法等。,常见聚类方法,基于层次的聚类,层次聚类的应用广泛程度仅次于基于划分的聚类,核心思想是通过对数据集按
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 5.1 聚类分析
限制150内