聚类分析 (2)精选文档.ppt
《聚类分析 (2)精选文档.ppt》由会员分享,可在线阅读,更多相关《聚类分析 (2)精选文档.ppt(45页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、聚类分析本讲稿第一页,共四十五页聚类根据实际的需要,又可能有两个方向:聚类根据实际的需要,又可能有两个方向:1.样本聚类(样本聚类(Q聚类)聚类)(caseclusteranalysis)2.变量聚类变量聚类(R聚类)聚类)(variabeclusteranalysis)本讲稿第三页,共四十五页根据根据聚类方法聚类方法,聚类分析聚类分析又分为又分为:1.系统聚类系统聚类(joiningclusterprocedures)2.动态聚类动态聚类(iterativepartitioningprocedures)本讲稿第四页,共四十五页5.2 系统聚类法系统聚类法5.2.1基本思想基本思想系统聚类法有
2、两种:系统聚类法有两种:(1)聚集法聚集法(2)分解法)分解法本讲稿第十七页,共四十五页5.2.2群间距离的定义群间距离的定义1.最短距离法最短距离法(nearestneighbor或或singlelinkage))类与类之间距离采用公式类与类之间距离采用公式它等于它等于Gp和和Gq中靠近的两个样品距离中靠近的两个样品距离,简单易用,易有延伸的链状结构,效果不好简单易用,易有延伸的链状结构,效果不好本讲稿第十八页,共四十五页2.最长距离法最长距离法(completelinkageorfurthestneighbor)它等于它等于Gp和和Gq中最远的两个样之间的距离。中最远的两个样之间的距离。克
3、服了最短距离法的连接聚合的局限,受异常值影响大,克服了最短距离法的连接聚合的局限,受异常值影响大,效果不好效果不好本讲稿第十九页,共四十五页3.未加权的类平均法未加权的类平均法(unweightedpair-groupaverage)它等于它等于Gp和和Gq中任意的两个样本之间距离的平均。中任意的两个样本之间距离的平均。充分利用已知信息,克服了最短(长)距离法受异常值影响大充分利用已知信息,克服了最短(长)距离法受异常值影响大的局限,效果较好,应用较广。的局限,效果较好,应用较广。本讲稿第二十页,共四十五页4.加权的类平均法加权的类平均法(weightedpair-groupaverage)5
4、.未加权的类间重心法未加权的类间重心法(unweighted pair-group centroid)它等于两个重心它等于两个重心 与与 间的距离。间的距离。本讲稿第二十一页,共四十五页5.2.3 聚类分析步骤聚类分析步骤系系统统聚聚类类法法(hierarchicalclusteringmehtod)是是聚聚类类分分析析诸方法中用得最多者。诸方法中用得最多者。步骤如下:步骤如下:(1)计算)计算n个样本点两两间的距离个样本点两两间的距离,记作记作对称距离矩阵。对称距离矩阵。(2)构造)构造n个类,每个类只包含一个样本点。个类,每个类只包含一个样本点。(3)合并距离最近的两类为一新类。)合并距离
5、最近的两类为一新类。(4)计算新类与当前各类的距离得新的距离距阵。)计算新类与当前各类的距离得新的距离距阵。若类的个数等于若类的个数等于1,转到步骤(,转到步骤(5),),否则回到步骤(否则回到步骤(3)。)。(5)画聚类图。)画聚类图。(6)决定类的个数和各类的样本点)决定类的个数和各类的样本点。本讲稿第二十五页,共四十五页现现在在,我我们们通通过过一一个个简简单单的的数数值值例例子子,来来说说明明各各种种系系统聚类方法。统聚类方法。例例7.1设设有有五五个个样样本本,每每个个只只有有一一个个变变量量,分分别别是是1,2,4.5,6,8,试将其分类。,试将其分类。我我们们首首先先计计算算五五
6、个个样样本本之之间间的的距距离离(用用绝绝对对值值距距离离或或欧欧氏氏距距离离,这这时时两两者者等等价价),用用D表表示示相相应应的的矩矩阵阵(由由于于矩矩阵对称,所以只写出上三角部分):阵对称,所以只写出上三角部分):本讲稿第二十六页,共四十五页开始例中有五类:开始例中有五类:这五类之间的距离等于五个样品之间的距离。这五类之间的距离等于五个样品之间的距离。我们发现我们发现D中最小的元素是中最小的元素是D(1,2)=1,故将,故将G1和和G2并成一并成一新类新类然后计算然后计算G6与与G3,G4,G5的距离。的距离。本讲稿第二十七页,共四十五页G6G3G4G5G6=G1G202.54601.5
7、3.5G402G50G3然后,在上表中发现最小的元素为然后,在上表中发现最小的元素为D(3,4)=1.5,故将,故将G3和和G4合并为合并为G7本讲稿第二十八页,共四十五页再计算得再计算得G7=G3G4G6G7G5G602.5602G50本讲稿第二十九页,共四十五页将将G7与与G5合并为合并为G8,计算得计算得最后,将最后,将G6与与G8合并为合并为G9本讲稿第三十页,共四十五页将上述并类过程画成图将上述并类过程画成图7.1,0121.52.5G1距离图(7.1)聚类图G2G3G4G5G6G7G8G9本讲稿第三十一页,共四十五页最最后后决决定定类类的的个个数数与与类类。从从图图上上看看,分分两
8、两类类较较为为合合适适,得得到到两类为两类为或用样本来表示这两类是或用样本来表示这两类是0121.52.5G1距离图(7.1)聚类图G2G3G4G5G6G7G8G9本讲稿第三十二页,共四十五页或由给定的距离,决定如何分类。或由给定的距离,决定如何分类。例如给定分类距离为例如给定分类距离为2.2,这等价于在图这等价于在图7.1上,距离为上,距离为2.2处切一刀处切一刀,可分为两类可分为两类;若分类距离为若分类距离为1.8,则应分为三类则应分为三类0121.52.5G1距离图(7.1)聚类图G2G3G4G5G6G7G8G9本讲稿第三十三页,共四十五页5.3 动态聚类方法动态聚类方法(K-均值聚类法
9、)均值聚类法)5.3.1基本思想基本思想当当样样本本数数很很多多的的情情况况下下,系系统统聚聚类类方方法法的的计计算算工工作作量量很很大大,克克服服这这个个缺缺点点的的方方法法是是,先先大大致致将将所所有有样样本本分分成成k类类(初初始始分分类类),然然后后按按照照某某种种最最优优原原则则进进行行修修改改,直直到到分分类类比比较较合合理理为为止止,这这就就是是逐逐步步聚聚类类方方法法。根根据据修修改改原原则则的的不不同同,可可以以将将逐逐步步聚聚类类方方法法命命名名为为各各种种不不同同的的方方法法。这这里里介介绍绍最最常常用用的的K-均均值值聚类法聚类法(k-meansclustering)本
10、讲稿第三十四页,共四十五页K均值聚类首先要明确:均值聚类首先要明确:1.确定要分的类数:确定要分的类数:设有设有n个个p维样本点需要分成维样本点需要分成k类类2.初始点的选择原则初始点的选择原则3.修改分类的原则修改分类的原则本讲稿第三十五页,共四十五页5.3.2 K均值聚类步骤均值聚类步骤(i)初步分类。首先人为地选择)初步分类。首先人为地选择k个凝聚点个凝聚点;例如可随机地选择例如可随机地选择m个样本点作为凝聚点。但为了加快个样本点作为凝聚点。但为了加快计算速度,使分类比较合理计算速度,使分类比较合理,凝聚点可按下述原则选择:凝聚点可按下述原则选择:(a)先选择所有样本对中相距最远的两个样
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 2精选文档 精选 文档
限制150内