第五章聚类分析优秀PPT.ppt
《第五章聚类分析优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第五章聚类分析优秀PPT.ppt(84页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第五章第五章 聚类分析聚类分析cluster analysis概述概述距离与相像系数距离与相像系数系统聚类法系统聚类法(hierarchical clustering)快速聚类法快速聚类法(k-means clustering)变量聚类变量聚类聚类分析是多元分析的聚类分析是多元分析的主要方法之一,主要用主要方法之一,主要用来对大量的样品或变量来对大量的样品或变量进行分类,是初步数据进行分类,是初步数据分析的重要工具之一。分析的重要工具之一。一、概述一、概述聚类的实质聚类的实质依据样本(变量)间的亲疏关系将样本(变量)依据样本(变量)间的亲疏关系将样本(变量)分为类,相近的归为一类,差别较大的归
2、为另分为类,相近的归为一类,差别较大的归为另一类。所获得的分类应有确定的意义。一类。所获得的分类应有确定的意义。聚类分析的关键聚类分析的关键亲疏关系的判别:相像性与距离(不相像性)亲疏关系的判别:相像性与距离(不相像性)分类数的确定:分多少类合适分类数的确定:分多少类合适聚类分析的应用不同地区城镇居民收入和消费状况的分类探讨。区域经济及社会发展水平的分析及全国区域经济综合评价产品市场细分:依据消费者的需求特征分成不同的细分市场在儿童生长发育探讨中,把以形态学为主的指标归于一类,以机能为主的指标归于另一类聚类分析的类型依据分类的对象Q型聚类(即样本聚类clustering for individ
3、uals)R型聚类(变量聚类clustering for variables)依据分类的方法:系统聚类(hierarchical clustering)快速聚类(k-means clustering)模糊聚类聚类分析数据格式k二、距离与相像系数二、距离与相像系数样本间的亲疏关系通常用距离描述,变样本间的亲疏关系通常用距离描述,变量间的亲疏关系通常用相像系数或相关量间的亲疏关系通常用相像系数或相关系数描述系数描述不同测量尺度的数据,其距离的计算方不同测量尺度的数据,其距离的计算方法不同法不同(一)、距离:样本间的亲疏关系(一)、距离:样本间的亲疏关系距离的定义:假设每个样品由p个变量描述,则每个
4、样品都可以看成p维空间中的一个点,n个样品就是p维空间中的n个点,则第i样品与第j样品之间的距离记为dijdij满足下列条件 dij0 dii=0 dij=dji dij dik+dkj1.欧式(欧式(Euclidian)距离)距离x1x2x12x22x11x21x21-x11x22-x122.明氏(明氏(Minkowski)距离)距离q=1q=2q=当q=1,为绝对值距离绝对值距离,SPSS称为block当q=2,即为欧式距离当q=,有 ,称为切比雪夫(Chebychev)距离实例计算实例计算品距离矩阵确定值距离确定值距离品Euclidian距离的平方距离的平方2Euclidian距离距离明
5、氏距离的缺点明氏距离的缺点各指标同等对待(权数相同),不能反各指标同等对待(权数相同),不能反映各指标变异程度上的差异映各指标变异程度上的差异距离的大小与各指标的观测单位有关,距离的大小与各指标的观测单位有关,有时会出现不合理结果有时会出现不合理结果没有考虑指标之间的相关性没有考虑指标之间的相关性当各指标的测量值相差悬殊时,可以先当各指标的测量值相差悬殊时,可以先对数据标准化,然后用标准化后的数据对数据标准化,然后用标准化后的数据计算距离计算距离3.马氏马氏(Mahalanobis)距离距离明氏距离没有考虑数据中的协方差模式,马氏距离则考虑了协方差,且不受指标测量单位的影响:已已知二维正态总体
6、知二维正态总体G的分布为:的分布为:GN(,),其其中中分别求点分别求点A=(1,1),和点和点B=(1,-1)到均值到均值 的欧式距离和马氏距离的欧式距离和马氏距离 欧式等距离线欧式等距离线欧式等距离线欧式等距离线马氏等距离线马氏等距离线马氏等距离线马氏等距离线Mahalanobis 距离例距离例AB欧氏距离、标准化变量的欧式距欧氏距离、标准化变量的欧式距离与马氏距离的比较离与马氏距离的比较4.Lance和和Williams 距离距离对标准化变量:对标准化变量:5.协作距离协作距离前几类距离多用于定距和定比尺度数据,对于定类和定序变量:协作距离例协作距离例4种品牌的软饮料在种品牌的软饮料在4
7、个方面的特性:是否可乐口味?是个方面的特性:是否可乐口味?是否含有咖啡因?是否节食饮料?是否可口可乐公司产?否含有咖啡因?是否节食饮料?是否可口可乐公司产?可乐味可乐味 咖啡因咖啡因 节食节食可口可乐可口可乐Coke1101Pepsi1100Diet Coke1111Caffeine-free Diet Coke1011距离矩阵距离矩阵1.夹角余弦(夹角余弦(Cosine)(二)相像系数:变量间的亲疏关系(二)相像系数:变量间的亲疏关系受相像形的启发而来,受相像形的启发而来,AB和和CD尽管尽管长度不一,但形态相像长度不一,但形态相像ABDC2.Pearson相关系数相关系数(二)相像系数(二
8、)相像系数SPSS的的“分析分析”“相关相关”“距离距离”Measures对话框对话框定距尺度定距尺度定序尺度定序尺度定类尺度定类尺度三、系统聚类法三、系统聚类法聚合法聚合法分解法分解法通常分为两步:先做出类别通常分为两步:先做出类别距离谱系图,再依据谱系图距离谱系图,再依据谱系图的特点确定分类数并分类的特点确定分类数并分类Agglomerative系统聚类法基本步骤系统聚类法基本步骤步骤步骤步骤步骤1 1:将:将:将:将n n个样品各作为一类,共个样品各作为一类,共个样品各作为一类,共个样品各作为一类,共n n类:类:类:类:C1C1、C2 C2、Cn Cn。计算各类之间的距离,构成距离矩阵
9、:。计算各类之间的距离,构成距离矩阵:。计算各类之间的距离,构成距离矩阵:。计算各类之间的距离,构成距离矩阵:dcicj=dijdcicj=dij步骤步骤步骤步骤2 2:找到距离最近的两类合并为一新类:找到距离最近的两类合并为一新类:找到距离最近的两类合并为一新类:找到距离最近的两类合并为一新类步骤步骤步骤步骤3 3:计算新类与当前各类的距离。:计算新类与当前各类的距离。:计算新类与当前各类的距离。:计算新类与当前各类的距离。重复步骤重复步骤重复步骤重复步骤2 2、3 3,直至合并成一类为止,形成谱系图,直至合并成一类为止,形成谱系图,直至合并成一类为止,形成谱系图,直至合并成一类为止,形成谱
10、系图依据谱系图确定如何分类依据谱系图确定如何分类依据谱系图确定如何分类依据谱系图确定如何分类单样本类,类与类之间的距离为样品距离单样本类,类与类之间的距离为样品距离类间距离类间距离类与类间距离类与类间距离 类与类之间的距离类与类之间的距离 1.1.最短距离法最短距离法(single linkage)(single linkage)2.2.最长距离法最长距离法(complete linkage)(complete linkage)3.3.中位数法中位数法(median method)(median method)4.4.类平均法类平均法(average linkage)(average link
11、age)5.5.可变类平均法可变类平均法(flexible-beta method)(flexible-beta method)6.6.质心法质心法(centroid method)(centroid method)7.Ward7.Ward离差平方和法离差平方和法(Wards minimum-(Wards minimum-variance method)variance method)Agglomerative Methods:各种不同方法的基本步骤相同,:各种不同方法的基本步骤相同,只是类与类之间距离的计算方法不同。只是类与类之间距离的计算方法不同。(一)(一)最短距离法最短距离法类与类之间
12、的距离是两类间两两样品间的最短距离6个民族的粗死亡率与期望寿命哈萨克与藏族的距离最短,最先合并形成新类CL7新类CL7和其余四类的距离其次次合并新类和各类的距离新类和各类的距离第三次合并第四次合并最终合并成一类谱系图不显示实际距离,显示0-25的比例距离树状图冰柱图冰柱图12345融合在一起的为一类(二)最长距离法(二)最长距离法类与类之间的距离是两类间两两样品间的最长距离前例:最长距离法第1次合并仍取最短欧式距离新类和各类的距离:取最大值第2次合并新类和各类的距离:取最大值第3次合并第4次合并最终合并例题例题5个品牌饮料的热量、咖啡因、钠含量及价格的个品牌饮料的热量、咖啡因、钠含量及价格的距
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第五 聚类分析 优秀 PPT
限制150内