第六讲-聚类分析优秀PPT.ppt
《第六讲-聚类分析优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第六讲-聚类分析优秀PPT.ppt(112页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、n俗话说“物以类聚,人以群分”。就是聚类分析的道理。n市场营销中市场细分和客户细分问题n学校里有些同学常常会在一起,关系亲密;有些同学很少往来,关系疏远。第一节第一节 什么是聚类分析什么是聚类分析 例例 对对10位应聘者做智能检验。位应聘者做智能检验。3项指标项指标X,Y和和Z分别表示数学推理实力,空间想象分别表示数学推理实力,空间想象实力和语言理解实力。其得分如下,选择合实力和语言理解实力。其得分如下,选择合适的统计方法对应聘者进行归类。适的统计方法对应聘者进行归类。例子例子聚类分析数据格式聚类分析数据格式k例题分析n我们直观地来看,这个归类是否合理?n 计算4号和6号得分的离差平方和:n
2、(21-20)2+(23-23)2+(22-22)2=1n 计算1号和2号得分的离差平方和:n (28-18)2+(29-23)2+(28-18)2=236n计算1号和3号得分的离差平方和为482,由此可见一般,归类可能是合理的,欧氏距离很大的应聘者没有被聚在一起。n由此,我们的问题是如何来选择样品间相像的测度指标,如何将有相像性的类连接起来?n基本思想:依据事物本身的特性探讨个体分基本思想:依据事物本身的特性探讨个体分类的方法;即在没有先验学问的状况下进行类的方法;即在没有先验学问的状况下进行的。多元统计分析方法就是对样品或指标进的。多元统计分析方法就是对样品或指标进行量化分类的问题,它们探
3、讨的对象是大量行量化分类的问题,它们探讨的对象是大量的样品,要求能合理地按各自的特性来进行的样品,要求能合理地按各自的特性来进行合理的分类,没有任何模式可供参考或依循。合理的分类,没有任何模式可供参考或依循。n聚类原则:同一类中的个体有较大的相像性,聚类原则:同一类中的个体有较大的相像性,不同类中的个体差异很大。不同类中的个体差异很大。n常见方法:常见方法:Q型聚类法、型聚类法、R型聚类法、灰色聚型聚类法、灰色聚类法和模糊聚类法等。类法和模糊聚类法等。聚类分析基本思想及原则聚类分析基本思想及原则聚类的程序n基本程序:依据一批样品的多个观测指标,具体地找出一基本程序:依据一批样品的多个观测指标,
4、具体地找出一些能够度量样品或指标之间相像程度的统计量,然后利用些能够度量样品或指标之间相像程度的统计量,然后利用统计量将样品或指标进行归类。统计量将样品或指标进行归类。n 如对上市公司的经营业绩进行聚类;又如对企业的经如对上市公司的经营业绩进行聚类;又如对企业的经济效益进行评价济效益进行评价n由此可知,聚类分析(由此可知,聚类分析(Cluster Analysis)Cluster Analysis)也是一种分类技也是一种分类技术。与多元分析的其他方法相比,该方法较为粗糙,理论术。与多元分析的其他方法相比,该方法较为粗糙,理论上还不完善,但应用方面取得了很大成功。与多元假设检上还不完善,但应用方
5、面取得了很大成功。与多元假设检验、回来分析等一起被称为多元分析的三大方法。验、回来分析等一起被称为多元分析的三大方法。n聚类分析的步骤:依据已知数据,计算各视察个体或变量聚类分析的步骤:依据已知数据,计算各视察个体或变量之间亲疏关系的统计量。依据某种准则,使同一类内的差之间亲疏关系的统计量。依据某种准则,使同一类内的差别较小,而类与类之间的差别较大,最终将视察个体或变别较小,而类与类之间的差别较大,最终将视察个体或变量分为若干类。量分为若干类。思索:样品点间、样品点和小类之间、小类与小类之间按什么刻画亲疏关系其次节其次节 “亲疏程度亲疏程度”度量度量一、变量测量尺度的类型一、变量测量尺度的类型
6、二、亲疏程度的测度二、亲疏程度的测度三、样品与小类、小类与小类三、样品与小类、小类与小类 之间之间“亲疏程度亲疏程度”的度量方法的度量方法四、聚类分析的几点说明四、聚类分析的几点说明n(1)(1)间隔尺度间隔尺度(Scale)(Scale):用数量来表示,其数:用数量来表示,其数值由测量(连续)或计数(离散)、统计得值由测量(连续)或计数(离散)、统计得到。到。n(2)(2)依次尺度依次尺度(Ordinal)(Ordinal):没有明确的数量表:没有明确的数量表示,只有次序关系,或虽用数量表示,但相示,只有次序关系,或虽用数量表示,但相邻两数值之间的差距并不相等,它只表示一邻两数值之间的差距并
7、不相等,它只表示一个有序状态序列。如评价酒的味道,分成好、个有序状态序列。如评价酒的味道,分成好、中、次三等,三等有次序关系,但没有数量中、次三等,三等有次序关系,但没有数量表示。表示。n(3)3)名义尺度名义尺度(Nominal)(Nominal):既没有数量表示也:既没有数量表示也没有次序关系,只有一些特性状态。如眼睛没有次序关系,只有一些特性状态。如眼睛的颜色,化学中催化剂的种类等。的颜色,化学中催化剂的种类等。一、变量测量尺度的类型一、变量测量尺度的类型二、亲疏程度的测度二、亲疏程度的测度n亲疏程度:包含个体间的相像程度和个体间的差异程度n亲疏程度测定方法:n 距离:样品间的聚类,Q型
8、聚类分析。n 相像系数:变量间的聚类,R型聚类分析。1 1、定义、定义距离距离的准则的准则 距离满足条件:(一)距离(一)距离2 2、常用距离的算法、常用距离的算法(数值型变量)(数值型变量)设 和是第i和 j 个样品的观测值,则二者之间的距离为:特殊:欧氏距离Euclidean distance(1)(1)闵可夫斯基距离(闵可夫斯基距离(Minkowski)确定距离(block)闵可夫斯基距离缺点闵可夫斯基距离缺点与指标量纲有关未考虑总体变异对“距离”远近的影响。(2)马氏距离(广义欧氏距离)n是印度著名统计学家马哈拉诺比斯是印度著名统计学家马哈拉诺比斯(P(PC CMahalanobis)
9、Mahalanobis)所定义的一种距离。所定义的一种距离。n特点:特点:n考虑了观测变量之间的相关性。假如各变量间相互独立,考虑了观测变量之间的相关性。假如各变量间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为权数进行加权化为用各个观测指标的标准差的倒数作为权数进行加权的欧氏距离。的欧氏距离。n考虑到了各个观测指标取值的差异程度,不再受各指标考虑到了各个观测指标取值的差异程度,不再受各指标量纲的影响。将原始数据做线性变换后,马氏距离不变。量纲的影响。将原始数据做线性变换后,马氏距离不变。n为了对马
10、氏距离和欧氏距离进行一下比较,以便更清晰为了对马氏距离和欧氏距离进行一下比较,以便更清晰地看清二者的区分和联系,现考虑一个例子。地看清二者的区分和联系,现考虑一个例子。例如,假设有一个二维正态总体,它的分布为:马氏距离的缺点马氏距离的缺点:样品协方差矩阵不变不合理。切比雪夫距离:(Chebychev)兰氏距离:兰氏距离:适合于一切变量值大于零的状况。该距离与变量单位无关,对大的异样值不敏感,适用于较大变异的数据,但未考虑变量相关性问题。斜交空间距离可考虑变量间相关性问题 样品点间的距离表样品点间的距离表3 3、距离选择的原则距离选择的原则n一般来说,同一批数据接受不同的距离公式,会得到不同的分
11、类结果。产生不同结果的缘由,主要是由于不同的距离公式侧重点和实际意义都不相同。因此我们在聚类分析时,应留意距离公式的选择。在选择距离公式时应留意以下原则:n应考虑变量类型(不同类型变量计算距离的方法不同)n所选择的亲疏测度指标在实际应用中应有明确的意义。(欧几里得距离具有明确的空间距离的概念,马氏距离有消退量纲影响的作用)n要综合考虑对样本观测数据的预处理和将要接受的聚类分析方法。(如在进行聚类分析之前已经对变量作了标准化处理,则通常接受欧几里得距离)n适当地考虑探讨对象的特点和计算工作量的大小。(在实际中,聚类分析前不妨摸爽性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析
12、,以确定最合适的距离测度方法。)(二)相像系数(二)相像系数n夹角余弦时从向量集合的角度所定义的一种测度变量之间亲疏程度的相像系数。设在n维空间的向量1、夹角余弦、夹角余弦 2 2、相关系数、相关系数有:有:例如夹角余弦夹角余弦相关系数相关系数 三、个体与小类、小类与小类间三、个体与小类、小类与小类间 “亲疏程度亲疏程度”的度量方法的度量方法1、最短距离(Nearest Neighbor)x21x12x112、最长距离(Furthest Neighbor)x11x213、组间平均连接(Between-group Linkage)4、组内平均连接法(Within-group Linkage)每一
13、步均考虑了小类内部相像性的变更 克服了最远、最近距离中距离受极端值影响的特点5、重心距离(Centroid clustering)该方法充分利用了所涉及的距离信息,同时将小类的样本数也考虑进来了n是Ward提出的。其原则是:聚类过程中使小类内离差平方和增加最小的两小类首先合并为一类。n步骤:首先各个体自成一类,然后逐步凝合成小类。随着小类的不断凝合,类内离差平方和必定不断增大。应选择使类内离差平方和增加最小的两类凝合,直到全部个体合并成一类为止。6、离差平方和法连接(Wards method)例如:例如:例:5商厦个体间欧氏距离例题分析nD、E首先聚成一类,A、B、C与该小类n最近邻距离依次为
14、26.907、34.655、9.22n最远距离30.414、38.210、12.806n组间平均连接距离(26.907+30.414)/2、(34.655+38.210)/2、(9.22+12.806)/2n组内平均连接距离(26.907+30.414+3.606)/3、(34.655+38.210+3.606)/3、(9.22+12.806+3.606)/3n重心法:四、聚类分析的几点说明四、聚类分析的几点说明(1 1)1 1、选择变量、选择变量 (1 1)依据聚类分析的目的选择聚类变量(聚类)依据聚类分析的目的选择聚类变量(聚类是在选变量的基础上对样本数据进行的,分类结是在选变量的基础上对
15、样本数据进行的,分类结果是各变量综合计算的结果)果是各变量综合计算的结果)(2 2)各变量的变量值不应有数量级上的差异)各变量的变量值不应有数量级上的差异(数量级对距离有较大影响,将影响最终聚类结(数量级对距离有较大影响,将影响最终聚类结果)果)(3 3)变量之间不能高度相关(如变量间有较强)变量之间不能高度相关(如变量间有较强的线性相关关系,那么计算距离时同类变量将重的线性相关关系,那么计算距离时同类变量将重复复“贡献贡献”,将在距离中有较高的权重,因而使,将在距离中有较高的权重,因而使最终的聚类结果偏向该类变量)最终的聚类结果偏向该类变量)2 2、计算相像性指标。、计算相像性指标。3 3、
16、聚类、聚类 (1 1)选择聚类的方法)选择聚类的方法 (2 2)确定形成的类数)确定形成的类数 依据分类问题本依据分类问题本身的专业学问结合实际须要来选择;身的专业学问结合实际须要来选择;用多种分用多种分类方法去作,把其中的共性取出来,反映了事物类方法去作,把其中的共性取出来,反映了事物的本质,将有争议的样品暂放在一边;的本质,将有争议的样品暂放在一边;视察样视察样品散点图,从直觉上来推断所接受的聚类方法是品散点图,从直觉上来推断所接受的聚类方法是否合理。否合理。4 4、聚类结果的说明和证明、聚类结果的说明和证明 对聚类结果进行说明是希望对各个类的特对聚类结果进行说明是希望对各个类的特征进行精
17、确的描述,给每类起一个合适的名称。征进行精确的描述,给每类起一个合适的名称。这一步可以借助各种描述性统计量进行分析,通这一步可以借助各种描述性统计量进行分析,通常的做法是计算各类在各聚类变量上的均值,对常的做法是计算各类在各聚类变量上的均值,对均值进行比较,还可以说明各类别的缘由。均值进行比较,还可以说明各类别的缘由。四、聚类分析的几点说明四、聚类分析的几点说明(2)第三节第三节 系统聚类法系统聚类法一、含义:又叫层次聚类。聚类过程是一、含义:又叫层次聚类。聚类过程是按确定层次进行的,有按确定层次进行的,有Q Q型聚类和型聚类和R R型型聚类。聚类。二、聚类步骤二、聚类步骤三、常用的聚类方法三
18、、常用的聚类方法四、系统聚类法的性质四、系统聚类法的性质二、步骤:n1、对数据进行变换处理,消退量纲;n2、构造n个类,每个类只包含一个样品;n3、n个样品两两间的距离dij;n4、合并距离最近的两类为一新类;n5、计算新类与当前各类的距离,重复(4)、(5),直到全部的类合并为一类;n6、画聚类图;n7、确定类的个数和类。1、依据样品的特征,规定样品之间的距离 ,共有 个。将全部距离列表,记为D(0)表。2、选择D D(0)表中最小的非零数,不妨假设 ,于是将 和 合并为一类,记为 。3、分别删除D(0)表的第p行和第q列,并新增一行和一列,利用递推公式计算新类与其它类之间的距离。产生D(1
19、)表。4、在D(1)表再选择最小的非零数,其对应的两类又构成新类,分别删除D(1)表的相应的行和列,并新增一行和一列,再利用递推公式计算新类与其它类之间的距离。结果,产生D(2)表。类推直至全部的样本点归为一类为止。例题:下表给出了某地区九个农业区的七项指标表表 某地区九个农业区的七项经济指标数据某地区九个农业区的七项经济指标数据 表表 极差标准化处理后的数据极差标准化处理后的数据它们经过极差标准化处理后,如下表所示。依据上述数据,计算可得九个农业区之间的确定值距离矩阵如下 在距离矩阵在距离矩阵D中,除对角线元素外,中,除对角线元素外,d49=d94=0.51为最为最小者,故将第小者,故将第4
20、区与第区与第9区并为一类,划去第区并为一类,划去第9行和第行和第4列;列;在余下的元素中,除对角线元素外,在余下的元素中,除对角线元素外,d75=d57=0.83为最为最小者,故将第小者,故将第5区与第区与第7区并为一类,划掉第区并为一类,划掉第7行和第行和第5列;列;在其次步之后余下的元素之中,除对角线元素外,在其次步之后余下的元素之中,除对角线元素外,d82=d28=0.88为最小者,故将第为最小者,故将第2区与第区与第8区并为一类,划去区并为一类,划去对应的行和列;对应的行和列;在第三步之后余下的元素中,除对角线元素外,在第三步之后余下的元素中,除对角线元素外,d43=d34=1.23为
21、最小者,故将第为最小者,故将第3区与第区与第4区并为一类,划去区并为一类,划去对应的行和列,此时,第对应的行和列,此时,第3、4、9区已归并为一类;区已归并为一类;用Block距离计算距离,对某地区的九个农业区进行聚类分析,步骤如下:在第四步之后余下的元素中,除对角线元素外,d21=d12=1.52为最小者,故将第1区与第2区并为一类,划去对应的行和列,此时,第1、2、8区已归并为一类;在第五步之后余下的元素中,除对角线元素外,d65=d56=1.78为最小者,故将第5区与第6区并为一类,划去对应的行和列,此时,第5、6、7区已归并为一类;在第六步之后余下的元素中,除对角线元素外,d31=d1
22、3=3.10为最小者,故将第1区与第3区并为一类,划去对应行、列,此时,第1、2、3、4、8、9区已归并为一类;在第七步之后余下的元素中,除去对角线元素外,只有d51=d15=5.86,故将第1区与第5区并为一类,划去对应行、列,此时,第1、2、3、4、5、6、7、8、9、区均归并为一类;G1G2G8G3G4G9G5G7G6依据上述步骤,可以作出聚类过程的谱系图n以当前某个样品与已经形成的小类中的各样品距离中的最小值作为当前样品与该小类之间的距离。Gr=Gp,Gq,drl=mindpl,dql。n类Gp与Gq之间的距离定义为两类最近样品的距离,即:三、常用的种类三、常用的种类1、最短距离法(、
23、最短距离法(Nearest Neighbor)假设第p类和第q类合并成第r类,第r类与其它各旧类的距离按最短距离法为:最短距离法的分析步骤n定义样品之间的距离,计算n个样品的距离矩阵D(0),起先每个样品自成一类,明显这时Dijdijn找出D(0)中非对角线最小元素,设为Dpq,将Gp和Gq合并为一个新类,记为Gr,即Gr=Gp,Gq。n按计算公式计算出新类与其它类的距离。n重复以上步骤,直到全部元素并为一类为止。n 假如某一步最小元素不止一个,则对应这些最小元素的类可以同时合并。例:为了探讨以下5省区某年城镇居民生活消费的分布规律,依据调查资料做类型划分d12=(7.9-7.68)2+(39
24、.77-50.37)2+(8.49-11.35)2+(12.94-13.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)21/2=11.67 d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d35=3.51 d45=2.21 1 2 3 4 5D1=1 0 2 11.67 0 3 13.80 24.63 0 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0河南与甘肃的距离最近,先将二者(3和4
25、)合为一类G6=G3,G4G1=辽宁,G2=浙江,G3=河南,G4=甘肃,G5=青海d61=d(3,4)1=mind13,d14=13.12 d62=d(3,4)2=mind23,d24=24.06d65=d(3,4)5=mind35,d45=2.21 6 1 2 5 6 0D2=1 13.12 0 2 24.06 11.67 0 5 2.21 12.80 23.54 0d71=d(3,4,5)1=mind13,d14,d15=12.80d72=d(3,4,5)2=mind23,d24,d25=23.54 7 1 2D3=7 0 1 12.80 0 2 23.54 11.67 0河南、甘肃与青
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第六 聚类分析 优秀 PPT
限制150内