第六讲聚类分析精选文档.ppt
《第六讲聚类分析精选文档.ppt》由会员分享,可在线阅读,更多相关《第六讲聚类分析精选文档.ppt(113页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第六讲聚类分析本讲稿第一页,共一百一十三页n俗话说“物以类聚,人以群分”。就是聚类分析的道理。n市场营销中市场细分和客户细分问题n学校里有些同学经常会在一起,关系密切;有些同学很少往来,关系疏远。第一节第一节 什么是聚类分析什么是聚类分析本讲稿第二页,共一百一十三页 例例 对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力,空间想象能力和语言理解能力。其得分如下,选择合适的统计方法对应聘者进行归类。应聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424例子例子本讲稿第三页,共一百一
2、十三页聚类分析数据格式聚类分析数据格式k本讲稿第四页,共一百一十三页本讲稿第五页,共一百一十三页例题分析n我们直观地来看,这个归类是否合理?计算4号和6号得分的离差平方和:(21-20)2+(23-23)2+(22-22)2=1 计算1号和2号得分的离差平方和:(28-18)2+(29-23)2+(28-18)2=236n计算1号和3号得分的离差平方和为482,由此可见一般,归类可能是合理的,欧氏距离很大的应聘者没有被聚在一起。n由此,我们的问题是如何来选择样品间相似的测度指标,如何将有相似性的类连接起来?本讲稿第六页,共一百一十三页n基本思想基本思想:根据事物本身的特性研究个体分类的方法;即
3、在没有先验知识的情况下进行的。多元统计分析方法就是对样品或指标进行量化分类的问题,它们讨论的对象是大量的样品,要求能合理地按各自的特性来进行合理的分类,没有任何模式可供参考或依循。n聚类原则聚类原则:同一类中的个体有较大的相似性,不同类中的个体差异很大。n常见方法常见方法:Q型聚类法、R型聚类法、灰色聚类法和模糊聚类法等。聚类分析基本思想及原则聚类分析基本思想及原则本讲稿第七页,共一百一十三页聚类的程序n基本程序基本程序:根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量统计量,然后利用统计量将样品或指标进行归类。如对上市公司的经营业绩进行聚类;又如对企业的经济效
4、益进行评价n由此可知,聚类分析(Cluster Analysis)也是一种分类技术。与多元分析的其他方法相比,该方法较为粗糙,理论上还不完善,但应用方面取得了很大成功。与多元假设检验、回归分析等一起被称为多元分析的三大方法。n聚类分析的步骤:根据已知数据,计算各观察个体或变量之间亲疏关系的统计量。根据某种准则,使同一类内的差别较小,而类与类之间的差别较大,最终将观察个体或变量分为若干类。本讲稿第八页,共一百一十三页 思考:样品点间、样品点和小类之间、小思考:样品点间、样品点和小类之间、小类与小类之间按什么刻画亲疏关系类与小类之间按什么刻画亲疏关系本讲稿第九页,共一百一十三页第二节第二节 “亲疏
5、程度亲疏程度”度量度量一、变量测量尺度的类型一、变量测量尺度的类型二、亲疏程度的测度二、亲疏程度的测度三、样品与小类、小类与小类三、样品与小类、小类与小类 之间之间“亲疏程度亲疏程度”的度量方法的度量方法四、聚类分析的几点说明四、聚类分析的几点说明本讲稿第十页,共一百一十三页n(1)(1)间隔尺度间隔尺度(Scale):用数量来表示,其数值由测量(连续)或计数(离散)、统计得到。n(2)(2)顺序尺度顺序尺度(Ordinal):没有明确的数量表示,只有次序关系,或虽用数量表示,但相邻两数值之间的差距并不相等,它只表示一个有序状态序列。如评价酒的味道,分成好、中、次三等,三等有次序关系,但没有数
6、量表示。n(3)3)名义尺度名义尺度(Nominal):既没有数量表示也没有次序关系,只有一些特性状态。如眼睛的颜色,化学中催化剂的种类等。一、变量测量尺度的类型一、变量测量尺度的类型本讲稿第十一页,共一百一十三页二、亲疏程度的测度二、亲疏程度的测度n亲疏程度:包含个体间的相似程度和个体间的差异程度n亲疏程度测定方法:距离:样品间的聚类,Q型聚类分析。相似系数:变量间的聚类,R型聚类分析。本讲稿第十二页,共一百一十三页 1 1、定义、定义距离距离的准则的准则 距离满足条件:(一)距离(一)距离本讲稿第十三页,共一百一十三页2 2、常用距离的算法、常用距离的算法(数值型变量)(数值型变量)设 和
7、是第i和 j 个样品的观测值,则二者之间的距离为:特别:欧氏距离Euclidean distance(1)(1)闵可夫斯基距离(闵可夫斯基距离(Minkowski)绝对距离(block)本讲稿第十四页,共一百一十三页闵可夫斯基距离缺点闵可夫斯基距离缺点与指标量纲有关未考虑总体变异对“距离”远近的影响。本讲稿第十五页,共一百一十三页(2)马氏距离(广义欧氏距离)n是印度著名统计学家马哈拉诺比斯是印度著名统计学家马哈拉诺比斯(PCMahalanobis)所定义所定义的一种距离。的一种距离。特点:特点:n考虑了观测变量之间的相关性考虑了观测变量之间的相关性。如果各变量间相互独立,即观测变量的协方差矩
8、阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为权数进行加权的欧氏距离。n考虑到了各个观测指标取值的差异程度考虑到了各个观测指标取值的差异程度,不再受各指标量纲的影响。将原始数据做线性变换后,马氏距离不变。n为了对马氏距离和欧氏距离进行一下比较,以便更清楚地看清二者的区别和联系,现考虑一个例子。本讲稿第十六页,共一百一十三页例如,假设有一个二维正态总体,它的分布为:马氏距离的缺点马氏距离的缺点:样品协方差矩阵不变不合理。本讲稿第十七页,共一百一十三页切比雪夫距离:(Chebychev)兰氏距离:兰氏距离:适合于一切变量值大于零的情况。该距离与变量单位无关,对大的异常值不敏感,适
9、用于较大变异的数据,但未考虑变量相关性问题。斜交空间距离可考虑变量间相关性问题本讲稿第十八页,共一百一十三页000 样品点间的距离表样品点间的距离表本讲稿第十九页,共一百一十三页3 3、距离选择的原则距离选择的原则n一般来说,同一批数据采用不同的距离公式,会得到不同的分类结果。产生不同结果的原因,主要是由于不同的距离公式侧重点和实际意义都不相同。因此我们在聚类分析时,应注意距离公式的选择。在选择距离公式时应注意以下原则:n应考虑变量类型应考虑变量类型(不同类型变量计算距离的方法不同)n所选择的亲疏测度指标在实际应用中应有所选择的亲疏测度指标在实际应用中应有明确的意义明确的意义。(欧几里得距离具
10、有明确的空间距离的概念,马氏距离有消除量纲影响的作用)n要综合考虑对要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法样本观测数据的预处理和将要采用的聚类分析方法。(如在进行聚类分析之前已经对变量作了标准化处理,则通常采用欧几里得距离)n适当地考虑适当地考虑研究对象的特点和计算工作量的大小研究对象的特点和计算工作量的大小。(在实际中,聚类分析前不妨试探性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。)本讲稿第二十页,共一百一十三页(二)相似系数(二)相似系数n夹角余弦时从向量集合的角度所定义的一种测度变量之间亲疏程度的相似系数。设在n维空
11、间的向量1、夹角余弦、夹角余弦 2 2、相关系数、相关系数有:有:本讲稿第二十一页,共一百一十三页例如夹角余弦夹角余弦相关系数相关系数本讲稿第二十二页,共一百一十三页 三、个体与小类、小类与小类间三、个体与小类、小类与小类间 “亲疏程度亲疏程度”的度量方法的度量方法1、最短距离(Nearest Neighbor)x21x12x112、最长距离(Furthest Neighbor)x11x21本讲稿第二十三页,共一百一十三页3、组间平均连接(Between-group Linkage)4、组内平均连接法(Within-group Linkage)每一步均考虑了小类内部相似性的变化 克服了最远、最
12、近距离中距离受极端值影响的特点本讲稿第二十四页,共一百一十三页5、重心距离(Centroid clustering)该方法充分利用了所涉及的距离信息,同时将小类的样本数也考虑进来了本讲稿第二十五页,共一百一十三页n是Ward提出的。其原则是:聚类过程中使小类内离差平方和增加最小的两小类首先合并为一类。n步骤:首先各个体自成一类,然后逐步凝聚成小类。随着小类的不断凝聚,类内离差平方和必然不断增大。应选择使类内离差平方和增加最小的两类凝聚,直到所有个体合并成一类为止。6、离差平方和法连接(Wards method)例如:例如:本讲稿第二十六页,共一百一十三页例:5商厦个体间欧氏距离CASEEucl
13、idean distanceABCDEABCDE0.0008.06217.80426.90730.4148.0620.00025.45634.65538.21017.80425.4560.0009.22012.80626.90734.6559.2200.0003.60630.41438.21012.8063.6060.000本讲稿第二十七页,共一百一十三页例题分析nD、E首先聚成一类,A、B、C与该小类n最近邻距离依次为26.907、34.655、9.22n最远距离30.414、38.210、12.806n组间平均连接距离(26.907+30.414)/2、(34.655+38.210)/2、
14、(9.22+12.806)/2n组内平均连接距离(26.907+30.414+3.606)/3、(34.655+38.210+3.606)/3、(9.22+12.806+3.606)/3n重心法:本讲稿第二十八页,共一百一十三页 四、聚类分析的几点说明四、聚类分析的几点说明(1 1)1 1、选择变量、选择变量 (1)根据聚类分析的目的选择聚类变量(聚类是在选变量的基础上对样本数据进行的,分类结果是各变量综合计算的结果)(2)各变量的变量值不应有数量级上的差异(数量级对距离有较大影响,将影响最终聚类结果)(3)变量之间不能高度相关(如变量间有较强的线性相关关系,那么计算距离时同类变量将重复“贡献
15、”,将在距离中有较高的权重,因而使最终的聚类结果偏向该类变量)2 2、计算相似性指标。、计算相似性指标。本讲稿第二十九页,共一百一十三页3 3、聚类、聚类 (1)选择聚类的方法 (2)确定形成的类数 根据分类问题本身的专业知识结合实际需要来选择;用多种分类方法去作,把其中的共性取出来,反映了事物的本质,将有争议的样品暂放在一边;观察样品散点图,从直觉上来判断所采用的聚类方法是否合理。4 4、聚类结果的解释和证实、聚类结果的解释和证实 对聚类结果进行解释是希望对各个类的特征进行准确的描述,给每类起一个合适的名称。这一步可以借助各种描述性统计量进行分析,通常的做法是计算各类在各聚类变量上的均值,对
16、均值进行比较,还可以解释各类别的原因。四、聚类分析的几点说明四、聚类分析的几点说明(2)本讲稿第三十页,共一百一十三页第三节第三节 系统聚类法系统聚类法一、含义:一、含义:又叫层次聚类。聚类过程是又叫层次聚类。聚类过程是按一定层次进行的,有按一定层次进行的,有Q Q型聚类和型聚类和R R型型聚类。聚类。二、聚类步骤二、聚类步骤三、常用的聚类方法三、常用的聚类方法四、系统聚类法的性质四、系统聚类法的性质本讲稿第三十一页,共一百一十三页二、步骤:n1、对数据进行变换处理,消除量纲;n2、构造n个类,每个类只包含一个样品;n3、n个样品两两间的距离dij;n4、合并距离最近的两类为一新类;n5、计算
17、新类与当前各类的距离,重复(4)、(5),直到所有的类合并为一类;n6、画聚类图;n7、决定类的个数和类。本讲稿第三十二页,共一百一十三页 1、根据样品的特征,规定样品之间的距离 ,共有 个。将所有距离列表,记为D D(0)表。2、选择D D(0)表中最小的非零数,不妨假设 ,于是将 和 合并为一类,记为 。本讲稿第三十三页,共一百一十三页3、分别删除D(0)表的第p行和第q列,并新增一行和一列,利用递推公式计算新类与其它类之间的距离。产生D(1)表。4、在D(1)表再选择最小的非零数,其对应的两类又构成新类,分别删除D(1)表的相应的行和列,并新增一行和一列,再利用递推公式计算新类与其它类之
18、间的距离。结果,产生D(2)表。类推直至所有的样本点归为一类为止。本讲稿第三十四页,共一百一十三页例题:下表给出了某地区九个农业区的七项指标表表 某地区九个农业区的七项经济指标数据某地区九个农业区的七项经济指标数据 区代号人均耕地x1(hm2/人)劳均耕地x2(hm2/个)水田比重x3(%)复种指数x4(%)粮食亩产x5(kg/hm2)人均粮食x6(kg/人)稻谷占粮食比重x7(%)G10.2941.0935.63113.64510.51036.412.2G20.3150.9710.3995.12773.5683.70.85G30.1230.3165.28148.56934.5611.16.4
19、9G40.1790.5270.391114458632.60.92G50.0810.21272.04217.812249791.180.38G60.0820.21143.78179.68973636.548.17G70.0750.18165.15194.710689634.380.17G80.2930.6665.3594.93679.5771.77.8G90.1670.4142.994.84231.5574.61.17本讲稿第三十五页,共一百一十三页 表表 极差标准化处理后的数据极差标准化处理后的数据x1x2x3x4X5X6X7G10.911.000.070.150.181.000.14G21
20、.000.870.000.000.000.240.00G30.200.150.070.440.440.080.07G40.440.380.000.130.180.130.00G50.030.031.001.001.000.451.00G60.030.030.610.690.650.130.59G70.000.000.900.810.840.131.00G80.910.530.070.000.100.430.09G90.380.260.040.000.150.000.00它们经过极差标准化处理后,如下表所示。本讲稿第三十六页,共一百一十三页 根据上述数据,计算可得九个农业区之间的绝对值距离矩阵如
21、下本讲稿第三十七页,共一百一十三页 在距离矩阵D中,除对角线元素外,d49=d94=0.51为最小者,故将第4区与第9区并为一类,划去第9行和第4列;在余下的元素中,除对角线元素外,d75=d57=0.83为最小者,故将第5区与第7区并为一类,划掉第7行和第5列;在第二步之后余下的元素之中,除对角线元素外,d82=d28=0.88为最小者,故将第2区与第8区并为一类,划去对应的行和列;在第三步之后余下的元素中,除对角线元素外,d43=d34=1.23为最小者,故将第3区与第4区并为一类,划去对应的行和列,此时,第3、4、9区已归并为一类;用Block距离计算距离,对某地区的九个农业区进行聚类分
22、析,步骤如下:本讲稿第三十八页,共一百一十三页 在第四步之后余下的元素中,除对角线元素外,d21=d12=1.52为最小者,故将第1区与第2区并为一类,划去对应的行和列,此时,第1、2、8区已归并为一类;在第五步之后余下的元素中,除对角线元素外,d65=d56=1.78为最小者,故将第5区与第6区并为一类,划去对应的行和列,此时,第5、6、7区已归并为一类;在第六步之后余下的元素中,除对角线元素外,d31=d13=3.10为最小者,故将第1区与第3区并为一类,划去对应行、列,此时,第1、2、3、4、8、9区已归并为一类;在第七步之后余下的元素中,除去对角线元素外,只有d51=d15=5.86,
23、故将第1区与第5区并为一类,划去对应行、列,此时,第1、2、3、4、5、6、7、8、9、区均归并为一类;本讲稿第三十九页,共一百一十三页G1G2G8G3G4G9G5G7G6根据上述步骤,可以作出聚类过程的谱系图本讲稿第四十页,共一百一十三页n以当前某个样品与已经形成的小类中的各样品距离中的最小值作为当前样品与该小类之间的距离。Gr=Gp,Gq,drl=mindpl,dql。n类Gp与Gq之间的距离定义为两类最近样品的距离,即:三、常用的种类三、常用的种类1、最短距离法(、最短距离法(Nearest Neighbor)假设第p类和第q类合并成第r类,第r类与其它各旧类的距离按最短距离法为:本讲稿
24、第四十一页,共一百一十三页最短距离法的分析步骤n定义样品之间的距离,计算n个样品的距离矩阵D(0),开始每个样品自成一类,显然这时Dijdijn找出D(0)中非对角线最小元素,设为Dpq,将Gp和Gq合并为一个新类,记为Gr,即Gr=Gp,Gq。n按计算公式计算出新类与其它类的距离。n重复以上步骤,直到所有元素并为一类为止。如果某一步最小元素不止一个,则对应这些最小元素的类可以同时合并。本讲稿第四十二页,共一百一十三页例:为了研究以下5省区某年城镇居民生活消费的分布规律,根据调查资料做类型划分省份x1x2x3x4x5x6x7x8辽宁浙江河南甘肃青海 7.90 7.68 9.42 9.16 10
25、.0639.7750.3727.9327.9828.64 8.49 11.35 8.20 9.0110.5212.9413.30 8.14 9.3210.0519.2719.2516.1715.9916.1811.0514.59 9.42 9.10 8.392.042.751.551.821.9613.2914.87 9.7611.3510.81本讲稿第四十三页,共一百一十三页d12=(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94-13.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第六 聚类分析 精选 文档
限制150内