书签分享收藏举报版权申诉 / 203

立即下载

当前位置：首页 > 应用文书 > 财经金融 > 第3章聚类分析.ppt

第3章聚类分析.ppt

上传人：qwe****56

文档编号：69510608

上传时间：2023-01-05

格式：PPT

页数：203

大小：4.02MB

( 4.5 )

《第3章聚类分析.ppt》由会员分享，可在线阅读，更多相关《第3章聚类分析.ppt（203页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、聚类分析1v系统聚类分析直观，易懂。v快速聚类快速，动态。v有序聚类保序(时间顺序或大小顺序)。2 例例对10位应聘者做智能检验。3项指标X，Y和Z分别表示数学推理能力，空间想象能力和语言理解能力。其得分如下，选择合适的统计方法对应聘者进行分类。应聘者12345678910X28181121262016142422Y29232223292322232927Z281816222622222424241 什么是聚类分析什么是聚类分析345 我们直观地来看，这个分类是否合理？计算4号和6号得分的离差平方和：(21-20)2+(23-23)2+(22-22)2=1 计算1号和2号得分的离差平方

2、和：(28-18)2+(29-23)2+(28-18)2=236 计算1号和3号得分的离差平方和为482，由此可见一般，分类可能是合理的，欧氏距离很大的应聘者没有被聚在一起。由此，我们的问题是如何来选择样品间相似的测度指标，如何将有相似性的类连接起来？6 聚类分析根据一批样品的许多观测指标，按照一定的数学公式具体地计算一些样品或一些参数(指标)的相似程度，把相似的样品或指标归为一类，把不相似的归为一类。例如对上市公司的经营业绩进行分类；据经济信息和市场行情，客观地对不同商品、不同用户及时地进行分类。又例如当我们对企业的经济效益进行评价时，建立了一个由多个指标组成的指标体系，由于信息的重叠，一些

3、指标之间存在很强的相关性，所以需要将相似的指标聚为一类，从而达到简化指标体系的目的。7 思考：样本点之间按什么刻画相似程度思考：样本点之间按什么刻画相似程度思考：样本点和小类之间按什么刻画相似程思考：样本点和小类之间按什么刻画相似程度度思考：小类与小类之间按什么来刻画相似程思考：小类与小类之间按什么来刻画相似程度度8 一、变量测量尺度的类型一、变量测量尺度的类型为了将样本进行分类，就需要研究样品之间的关系；而为了将变量进行分类，就需要研究变量之间的关系。但无论是样品之间的关系，还是变量之间的关系，都是用变量来描述的，变量的类型不同，描述方法也就不同。通常，变量按照测量它们的尺度不同，可以

4、分为三类。(1)(1)间间隔隔尺尺度度。指标度量时用数量来表示，其数值由测量或计数、统计得到，如长度、重量、收入、支出等。一般来说，计数得到的数量是离散数量，测量得到的数量是连续数量。在间隔尺度中如果存在绝对零点，又称比例尺度。2 相似系数和距离相似系数和距离9 (2)(2)顺顺序序尺尺度度。指标度量时没有明确的数量表示，只有次序关系，或虽用数量表示，但相邻两数值之间的差距并不相等，它只表示一个有序状态序列。如评价酒的味道，分成好、中、次三等，三等有次序关系，但没有数量表示。(3)(3)名名义义尺尺度度。指标度量时既没有数量表示也没有次序关系，只有一些特性状态，如眼睛的颜色，化学中催化剂的种类

5、等。在名义尺度中只取两种特性状态的变量是很重要的，如电路的开和关，天气的有雨和无雨，人口性别的男和女，医疗诊断中的“十”和“一”，市场交易中的买和卖等都是此类变量。10 二、数据的变换处理二、数据的变换处理所谓数据变换，就是将原始数据矩阵中的每个元素，按照某种特定的运算把它变成为一个新值，而且数值的变化不依赖于原始数据集合中其它数据的新值。1 1、中心化变换、中心化变换中心化变换是一种坐标轴平移处理方法，它是先求出每个变量的样本平均值，再从原始数据中减去该变量的均值，就得到中心化变换后的数据。设原始观测数据矩阵为：11中心化变换的结果是使每列数据之和均为0，即每个变量的均值为0，而且每列数

6、据的平方和是该列变量样本方差的(n1)倍，任何不同两列数据之交叉乘积是这两列变量样本协方差的(n1)倍，所以这是一种很方便地计算方差与协方差的变换。12 2 2、极差规格化变换、极差规格化变换规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值，这两者之差称为极差，然后从每个变量的每个原始数据中减去该变量中的最小值，再除以极差，就得到规格化数据。即有：13 经过规格化变换后，数据矩阵中每列即每个变量的最大数值为1，最小数值为0，其余数据取值均在01之间；并且变换后的数据都不再具有量纲，便于不同的变量之间的比较。3 3、标准化变换、标准化变换标准化变换也是对变量的数值和量纲进行类似于规格

7、化变换的一种数据处理方法。首先对每个变量进行中心化变换，然后用该变量的标准差进行标准化。即有：14 经过标准化变换处理后，每个变量即数据矩阵中每列数据的平均值为0，方差为1，且也不再具有量纲，同样也便于不同变量之间的比较。变换后，数据短阵中任何两列数据乘积之和是两个变量相关系数的（n1）倍，所以这是一种很方便地计算相关矩阵的变换。4 4对数变换对数变换对数变换是将各个原始数据取对数，将原始数据的对数值作为变换后的新值。即：15 三、样品间亲疏程度的测度三、样品间亲疏程度的测度研究样品或变量的亲疏程度的数量指标有两种，一种叫相相似似系系数数，性质越接近的变量或样品，它们的相似系数越接近于1或

8、一l，而彼此无关的变量或样品它们的相似系数则越接近于0，相似的为一类，不相似的为不同类；另一种叫距距离离，它是将每一个样品看作p维空间的一个点，并用某种度量测量点与点之间的距离，距离较近的归为一类，距离较远的点应属于不同的类。16 变量之间的聚类即R型聚类分析，常用相似系数来测度变量之间的亲疏程度。而样品之间的聚类即Q型聚类分析，则常用距离来测度样品之间的亲疏程度。注:变量聚类放到因子分析后面171、定义距离的准则、定义距离的准则定义距离要求满足第i个和第j个样品之间的距离如下四个条件（距离可以自己定义，只要满足距离的条件）距离可以自己定义，只要满足距离的条件）182 2、常用距离的算法、常

9、用距离的算法设和是第i和 j 个样品的观测值，则二者之间的距离为：明氏距离特别，欧氏距离(1)明氏距离测度19明考夫斯基距离主要有以下两个缺点：明氏距离的值与各指标的量纲有关，而各指标计量单位的选择有一定的人为性和随意性，各变量计量单位的不同不仅使此距离的实际意义难以说清，而且，任何一个变量计量单位的改变都会使此距离的数值改变从而使该距离的数值依赖于各变量计量单位的选择。明氏距离的定义没有考虑各个变量之间的相关性和重要性。实际上，明考夫斯基距离是把各个变量都同等看待，将两个样品在各个变量上的离差简单地进行了综合。20(2)杰氏距离这是杰斐瑞和马突斯塔(Jffreys&Matusita)所定义

10、的一种距离，其计算公式为：21(3)兰氏距离这是兰思和维廉姆斯(Lance&Williams)所给定的一种距离，其计算公式为：这是一个自身标准化的量，由于它对大的奇异值不敏感，这样使得它特别适合于高度偏倚的数据。虽然这个距离有助于克服明氏距离的第一个缺点，但它也没有考虑指标之间的相关性。22(4)马氏距离这是印度著名统计学家马哈拉诺比斯(PCMahalanobis)所定义的一种距离，其计算公式为：分别表示第i个样品和第j样品的p指标观测值所组成的列向量，即样本数据矩阵中第i个和第j个行向量的转置，表示观测变量之间的协方差短阵。在实践应用中，若总体协方差矩阵未知，则可用样本协方差矩阵作为估计代

11、替计算。23 马氏距离又称为广义欧氏距离。显然，马氏距离与上述各种距离的主要不同就是马氏距离考虑了观测变量之间的相关性。如果假定各变量之间相互独立，即观测变量的协方差矩阵是对角矩阵，则马氏距离就退化为用各个观测指标的标准差的倒数作为权数进行加权的欧氏距离。因此，马氏距离不仅考虑了观测变量之间的相关性，而且也考虑到了各个观测指标取值的差异程度，为了对马氏距离和欧氏距离进行一下比较，以便更清楚地看清二者的区别和联系，现考虑一个例子。24例如，假设有一个二维正态总体，它的分布为：25 (5)斜交空间距离由于各变量之间往往存在着不同的相关关系，用正交空间的距离来计算样本间的距离易变形，所以可以采用斜

12、交空间距离。当各变量之间不相关时，斜交空间退化为欧氏距离。26 2、相似系数的算法（1）相似系数设和是第和个样品的观测值，则二者之间的相似测度为:其中27 （2）夹角余弦夹角余弦时从向量集合的角度所定义的一种测度变量之间亲疏程度的相似系数。设在n维空间的向量 28 五、距离和相似系数选择的原则一般说来，同一批数据采用不同的亲疏测度指标，会得到不同的分类结果。产生不同结果的原因，主要是由于不同的亲疏测度指标所衡量的亲疏程度的实际意义不同，也就是说，不同的亲疏测度指标代表了不同意义上的亲疏程度。因此我们在进行聚类分析时，应注意亲疏测度指标的选择。通常，选择亲疏测度指标时，应注意遵循的基本

13、原则主要有：29 (1)所选择的亲疏测度指标在实际应用中应有明确的意义。如在经济变量分析中，常用相关系数表示经济变量之间的亲疏程度。30 (2)亲疏测度指标的选择要综合考虑已对样本观测数据实施了的变换方法和将要采用的聚类分析方法。如在标准化变换之下，夹角余弦实际上就是相关系数；又如若在进行聚类分析之前已经对变量的相关性作了处理，则通常就可采用欧氏距离，而不必选用斜交空间距离。此外，所选择的亲疏测度指标，还须和所选用的聚类分析方法一致。如聚类方法若选用离差平方和法，则距离只能选用欧氏距离。31 (3)适当地考虑计算工作量的大小。如对大样本的聚类问题，不适宜选择斜交空间距离，因采用该距离处理时，

14、计算工作量太大。样品间或变量间亲疏测度指标的选择是一个比较复杂且带主规性的问题，我们应根据研究对象的特点作具体分折，以选择出合适的亲疏测度指标。实践中，在开始进行聚类分析时，不妨试探性地多选择几个亲疏测度指标，分别进行聚类，然后对聚类分析的结果进行对比分析，以确定出合适的亲疏测度指标。32000 至此，我们已经可以根据所选择的距离构成至此，我们已经可以根据所选择的距离构成样本点间的距离表样本点间的距离表,样本点之间被连接起来。样本点之间被连接起来。33 四、样本数据与小类、小类与小类之间的度量四、样本数据与小类、小类与小类之间的度量1、最短距离（Nearest Neighbor)x21x12x

15、22x1134最长距离（Furthest Neighbor）x11x2135组间平均连接（Between-group Linkage)36 1、组内平均连接法（Within-group Linkage)x21x12x22x1137重心法（Centroid clustering):均值点的距离38离差平方和法连接2，41，56，539红绿（2，4，6，5）8.75 离差平方和增加8.752.56.25 黄绿（6，5，1，5）14.75离差平方和增加14.758.56.25黄红（2，4，1，5）10100故按该方法的连接和黄红首先连接。403 系统聚类方法系统聚类方法 1、根据样品的特征，规定样品

16、之间的距离，共有个。将所有列表，记为D D（0）表，该表是一张对称表。所有的样本点各自为一类。2、选择D D（0）表中最小的非零数，不妨假设，于是将和合并为一类，记为。（一）方法开始各样本自成一类。41 3、利用递推公式计算新类与其它类之间的距离。分别删除D（0）表的第p，q行和第p，q列，并新增一行和一列添上的结果，产生D（1）表。42 4、在D（1）表再选择最小的非零数，其对应的两类又构成新类，再利用递推公式计算新类与其它类之间的距离。分别删除D（1）表的相应的行和列，并新增一行和一列添上的新类和旧类之间的距离。结果，产生D（2）表。类推直至所有的样本点归为一类为止。43（二）

17、常用的种类 1 1、最短距离法最短距离法设抽取五个样品，每个样品只有一个变量，它们是1，2，3.5，7，9。用最短距离法对5个样品进行分类。首先采用绝对距离计算距离矩阵：0102.51.50653.50875.52044 然后和被聚为新类，得：01.5053.5075.5204546 最短距离法的递推公式最短距离法的递推公式假设第p类和第q类合并成第类，第r类与其它各旧类的距离按最短距离法为：4703.505.5204803.5049各步聚类的结果：(1,2)(3)(4)(5)(1,2,3)(4)(5)(1,2,3)(4,5)(1,2,3,4,5)50 2 2、最长距离法最长距离法

18、用最长距离法对5个样品进行分类。首先采用绝对距离计算距离矩阵：0102.51.50653.50875.52051 然后和被聚为新类，得：0 2.5063.5085.52052 最长距离法的递推公式最长距离法的递推公式假设第p类和第q类合并成第类，第r类与其它各旧类的距离按最长距离法为：533、重心法重心法用重心法对5个样品进行分类。首先采用绝对距离计算距离平方矩阵：0106.252.250362512.250644930.254054 分别为Gp和Gq的重心，类与类之间的距离定义为两个类重心（类内样品平均值）间的平方距离。重心法，也称为样品的均值法。设Gp和Gq 为两个类55 设某一步G

19、p和Gq的重心分别为为和，类内的样品数分别为和，如果要把Gp和Gq合并为Gr类，则Gr类的样品数nr=np+nq，Gr类的重心为和的加权算术平均数：56重心法递推公式重心法递推公式假设第p类和第q类合并成第类，第r类与其它各旧类的距离按重心法为：57G4和G6的距离为58 类类平平均均法法定定义义类类间间的的距距离离是是两两类类间间样样品品的的距距离的平均数。对应我们前面讨论的组间离的平均数。对应我们前面讨论的组间0106.252.250362512.250644930.2540 4、类平均法、类平均法59 然后和被聚为新类，得：0 4.25030.2512.25056.2530.25

20、4060类平均法的递推公式类平均法的递推公式假设第p类和第q类合并成第类，第r类与其它各旧类的距离按最短距离法为：61p类和q类与L类的距离的加权平均数625、离差平方和法（、离差平方和法（WardWard法）法）如和为一类，则离差平方和如和为一类，则离差平方和和被聚为新类，重心为63类似于方差分析的想法，如果类分得恰当，同类内的样品之间的离差平方和应较小，而类间的离差平方和应当较大。离差平方和法的思路是，当k固定时，选择使S达到最小的分类。先让n个样品各自成一类，然后缩小一类，每缩小一类离差平方和就要增大，选择使S2增加最小的两类合并，直到所有的样品归为一类为止。离差平方和法

21、定义类间的平方距离为64其中是由Gp和Gq合并成的Gr类的类内离差平方和。可以证明离差平方和的聚类公式为656、中间距离、中间距离法法最长距离最长距离最短距离最短距离中间距离660106.252.250362512.250644930.2540 用中间距离法对5个样品进行分类。首先采用绝对距离计算距离平方矩阵：67中间距离法的递推公式中间距离法的递推公式68 0 0 4 40 030.2530.2512.2512.250 056.2556.2530.2530.254 40 069 7 7、可变类平均法、可变类平均法类平均法的递推公式中，没有反映Gp类和Gq类的距离有多大，进一步将其改进，加

22、入D2Pq，并给定系数Bi，则称第一种方法A比第二种方法B使空间扩张，或第二种方法比第一种方法浓缩。3、方法的比较D（短）D（平），D（重）D（平）；D（长）D（平）；当，D（变平）D（平）；当，D（变平）D（平）。81 六、主要的步骤六、主要的步骤1、选择变量、选择变量（1）和聚类分析的目的密切相关（2）反映要分类变量的特征（3）在不同研究对象上的值有明显的差异（4）变量之间不能高度相关2、计算相似性、计算相似性相似性是聚类分析中的基本概念，他反映了研究对象之间的亲疏程度，聚类分析就是根据对象之间的相似性来分类的。有很多刻画相似性的测度82 3、聚类、聚类选定了聚类的变量，计算出

23、样品或指标之间的相似程度后，构成了一个相似程度的矩阵。这时主要涉及两个问题：（1）选择聚类的方法（2）确定形成的类数834、聚类结果的解释和证实v 对聚类结果进行解释是希望对各个类的特征进行准确的描述，给每类起一个合适的名称。这一步可以借助各种描述性统计量进行分析，通常的做法是计算各类在各聚类变量上的均值，对均值进行比较，还可以解释各类产别的原因。84v 如果是变量聚类分析，聚类分析做完之后，各类中仍有较多的指标。也就是说聚类分析并没有达到降维的目的。这就需要在每类中选出一个代表指标，具体做法是：假设某类中有个指标，首先分别计算类内指标之间的相关指数，然后计算某个指标与类内其他指标之间相

24、关指数的平均数，即取最大的，做为该类的代表。85 例某公司下属30个企业，公司为了考核下属企业的经济效益，设计了8个指标。为了避免重复，需要对这8个指标进行筛选，建立一个恰当的经济效益指标体系。通过计算30个企业8个指标的相关系数距离，数据是1-r2。得如下表:x1x1x2x2x3x3x4x4x5x5x6x6x7x7x8x8 x1 x10 00.600.600 00.430.430.460.460 00.470.470.450.450.120.120 00.570.570.450.450.230.230.220.220 00.380.380.400.400.210.210.290.29

25、0.220.220 00.310.310.790.790.650.650.700.700.800.800.660.660 00.450.450.450.450.270.270.230.230.140.140.190.190.770.770 0 试用将它们聚类。x2x2x3x3x4x4x5x5x6x6x7x7x8x88687 根据美国等20个国家和地区的信息基础设施的发展状况进行分类。Call每千人拥有的电话线数；move l每千人户居民拥有的蜂窝移动电话数；fee高峰时期每三分钟国际电话的成本；comp每千人拥有的计算机数；mips每千人计算机功率（每秒百万指令）；net每千人互联网络户主数。

26、88国家国家callcallmovelmovelfeefeecompcompmipsmipsnetnetmeiguomeiguo631.6631.6161.9161.90.360.36403403260732607335.3435.34ribenriben498.4498.4143.2143.23.573.5717617610223102236.266.26deguodeguo557.6557.670.6070.602.182.1819919911571115719.849.84ruidianruidian684.1684.1281.8281.81.41.4246246166601666029

27、.3929.39ruishiruishi64464493.593.51.981.98234234136211362122.6822.68xinjiapoxinjiapo498.4498.4147.5147.52.52.5284284135781357813.4913.49taiwantaiwan469.4469.456.156.13.683.68119119691169111.721.72hanguohanguo434.5434.573733.363.369999579557951.661.66baxibaxi81.981.916.316.33.023.0219198768760.520.52

28、zhilizhili138.6138.68.208.201.41.43131141114111.281.28moxigemoxige92.292.29.89.82.612.613131175117510.350.35eluosieluosi174.9174.95 55.125.122424110111010.480.48bolanbolan1691696.56.53.683.684040179617961.451.45xiongyalixiongyali262.2262.249.449.42.662.666868306730673.093.09malaixiyamalaixiya195.519

29、5.588.488.44.194.195353273427341.251.25taiguotaiguo78.678.627.827.84.954.952222166216620.110.11yinduyindu13.613.60.300.306.286.282 21011010.010.01faguofaguo559.1559.142.942.91.271.2720120111702117024.764.76yingguoyingguo521.10521.10122.5122.50.980.98248248144611446111.9111.918990PseudoFStatistic0102

30、030405060708090100110120NumberofClusters1234567891011121314151617181991一个典型的例题：从21个工厂抽了同类产品，每个产品测了两个指标，欲将各厂的质量情况进行分类。测得的数据如下（已作了适当变换）Nox1x2Nox1x210612-2220513-3232514-3042315-525441611643170-1751180-286219-1-196120-1-3107021-3-511-4392最短距离法93最长距离法94重心法和类平均法95离差平方和法（Ward）96用SPSS作系统聚类分析v在AnalyzeClassi

31、fy下：K-Means Cluster：观测量快速聚类分析过程Hierarchical Cluster：分层聚类（进行观测量聚类和变量聚类的过程Discriminant：进行判别分析的过程9798Q型聚类对观测进行聚类R型聚类对变量进行聚类99100Euclidean distance.欧式距离Squared Euclidean distance.平方欧式距离Pearson correlation.相关系数Cosine.夹角余弦Chebychev.切氏距离：Max|Xi-Yi|，即两项间的距离是变量间最大差值的绝对值Block.布氏距离：|Xi-Yi|，两项间的距离是每个变量值之差的绝对值总和

32、。Minkowski.明氏距离Customized.自定义距离.测度方法Measure：测度距离或相似性的算法。101between-groups linkage 组间平均法within-groups linkage 组内平均法nearest neighbor 最短距离法furthest neighbor 最长距离法centroid clustering 重心法median clustering 中位数法Wards method 离差平方和法聚类方法Cluster Method：定义、计算两项之间距离或相似性的方法。102Z scores.标准化到Z分数：变量均值为0、标准差为1，（每个值-均

33、值）/标准差。Range-1 to 1.转换到-1,1，每个值/范围。Range 0 to 1.转换到0,1，（每个值-最小值）/范围。Maximum magnitude of 1.最大值为1，每个值/最大值。Mean of 1.均值的一个范围，每个值/均值。Standard deviation of 1.单位标准差，每个值/标准差。数据转换Transform Values：为消除量纲不同的影响103测度转换Transform Measure：已计算相似性或不相似性，则不需转换。距离取绝对值：距离顺序颠倒：相似性值与不相似性值互变使距离标准化：（距离-最小值）/范围。1042 模糊聚类105一

34、.模糊聚类的几个基本概念1.特征函数：2.隶属函数：1063.模糊矩阵的运算法则：1071 1、自反性自反性（反身性）（反身性）对任意对任意，都，都有有，即集合中任一个元素，即集合中任一个元素u u都与都与自身有某相同性质的关系，则自身有某相同性质的关系，则称称R R是自反关系，相对应的矩是自反关系，相对应的矩阵称为自反矩阵。阵称为自反矩阵。108另数学表示意义为：另数学表示意义为：A A中的元中的元素关于素关于R R具有具有”自反性自反性”，即即例：若例：若U U为同一种族的集合，为同一种族的集合，而集合中每一个人而集合中每一个人u u，皆与自皆与自身有同一种族身有同一种族的的关系，这种

35、性关系，这种性质则称为自反性。质则称为自反性。1 1、自反性自反性（反身性）（反身性）1092 2、对对称称性性如果如果即即u ui i与与u uj j存在某种关系，若將存在某种关系，若將两个元素的位置对调，则即两个元素的位置对调，则即u uj j与与u ui i也必有符合这层关系，则也必有符合这层关系，则称称R R有对称关系，相对应的矩有对称关系，相对应的矩阵为对称矩阵。阵为对称矩阵。1102 2、对对称称性性另数学表示意义为：另数学表示意义为：A A中的元素中的元素关于关于R R具有具有”对称性对称性”，即即例：若甲和乙是同学关系，则例：若甲和乙是同学关系，则乙和甲必也是同学关系，乙和

36、甲必也是同学关系，这种这关系则称为对称性。这种这关系则称为对称性。1113 3、传传递递性性如果能由如果能由即即u u与与v v有存在某一关系，而有存在某一关系，而v v与与w w也有这同一种关系存在，也有这同一种关系存在，则即则即u u与与w w也必有符合这层关系也必有符合这层关系存在，则称存在，则称R R有传递关系，相有传递关系，相对应的矩阵为传递矩阵。对应的矩阵为传递矩阵。1123 3、传传递递性性另数学表示意义为：另数学表示意义为：A A中的元素关于中的元素关于R R具有具有”传递性传递性”，即，即例：若甲和乙是同一种族关系，例：若甲和乙是同一种族关系，而而乙和丙也是同一种族关系，则

37、甲和丙乙和丙也是同一种族关系，则甲和丙必有同一种族关系，这种则称为具有必有同一种族关系，这种则称为具有传递性关系。传递性关系。1134 4、自反性、对称性及传递性的结论、自反性、对称性及传递性的结论1.1.具有自反性才能保证不会发生自己与自己不是同一类具有自反性才能保证不会发生自己与自己不是同一类的荒谬结论。的荒谬结论。2.2.具有对称性才能保证不会发生甲与乙是同类，而乙与具有对称性才能保证不会发生甲与乙是同类，而乙与甲卻不同类的荒谬结论。甲卻不同类的荒谬结论。3.3.具有传递性才能保证甲与乙同类，乙与丙同类，则必具有传递性才能保证甲与乙同类，乙与丙同类，则必有甲与丙也是同类，否则聚类不成。有

38、甲与丙也是同类，否则聚类不成。若满足若满足 1 1与与2 2的关系的的关系的R R称为称为相似关系相似关系。若满足若满足 1 1、2 2与与3 3的关系的的关系的R R称为称为等价关系等价关系。1145 5、模糊聚类分析定理、模糊聚类分析定理定理一定理一假设矩阵假设矩阵是是的一个具有自反、对称的关系的一个具有自反、对称的关系矩阵，则矩阵，则必也是一个等价必也是一个等价关系矩阵。关系矩阵。115 定理二定理二假设模糊关系矩阵假设模糊关系矩阵是等价关是等价关系矩阵，则对于任意系矩阵，则对于任意，所截的所截的一截矩阵一截矩阵也是一个也是一个等价关系矩阵。等价关系矩阵。5 5、模糊聚类分析

39、定理、模糊聚类分析定理116 定理三定理三如果如果，则，则所分所分出的每一类，必是出的每一类，必是的某一的某一个子集。且称个子集。且称的分类法是的分类法是的分类法的加细分类。的分类法的加细分类。5 5、模糊聚类分析定理、模糊聚类分析定理1176 6、模糊聚类分析步驟、模糊聚类分析步驟一、设数域一、设数域（指定（指定样本与指标）样本与指标）二、定模糊关系矩阵二、定模糊关系矩阵（求相似关系矩阵，其应符合（求相似关系矩阵，其应符合自反自反性性及及对称性对称性）118 求相似关系矩阵方法很多，大約有十求相似关系矩阵方法很多，大約有十几种，其中绝对值减数法，方法较易懂几种，其中绝对

40、值减数法，方法较易懂且明确，其公式如下：且明确，其公式如下：其中其中c c为适当选取数，使为适当选取数，使0r0rijij11119 三、求模糊等价关系矩阵三、求模糊等价关系矩阵（即（即自乘得自乘得，再自乘，再自乘，直到，直到为止，为止，则则便是一个模糊等价关系便是一个模糊等价关系矩阵）矩阵）四、求四、求 R R並进行聚类。並进行聚类。（0 0 1 1）五、五、绘制绘制动态聚类图动态聚类图。1207 7、模糊聚类分析实例、模糊聚类分析实例下列以甲区、乙区、丙区、丁区及戊下列以甲区、乙区、丙区、丁区及戊区等五个地区的环境污染情形为聚类样本，区等五个地区的环境污染情形为聚类样本，每

41、区包括空气、每区包括空气、土壤土壤、水分水分、作物等四项、作物等四项指标，来描述环境污染狀況，进行此五区指标，来描述环境污染狀況，进行此五区环境污染狀況的模糊聚类分析：环境污染狀況的模糊聚类分析：121(一一)、四项指标：、四项指标：空气、土壤、水分、作物空气、土壤、水分、作物(二二)、五个样本：、五个样本：甲区、乙区、丙区、丁区及戊区甲区、乙区、丙区、丁区及戊区(三三)、故数域、故数域=甲区、乙区、丙区、丁区、戊区甲区、乙区、丙区、丁区、戊区一、建立数域一、建立数域122一、建立数域一、建立数域指标样本空气空气1 1土壤土壤2 2水分水分3 3作物作物4 4甲区u15（u11）5（u12）

42、3（u13）2（u14）乙区u22（u21）3（u22）4（u23）5（u24）丙区u35（u31）5（u32）2（u33）3（u34）丁区u41（u41）5（u42）3（u43）1（u44）戊区u52（u51）4（u52）5（u53）1（u54）123以绝对值减数法求以绝对值减数法求r rijij，其公式如下：其公式如下：其中选取其中选取 c=0.1c=0.1，m=4m=4，i,j=1,2,3,4,5 i,j=1,2,3,4,5 二、求模糊相似关系矩阵二、求模糊相似关系矩阵相似关系矩阵，其应符合自反性及对称性124计算过程举例如下：计算过程举例如下：.二、求模糊相似关系矩阵二、求模糊相似关

43、系矩阵125二、求模糊相似关系矩阵二、求模糊相似关系矩阵由上列计算得求模糊相似关系矩阵由上列计算得求模糊相似关系矩阵：126三、求模糊等价关系矩阵三、求模糊等价关系矩阵计算过程举例如下：计算过程举例如下：（即即自乘得自乘得，再自乘，再自乘，直到，直到为止，则为止，则便是一个模糊等价关系矩阵）便是一个模糊等价关系矩阵）127三、求模糊等价关系矩阵三、求模糊等价关系矩阵128四、求四、求R R並进行聚类。並进行聚类。(0(0 1 1）取取值依次选擇值依次选擇1 1、0.80.8、0.60.6、0.50.5、0.40.4等（视需等（视需要可自行调整），以处要可自行调整），以处减的数字，求取

44、实减的数字，求取实际际截截矩阵矩阵。129(一一)当当=1=1 時的時的截矩阵为：截矩阵为：四、求四、求R R並进行聚类。並进行聚类。(0(0 1 1）此時此時可分为五类：可分为五类：甲区甲区乙区乙区丙区丙区丁区丁区戊区戊区甲区乙区丙区丁区戊区130(二二)当当=0.8=0.8 時的時的截矩阵为：截矩阵为：四、求四、求R R並进行聚类。並进行聚类。(0(0 1 1）此時此時可分为四类：可分为四类：甲区，丙区甲区，丙区乙区乙区丁区丁区戊区戊区甲区乙区丙区丁区戊区131(三三)当当=0.6=0.6 時的時的截矩阵为：截矩阵为：四、求四、求R R並进行聚类。並进行聚类。(0(

45、0 1 1）此時此時可分为三类：可分为三类：甲区，丙区甲区，丙区乙区乙区丁区，戊区丁区，戊区甲区乙区丙区丁区戊区132(四四)当当=0.5=0.5 時的時的截矩阵为：截矩阵为：四、求四、求R R並进行聚类。並进行聚类。(0(0 1 1）此時此時可分为二类：可分为二类：甲区，丙区，丁区，戊区甲区，丙区，丁区，戊区乙区乙区甲区乙区丙区丁区戊区133(五五)当当=0.4=0.4 時的時的截矩阵为：截矩阵为：四、求四、求R R並进行聚类。並进行聚类。(0(0 1 1）此時此時可分为一类：可分为一类：甲区，乙区，丙区，丁区，戊区甲区，乙区，丙区，丁区，戊区甲区乙区丙区丁区戊区134五、

46、绘制动态聚类图五、绘制动态聚类图表一表一模糊聚类分析後的结果摘要表模糊聚类分析後的结果摘要表值值聚聚类类数数聚类结果聚类结果1 15 5 甲甲区区；乙乙区区；丙丙区区；丁丁区区；戊戊区区 0.80.84 4 甲甲区区，丙丙区区；乙乙区区；丁丁区区；戊戊区区 0.60.63 3 甲区，丙区甲区，丙区；乙区乙区；丁区，戊区丁区，戊区 0.50.52 2 甲区，丙区，丁区，戊区甲区，丙区，丁区，戊区；乙区乙区 0.40.41 1 甲区，乙区，丙区，丁区，戊区甲区，乙区，丙区，丁区，戊区 135五、绘制动态聚类图五、绘制动态聚类图图一图一动态模糊聚类图动态模糊聚类图甲区乙区丙区丁区

47、戊区 u1 u2 u3 u4 u50.8 0.6 0.5 1 0.41363 动态聚类一、思想一、思想系统聚类法是一种比较成功的聚类方法。然而当样本点数量十分庞大时，则是一件非常繁重的工作，且聚类的计算速度也比较慢。比如在市场抽样调查中，有4万人就其对衣着的偏好作了回答，希望能迅速将他们分为几类。这时，采用系统聚类法就很困难，而动态聚类法就会显得方便，适用。动态聚类解决的问题是：假如有个样本点，要把它们分为类，使得每一类内的元素都是聚合的，并且类与类之间还能很好地区别开。动态聚类使用于大型数据。137选择凝聚点分类修改分类分类是否合理分类结束YesNo138 用一个简单的例子来说明动态聚

48、类法的工作过程。例如我们要把图中的点分成两类。快速聚类的步骤：1、随机选取两个点和作为聚核。2、对于任何点，分别计算 3、若，则将划为第一类，否则划给第二类。于是得图（b）的两个类。4、分别计算两个类的重心，则得和，以其为新的聚核，对空间中的点进行重新分类，得到新分类。139（a）空间的群点(b)任取两个聚核(c)第一次分类(d)求各类中心140(e)第二次分类141二、选择凝聚点和确定初始分类二、选择凝聚点和确定初始分类凝聚点就是一批有代表性的点，是欲形成类的中心。凝聚点的选择直接决定初始分类，对分类结果也有很大的影响，由于凝聚点的不同选择，其最终分类结果也将出现不同。故选择

49、时要慎重通常选择凝聚点的方法有：(1)人为选择，当人们对所欲分类的问题有一定了解时，根据经验，预先确定分类个数和初始分类，并从每一类中选择一个有代表性的样品作为凝聚点。(2)将数据人为地分为A类，计算每一类的重心，就将这些重心作为凝聚点。142 (3)用密度法选择凝聚点。以某个正数d为半径，以每个样品为球心，落在这个球内的样品数(不包括作为球心的样品)就叫做这个样品的密度。计算所有样品点的密度后，首先选择密度最大的样品作为第一凝聚点，并且人为地确定一个正数D(一般D d，常取D2d)。然后选出次大密度的样品点，若它与第一个凝聚点的距离大于D，则将其作为第二个凝聚点；否则舍去这点，再选密度

50、次于它的样品。这样，按密度大小依次考查，直至全部样品考查完毕为止此方法中，d要给的合适，太大了使凝聚点个数太少，太小了使凝聚点个数太多。143 (5)随机地选择，如果对样品的性质毫无所知，可采用随机数表来选择，打算分几类就选几个凝聚点。或者就用前A个样品作为凝聚点(假设分A类)。这方法一般不提倡使用。(4)人为地选择一正数d，首先以所有样品的均值作为第一凝聚点。然后依次考察每个样品，若某样品与已选定的凝聚点的距离均大于d，该样品作为新的凝聚点，否则考察下一个样品。144三、衡量聚类结果的合理性指标三、衡量聚类结果的合理性指标和算法终止的标准和算法终止的标准定义定义设表示在第n次聚类后得到的

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 第3章聚类分析

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：第3章聚类分析.ppt
链接地址：https://www.taowenge.com/p-69510608.html

第3章 聚类分析.ppt

第3章聚类分析.ppt