第四节聚类分析方法优秀PPT.ppt
《第四节聚类分析方法优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第四节聚类分析方法优秀PPT.ppt(75页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第四节 聚类分析方法第一页,本课件共有75页什么叫聚类分析什么叫聚类分析聚类(聚类(Clustering)就是将数据分组成)就是将数据分组成为多个类(为多个类(Cluster)。在同一个类内)。在同一个类内对象之间具有较高的相似度,不同类对象之间具有较高的相似度,不同类之间的对象差别较大。之间的对象差别较大。第二页,本课件共有75页聚类的应用领域聚类的应用领域经济领域:经济领域:帮助市场分析人员从客户数据库中发现不同的客户群,并且用帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。购买模式来刻画不同的客户群的特征。谁喜欢打国际长途,在什么时间,打到那里?谁
2、喜欢打国际长途,在什么时间,打到那里?对住宅区进行聚类,确定自动提款机对住宅区进行聚类,确定自动提款机ATM的安放位置的安放位置股票市场板块分析,找出最具活力的板块龙头股股票市场板块分析,找出最具活力的板块龙头股企业信用等级分类企业信用等级分类生物学领域生物学领域推导植物和动物的分类;推导植物和动物的分类;对基因分类,获得对种群的认识对基因分类,获得对种群的认识数据挖掘领域数据挖掘领域作为其他数学算法的预处理步骤,获得数据分布状况,集中对作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定的类做进一步的研究特定的类做进一步的研究第三页,本课件共有75页聚类分析中聚类分析中“类类”的特征的
3、特征:A、聚类所说的类不是事先给定的,而是根据数据的相、聚类所说的类不是事先给定的,而是根据数据的相似性和距离来划分似性和距离来划分B、聚类的数目和结构都没有事先假定、聚类的数目和结构都没有事先假定聚类方法的目的是寻找数据中:聚类方法的目的是寻找数据中:潜在的自然分组结构潜在的自然分组结构a structure of“natural”grouping感兴趣的关系感兴趣的关系relationship聚类分析原理介绍聚类分析原理介绍第四页,本课件共有75页一一 聚类分析原理聚类分析原理研究研究多要素多要素事物分类问题的数量事物分类问题的数量方法,是方法,是定量定量地研究地理地研究地理事物分事物分类
4、类问题和问题和地理分区地理分区问题的重要问题的重要方法。方法。聚类分析聚类分析第五页,本课件共有75页基本原理基本原理:根据样本自身属性,用数学方法按照根据样本自身属性,用数学方法按照某种某种相似性或差异性相似性或差异性指标,定量地确定样本之间的指标,定量地确定样本之间的亲疏亲疏关系关系,并按照这种,并按照这种亲疏关系程度亲疏关系程度对样本进行聚类。对样本进行聚类。常见的聚类分析方法常见的聚类分析方法:系统聚类法、动态聚类法、模糊聚类法等。系统聚类法、动态聚类法、模糊聚类法等。第六页,本课件共有75页 又称又称聚类因子聚类因子,它是聚类分析对象的,它是聚类分析对象的各特征值各特征值,直接影响,
5、直接影响分类结果的准确性和可靠性(例:班级的优劣的评定)。分类结果的准确性和可靠性(例:班级的优劣的评定)。在土地利用规划分区中,为了使分区更加合理可行,必须在土地利用规划分区中,为了使分区更加合理可行,必须首先建立起土地利用规划分区指标体系首先建立起土地利用规划分区指标体系。二、系统聚类法二、系统聚类法1、聚类分析对象的确定、聚类分析对象的确定聚类单元的选择应合理和具有可操作性聚类单元的选择应合理和具有可操作性2、聚类要素的选择、聚类要素的选择第七页,本课件共有75页土地利用规划分区指标体系分土地利用规划分区指标体系分三三大类:大类:(1)土地开发利用程度:土地开发利用程度:土地利用率、垦殖
6、指数、园土地利用率、垦殖指数、园地指数、林地指数、牧草地指数、居民点及工矿用地指地指数、林地指数、牧草地指数、居民点及工矿用地指数、交通用地指数、水域指数。数、交通用地指数、水域指数。(2)土地集约经营程度:土地集约经营程度:人口密度、人均耕地、人口城镇人口密度、人均耕地、人口城镇化水平。化水平。(3)土地利用效果:土地利用效果:人均粮食、粮食单产、单位土地农人均粮食、粮食单产、单位土地农业社会总产值、单位土地工业总产值业社会总产值、单位土地工业总产值。第八页,本课件共有75页 被聚类对象常常是多个要素构成的,不被聚类对象常常是多个要素构成的,不同要素的数据往往具有不同的单位和量纲。同要素的数
7、据往往具有不同的单位和量纲。因此在进行聚类分析之前,首先要对聚类因此在进行聚类分析之前,首先要对聚类要素进行要素进行标准化处理标准化处理。3 3、聚类要素的数据处理、聚类要素的数据处理第九页,本课件共有75页例例4 4:下表给出了某地区九个农业:下表给出了某地区九个农业区的七项指标区的七项指标区代号人均耕地X1/(hm2人-1)劳均耕地X2/(hm2个-1)水田比重X3/%复种指数x4/%粮食单产x5/(kghm-2)人均粮食x6/(kg人-1)稻谷占粮食比重x7/%G10.2941.0935.63113.64 510.51 036.412.2G20.3150.9710.3995.12 773
8、.5683.70.85G30.1230.3165.28148.56 934.5611.16.49G40.1790.5270.391114 458632.60.92G50.0810.21272.04217.812 249791.180.38G60.0820.21143.78179.68 973636.548.17G70.0750.18165.15194.710 689634.380.17G80.2930.6665.3594.93 679.5771.77.8G90.1670.4142.994.84 231.5574.61.17第十页,本课件共有75页聚聚类对类对象象要要 素素x1 x2 xj xn
9、12i imx11 x12 x1j x1nx21 x22 x2j x2n xi1 xi2 xij xin xm1 xm2 xmj xmn 假设有假设有m m个聚类对象,每一个聚类对象都个聚类对象,每一个聚类对象都有有x x1 1,x x2 2,x xn n个要素构成,它们所对应的个要素构成,它们所对应的要素数据用下表给出:要素数据用下表给出:第十一页,本课件共有75页(2)标准差标准化)标准差标准化(1)总和标准化总和标准化 分别求出各聚类要素所对应的数据分别求出各聚类要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,的总和,以各要素的数据除以该要素的数据的总和,即即第十二页,本课
10、件共有75页(3)极大值标准化极大值标准化(4)极差标准化极差标准化第十三页,本课件共有75页例例4 4:下表给出了某地区九个农业区的七项指标:下表给出了某地区九个农业区的七项指标区代号人均耕地X1/(hm2人-1)劳均耕地X2/(hm2个-1)水田比重X3/%复种指数x4/%粮食单产x5/(kghm-2)人均粮食x6/(kg人-1)稻谷占粮食比重x7/%G10.2941.0935.63113.64 510.51 036.412.2G20.3150.9710.3995.12 773.5683.70.85G30.1230.3165.28148.56 934.5611.16.49G40.1790.
11、5270.391114 458632.60.92G50.0810.21272.04217.812 249791.180.38G60.0820.21143.78179.68 973636.548.17G70.0750.18165.15194.710 689634.380.17G80.2930.6665.3594.93 679.5771.77.8G90.1670.4142.994.84 231.5574.61.17第十四页,本课件共有75页用极差标准化处理后得用极差标准化处理后得 区代号区代号 x1 x2 x3 x4 x5 x6 x7 G1G2G3G4G5G6G7G8G9 0.91 1.00 0.
12、07 0.15 0.18 1.00 0.14 1.00 0.87 0.00 0.00 0.00 0.24 0.00 0.20 0.15 0.07 0.44 0.44 0.08 0.07 0.44 0.38 0.00 0.13 0.18 0.13 0.00 0.03 0.03 1.00 1.00 1.00 0.45 1.00 0.03 0.03 0.61 0.69 0.65 0.13 0.59 0.00 0.00 0.90 0.81 0.84 0.13 1.00 0.91 0.53 0.07 0.00 0.10 0.43 0.09 0.38 0.26 0.04 0.00 0.15 0.00 0.
13、00 第十五页,本课件共有75页4、距离的计算、距离的计算 距离是事物之间差异性的测度,是系统聚类分析的依据距离是事物之间差异性的测度,是系统聚类分析的依据和基础,常见的距离包括和基础,常见的距离包括(1)绝对值距离)绝对值距离 式中,式中,dij代表第代表第i个对象与第个对象与第j个对象之间的距离;个对象之间的距离;xik代代表第表第i个对象第个对象第k个要素的特征;个要素的特征;xjk代表第代表第j个对象第个对象第k个要个要素的特征值;素的特征值;k代表要素个数。代表要素个数。第十六页,本课件共有75页 (2 2)欧氏距离)欧氏距离(3 3)明科夫斯基距离)明科夫斯基距离(4)切比雪夫斯基
14、距离)切比雪夫斯基距离 当明科夫斯基距当明科夫斯基距 离离P时,有时,有第十七页,本课件共有75页 根据例根据例4的数据,用绝对值距离计算出九个农业区之间的绝对的数据,用绝对值距离计算出九个农业区之间的绝对值距离矩阵如下:值距离矩阵如下:第十八页,本课件共有75页5 5、聚类分析、聚类分析 如何选取类间相似度量或距离是非常重要,它是两如何选取类间相似度量或距离是非常重要,它是两类聚合为一类的依据。常用的方法有直接聚类法、最类聚合为一类的依据。常用的方法有直接聚类法、最短距离法、最大距离法、类平均距离法等。短距离法、最大距离法、类平均距离法等。(1)直接聚类法)直接聚类法 直接聚类法直接聚类法,
15、是根据距离矩阵的结构一次并类,是根据距离矩阵的结构一次并类得到结果,是一种简便的聚类方法。得到结果,是一种简便的聚类方法。第十九页,本课件共有75页 具体方法具体方法先把先把各个各个分类对象单独视为分类对象单独视为一类一类,然后根据,然后根据距离最小距离最小的的原则,依次选出一对对象,并成原则,依次选出一对对象,并成新类新类。如果其中一个分类。如果其中一个分类对象已归于一类、则把另一个也归入该类;如果一对分类对象已归于一类、则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类。每一次对象正好属于已归的两类,则把这两类并为一类。每一次归并,都划去该对象所在的列和与列序相同
16、的行。经过归并,都划去该对象所在的列和与列序相同的行。经过m-m-1 1次次就可以把分类对象归为一类。这样就可以根据归并就可以把分类对象归为一类。这样就可以根据归并的先后顺序作出聚类谱系图。的先后顺序作出聚类谱系图。第二十页,本课件共有75页 根据例根据例4的距离矩阵,用直接聚类法对该地区九个区进的距离矩阵,用直接聚类法对该地区九个区进行聚类分析行聚类分析 step1 在距离矩阵在距离矩阵D中,除对角线元素外,中,除对角线元素外,d49=d94=0.51为为最小最小,故将第,故将第四四区和第区和第九九区并为一区并为一类,划去第九行和第九列类,划去第九行和第九列 step2 在余下的元素中。除对
17、角线元素外,在余下的元素中。除对角线元素外,d75=d57=0.83为为最小最小。将第。将第五五区和第区和第七七区并为一类,区并为一类,划去第七行和第七列划去第七行和第七列第二十一页,本课件共有75页用绝对值距离计算出九个农业区之间的绝对值距离矩阵如下:用绝对值距离计算出九个农业区之间的绝对值距离矩阵如下:第二十二页,本课件共有75页 step3 在第二步之后余下的元素中,除对角线元素在第二步之后余下的元素中,除对角线元素外,外,d82=d28=0.88最小最小,将第,将第二二区和第区和第八八区并为一类,区并为一类,划去第八行和第八列划去第八行和第八列 step4 在第三步之后余下的元素中,除
18、对角在第三步之后余下的元素中,除对角线元素外,线元素外,d43=d34=1.23为为最小最小,将第,将第三三区和第区和第四四区并为一类,划去第四行和第四列,此时第区并为一类,划去第四行和第四列,此时第3、4、9区已并为一类区已并为一类第二十三页,本课件共有75页 step6 在在第第五五步步之之后后余余下下的的元元素素中中,除除对对角角线线元元素素外外,d65=d56=1.78为为最最小小,将将第第五五区区和和第第六六区区并并为为一一类类,划划去去第第六六行行和和第第六六列列,此此时时5、6、7区已并为一类。区已并为一类。step5 在第四步之后余下的元素中,除对在第四步之后余下的元素中,除对
19、角线元素外,角线元素外,d21=d12=1.52为为最小最小,将,将1、2区并区并为一类,划去第二行和第二列,此时第为一类,划去第二行和第二列,此时第1、2、8区已并为一类。区已并为一类。第二十四页,本课件共有75页 step8 在在第第七七步步之之后后余余下下的的元元素素中中除除对对角角线线元元素素外外d51=d15=5.86为为最最小小,将将第第一一区区和和第第五五区区并并为为一一类类,划划去去第第五五行行和和第第五五列列。此此时时第第1、2、3、4、5、6、7、8、9区已并为一类。区已并为一类。step7 在在第第六六步步之之后后余余下下的的元元素素中中,除除对对角角线线元元素素外外,d
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第四节 聚类分析方法优秀PPT 第四 聚类分析 方法 优秀 PPT
限制150内