系统聚类分析.pptx
《系统聚类分析.pptx》由会员分享,可在线阅读,更多相关《系统聚类分析.pptx(43页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、会计学1系统聚类分析系统聚类分析n n聚类分析聚类分析聚类分析聚类分析:根据地理变量(或指标或样品)的属性根据地理变量(或指标或样品)的属性根据地理变量(或指标或样品)的属性根据地理变量(或指标或样品)的属性或特征的相似性、亲疏程度,用数学的方法把它们或特征的相似性、亲疏程度,用数学的方法把它们或特征的相似性、亲疏程度,用数学的方法把它们或特征的相似性、亲疏程度,用数学的方法把它们逐步地分型划类,最后得到一个能反映个体或站点逐步地分型划类,最后得到一个能反映个体或站点逐步地分型划类,最后得到一个能反映个体或站点逐步地分型划类,最后得到一个能反映个体或站点之间、群体之间亲疏关系的分析系统。之间、
2、群体之间亲疏关系的分析系统。之间、群体之间亲疏关系的分析系统。之间、群体之间亲疏关系的分析系统。n n聚类分析法的特点:聚类分析法的特点:聚类分析法的特点:聚类分析法的特点:n n1 1 1 1、事先无需知道分类对象的分类结构,而只需要、事先无需知道分类对象的分类结构,而只需要、事先无需知道分类对象的分类结构,而只需要、事先无需知道分类对象的分类结构,而只需要一批地理数据。一批地理数据。一批地理数据。一批地理数据。n n2 2 2 2、选好分类统计量,并按一定的方法步骤进行计、选好分类统计量,并按一定的方法步骤进行计、选好分类统计量,并按一定的方法步骤进行计、选好分类统计量,并按一定的方法步骤
3、进行计算算算算n n3 3 3 3、最后自然的、客观的得出一张完整的分类系统、最后自然的、客观的得出一张完整的分类系统、最后自然的、客观的得出一张完整的分类系统、最后自然的、客观的得出一张完整的分类系统图图图图第1页/共43页n n聚类分析是根据各变量的观测值予以分类的,聚类分析是根据各变量的观测值予以分类的,聚类分析是根据各变量的观测值予以分类的,聚类分析是根据各变量的观测值予以分类的,它涉及到通过各种途径和手段所得到的有意义它涉及到通过各种途径和手段所得到的有意义它涉及到通过各种途径和手段所得到的有意义它涉及到通过各种途径和手段所得到的有意义的地理数据。由于要素的量纲、数量级和数量的地理数
4、据。由于要素的量纲、数量级和数量的地理数据。由于要素的量纲、数量级和数量的地理数据。由于要素的量纲、数量级和数量变化幅度的差异,如用原始数据进行聚类分析,变化幅度的差异,如用原始数据进行聚类分析,变化幅度的差异,如用原始数据进行聚类分析,变化幅度的差异,如用原始数据进行聚类分析,就是将不同性质、不同量纲、不同数量变化幅就是将不同性质、不同量纲、不同数量变化幅就是将不同性质、不同量纲、不同数量变化幅就是将不同性质、不同量纲、不同数量变化幅度的数值都统计在一起,这样就可能突出某些度的数值都统计在一起,这样就可能突出某些度的数值都统计在一起,这样就可能突出某些度的数值都统计在一起,这样就可能突出某些
5、数量级特别大的变量对分类的作用,而压低甚数量级特别大的变量对分类的作用,而压低甚数量级特别大的变量对分类的作用,而压低甚数量级特别大的变量对分类的作用,而压低甚至排除了某些数量级很小的变量对分类的作用。至排除了某些数量级很小的变量对分类的作用。至排除了某些数量级很小的变量对分类的作用。至排除了某些数量级很小的变量对分类的作用。为了有利于分析、对比和使分类清晰,常对原为了有利于分析、对比和使分类清晰,常对原为了有利于分析、对比和使分类清晰,常对原为了有利于分析、对比和使分类清晰,常对原始地理数据进行适当和必要的处理和变换,使始地理数据进行适当和必要的处理和变换,使始地理数据进行适当和必要的处理和
6、变换,使始地理数据进行适当和必要的处理和变换,使其在某种共同的、相对均匀化的数值范围内。其在某种共同的、相对均匀化的数值范围内。其在某种共同的、相对均匀化的数值范围内。其在某种共同的、相对均匀化的数值范围内。一、聚类要素的数据处理一、聚类要素的数据处理一、聚类要素的数据处理一、聚类要素的数据处理 第2页/共43页n n当当分分类类要要素素的的对对象象确确定定之之后后,在在进进行行聚聚类类分分析析之之前前,首首先先要要对对聚聚类类要要素素进进行行数数据据处处理理。假假设设有有m m 个个聚聚类类的的对对象象,每每一一个个聚聚类类对对象象都都有有n n个个要要素构成。素构成。聚 类 对 象 要 素
7、 第3页/共43页在聚类分析中,常用的聚类要素的数据标准化处在聚类分析中,常用的聚类要素的数据标准化处在聚类分析中,常用的聚类要素的数据标准化处在聚类分析中,常用的聚类要素的数据标准化处理方法如下:理方法如下:理方法如下:理方法如下:地理数据的对数变换地理数据的对数变换在对地理数据进行标准化之前,应先对数据进行对数变换。设有n个地点、地区,每个地点又有m个指标,用Xij表示第i个地点或地区的第j个指标值。P131第4页/共43页地点原始数据自然对数变换海拔高度年平均降水量最大冻土深8级大风日数海拔高度年平均降水量最大冻土深8级大风日数(1)(2)(3)(4)(1)(2)(3)(4)哈巴河532
8、.6173.8150.061.86.278 5.1585.0114.124阿勒泰735.1191.5146.037.76.600 5.2554.9843.630克拉玛依427.0114.4197.075.46.057 4.7405.2834.323巴楚1116.541.661.07.67.018 3.7284.1112.028莎车1231.242.593.011.07.116 3.7504.5332.398于田1427.046.481.01.47.263 3.8374.3940.336数据变换表数据变换表第5页/共43页 地理数据的标准化:标准差标准化、极差标准化地理数据的标准化:标准差标准化
9、、极差标准化地理数据的标准化:标准差标准化、极差标准化地理数据的标准化:标准差标准化、极差标准化标准差标准化,即标准差标准化,即把把变换后的数据变换后的数据变换后的数据变换后的数据 减去其均值,减去其均值,再除以其标准差再除以其标准差S Sj j (3.4.2)第6页/共43页地点自然对数变换标准差标准化数据海拔高度年平均降水量最大冻土深8级大风日数海拔高度年平均降水量最大冻土深8级大风日数(1)(2)(3)(4)(1)(2)(3)(4)哈巴河6.2785.1585.0114.124-0.9101.0330.6580.865阿勒泰6.6005.2554.9843.630-0.2501.1670
10、.5970.541克拉玛依6.0574.7405.2834.323-1.3630.4551.2710.996巴楚7.0183.7284.1112.0280.607-0.946-1.372-0.511莎车7.1163.7504.5332.3980.808-0.915-0.420-0.268于田7.2633.8374.3940.3361.109-0.795-0.734-1.623第7页/共43页地点自然对数变换海拔高度哈巴河6.2780.4440.197136阿勒泰6.6000.1220.014884克拉玛依6.0570.6650.442225巴楚7.0180.2960.087616莎车7.116
11、0.3940.155236于田7.2630.5410.292681合计40.3321.189778平均数6.722第8页/共43页 极差的标准化,即极差的标准化,即 经过这种标准化所得的新数据,各要素的极大值为经过这种标准化所得的新数据,各要素的极大值为1 1,极小值为极小值为0 0,其余的数值均在,其余的数值均在0 0与与1 1之间。之间。第9页/共43页 例题例题例题例题:表表表表3.4.23.4.23.4.23.4.2给出了某地区九个农业区的七项指标,对给出了某地区九个农业区的七项指标,对给出了某地区九个农业区的七项指标,对给出了某地区九个农业区的七项指标,对它进行极差标准化处理它进行极
12、差标准化处理它进行极差标准化处理它进行极差标准化处理 表表表表3.4.2 3.4.2 某地区九个农业区的七项经济指标数据某地区九个农业区的七项经济指标数据某地区九个农业区的七项经济指标数据某地区九个农业区的七项经济指标数据 区代号人均耕地x1(hm2/人)劳均耕地x2(hm2/个)水田比重x3(%)复种指数x4(%)粮食亩产x5(kg/hm2)人均粮食x6(kg/人)稻谷占粮食比重x7(%)G10.2941.0935.63113.64510.51036.412.2G20.3150.9710.3995.12773.5683.70.85G30.1230.3165.28148.56934.5611.
13、16.49G40.1790.5270.391114458632.60.92G50.0810.21272.04217.812249791.180.38G60.0820.21143.78179.68973636.548.17G70.0750.18165.15194.710689634.380.17G80.2930.6665.3594.93679.5771.77.8G90.1670.4142.994.84231.5574.61.17第10页/共43页 表表表表3.4.3 3.4.3 极差标准化处理后的数据极差标准化处理后的数据极差标准化处理后的数据极差标准化处理后的数据x1x2x3x4X5X6X7G
14、10.911.000.070.150.181.000.14G21.000.870.000.000.000.240.00G30.200.150.070.440.440.080.07G40.440.380.000.130.180.130.00G50.030.031.001.001.000.451.00G60.030.030.610.690.650.130.59G70.000.000.900.810.840.131.00G80.910.530.070.000.100.430.09G90.380.260.040.000.150.000.00第11页/共43页二、距离的计算二、距离的计算二、距离的计算二
15、、距离的计算 假设我们把研究的对象(地点)视为假设我们把研究的对象(地点)视为假设我们把研究的对象(地点)视为假设我们把研究的对象(地点)视为m m m m维空间的点,所谓距离就是用各维空间的点,所谓距离就是用各维空间的点,所谓距离就是用各维空间的点,所谓距离就是用各种方法计算出各点间的相互距离(种方法计算出各点间的相互距离(种方法计算出各点间的相互距离(种方法计算出各点间的相互距离(d d d dijijijij),并用它来刻化各点间的相并用它来刻化各点间的相并用它来刻化各点间的相并用它来刻化各点间的相似性或亲疏程度。常见的距离有绝对值距离、欧式距离。似性或亲疏程度。常见的距离有绝对值距离、
16、欧式距离。似性或亲疏程度。常见的距离有绝对值距离、欧式距离。似性或亲疏程度。常见的距离有绝对值距离、欧式距离。绝对值距离绝对值距离绝对值距离绝对值距离 (3.4.5)式中,式中,X Xikik代表第代表第i i个地点的第个地点的第k k个指标的值,个指标的值,X Xjkjk代表第代表第j j个地点的第个地点的第k k个指标的值,个指标的值,k=1k=1,2 2,3 3.,m.,m个指标数的距离系数个指标数的距离系数第12页/共43页n n欧式距离欧式距离式中,式中,Xik代表第代表第i个地点的第个地点的第k个指标的值,个指标的值,Xjk代表第代表第j个地点的第个地点的第k个指标的值,个指标的值
17、,k=1,2,3.,m个指标数的距离系数个指标数的距离系数第13页/共43页(3.4.9)第14页/共43页 三、直接聚类三、直接聚类三、直接聚类三、直接聚类法法法法 原理:原理:原理:原理:先把各个分类对象单独视为一类,然先把各个分类对象单独视为一类,然后根据距离最小的原则,依次选出一对分类后根据距离最小的原则,依次选出一对分类对象,并成新类。如果其中一个分类对象已对象,并成新类。如果其中一个分类对象已归于一类,则把另一个也归入该类;如果一归于一类,则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两对分类对象正好属于已归的两类,则把这两类并为一类。每一次归并,都划去该对象所类
18、并为一类。每一次归并,都划去该对象所在的列与列序相同的行。经过在的列与列序相同的行。经过mm-1 1次就可以把次就可以把全部分类对象归为一类,这样就可以根据归全部分类对象归为一类,这样就可以根据归并的先后顺序作出聚类谱系图。并的先后顺序作出聚类谱系图。第15页/共43页 例:根据距离矩阵例:根据距离矩阵(3.4.93.4.9)式,用直接聚类法对某地区的式,用直接聚类法对某地区的九个农业区进行聚类分析九个农业区进行聚类分析,步骤如下步骤如下:在距离矩阵在距离矩阵DD中,除去对角线元素以外,中,除去对角线元素以外,d d4949=d=d9494=0.51=0.51为最为最小者,故将第小者,故将第4
19、 4区与第区与第9 9区并为一类,划去第区并为一类,划去第9 9行和第行和第9 9列;列;第16页/共43页 在余下的元素中,除对角线元素以外,在余下的元素中,除对角线元素以外,d75=d57=0.83为为最小者,故将第最小者,故将第5区与第区与第7区并为一类,划掉第区并为一类,划掉第7行和第行和第7列;列;=003.596.314.529.124.288.032.1007.183.006.493.253.579.5078.199.286.146.472.4077.464.302.686.5023.147.119.2070.210.3052.10)(99ijdD第17页/共43页 在第二步之后
20、余下的元素之中,除对角线元素以外,在第二步之后余下的元素之中,除对角线元素以外,d82=d28=0.88为最小者,故将第为最小者,故将第2区与第区与第8区并为一类,划去第区并为一类,划去第8行和第行和第8列;列;=096.314.529.124.288.032.1078.199.286.146.472.4077.464.302.686.5023.147.119.2070.210.3052.10)(99ijdD第18页/共43页 在第三步之后余下的元素中,除对角线元素以外,在第三步之后余下的元素中,除对角线元素以外,d43=d34=1.23为最小者,故将第为最小者,故将第3区与第区与第4区并为一
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 系统 聚类分析
限制150内