管理决策模型与方法-聚类分析.ppt
《管理决策模型与方法-聚类分析.ppt》由会员分享,可在线阅读,更多相关《管理决策模型与方法-聚类分析.ppt(147页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、管理决策模型与方法管理决策模型与方法(聚类分析部分聚类分析部分)(适用于信息管理与信息系统、工商管理专业适用于信息管理与信息系统、工商管理专业30H)主讲教师:屈春艳主讲教师:屈春艳工商管理学院信息管理教研室第三章第三章 聚类分析聚类分析 聚聚类类分分析析,亦亦称称群群分分析析或或点点群群分分析析,它它是是研研究究对对样样品品或或指指标标进进行行分分类类的的一一种种多多元元统统计计分分析析方方法法(它它是是研研究究多多要要素素事事物物分分类类问问题题的的数数量量方方法法)。所所谓谓的的类类通通俗俗地地说说就就是是相相似似元元素素的的集合。集合。什么是分类?什么是分类?分分类类是是将将一一个个观
2、观测测对对象象指指定定到到某某一一类类(组组)。工商管理学院信息管理教研室 分类的问题可以分成两种:分类的问题可以分成两种:一一种种是是对对当当前前所所研研究究的的问问题题已已知知它它的的类类别别数数目目,且且知知道道各各类类的的特特征征(如如分分布布规规律律、或或知知道道来来自自各各类类的的训训练练样样本本),我我们们的的目目的的是是要要将将另另一一些些未未知知类类别别的的个个体体正正确确归归属属于于其其中中某某一类,这是判别分析所要解决的问题。一类,这是判别分析所要解决的问题。另另一一种种是是事事先先不不知知道道研研究究问问题题应应分分成成几几类类,更更不不知知道道观观测测的的个个体体的的
3、具具体体分分类类情情况况,我我们们的的目目的的正正是是需需要要通通过过对对观观测测数数据据所所进进行行的的分分析析处处理理,选选定定一一种种度度量量个个体体接接近近程程度度的的统计量、确定分类数目、建立一种分类方法,统计量、确定分类数目、建立一种分类方法,工商管理学院信息管理教研室 并并按按亲亲近近程程度度对对观观测测对对象象给给出出合合理理的的分分类类。这这种种问问题题在在实实际际中中大大量量存存在在,它它正正是是聚聚类类分分析所要解决的问题。析所要解决的问题。工商管理学院信息管理教研室第一节第一节 聚类分析的方法聚类分析的方法 聚聚类类分分析析的的职职能能是是建建立立一一种种分分类类方方法
4、法,其其基基本本原原理理是是,根根据据样样品品(本本)自自身身的的属属性性,用用数数学学方方法法按按照照某某些些相相似似性性或或差差异异性性指指标标,定定量量地地确确定定样样本本之之间间的的亲亲疏疏关关系系,并并按按这这种种亲疏关系程度对样本进行聚类。亲疏关系程度对样本进行聚类。工商管理学院信息管理教研室聚类分析的方法聚类分析的方法 聚聚类类分分析析的的内内容容十十分分丰丰富富,按按其其聚聚类类的的方方法可分为以下几种:法可分为以下几种:1 1、系系统统聚聚类类法法:开开始始每每个个对对象象自自成成一一类类,然然后后每每次次将将最最相相似似的的两两类类合合并并,合合并并后后重重新新计计算算新新
5、类类与与其其它它类类的的距距离离或或相相近近性性测测度度。这这一过程一直继续直到所有对象归为一类为止。一过程一直继续直到所有对象归为一类为止。2、调调优优法法(动动态态聚聚类类法法):首首选选对对n个个对对象象初初步步分分类类,然然后后根根据据分分类类的的损损失失函函数数尽尽可可能能小小的的原原则则对对分分类类进进行行调调整整,直直到到分分类类合合理理为止。为止。工商管理学院信息管理教研室聚类分析的方法聚类分析的方法 3 3、最最优优分分割割法法(有有序序样样品品聚聚类类法法):开开始始将将所所有有样样品品看看成成一一类类,然然后后根根据据某某种种最最优优准准则则将将它它们们分分割割为为二二类
6、类、三三类类,一一直直分分割割到到所所需需的的k k类类为为止止。这这种种方方法法适适用用于于有有序序样样品品的的分分类问题,也称为有序样品的聚类法。类问题,也称为有序样品的聚类法。4、模模糊糊聚聚类类法法:利利用用模模糊糊集集理理论论来来处处理理分分类类问问题题,它它对对经经济济领领域域中中具具有有模模糊糊特特征征的的两态数据或多态数据具有明显的分类效果。两态数据或多态数据具有明显的分类效果。工商管理学院信息管理教研室聚类分析的方法聚类分析的方法 5、图论聚类法:利用图论中最小支撑树的概念来处理分类问题,创造了独具风格的方法。6、聚类预报法:利用聚类方法处理预报问题,在多元统计分析中,可用来
7、做预报的方法很多,如回归分析和判断分析。但对一些异常数据,如气象中的灾害性天气的预报,回归或判断分析处理的效果都不好,而聚类预报弥补了这一不足,这是一个值得重视的方法。工商管理学院信息管理教研室R R型聚类分析型聚类分析 聚类分析根据分类对象的不同分为R型和Q型在大类。R型是对变量(指标)进行分类处理,R型聚类分析的目的有以下方面:(1)可以了解变量间及变量组合间的亲疏关系;(2)对变量进行分类;(3)根据分类结果及它们之间的关系,在每一类中选择有代表性的变量作为重要变量,利用少数几个重要变量进一步作分析计算,如进行回归分析或Q型聚类分析等。工商管理学院信息管理教研室Q Q型聚类分析型聚类分析
8、 Q Q型型是是对对样样品品进进行行分分类类处处理理。Q Q型型聚聚类类分分析析的的目目的的主主要要是是对对样样品品进进行行分分类类。分分类类的的结结果果是是直直观观的的,且且比比传传统统分分类类方方法法更更细细致致、全全面、合理。面、合理。当当然然使使用用不不同同的的分分类类方方法法通通常常会会得得到到不不同同的的分分类类结结果果。对对任任何何观观测测数数据据都都没没有有惟惟一一“正正确确的的”的的分分类类方方法法。实实际际应应用用中中,常常采采用用不不同同的的分分类类方方法法,对对数数据据进进行行分分析析计计算算,以以便便对对分分类类提提供供意意见见,并并由由实实际际工工作作者者决决定定所
9、需要的分类数及分类情况。所需要的分类数及分类情况。工商管理学院信息管理教研室第二节第二节 聚类要素的数据处理聚类要素的数据处理 为了对样品为了对样品(或变量或变量)进行分类,就必须进行分类,就必须研究它们之间的关系。描述样品间亲疏相似研究它们之间的关系。描述样品间亲疏相似程度的统计量很多,目前用得最多的是距离程度的统计量很多,目前用得最多的是距离和相似系数,这两个统计量与变量的类型密和相似系数,这两个统计量与变量的类型密切相关,为此我们首选分析一下变量的类型。切相关,为此我们首选分析一下变量的类型。工商管理学院信息管理教研室一、变量的类型一、变量的类型 根根据据变变量量取取值值的的不不同同可可
10、将将变变量量分分为为以以下下几几种:种:1 1、名名义义变变量量:变变量量值值是是几几个个没没有有次次序序之之分分的的不不同同状状态态,它它给给变变量量值值赋赋予予名名称称。例例如如,性性别别、汽汽车车品品牌牌、职职业业、血血型型、是是否否患患病病、喜爱的颜色等等都是名义变量。喜爱的颜色等等都是名义变量。2 2、有有序序变变量量:变变量量值值是是严严格格有有次次序序的的不不同同状状态态。例例如如产产品品按按质质量量分分为为:不不好好、一一般般、好、很好。文化程度分为高、中、低等。好、很好。文化程度分为高、中、低等。工商管理学院信息管理教研室一、变量的类型一、变量的类型3、区区间间变变量量(或或
11、间间隔隔变变量量):区区间间变变量量是是有有顺顺序序大大小小的的数数值值变变量量,且且数数值值间间的的差差值值是是有有意意义义的的。例例如如考考虑虑温温度度,40度度比比10度度热热30度度,而而40度度和和10度度是是相相对对于于人人们们取取定定的的0度度而而言言的的。这这类类变变量量对对减减法法:两两值值之之差差是是意意义义的的;但对两值的比率是没有意义的。但对两值的比率是没有意义的。4 4、比比率率变变量量(比比例例变变量量):比比率率变变量量也也是是数数值值变变量量,不不仅仅数数值值之之差差有有意意义义,而而且且要要求求有绝对的零点,两数值的比率也是很重要。有绝对的零点,两数值的比率也
12、是很重要。工商管理学院信息管理教研室 上上述述四四类类变变量量中中,名名义义变变量量和和有有序序变变量量也也称称为为属属性性变变量量(或或定定性性变变量量),有有时时也也称称为为离离散散变变量量;而而区区间间变变量量和和比比率率变变量量称称为为定定量量变变量量,有时也称为连续变量。有时也称为连续变量。不不同同类类型型的的变变量量在在定定义义距距离离或或相相似似性性质质测测度度时时有有很很大大差差异异。本本章章主主要要讨讨论论定定量量数数据据的聚类分析问题。的聚类分析问题。工商管理学院信息管理教研室二、聚类要素的数据处理二、聚类要素的数据处理 在在聚聚类类分分析析中中,聚聚类类要要素素的的选选择
13、择是是十十分分重重要要的的,它它直直接接影影响响分分类类结结果果的的准准确确性性和和可可靠靠性性。在在分分类类研研究究中中,被被聚聚类类的的对对象象常常常常是是多多个个要要素素构构成成的的。不不同同要要素素的的数数据据往往往往具具有有不不同同的的单单位位和和量量纲纲,因因而而其其数数值值的的差差异异可可能能是是很很大大的的,这这就就会会对对分分类类结结果果产产生生影影响响。因因此此当当分分类类要要素素的的对对象象确确定定之之后后,在在进进行行聚聚类类分析之前,还要对聚类要素进行数据处理。分析之前,还要对聚类要素进行数据处理。假假设设有有m个个被被聚聚类类的的对对象象(样样品品),每每一一个个被
14、被聚聚类类对对象象(样样品品)都都有有X1,X2,Xn个个要要素素(指指标标或或变变量量)构成。它们所对应的要素数据可用表构成。它们所对应的要素数据可用表3131给出。给出。工商管理学院信息管理教研室表表31观测数据及特征值观测数据及特征值 变量变量样品样品X1XjXnX(1)x11x1jx1n X(i)xi1xijxin X(m)xm1xmjxmn均均 值值标准差标准差s1sjsn工商管理学院信息管理教研室表3-1中 均值工商管理学院信息管理教研室标准差1 1、中心化变换、中心化变换(标准化标准化)分别求出各聚类要素所对应的均值,以各要素的数据减去相应要素的均值,即工商管理学院信息管理教研室
15、 中心化变换是一种标准化处理方法,变换后数据的均值为0,而协差不变,即协差阵为 其中 工商管理学院信息管理教研室 中心化变换是一种方便地计算样本协差阵的变换。2 2、总和标准化变换、总和标准化变换 分别求出各聚类要素所对应的数据的总和,以各要素的数据除以该要素数据的总和,即工商管理学院信息管理教研室 这种标准化方法所得的新数据 工商管理学院信息管理教研室满足3 3、标准差的标准化、标准差的标准化(标准化变换标准化变换)即 工商管理学院信息管理教研室 这种标准化方法所得的新数据 各要素的平均值为0,标准差为1,即有 而且标准化后的数据 与变量的量纲无关。4 4、极大、极大值标值标准化准化(变换变
16、换)即工商管理学院信息管理教研室 经经过过这这种种标标准准化化所所得得的的新新数数据据,各各要要素素的极大值为的极大值为1 1,其余各数值小于,其余各数值小于1 1。5 5、极差正、极差正规规化化变换变换(规规格化格化变换变换)即工商管理学院信息管理教研室 经过这种标准化所得的新数据,各要素的极大值为1,极小值为0;极差为1,其余的数值均在0与1之间。数据是无量纲的量。举例举例 表表3-23-2给给出出了了某某地地区区九九个个农农业业区区的的七七项项经经济济指指标标,其其极极差差正正规规化化变变换换处处理理后后的的数数据据如如表表3-33-3所示。所示。工商管理学院信息管理教研室表表32 32
17、 某地区九个农业区的七项经济指标数据某地区九个农业区的七项经济指标数据 工商管理学院信息管理教研室区代号区代号指指 标标人均耕地人均耕地x x1 1(亩亩/人人)劳均耕地劳均耕地x x2 2(亩亩/个个)水田比重水田比重x x3 3(%)(%)复种指数复种指数x x4 4(%)(%)粮食亩产粮食亩产x x5 5(kg/(kg/亩亩)人均粮食人均粮食x x6 6(kg/(kg/人人)稻谷占粮食稻谷占粮食比重比重x x7 7(%)(%)G14.414.4116.4016.405.635.63 113.60113.60 300.70300.701036.401036.4012.2012.20G24.
18、724.7214.5714.570.390.3995.1095.10 184.90184.90 683.70683.700.850.85G31.841.844.474.475.285.28 148.50148.50 462.30462.30 611.10611.106.496.49G42.692.697.917.910.390.39 111.00111.00 297.20297.20 632.60632.600.920.92G51.221.223.183.1872.0472.04 217.80217.80 816.60816.60 791.10791.1080.3880.38G61.231.2
19、33.163.1643.7843.78 179.60179.60 598.20598.20 636.50636.5048.1748.17G71.121.122.722.7265.1565.15 194.70194.70 712.60712.60 634.30634.3080.1780.17G84.404.409.999.995.355.3594.9094.90 245.30245.30 771.70771.707.807.80G92.502.506.216.212.902.9094.8094.80 282.10282.10 574.60574.601.171.17表表33 33 极差正极差正规
20、规化化变换处变换处理后的数据理后的数据 工商管理学院信息管理教研室区代号区代号指指 标标x1x2x3x4x5x6x7G10.910.911.001.000.070.070.150.150.180.181.001.000.140.14G21.001.000.870.870.000.000.000.000.000.000.240.240.000.00G30.200.200.150.150.070.070.440.440.440.440.080.080.070.07G40.440.440.380.380.000.000.130.130.180.180.130.130.000.00G50.030.03
21、0.030.031.001.001.001.001.001.000.450.451.001.00G60.030.030.030.030.610.610.690.690.650.650.130.130.590.59G70.000.000.000.000.900.900.810.810.840.840.130.131.001.00G80.910.910.530.530.070.070.000.000.100.100.430.430.090.09G90.380.380.260.260.040.040.000.000.150.150.000.000.000.006 6、极差、极差标标准化准化变换变换
22、即工商管理学院信息管理教研室 极差标准化变换变换后的数据,每个变量的样本均值为0,极差为1,且,在 以后的分析计算中可以减少误差的产生;同时变化后的数据也是无量纲的量。7 7、对对数数变换变换 即即工商管理学院信息管理教研室 对对数数变变换换可可将将具具有有指指数数特特征征的的数数据据结结构化构化为线为线性数据性数据结结构。构。此此外外,还还有有平平方方根根变变换换,立立方方根根变变换换等等。它它们们的的主主要要作作用用是是把把非非线线性性数数据据结结构构变变为为线线性数据性数据结结构,以适构,以适应应某些某些统计统计方法的需要。方法的需要。第三节第三节 (样品间的样品间的)距离和相似系数的计
23、算距离和相似系数的计算 距离距离是事物是事物(样品样品)之间差异性的测度,之间差异性的测度,而而相似系数相似系数则是其相似性的测度,所以距离则是其相似性的测度,所以距离和相似系数是聚类分析的依据和基础。和相似系数是聚类分析的依据和基础。当聚类要素的数据处理工作完成以后,当聚类要素的数据处理工作完成以后,就要计算分类对象就要计算分类对象(样品样品)之间的距离或相似之间的距离或相似系数,并依据距离或相似系数的矩阵结构进系数,并依据距离或相似系数的矩阵结构进行聚类。行聚类。工商管理学院信息管理教研室一、距离的计算一、距离的计算设观测数据 工商管理学院信息管理教研室 列列成成表表31的的形形式式。如如
24、果果我我们们把把每每一一个个分分类类对对象象(样样品品,共共m个个)的的n个个聚聚类类要要素素看看成成n维维空空间间的的n个个坐坐标标轴轴,则则每每一一个个分分类类对对象象的的n个个要要素素所所构构成成的的n维维数数据据向向量量就就是是n维维空空间间中中的的一一个个点点(即即m个个样样品品看看成成n维维空空间间中中的的m个个点点)。这这样样,各各分分类类对对象象之之间间的的差差异异性性就就可可以以由由它它们所对应的们所对应的n维空间中点之间的距离度量。维空间中点之间的距离度量。关于距离的说明:关于距离的说明:用 工商管理学院信息管理教研室表示样品 和 之间的距离,一般要求:(1)0,对于一切i
25、,j;当=0时=;(2),对于一切i,j;(3),对于一切i,j,k(三角不等式).对于定量变量,常用的距离有:1 1、绝对值距离、绝对值距离 工商管理学院信息管理教研室2 2、欧氏距离、欧氏距离 工商管理学院信息管理教研室3 3、明科夫斯基、明科夫斯基(MinkowskiMinkowski)距离距离 工商管理学院信息管理教研室4 4、切比雪夫距离、切比雪夫距离 工商管理学院信息管理教研室 当明科夫斯基距离p时,有 5 5、兰兰氏距离氏距离 工商管理学院信息管理教研室 这是由Lance和Williams最早提出的,故称为兰氏距离兰氏距离,定义为 这这是是一一个个无无量量纲纲的的量量,克克服服了
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 管理 决策 模型 方法 聚类分析
限制150内