聚类分析精选PPT.ppt
《聚类分析精选PPT.ppt》由会员分享,可在线阅读,更多相关《聚类分析精选PPT.ppt(148页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于聚类分析1第1页,讲稿共148张,创作于星期二2 聚类分析的基本思想及意义聚类分析的基本思想及意义 聚类分析是研究聚类分析是研究分类问题分类问题的多元数据分析方法的多元数据分析方法聚类分析是数值分类学的一分支聚类分析是数值分类学的一分支 在经济学中有广泛的应用背景在经济学中有广泛的应用背景 城镇居民收入分析城镇居民收入分析 产品质量指标产品质量指标 等等等等 第2页,讲稿共148张,创作于星期二3聚类分析的基本思想及意义聚类分析的基本思想及意义基本思想基本思想:在在样品样品之间定义之间定义距离距离,在,在变量变量之间定义之间定义相似相似系数系数,距离或相似系数代表样品或变量之间的相似,距离
2、或相似系数代表样品或变量之间的相似程度。程度。按相似程度的大小,将样品(或变量)逐一分按相似程度的大小,将样品(或变量)逐一分类类,关系密切的类聚集到一个小的分类单位,然后逐步,关系密切的类聚集到一个小的分类单位,然后逐步扩大,使得关系疏远的聚合到一个大的分类单位,直到扩大,使得关系疏远的聚合到一个大的分类单位,直到所有的样品(或变量)都聚集完毕,形成一个表示亲疏所有的样品(或变量)都聚集完毕,形成一个表示亲疏关系的谱系图,依次按照某些要求对样品(或变量)进关系的谱系图,依次按照某些要求对样品(或变量)进行分类。行分类。第3页,讲稿共148张,创作于星期二4聚类分析的基本思想及意义聚类分析的基
3、本思想及意义多元数据形成多元数据形成数数据矩阵据矩阵,在这个,在这个数据矩阵中,共数据矩阵中,共有有n n个样品个样品 (列向),(列向),p p个指个指标(行向)。聚标(行向)。聚类分析有两种类类分析有两种类型:型:按按样品样品聚类聚类或按或按变量变量聚类聚类。第4页,讲稿共148张,创作于星期二5聚类分析与判别分析的区别和联系聚类分析与判别分析的区别和联系区别区别:聚类分析一般寻求客观的分类方法。在进行聚类:聚类分析一般寻求客观的分类方法。在进行聚类之前,对总体到底有几类类型之前,对总体到底有几类类型未知未知(究竟分几类较为(究竟分几类较为合适,需从计算中探索调整)。合适,需从计算中探索调
4、整)。判别分析则是在总体类型划分判别分析则是在总体类型划分已知已知,在各总体分布,在各总体分布或来自总体训练样本基础上,对当前的新样本判定或来自总体训练样本基础上,对当前的新样本判定它们属于哪个总体。它们属于哪个总体。联系联系:当我们对研究的多元数据的特征不熟悉,就要当我们对研究的多元数据的特征不熟悉,就要先进行聚类分析,才能考虑判别分析问题。先进行聚类分析,才能考虑判别分析问题。第5页,讲稿共148张,创作于星期二6聚类分析的方法聚类分析的方法重点介绍重点介绍 快速聚类法快速聚类法 谱系聚类法谱系聚类法 第6页,讲稿共148张,创作于星期二7样品间的相似性度量距离样品间的相似性度量距离设有设
5、有n n个样品的多元观测数据:个样品的多元观测数据:每个样品可看成每个样品可看成p p元空间的一个点,元空间的一个点,n n个样品组成个样品组成p p元空间的元空间的n n个点。个点。我们用各点之间的我们用各点之间的距离距离来衡量各种样品之间的来衡量各种样品之间的相似相似程度程度 。第7页,讲稿共148张,创作于星期二8样品间的相似性度量距离样品间的相似性度量距离设设 是样品是样品 之间的距离,一之间的距离,一般要求它满足下列条件:般要求它满足下列条件:在聚类分析中在聚类分析中,有些距离不满足有些距离不满足3 3),我们我们在广义上仍称它为距离。在广义上仍称它为距离。第8页,讲稿共148张,创
6、作于星期二9聚类分析中的常用距离聚类分析中的常用距离欧式距离欧式距离 令 ,形成一个距离矩阵形成一个距离矩阵 其中其中 .第9页,讲稿共148张,创作于星期二10例例 6.1为研究辽宁、浙江、河南、甘肃、青海为研究辽宁、浙江、河南、甘肃、青海5省份省份1991年城镇居年城镇居民生活消费规律,需要利用调查资料对这民生活消费规律,需要利用调查资料对这5个省分类。指标变量个省分类。指标变量共共8个,含义如下:个,含义如下:x1:人均粮食支出,人均粮食支出,x2:人均副食支出,人均副食支出,x3:人均烟酒茶支出,:人均烟酒茶支出,x4:人均其他副食支出,:人均其他副食支出,x5:人均衣着商品支出,:人
7、均衣着商品支出,x5:人均日用品支出,:人均日用品支出,x7:人均燃料支出,:人均燃料支出,x8:人均非商品支出。:人均非商品支出。数据资料示于表数据资料示于表6.2。将每个省份的数据看成一个样。将每个省份的数据看成一个样 品,计算样品之间的品,计算样品之间的欧式距离矩阵欧式距离矩阵。第10页,讲稿共148张,创作于星期二11例 6.1表表6.2 19916.2 1991年年5 5省城镇居民月均消费(单位:元省城镇居民月均消费(单位:元/人)人)x1x2x3x4x5x6x7x8辽宁7.9039.778.4912.9419.2711.052.0413.29浙江7.6850.3711.3513.3
8、019.2514.592.7514.87河南9.4227.938.208.1416.179.421.559.76甘肃9.1627.989.019.3215.999.101.8211.35青海10.0628.6410.5210.0516.188.391.9610.81第11页,讲稿共148张,创作于星期二12例 6.1解解:以:以1,2,3,4,5分别表示辽宁、浙江、河南、甘分别表示辽宁、浙江、河南、甘肃、青海肃、青海5个省(样品)。计算每两个样品之间的欧个省(样品)。计算每两个样品之间的欧式距离:式距离:第12页,讲稿共148张,创作于星期二13例 6.1从而得到距离矩阵如下:从而得到距离矩阵
9、如下:(因是对称矩阵,故只用下三角部分表示)(因是对称矩阵,故只用下三角部分表示)D中各元素数值的大小,反映了中各元素数值的大小,反映了5个省消费水平的接近个省消费水平的接近程度。程度。第13页,讲稿共148张,创作于星期二14聚类分析中的常用距离聚类分析中的常用距离绝对距离绝对距离Minkowski距离距离 当当 时分别是欧式距离、绝对距离。时分别是欧式距离、绝对距离。MinkowskiMinkowski距离又称距离又称 距离,距离,距离即距离即欧式距离欧式距离,距离即距离即绝对绝对距离距离。第14页,讲稿共148张,创作于星期二15聚类分析中的常用距离聚类分析中的常用距离Chebyshev
10、距离距离 Chebyshev距离是Minkowski距离当 时的极限。第15页,讲稿共148张,创作于星期二16聚类分析中的常用距离聚类分析中的常用距离以上距离与各变量指标的量纲有关,为消除量纲的以上距离与各变量指标的量纲有关,为消除量纲的影响,有时应先对数据进行影响,有时应先对数据进行标准化标准化,然后用标准化,然后用标准化数据计算距离。标准化数据数据计算距离。标准化数据 其中其中第16页,讲稿共148张,创作于星期二17聚类分析中的常用距离聚类分析中的常用距离方差加权距离方差加权距离 对标准化数据对标准化数据 计算欧式距离时,即是方差加计算欧式距离时,即是方差加权距离。权距离。第17页,讲
11、稿共148张,创作于星期二18聚类分析中的常用距离聚类分析中的常用距离马氏距离马氏距离 其中其中 是由样品是由样品 算得的协方差矩阵:算得的协方差矩阵:其中其中第18页,讲稿共148张,创作于星期二19快速聚类法快速聚类法在谱系聚类法中,因为样品一旦被归到某个类后就不在谱系聚类法中,因为样品一旦被归到某个类后就不变了,所以要求分类方法比较准确。而样品容量较大变了,所以要求分类方法比较准确。而样品容量较大时,谱系聚类法的计算量过大。因此,为了弥补谱系时,谱系聚类法的计算量过大。因此,为了弥补谱系聚类法的不足,产生了快速聚类法,又称聚类法的不足,产生了快速聚类法,又称动态聚类法动态聚类法。快速聚类
12、法先将样品粗糙地分一下类,然后再按照某快速聚类法先将样品粗糙地分一下类,然后再按照某种原则进行修正,直至分类比较合理为止。种原则进行修正,直至分类比较合理为止。第19页,讲稿共148张,创作于星期二20快速聚类法快速聚类法选择聚点选择聚点最终分类最终分类合理合理初始分类初始分类分类是否合理分类是否合理修改分类修改分类不合理不合理第20页,讲稿共148张,创作于星期二21快速聚类法的步骤快速聚类法的步骤选择聚点选择聚点 聚点聚点(种子)是一批有(种子)是一批有代表性的样品代表性的样品,它的选择决定了初始分类,对最终分类有它的选择决定了初始分类,对最终分类有较大影响。较大影响。在进行快速聚类法前,
13、要根据研究问题在进行快速聚类法前,要根据研究问题的要求及了解程度先定下分类数的要求及了解程度先定下分类数k k,这样就,这样就可以在每一类中选择一个有代表性的样品可以在每一类中选择一个有代表性的样品作为聚点(初始聚点)。作为聚点(初始聚点)。第21页,讲稿共148张,创作于星期二22快速聚类法的步骤快速聚类法的步骤如何选择聚点?如何选择聚点?1)经验选择。如果对研究对象比较了解,经验选择。如果对研究对象比较了解,根据以往的根据以往的经验定下经验定下k个样品作为聚点。个样品作为聚点。2)将将n个样品人为地(或随机地)分成个样品人为地(或随机地)分成k类,类,以每类的以每类的重心重心作为聚点。作为
14、聚点。第22页,讲稿共148张,创作于星期二23快速聚类法的步骤快速聚类法的步骤 3)最小最大原则。最小最大原则。设要将设要将n个样品分成个样品分成k类,先选择所有样品中距离类,先选择所有样品中距离最远的两个样品最远的两个样品 为前两个聚点,即选择为前两个聚点,即选择 和和 ,然后,选择第然后,选择第3个聚点个聚点 ,使得,使得 与前两个聚点的与前两个聚点的距离距离最小最小者等于所有其余的与者等于所有其余的与 的最小距离中的最小距离中最最大大的,用公式表示为的,用公式表示为 第23页,讲稿共148张,创作于星期二24快速聚类法的步骤快速聚类法的步骤然后按相同的原则选取然后按相同的原则选取 ,依
15、次下去,直至选定,依次下去,直至选定个聚点个聚点 。若已选了若已选了L个聚点(个聚点(Lk),则第则第L+1个聚点选取的原个聚点选取的原则为则为第24页,讲稿共148张,创作于星期二25快速聚类法的步骤快速聚类法的步骤 注:在注:在SAS系统系统proc fastclus过程中,分类数过程中,分类数k是事先是事先给定的。在给定给定的。在给定k以后,以后,proc fastclus过程会按上述方过程会按上述方法算出初始聚点的。法算出初始聚点的。第25页,讲稿共148张,创作于星期二26快速聚类法的计算步骤快速聚类法的计算步骤先假设聚类中采用的距离是先假设聚类中采用的距离是欧式距离欧式距离,即,即
16、1 1)设)设k k个初始聚点的集合是个初始聚点的集合是用下列原则实现初始分类。记用下列原则实现初始分类。记这样,将样品分成不相交的这样,将样品分成不相交的k k类。以上初始分类的类。以上初始分类的原则是每个样品以原则是每个样品以最靠近最靠近的初始聚点归类。的初始聚点归类。第26页,讲稿共148张,创作于星期二27快速聚类法的计算步骤快速聚类法的计算步骤依照以上计算,得到一个初始分类依照以上计算,得到一个初始分类2 2)从)从 出发,计算新的聚点集合出发,计算新的聚点集合 。以。以 的的重心重心作为新的聚点:作为新的聚点:其中其中 是类是类 中的样品数。这样,得到新的中的样品数。这样,得到新的
17、聚点集合:聚点集合:第27页,讲稿共148张,创作于星期二28快速聚类法的计算步骤快速聚类法的计算步骤从从 出发,将样品作新的分类。记出发,将样品作新的分类。记得到分类得到分类这样,依次重复计算下去。这样,依次重复计算下去。第28页,讲稿共148张,创作于星期二29快速聚类法的计算步骤快速聚类法的计算步骤3 3)设在第)设在第m m步得到分类步得到分类 在以上递推计算过程中,在以上递推计算过程中,是类是类 的重心的重心。不一定不一定是样品,又一般不是是样品,又一般不是 的重心。当的重心。当m m逐渐增大时,分类逐渐增大时,分类趋于稳定。此时,趋于稳定。此时,就会近似为就会近似为 的重心,从而算
18、法的重心,从而算法即可结束。实际计算时,从某一步即可结束。实际计算时,从某一步m m开始,分类开始,分类第29页,讲稿共148张,创作于星期二30快速聚类法的计算步骤快速聚类法的计算步骤 与与 完全相同,计算即告结束。完全相同,计算即告结束。记记 理论上可以证明:当理论上可以证明:当m增加时,增加时,为单调减下有为单调减下有界序列,故界序列,故 存在,即存在,即 会逐步趋于稳定。因会逐步趋于稳定。因此,分类结果也将逐步稳定,此,分类结果也将逐步稳定,即上述快速聚类法即上述快速聚类法具有收敛性。具有收敛性。第30页,讲稿共148张,创作于星期二31快速聚类法的计算步骤快速聚类法的计算步骤设设给定
19、给定 ,若,若则递推计算过程则递推计算过程结束结束。注:在注:在proc fastclusproc fastclus过程中,过程中,的默认值是的默认值是0.020.02。第31页,讲稿共148张,创作于星期二32快速聚类proc fastclus过程该过程适合于观测数目较大的数据集的不相交聚类(即各类之间该过程适合于观测数目较大的数据集的不相交聚类(即各类之间互不相交)。但对于小数据集,此过程对于观测的次序较为敏感。互不相交)。但对于小数据集,此过程对于观测的次序较为敏感。此过程在聚类之前要求指定类的个数,因为要对不同的类的个数此过程在聚类之前要求指定类的个数,因为要对不同的类的个数作分析,需
20、要多次运行该过程。作分析,需要多次运行该过程。主要语句形式为主要语句形式为 proc fastclus options;var variables;ID variable;第32页,讲稿共148张,创作于星期二33快速聚类proc fastclus过程proc fastclus options;1)maxcluster(或maxc)n:指定所允许的最大分类个数,若省略,则默认n100。2)radiust:为选择新的“聚点”指定的最小距离准则。t的默认值为0。用户必须规定以上两个选项之一。第33页,讲稿共148张,创作于星期二34快速聚类proc fastclus过程proc fastclus
21、options;3)dataSAS data set:指出用以分析的SAS数据集名称。此过程中,数据性质是原始观测数据,而不能是距离或相似矩阵。4)mean SAS data set:生成一个输出数据集,其中包括每个类的均值和其他统计量的值。5)out SAS data set:生成一个输出数据集,其中包括原始数据及两个新变量cluster(用以指示观测属于哪个类的变量)和距离distance。第34页,讲稿共148张,创作于星期二35快速聚类proc fastclus过程proc fastclus options;6)clustername:规定在4)和5)的输出数据集中用以指示观测数据属于
22、哪一类的变量名称。缺省时系统自动命名为cluster。7)distance:要求打印类均值之间的距离。8)list:要求列出所有观测的ID变量值,观测所归入类的类号及观测与最终“聚点”之间的距离。9)leastm:表明用Lm准则进行聚类,L1是绝对距离,L2是欧式距离,leastmax是Chebyshev距离。第35页,讲稿共148张,创作于星期二36例 6.1 对13个国家1990年,1995年与2000年的可持续发展综合国力进行评估,其得分值如下表所示。试用快速聚类法将上述13个国家聚为4类。澳大利亚 1249.39 1273.61 1282.68巴西 821.60 859.85 919.
23、73加拿大 1641.01 1591.54 1608.32中国 1330.45 1382.68 1462.08法国 1546.55 1501.77 1525.95德国 1656.52 1630.52 1570.69印度 861.30 862.51 945.11意大利 1321.77 1232.30 1243.51日本 1873.68 1949.89 1851.20俄罗斯 1475.16 1315.87 1297.00南非 794.25 787.48 782.38英国 1486.75 1441.71 1465.12美国 2824.29 2659.64 2740.12第36页,讲稿共148张,创作
24、于星期二37data examp6_1;input country$x1 x2 x3;cards;澳大利亚 1249.39 1273.61 1282.68美国 2824.29 2659.64 2740.12;run;proc fastclus data=examp6_1 out=aa maxc=4 cluster=c list distance;var x1 x2 x3;id country;run;proc plot data=aa;plot x2*x1=c;run;例例 6.1允许的分类允许的分类个数个数指示样品属于哪指示样品属于哪一类的变量名称一类的变量名称打印各类中心之间打印各类中心之
25、间的距离矩阵的距离矩阵列出所列出所有样品有样品分类的分类的信息信息第37页,讲稿共148张,创作于星期二38第38页,讲稿共148张,创作于星期二39第39页,讲稿共148张,创作于星期二40第40页,讲稿共148张,创作于星期二41例6.2 1976年74个国家和地区的人口出生率x1和死亡率x2的数据见表6.25(国家与地区名从略)。表中列出的数据是每10万人的出生数与死亡数。试对这74个国家与地区按人口出生率与死亡率进行快速聚类分析。第41页,讲稿共148张,创作于星期二42第42页,讲稿共148张,创作于星期二43假定分3类data shengsi;input x1 x2;cards;p
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 精选 PPT
限制150内