欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    聚类分析 精选文档.ppt

    • 资源ID:70740996       资源大小:4.59MB        全文页数:79页
    • 资源格式: PPT        下载积分:18金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要18金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    聚类分析 精选文档.ppt

    聚类分析 本讲稿第一页,共七十九页 聚类分析又称群分析聚类分析又称群分析,它是对样品或指标进行分类的一种多它是对样品或指标进行分类的一种多元统计方法元统计方法.在实际问题中在实际问题中,经常遇到分类问题经常遇到分类问题,例如对某城市按例如对某城市按大气污染的轻重分成几类大气污染的轻重分成几类;在经济学中根据人均国民收入、人均在经济学中根据人均国民收入、人均工农业产值、人均消费水平等多种指标对地区性的经济发展状工农业产值、人均消费水平等多种指标对地区性的经济发展状况进行分类等况进行分类等.分类只不过是将一个观测对象指定到某一类分类只不过是将一个观测对象指定到某一类(组组)中中,分类的分类的问题可以分成两种问题可以分成两种:一种是对当前所研究的问题已知它的类别数一种是对当前所研究的问题已知它的类别数目目,且知道各类的特征且知道各类的特征,我们的目的是要将另一些未知类别的个我们的目的是要将另一些未知类别的个体正确归属于其中某一类体正确归属于其中某一类,这是判别分析所要解决的问题这是判别分析所要解决的问题.另一种是事先另一种是事先不知道研究的问题应分为几类不知道研究的问题应分为几类,更不知道观测到的个体的更不知道观测到的个体的具体分类情况具体分类情况.本讲稿第二页,共七十九页 本章的目的正是需要通过对观测数据所进行分析和处理本章的目的正是需要通过对观测数据所进行分析和处理,选选定一种度量个体接近程度的统计量、确定分类数目、建立一种定一种度量个体接近程度的统计量、确定分类数目、建立一种分类方法分类方法,并按亲近程度对观测对象给出合理的分类并按亲近程度对观测对象给出合理的分类.这种问题这种问题在实际中大量存在在实际中大量存在.聚类分析的职能是建立一种分类方法聚类分析的职能是建立一种分类方法,将一将一批样品按它们在性质上的亲疏、相似程度进行分类批样品按它们在性质上的亲疏、相似程度进行分类.第一节第一节 系统聚类与系统聚类与CLUSTER过程过程 在聚类分析中在聚类分析中,基本的思想是认为我们所研究的样品或指标基本的思想是认为我们所研究的样品或指标(变量变量)之间存在着程度不同的相似性之间存在着程度不同的相似性(亲疏关系亲疏关系).).于是根据一批于是根据一批样品的多个观测指标样品的多个观测指标,具体找出一些能够度量样品或指标之间相具体找出一些能够度量样品或指标之间相似程度的统计量似程度的统计量,以这些统计量作为划分类型的依据以这些统计量作为划分类型的依据,把一些相似把一些相似程度较大的样品或指标聚合为一类程度较大的样品或指标聚合为一类,把另外一些彼此之间相似程把另外一些彼此之间相似程度较大的样品或指标又聚合为另一类度较大的样品或指标又聚合为另一类,关系密切的聚合到一个小关系密切的聚合到一个小的分类单位的分类单位,关系疏远的聚合到一个大的分类单位关系疏远的聚合到一个大的分类单位,直到把所有样直到把所有样品或指标都聚合完毕品或指标都聚合完毕,把不同的类型一一划分出来把不同的类型一一划分出来,形成一个由小形成一个由小到大的分类系统到大的分类系统.本讲稿第三页,共七十九页 设有设有n n个样品个样品,每个样品测得每个样品测得p p项指标项指标.系统聚类方法的基本思系统聚类方法的基本思想是想是:首先定义样品间的距离首先定义样品间的距离(或相似系数或相似系数)以及类与类之间距离以及类与类之间距离.一开始将一开始将n n个样品各自成一类个样品各自成一类,这时样品间的距离与类间的距离这时样品间的距离与类间的距离是等价的是等价的;然后将距离最近的两类合并然后将距离最近的两类合并,并计算新类与其他类的并计算新类与其他类的类间距离类间距离,再按最小距离准则并类再按最小距离准则并类.这样每次缩小一类这样每次缩小一类,直到所有直到所有的样品并为一类为止的样品并为一类为止.这个并类过程可以用谱系聚类图表达出来这个并类过程可以用谱系聚类图表达出来.由以上系统聚类法的基本思想由以上系统聚类法的基本思想,即可得出它的基本步骤如下即可得出它的基本步骤如下:一一.系统聚类法的基本思想和基本步骤系统聚类法的基本思想和基本步骤1.系统聚类法的基本思想系统聚类法的基本思想(0)(0)先对数据进行变换先对数据进行变换,数据变换的目的是为了比较、计算上的数据变换的目的是为了比较、计算上的 方便而改变数据的结构方便而改变数据的结构.再选择度量样品间距离的定义再选择度量样品间距离的定义(如欧如欧 氏距离等氏距离等).).及度量类间距离的定义及度量类间距离的定义(如最短距离法如最短距离法,参见下面参见下面 的系统聚类分析的方法的系统聚类分析的方法).).本讲稿第四页,共七十九页(1)(1)计算计算n个样品两两间的距离个样品两两间的距离,得样品间的距离矩阵得样品间的距离矩阵D(0)(2)(2)一开始一开始(第一步第一步:i=1)n个样品各自构成一类个样品各自构成一类,类的个数类的个数k=n 此时的类为此时的类为Gi=Xi i=1,2,n,类间的距离就是样品间的类间的距离就是样品间的 距离距离(即即D(1)=D(0)然后对步骤然后对步骤i=1,2,n执行并类过程的步执行并类过程的步 骤骤(3)(3)和和(4).(4).(3)(3)每次合并类间距离最小的两类为一新类每次合并类间距离最小的两类为一新类.此时类的总个数此时类的总个数k 减少减少1类类,即即k=n-i-1(4)(4)计算新类与其他类的距离计算新类与其他类的距离,得新的距离阵得新的距离阵D(i),若合并后类的若合并后类的 总个数总个数k 仍大于仍大于1.重复步骤重复步骤(3)(3)和和(4);(4);直到类的总个数时直到类的总个数时k=1 为止。为止。(5)(5)画聚类谱系图;画聚类谱系图;(6)(6)决定分类的个数及各类的成员。决定分类的个数及各类的成员。例子例子 设有设有5个产品个产品,每个产品测得一项指标每个产品测得一项指标,其值如下其值如下:1,2,4.5,6,8试对这试对这5 5个产品按质量指标进行分类。个产品按质量指标进行分类。解解 样品间的距离取为欧氏距离样品间的距离取为欧氏距离(普通的距离普通的距离),),类间的距离取为类类间的距离取为类间的最短距离间的最短距离,依以上步骤计算如下依以上步骤计算如下:本讲稿第五页,共七十九页(1)计算计算5个样品个样品x1,x2,x3,x4,x5两两间的距离两两间的距离,得初始得初始 的类间距离阵的类间距离阵D(1)(2)一开始一开始5个样品各自构成一个样品各自构成一 类类,得得5个类个类G(i)=X(i)(i=1,2,3,4,5)类的个数为类的个数为k=5(3)由由D(1)可知可知,首先合并首先合并x1和和x2为为 一新类一新类,记为记为CL4=x1,x2,此时类此时类 的个数减少一类变为的个数减少一类变为k=4,故把此步故把此步 得到的新类记为得到的新类记为CL4.(4)按最短距离法计算新类与其他类间的距离按最短距离法计算新类与其他类间的距离,得新的距离矩阵得新的距离矩阵 D(2)见右表二见右表二,因此时类的总个数因此时类的总个数k=4大于大于1类类,重复并类重复并类 过程过程.x1 x2 x3 x4 x5x1x2x3x4x50 1 3.5 5 7 0 2.5 4 6 0 1.5 3.5 0 2 0 X3 x4 x5 CL4X3X4X5CL4 0 1.5 3.5 2.5 0 2 4 0 6 0 本讲稿第六页,共七十九页(6)按最短距离法计算新类与其他类的距离按最短距离法计算新类与其他类的距离,得新的距离矩阵得新的距离矩阵D(3)因此时类的总个数大于因此时类的总个数大于1类类,重复并类过程重复并类过程.(7)由由D(3)可知可知,应合并应合并x5和和CL3为一新类为一新类,记为记为CL2=x5,CL3,此时类的总个数此时类的总个数k减少减少1类变为类变为k=2,故把此故把此 步得到的新类记为步得到的新类记为CL2.X5 CL4 CL3X5CL4CL30 6 2 0 2.5 0 (5)由由D(2)可知类间距离为可知类间距离为1.5最小最小,故故 合并合并x3和和x4为一新类为一新类,记为记为 CL3=x3,x4;类的总个数减少一个类的总个数减少一个变为变为k=3,故把此步得到的新类记为故把此步得到的新类记为CL3.(8)按最短距离法计算新类按最短距离法计算新类CL2与其他类的距与其他类的距 离离,得新的距离矩阵得新的距离矩阵D(4)因此时总的类个数因此时总的类个数 k=2大于大于1,重复并类过程重复并类过程.CL4 CL2CL4CL2 0 2.5 0 (9)由由D(4)可知可知,最后应合并最后应合并CL4和和CL2为一新类为一新类,记为记为 CL1=x1,x2,x5,x3,x4.此时类的总个数此时类的总个数k=1,故把此步得到的新类记为故把此步得到的新类记为CL1,此时所此时所 有样品全合并为一类有样品全合并为一类,并类过程至此结束并类过程至此结束.本讲稿第七页,共七十九页(10)(10)画聚类谱系图形画聚类谱系图形.(11)(11)确定类的个数及各类的成员确定类的个数及各类的成员.若分为两类若分为两类,则则 若分为三类若分为三类,则则 若分为四类若分为四类,则则 若分为五类若分为五类,则则proc cluster data=数据集名称数据集名称 method=方法方法 选项串选项串;var 变量名称变量名称;(用于聚类分析的变量用于聚类分析的变量)id 变量名称变量名称;(在聚类分析中用于标识观测样本的变量在聚类分析中用于标识观测样本的变量)proc tree data=数据集名数据集名 out=数据集名数据集名 horizontal graphics;id 变量名称变量名称;(在聚类谱系图中用于标识观测样本的变量在聚类谱系图中用于标识观测样本的变量)二二.聚类分析的聚类分析的SASSAS书写格式书写格式本讲稿第八页,共七十九页data han1;input name$x;cards;x1 1 x2 2 x3 4.5 x4 6 x5 8;proc cluster data=han1 method=single nonorm outtree=han2;var x;id name;proc tree data=han2 out=han3 ncl=2 horizontal graphics;id name;proc print data=han3;run;说明说明:以上以上SAS程序中程序中,引入一个字符变量引入一个字符变量name,目的是在输出中用目的是在输出中用x1至至x5来识别来识别5个产品个产品CLUSTER过程是用于系统聚类的过程过程是用于系统聚类的过程.选项选项method=single规定类距离使用最短距离法规定类距离使用最短距离法.选项选项nonorm表示类间的距表示类间的距离不进行规格化离不进行规格化.本讲稿第九页,共七十九页 选项选项outtree=han2指定输出数据集的名字指定输出数据集的名字,该数据集包含用该数据集包含用 于画谱系聚类图的并类过程于画谱系聚类图的并类过程.Var语句指出用于聚类分析的变量语句指出用于聚类分析的变量;id语句指定在输出中用变量语句指定在输出中用变量name识别观测样品识别观测样品.并类的历史并类的历史 过程见以上输出结果的第一部分过程见以上输出结果的第一部分.Tree过程用于画谱系图过程用于画谱系图,选项选项 horizontal要求画水平的聚类谱系图要求画水平的聚类谱系图.选项选项graphics要求画高要求画高 分辨率的图形分辨率的图形.输出的谱系图见下输出的谱系图见下(输出结果的第三部分输出结果的第三部分).选项选项 ncl=2和和out=han3指出分为二类指出分为二类,并把分类结果放到输出数据集并把分类结果放到输出数据集 han3中中.Print过程输出分为二类的分类结果过程输出分为二类的分类结果,见输出结果的第见输出结果的第 二部分二部分.本讲稿第十页,共七十九页(1)Cluster History T Min i NCL -Clusters Joined-FREQ Dist e 4 X1 X2 2 1 3 X3 X4 2 1.5 2 CL3 X5 3 2 1 CL4 CL2 5 2.5()Obs name CLUSTER CLUSNAME 1 X1 1 CL4 2 X2 1 CL4 3 X3 2 CL2 4 X4 2 CL2 5 X5 2 CL2 输出的基本信息输出的基本信息:The CLUSTER Procedure Single Linkage Cluster Analysis Eigenvalues of the Covariance Matrix Eigenvalue Difference Proportion Cumulative 1 8.20000000 1.0000 1.0000 Root-Mean-Square Total-Sample Standard Deviation=2.863564本讲稿第十一页,共七十九页聚类谱系图聚类谱系图本讲稿第十二页,共七十九页聚类法的原则决定于样品间的距离聚类法的原则决定于样品间的距离(或相似系数或相似系数)及类间距离的定义及类间距离的定义,类间距离类间距离的不同就产生了不同的系统聚类分析方法的不同就产生了不同的系统聚类分析方法,以下为几种系统聚类分析方法以下为几种系统聚类分析方法:1.最短距离法最短距离法(ingle linkage)method=sin2.最长距离法最长距离法(Complete method)method=com3.中间距离法(中间距离法(Median method)method=med 4.重心法(重心法(Centriodmethod)method=cen 5.类平均法(类平均法(Average linkage)method=ave6.可变类平均法可变类平均法(Flexible-beta method)method=fle 7.可变法及可变法及McQqity相似分析法相似分析法(MCQ)method=mcq 8.离差平方和法离差平方和法(ard)method=ward 9.最大似然谱系聚类最大似然谱系聚类(EML)method=eml 10.密度估计法密度估计法(DEN)method=den11.两阶段密度估计法两阶段密度估计法(TWO)method=two 通常使用通常使用:类平均类平均,离差平方和离差平方和,可变类平均可变类平均,中间距离中间距离,最短距离和最长距离最短距离和最长距离.三三.系统聚类分析的方法系统聚类分析的方法 本讲稿第十三页,共七十九页 聚类分析中聚类分析中,类个数的确定是一个十分困难的问题类个数的确定是一个十分困难的问题,至今尚未找到令人满至今尚未找到令人满 意的方法意的方法,下面介绍几种常见的方法下面介绍几种常见的方法.1.由适当的阈值确定由适当的阈值确定选定某种聚类方法选定某种聚类方法,按系统聚类的步骤并类后按系统聚类的步骤并类后,得到一张谱系聚类图得到一张谱系聚类图.聚类图聚类图(或简称谱系图或简称谱系图)只反映样品只反映样品(或变量间或变量间)的亲疏关系的亲疏关系,它本身并没有给出分类它本身并没有给出分类,需需要规定一个临界相似性尺度要规定一个临界相似性尺度,用以分割谱系聚类图用以分割谱系聚类图,给定临界值给定临界值(阈值阈值)d,其含其含义为样品间绝对距离义为样品间绝对距离d 时时,认为这些样品间关系密切认为这些样品间关系密切,应归属同一类应归属同一类.这相当这相当于在距离为于在距离为d 处切一刀处切一刀.根据统计量确定分类个数根据统计量确定分类个数 CLUSTER过程提供如下的统计量用来选择合适的类个数过程提供如下的统计量用来选择合适的类个数.(1)R2 越大越大,聚类效果越好聚类效果越好.(2)半偏半偏R2用于评价上一次合并的效果用于评价上一次合并的效果,某步半偏某步半偏R2越大越大,说明上一次合并聚类说明上一次合并聚类 后的效果越好后的效果越好.(3)伪伪 F 统计量用于评价分为统计量用于评价分为k个类的效果个类的效果,伪伪F 的值越大表明这个的值越大表明这个 n 样品可样品可 显著地分为显著地分为k个类个类(4)伪伪 t2 值越大说明上一次被合并的两类是很分开的值越大说明上一次被合并的两类是很分开的,上一次的聚类效果越好上一次的聚类效果越好.四四.类个数的确定类个数的确定 本讲稿第十四页,共七十九页 Cluster HistoryNCL-Clusters Joined-FREQ SPRSQ RSQ ERSQ CCC PSF PST2 Dist 21 G1 G2 2 0.0002 1.00 .311 .0.058120 G11 G12 2 0.0011 .999 .82.7 .0.152719 G4 G7 2 0.0012 .998 .68.5 .0.155718 G13 G21 2 0.0030 .995 .43.2 .0.250617 G17 G20 2 0.0051 .989 .29.3 .0.328516 G8 CL18 3 0.0086 .981 .20.5 2.9 0.38815 CL19 G18 3 0.0122 .969 .15.4 10.6 0.445814 G15 G22 2 0.0096 .959 .14.4 .0.448213 CL21 CL14 4 0.0223 .937 .11.1 4.6 0.534312 CL17 G19 3 0.0197 .917 .10.0 3.8 0.58111 CL13 G6 5 0.0278 .889 .8.8 2.6 0.670210 G3 G14 2 0.0258 .863 .8.4 .0.7364 9 CL11 G5 6 0.0436 .820 .7.4 2.9 0.8213 8 CL15 CL16 6 0.0898 .730 .5.4 14.4 0.8461 7 CL8 G9 7 0.0443 .686 .5.5 1.9 0.8626 CL9 CL12 9 0.1051 .581 .4.4 5.7 0.90535 CL10 CL7 9 0.0798 .501 .4.3 3.0 0.95544 CL6 CL5 18 0.1692 .332 .526 -4.3 3.0 5.4 0.98783 CL4 CL20 20 0.1336 .198 .415 -4.2 2.3 3.6 1.08382 CL3 G16 21 0.0949 .103 .250 -3.1 2.3 2.2 1.21131 CL2 G10 22 0.1032 .000 .000 0.00 .2.3 1.2583本讲稿第十五页,共七十九页 由输出结果的第五列由输出结果的第五列SPRSQ可知半偏统计量值在可知半偏统计量值在NCL=3,4,5的的变化较大变化较大,故其支持分类为四类、五类和六类故其支持分类为四类、五类和六类;由第六列由第六列PSQ可得值可得值NCL=3,4 的变化较大的变化较大,故其支持分类为四类和故其支持分类为四类和五类五类;由第八列由第八列PSF可知伪统计量的值可知伪统计量的值(NCL7)在在NCL=3,4,5的值的值 较大较大,故其支持分类为四类、五类和六类故其支持分类为四类、五类和六类;由第九列由第九列PST2可知伪统计量的值可知伪统计量的值(NCL7)在在NCL=3,4较大较大,说明其支持分类为四类和五类说明其支持分类为四类和五类.综上所述可得出结论为综上所述可得出结论为:分类为四类和五类较为合适分类为四类和五类较为合适.本讲稿第十六页,共七十九页例例1 我国我国16个地区农民收支情况抽样调查表个地区农民收支情况抽样调查表 地区地区食品食品x1衣着衣着x2燃料燃料x3住房住房x4生活用品生活用品x5文化支出文化支出x6北京北京190.3343.779.7360.5449.019.04天津天津135.2036.4010.4744.1636.493.94河北河北95.2122.839.3022.4422.812.80山西山西104.7825.116.409.8918.173.25内蒙内蒙128.4127.638.9412.5823.993.27辽辽宁宁145.6832.8317.7927.2939.093.47吉林吉林159.3733.3818.3711.8125.295.22黑黑龙龙江江116.2229.5713.2413.7621.756.04上海上海221.1138.6412.53115.6550.825.89江江苏苏144.9829.1211.6742.6027.305.74浙江浙江169.9232.7512.7247.1234.355.00安徽安徽153.1123.0915.6223.5418.186.39福建福建144.9221.2616.9619.5221.756.73江西江西140.5421.5017.6419.1915.974.94山山东东115.8430.2612.2033.6133.773.85河南河南101.1823.268.4620.5020.504.30本讲稿第十七页,共七十九页 data han1;(解法一解法一:数据经标准化处理数据经标准化处理)input group$x1-X6;cards;北京北京 190.33 43.77 9.73 60.54 49.01 9.04 河北河北 95.21 2.83 9.30 22.44 22.81 2.8天津天津 135.20 36.40 10.47 44.16 36.49 3.94 山西山西 104.78 25.11 6.40 9.89 18.17 3.25proc cluster data=han1 method=ave std pseudo ccc outtree=han2;var X1-X6;(method=ave表示使用类平均法聚类)表示使用类平均法聚类)id group;proc tree data=han2 horizontal graphics;(画水平方向的聚类谱系图画水平方向的聚类谱系图)proc cluster data=han1 method=med std pseudo ccc outtree=han3;var X1-X6;(method=med表示使用中间距离法聚类)表示使用中间距离法聚类)id group;proc tree data=han3 horizontal graphics;proc cluster data=han1 method=ward std pseudo ccc outtree=han4;var X1-X6;(method=ward表示使用表示使用Ward聚类法)聚类法)id group;proc tree data=han4 horizontal graphics;proc cluster data=han1 method=fle std pseudo ccc outtree=han5;var X1-X6;(method=fle表示使用可变类平均聚类法表示使用可变类平均聚类法)id group;proc tree data=han5 horizontal graphics;run;本讲稿第十八页,共七十九页 以上以上SAS程序由生成数据集程序由生成数据集han1的的DATA步和对应四种不同系步和对应四种不同系统聚类方法的统聚类方法的Cluster(系统聚类系统聚类)及及Tree(画谱系图画谱系图)的过程步的过程步组成组成.在在Proc cluster语句中语句中,规定聚类方法的说明项规定聚类方法的说明项method=是不能省略的是不能省略的.选项选项std指出对数据作标准化变换指出对数据作标准化变换;选项选项pseudo要求输出伪要求输出伪F 和伪和伪t 2统计量统计量;选项选项ccc要求输出立方聚类准要求输出立方聚类准则则(CCC)及及R2的近似期望的近似期望(ERSQ);选项选项outtree=给出包含并类给出包含并类过程的输出集的名字过程的输出集的名字,它将作为画谱系图的它将作为画谱系图的TREE过程的输入数过程的输入数据集据集.语句语句var列出用于聚类分析的变量名字列出用于聚类分析的变量名字,这里使用数据集这里使用数据集han1中所有数值变量中所有数值变量,故此语句在这里可以省略故此语句在这里可以省略.Id语句指定在语句指定在输出结果中识别样品的变量名字输出结果中识别样品的变量名字(即地区即地区).本讲稿第十九页,共七十九页 1.使用类平均法使用类平均法(method=ave)聚类输出结果聚类输出结果:Average Linkage Cluster Analysis Eigenvalues of the Correlation Matrix Eigenvalue Difference Proportion Cumulative 1 3.55842037 2.24216809 0.5931 0.5931 2 1.31625228 0.70801294 0.2194 0.8124 3 0.60823934 0.23485624 0.1014 0.9138 4 0.37338310 0.26620538 0.0622 0.9760 5 0.10717773 0.07065054 0.0179 0.9939 6 0.03652718 0.0061 1.0000本讲稿第二十页,共七十九页NCLClusters Joined-FREQ SPRSQ RSQ ERSQ CCC PSF PST2 Dist 15 安徽安徽 福建福建 2 0.0025 .998 .28.9 .0.1922 14 河北河北 河南河南 2 0.0055 .992 .19.2 .0.2867 13 CL14 山西山西 3 0.0067 .985 .16.8 1.2 0.3098 12 CL15 江西江西 3 0.0099 .975 .14.4 4.0 0.3475 11 江苏江苏 浙江浙江 2 0.0089 .967 .14.4 .0.3658 10 CL13 内蒙内蒙 4 0.0105 .956 .14.5 1.7 0.3687 9 天津天津 山东山东 2 0.0091 .947 .15.6 .0.3704 8 CL9 CL11 4 0.0237 .923 .13.7 2.6 0.4954 7 辽宁辽宁 吉林吉林 2 0.0185 .905 .14.2 .0.5267 6 黑龙江黑龙江 CL12 4 0.0265 .878 .14.4 4.3 0.5443 5 CL8 CL7 6 0.0556 .822 .12.7 3.7 0.6786 4 CL5 CL6 10 0.1259 .697 .9.2 6.5 0.7818 3 CL4 CL10 14 0.1946 .502 .674 -2.7 6.6 7.7 0.874 2 北京北京 上海上海 2 0.0561 .446 .507 -.74 11.3 .0.9176 1 CL2 CL3 16 0.4459 .000 .000 0.00 .11.3 1.5454分为分为4类之前的并类过程中类之前的并类过程中R2的减少是逐渐的的减少是逐渐的,改变不大改变不大;分为分为4类时类时R2=0.697而下一次合并后分为而下一次合并后分为3类时类时R2下降较多下降较多R2=0.502,通过分析通过分析R2统计量可知此时统计量可知此时分为分为4类较合适类较合适.查看查看R2变化的大小可以由合并类时的半偏变化的大小可以由合并类时的半偏R2(SPRSQ)得到得到.根据半偏根据半偏R2的值是是上一步的值是是上一步R2与该步的与该步的R2差值差值.故某步的半偏故某步的半偏R2值越大值越大,说明说明上一步合并的效果好上一步合并的效果好.此例半偏此例半偏R2最大和次大分别为最大和次大分别为NCL=1,3和和4,说明半偏说明半偏R2准则分为二个类、四个类或五个类是较合适的。准则分为二个类、四个类或五个类是较合适的。本讲稿第二十一页,共七十九页 伪伪 F 统计量统计量(列标题为列标题为PSF)用于评价分为用于评价分为NCL个类的聚类效果个类的聚类效果.伪伪F 值越大值越大表示这些观测样品可显著地分为表示这些观测样品可显著地分为NCL个类个类.此例伪此例伪F 最大和次大分别为最大和次大分别为NCL=2,6和和4(当当NCL7),说明根据伪说明根据伪F 准则分为二个类、六个类和四个准则分为二个类、六个类和四个类是较合适的类是较合适的.伪伪t 2统计量用于评价此步合并类的效果统计量用于评价此步合并类的效果.由该统计量的定义知由该统计量的定义知伪伪t 2值大表明上一次合并的两个类是很分开的值大表明上一次合并的两个类是很分开的,也就是上一次聚类的效果是也就是上一次聚类的效果是好的好的.此例伪此例伪t 2值最大和次大分别为值最大和次大分别为NCL=1和和3.说明根据伪说明根据伪t 2准则分为二个类准则分为二个类或四个类是较合适的或四个类是较合适的.综上所述综上所述:R2准则支持分为二个类、四个类和五个类准则支持分为二个类、四个类和五个类;伪伪F统计量支持分为二个类、六个类和四类统计量支持分为二个类、六个类和四类;伪伪t 2统计量支持分为二个类和统计量支持分为二个类和四个类四个类.综合分析综合分析,认为用类平均法认为用类平均法,16个地区分为二类或四个类较合适个地区分为二类或四个类较合适.分为四类的结果为分为四类的结果为:=北京北京,上海上海,河北,河南,山西,内蒙河北,河南,山西,内蒙 天津,山东,江苏,浙江,辽宁,吉林,黑龙江,安徽,福建,江西天津,山东,江苏,浙江,辽宁,吉林,黑龙江,安徽,福建,江西 分为二类的结果为分为二类的结果为:其它方法的聚类结果其它方法的聚类结果,请上机自行分析请上机自行分析.本讲稿第二十二页,共七十九页聚类谱系图聚类谱系图(Ave)(Ave)本讲稿第二十三页,共七十九页2.使用中间距离聚类法使用中间距离聚类法(method=med)的输出结果的输出结果 The CLUSTER Procedur Median Hierarchical Cluster Analysis Eigenvalues of the Correlation Matrix Eigenvalue Difference Proportion Cumulative 1 3.55842037 2.24216809 0.5931 0.5931 2 1.31625228 0.70801294 0.2194 0.8124 3 0.60823934 0.23485624 0.1014 0.9138 4 0.37338310 0.26620538 0.0622 0.9760 5 0.10717773 0.07065054 0.0179 0.9939 6 0.03652718 0.0061 1.0000 The data have been standardized to mean 0 and variance 1 Root-Mean-Square Total-Sample Standard Deviation=1 Root-Mean-Square Distance Between Observations =3.464102本讲稿第二十四页,共七十九页 Cluster History Norm MedianNCL-Clusters Joined-FREQ SPRSQ RSQ ERSQ CCC PSF PST2 Dist 15 安徽安徽 福建福建 2 0.0025 .998 .28.9 .0.1922 14 河北河北 河南河南 2 0.0055 .992 .19.2 .0.2867 13 CL14 山西山西 3 0.0067 .985 .16.8 1.2 0.2746 12 CL13 内蒙内蒙 4 0.0105 .975 .14.1 1.7 0.3199 11 CL15 江西江西 3 0.0099 .965 .13.7 4.0 0.334 10 江苏江苏 浙江浙江 2 0.0089 .956 .14.5 .0.3658 9 天津天津 山东山东 2 0.0091 .947 .15.6 .0.3704 8 CL9 CL10 4 0.0237 .923 .13.7 2.6 0.4215 7 辽宁辽宁 吉林吉林 2 0.0185 .905 .14.2 .0.5267 6 黑龙江黑龙江 CL11 4 0.0265 .878 .14.4 4.3 0.5267 5 CL8 CL7 6 0.0556 .822 .12.7 3.7 0.5594 4 CL5 CL6 10 0.1259 .697 .9.2 6.5 0.5589 3 CL4 CL12 14 0.1946 .502 .674 -2.7 6.6 7.7 0.6839 2 北京北京 上海上海 2 0.0561 .446 .507 -.74 11.3 .0.9176 1 CL2 CL3 16 0.4459 .000 .000 0.00 .11.3 1.4811本讲稿第二十五页,共七十九页使用中间距离聚类法使用中间距离聚类法(method=med)的谱系图的谱系图本讲稿第二十六页,共七十九页3.使用使用Ward聚类法的输出结果聚类法的输出结果 The CLUSTER Procedure Wards Minimum Variance Cluster Analysis Eigenvalues of the Correlation Matrix Eigenvalue Difference Proportion Cumulative 1 3.55842037 2.24216809 0.5931 0.5931 2 1.31625228 0.70801294 0.2194 0.8124 3 0.60823934 0.23485624 0.1014 0.9138 4 0.37338310 0.26620538 0.0622 0.9760 5 0.10717773 0.07065054 0.0179 0.9939 6 0.03652718 0.0061 1.0000 The data have been standardized to mean 0 and variance 1 Root-Mean-Square Total-Sample Standard Deviation=1 Root-Mean-Square Distance Between Observations =3.464102本讲稿第二十七页,共七十九页NCL-Clusters Joined-FREQ SPRSQ RSQ ERSQ CCC PSF PST2 15 安徽安徽 福建福建 2 0.0025 .998 .28.9 .14 河北河北 河南河南 2 0.0055 .992 .19.2 .13 CL14 山西山西 3 0.0067 .985 .16.8 1.212 江苏江苏 浙江浙江 2 0.0089 .976 .15.1 .11 天津天津 山东山东 2 0.0091 .967 .14.8 .10 CL15 江西江西 3 0.0099 .957 .15.0 4.0 9 CL13 内蒙内蒙 4 0.0105 .947 .15.6 1.7 8 辽宁辽宁 吉林吉林 2 0.0185 .928 .14.8 .7 CL11 CL12 4 0.0237 .905 .14.2 2.6 6 黑龙江黑龙江 CL10 4 0.0265 .878 .14.4 4.3 5 CL7 CL8 6 0.0556 .822 .12.7 3.7 4 北京北京 上海上海 2 0.0561 .766 .13.1 .3 CL5 CL6 10 0.1259 .640 .674 -.62 11.6 6.5 2 CL3 CL9 14 0.1946 .446 .507 -.74 11.3 7.7 1 CL4 CL2 16 0.4459 .000 .000 0

    注意事项

    本文(聚类分析 精选文档.ppt)为本站会员(石***)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开