聚类分析 精选文档.ppt
《聚类分析 精选文档.ppt》由会员分享,可在线阅读,更多相关《聚类分析 精选文档.ppt(79页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、聚类分析 本讲稿第一页,共七十九页 聚类分析又称群分析聚类分析又称群分析,它是对样品或指标进行分类的一种多它是对样品或指标进行分类的一种多元统计方法元统计方法.在实际问题中在实际问题中,经常遇到分类问题经常遇到分类问题,例如对某城市按例如对某城市按大气污染的轻重分成几类大气污染的轻重分成几类;在经济学中根据人均国民收入、人均在经济学中根据人均国民收入、人均工农业产值、人均消费水平等多种指标对地区性的经济发展状工农业产值、人均消费水平等多种指标对地区性的经济发展状况进行分类等况进行分类等.分类只不过是将一个观测对象指定到某一类分类只不过是将一个观测对象指定到某一类(组组)中中,分类的分类的问题可
2、以分成两种问题可以分成两种:一种是对当前所研究的问题已知它的类别数一种是对当前所研究的问题已知它的类别数目目,且知道各类的特征且知道各类的特征,我们的目的是要将另一些未知类别的个我们的目的是要将另一些未知类别的个体正确归属于其中某一类体正确归属于其中某一类,这是判别分析所要解决的问题这是判别分析所要解决的问题.另一种是事先另一种是事先不知道研究的问题应分为几类不知道研究的问题应分为几类,更不知道观测到的个体的更不知道观测到的个体的具体分类情况具体分类情况.本讲稿第二页,共七十九页 本章的目的正是需要通过对观测数据所进行分析和处理本章的目的正是需要通过对观测数据所进行分析和处理,选选定一种度量个
3、体接近程度的统计量、确定分类数目、建立一种定一种度量个体接近程度的统计量、确定分类数目、建立一种分类方法分类方法,并按亲近程度对观测对象给出合理的分类并按亲近程度对观测对象给出合理的分类.这种问题这种问题在实际中大量存在在实际中大量存在.聚类分析的职能是建立一种分类方法聚类分析的职能是建立一种分类方法,将一将一批样品按它们在性质上的亲疏、相似程度进行分类批样品按它们在性质上的亲疏、相似程度进行分类.第一节第一节 系统聚类与系统聚类与CLUSTER过程过程 在聚类分析中在聚类分析中,基本的思想是认为我们所研究的样品或指标基本的思想是认为我们所研究的样品或指标(变量变量)之间存在着程度不同的相似性
4、之间存在着程度不同的相似性(亲疏关系亲疏关系).).于是根据一批于是根据一批样品的多个观测指标样品的多个观测指标,具体找出一些能够度量样品或指标之间相具体找出一些能够度量样品或指标之间相似程度的统计量似程度的统计量,以这些统计量作为划分类型的依据以这些统计量作为划分类型的依据,把一些相似把一些相似程度较大的样品或指标聚合为一类程度较大的样品或指标聚合为一类,把另外一些彼此之间相似程把另外一些彼此之间相似程度较大的样品或指标又聚合为另一类度较大的样品或指标又聚合为另一类,关系密切的聚合到一个小关系密切的聚合到一个小的分类单位的分类单位,关系疏远的聚合到一个大的分类单位关系疏远的聚合到一个大的分类
5、单位,直到把所有样直到把所有样品或指标都聚合完毕品或指标都聚合完毕,把不同的类型一一划分出来把不同的类型一一划分出来,形成一个由小形成一个由小到大的分类系统到大的分类系统.本讲稿第三页,共七十九页 设有设有n n个样品个样品,每个样品测得每个样品测得p p项指标项指标.系统聚类方法的基本思系统聚类方法的基本思想是想是:首先定义样品间的距离首先定义样品间的距离(或相似系数或相似系数)以及类与类之间距离以及类与类之间距离.一开始将一开始将n n个样品各自成一类个样品各自成一类,这时样品间的距离与类间的距离这时样品间的距离与类间的距离是等价的是等价的;然后将距离最近的两类合并然后将距离最近的两类合并
6、,并计算新类与其他类的并计算新类与其他类的类间距离类间距离,再按最小距离准则并类再按最小距离准则并类.这样每次缩小一类这样每次缩小一类,直到所有直到所有的样品并为一类为止的样品并为一类为止.这个并类过程可以用谱系聚类图表达出来这个并类过程可以用谱系聚类图表达出来.由以上系统聚类法的基本思想由以上系统聚类法的基本思想,即可得出它的基本步骤如下即可得出它的基本步骤如下:一一.系统聚类法的基本思想和基本步骤系统聚类法的基本思想和基本步骤1.系统聚类法的基本思想系统聚类法的基本思想(0)(0)先对数据进行变换先对数据进行变换,数据变换的目的是为了比较、计算上的数据变换的目的是为了比较、计算上的 方便而
7、改变数据的结构方便而改变数据的结构.再选择度量样品间距离的定义再选择度量样品间距离的定义(如欧如欧 氏距离等氏距离等).).及度量类间距离的定义及度量类间距离的定义(如最短距离法如最短距离法,参见下面参见下面 的系统聚类分析的方法的系统聚类分析的方法).).本讲稿第四页,共七十九页(1)(1)计算计算n个样品两两间的距离个样品两两间的距离,得样品间的距离矩阵得样品间的距离矩阵D(0)(2)(2)一开始一开始(第一步第一步:i=1)n个样品各自构成一类个样品各自构成一类,类的个数类的个数k=n 此时的类为此时的类为Gi=Xi i=1,2,n,类间的距离就是样品间的类间的距离就是样品间的 距离距离
8、(即即D(1)=D(0)然后对步骤然后对步骤i=1,2,n执行并类过程的步执行并类过程的步 骤骤(3)(3)和和(4).(4).(3)(3)每次合并类间距离最小的两类为一新类每次合并类间距离最小的两类为一新类.此时类的总个数此时类的总个数k 减少减少1类类,即即k=n-i-1(4)(4)计算新类与其他类的距离计算新类与其他类的距离,得新的距离阵得新的距离阵D(i),若合并后类的若合并后类的 总个数总个数k 仍大于仍大于1.重复步骤重复步骤(3)(3)和和(4);(4);直到类的总个数时直到类的总个数时k=1 为止。为止。(5)(5)画聚类谱系图;画聚类谱系图;(6)(6)决定分类的个数及各类的
9、成员。决定分类的个数及各类的成员。例子例子 设有设有5个产品个产品,每个产品测得一项指标每个产品测得一项指标,其值如下其值如下:1,2,4.5,6,8试对这试对这5 5个产品按质量指标进行分类。个产品按质量指标进行分类。解解 样品间的距离取为欧氏距离样品间的距离取为欧氏距离(普通的距离普通的距离),),类间的距离取为类类间的距离取为类间的最短距离间的最短距离,依以上步骤计算如下依以上步骤计算如下:本讲稿第五页,共七十九页(1)计算计算5个样品个样品x1,x2,x3,x4,x5两两间的距离两两间的距离,得初始得初始 的类间距离阵的类间距离阵D(1)(2)一开始一开始5个样品各自构成一个样品各自构
10、成一 类类,得得5个类个类G(i)=X(i)(i=1,2,3,4,5)类的个数为类的个数为k=5(3)由由D(1)可知可知,首先合并首先合并x1和和x2为为 一新类一新类,记为记为CL4=x1,x2,此时类此时类 的个数减少一类变为的个数减少一类变为k=4,故把此步故把此步 得到的新类记为得到的新类记为CL4.(4)按最短距离法计算新类与其他类间的距离按最短距离法计算新类与其他类间的距离,得新的距离矩阵得新的距离矩阵 D(2)见右表二见右表二,因此时类的总个数因此时类的总个数k=4大于大于1类类,重复并类重复并类 过程过程.x1 x2 x3 x4 x5x1x2x3x4x50 1 3.5 5 7
11、 0 2.5 4 6 0 1.5 3.5 0 2 0 X3 x4 x5 CL4X3X4X5CL4 0 1.5 3.5 2.5 0 2 4 0 6 0 本讲稿第六页,共七十九页(6)按最短距离法计算新类与其他类的距离按最短距离法计算新类与其他类的距离,得新的距离矩阵得新的距离矩阵D(3)因此时类的总个数大于因此时类的总个数大于1类类,重复并类过程重复并类过程.(7)由由D(3)可知可知,应合并应合并x5和和CL3为一新类为一新类,记为记为CL2=x5,CL3,此时类的总个数此时类的总个数k减少减少1类变为类变为k=2,故把此故把此 步得到的新类记为步得到的新类记为CL2.X5 CL4 CL3X5
12、CL4CL30 6 2 0 2.5 0 (5)由由D(2)可知类间距离为可知类间距离为1.5最小最小,故故 合并合并x3和和x4为一新类为一新类,记为记为 CL3=x3,x4;类的总个数减少一个类的总个数减少一个变为变为k=3,故把此步得到的新类记为故把此步得到的新类记为CL3.(8)按最短距离法计算新类按最短距离法计算新类CL2与其他类的距与其他类的距 离离,得新的距离矩阵得新的距离矩阵D(4)因此时总的类个数因此时总的类个数 k=2大于大于1,重复并类过程重复并类过程.CL4 CL2CL4CL2 0 2.5 0 (9)由由D(4)可知可知,最后应合并最后应合并CL4和和CL2为一新类为一新
13、类,记为记为 CL1=x1,x2,x5,x3,x4.此时类的总个数此时类的总个数k=1,故把此步得到的新类记为故把此步得到的新类记为CL1,此时所此时所 有样品全合并为一类有样品全合并为一类,并类过程至此结束并类过程至此结束.本讲稿第七页,共七十九页(10)(10)画聚类谱系图形画聚类谱系图形.(11)(11)确定类的个数及各类的成员确定类的个数及各类的成员.若分为两类若分为两类,则则 若分为三类若分为三类,则则 若分为四类若分为四类,则则 若分为五类若分为五类,则则proc cluster data=数据集名称数据集名称 method=方法方法 选项串选项串;var 变量名称变量名称;(用于
14、聚类分析的变量用于聚类分析的变量)id 变量名称变量名称;(在聚类分析中用于标识观测样本的变量在聚类分析中用于标识观测样本的变量)proc tree data=数据集名数据集名 out=数据集名数据集名 horizontal graphics;id 变量名称变量名称;(在聚类谱系图中用于标识观测样本的变量在聚类谱系图中用于标识观测样本的变量)二二.聚类分析的聚类分析的SASSAS书写格式书写格式本讲稿第八页,共七十九页data han1;input name$x;cards;x1 1 x2 2 x3 4.5 x4 6 x5 8;proc cluster data=han1 method=sin
15、gle nonorm outtree=han2;var x;id name;proc tree data=han2 out=han3 ncl=2 horizontal graphics;id name;proc print data=han3;run;说明说明:以上以上SAS程序中程序中,引入一个字符变量引入一个字符变量name,目的是在输出中用目的是在输出中用x1至至x5来识别来识别5个产品个产品CLUSTER过程是用于系统聚类的过程过程是用于系统聚类的过程.选项选项method=single规定类距离使用最短距离法规定类距离使用最短距离法.选项选项nonorm表示类间的距表示类间的距离不进
16、行规格化离不进行规格化.本讲稿第九页,共七十九页 选项选项outtree=han2指定输出数据集的名字指定输出数据集的名字,该数据集包含用该数据集包含用 于画谱系聚类图的并类过程于画谱系聚类图的并类过程.Var语句指出用于聚类分析的变量语句指出用于聚类分析的变量;id语句指定在输出中用变量语句指定在输出中用变量name识别观测样品识别观测样品.并类的历史并类的历史 过程见以上输出结果的第一部分过程见以上输出结果的第一部分.Tree过程用于画谱系图过程用于画谱系图,选项选项 horizontal要求画水平的聚类谱系图要求画水平的聚类谱系图.选项选项graphics要求画高要求画高 分辨率的图形分
17、辨率的图形.输出的谱系图见下输出的谱系图见下(输出结果的第三部分输出结果的第三部分).选项选项 ncl=2和和out=han3指出分为二类指出分为二类,并把分类结果放到输出数据集并把分类结果放到输出数据集 han3中中.Print过程输出分为二类的分类结果过程输出分为二类的分类结果,见输出结果的第见输出结果的第 二部分二部分.本讲稿第十页,共七十九页(1)Cluster History T Min i NCL -Clusters Joined-FREQ Dist e 4 X1 X2 2 1 3 X3 X4 2 1.5 2 CL3 X5 3 2 1 CL4 CL2 5 2.5()Obs name
18、 CLUSTER CLUSNAME 1 X1 1 CL4 2 X2 1 CL4 3 X3 2 CL2 4 X4 2 CL2 5 X5 2 CL2 输出的基本信息输出的基本信息:The CLUSTER Procedure Single Linkage Cluster Analysis Eigenvalues of the Covariance Matrix Eigenvalue Difference Proportion Cumulative 1 8.20000000 1.0000 1.0000 Root-Mean-Square Total-Sample Standard Deviation=2
19、.863564本讲稿第十一页,共七十九页聚类谱系图聚类谱系图本讲稿第十二页,共七十九页聚类法的原则决定于样品间的距离聚类法的原则决定于样品间的距离(或相似系数或相似系数)及类间距离的定义及类间距离的定义,类间距离类间距离的不同就产生了不同的系统聚类分析方法的不同就产生了不同的系统聚类分析方法,以下为几种系统聚类分析方法以下为几种系统聚类分析方法:1.最短距离法最短距离法(ingle linkage)method=sin2.最长距离法最长距离法(Complete method)method=com3.中间距离法(中间距离法(Median method)method=med 4.重心法(重心法(C
20、entriodmethod)method=cen 5.类平均法(类平均法(Average linkage)method=ave6.可变类平均法可变类平均法(Flexible-beta method)method=fle 7.可变法及可变法及McQqity相似分析法相似分析法(MCQ)method=mcq 8.离差平方和法离差平方和法(ard)method=ward 9.最大似然谱系聚类最大似然谱系聚类(EML)method=eml 10.密度估计法密度估计法(DEN)method=den11.两阶段密度估计法两阶段密度估计法(TWO)method=two 通常使用通常使用:类平均类平均,离差平
21、方和离差平方和,可变类平均可变类平均,中间距离中间距离,最短距离和最长距离最短距离和最长距离.三三.系统聚类分析的方法系统聚类分析的方法 本讲稿第十三页,共七十九页 聚类分析中聚类分析中,类个数的确定是一个十分困难的问题类个数的确定是一个十分困难的问题,至今尚未找到令人满至今尚未找到令人满 意的方法意的方法,下面介绍几种常见的方法下面介绍几种常见的方法.1.由适当的阈值确定由适当的阈值确定选定某种聚类方法选定某种聚类方法,按系统聚类的步骤并类后按系统聚类的步骤并类后,得到一张谱系聚类图得到一张谱系聚类图.聚类图聚类图(或简称谱系图或简称谱系图)只反映样品只反映样品(或变量间或变量间)的亲疏关系
22、的亲疏关系,它本身并没有给出分类它本身并没有给出分类,需需要规定一个临界相似性尺度要规定一个临界相似性尺度,用以分割谱系聚类图用以分割谱系聚类图,给定临界值给定临界值(阈值阈值)d,其含其含义为样品间绝对距离义为样品间绝对距离d 时时,认为这些样品间关系密切认为这些样品间关系密切,应归属同一类应归属同一类.这相当这相当于在距离为于在距离为d 处切一刀处切一刀.根据统计量确定分类个数根据统计量确定分类个数 CLUSTER过程提供如下的统计量用来选择合适的类个数过程提供如下的统计量用来选择合适的类个数.(1)R2 越大越大,聚类效果越好聚类效果越好.(2)半偏半偏R2用于评价上一次合并的效果用于评
23、价上一次合并的效果,某步半偏某步半偏R2越大越大,说明上一次合并聚类说明上一次合并聚类 后的效果越好后的效果越好.(3)伪伪 F 统计量用于评价分为统计量用于评价分为k个类的效果个类的效果,伪伪F 的值越大表明这个的值越大表明这个 n 样品可样品可 显著地分为显著地分为k个类个类(4)伪伪 t2 值越大说明上一次被合并的两类是很分开的值越大说明上一次被合并的两类是很分开的,上一次的聚类效果越好上一次的聚类效果越好.四四.类个数的确定类个数的确定 本讲稿第十四页,共七十九页 Cluster HistoryNCL-Clusters Joined-FREQ SPRSQ RSQ ERSQ CCC PS
24、F PST2 Dist 21 G1 G2 2 0.0002 1.00 .311 .0.058120 G11 G12 2 0.0011 .999 .82.7 .0.152719 G4 G7 2 0.0012 .998 .68.5 .0.155718 G13 G21 2 0.0030 .995 .43.2 .0.250617 G17 G20 2 0.0051 .989 .29.3 .0.328516 G8 CL18 3 0.0086 .981 .20.5 2.9 0.38815 CL19 G18 3 0.0122 .969 .15.4 10.6 0.445814 G15 G22 2 0.0096
25、.959 .14.4 .0.448213 CL21 CL14 4 0.0223 .937 .11.1 4.6 0.534312 CL17 G19 3 0.0197 .917 .10.0 3.8 0.58111 CL13 G6 5 0.0278 .889 .8.8 2.6 0.670210 G3 G14 2 0.0258 .863 .8.4 .0.7364 9 CL11 G5 6 0.0436 .820 .7.4 2.9 0.8213 8 CL15 CL16 6 0.0898 .730 .5.4 14.4 0.8461 7 CL8 G9 7 0.0443 .686 .5.5 1.9 0.8626
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 精选文档 精选 文档
限制150内