SAS聚类分析与判别分析.ppt
《SAS聚类分析与判别分析.ppt》由会员分享,可在线阅读,更多相关《SAS聚类分析与判别分析.ppt(110页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程第八章 聚类分析与判别分析n8.1 聚类分析聚类分析n8.2 判别分析判别分析STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程n8.1 8.1 聚类分析聚类分析n8.1.1 聚类分析的一般概念聚类分析的一般概念n8.1.2 系统聚类法的基本思想和步骤系统聚类法的基本思想和步骤n8.1.3 用用CLUSTER过程和过程和TREE过程进行系统过程进行系统聚类聚类n8.1.4 用用VARCLUS过程进行变量聚类过程进行变量聚类STATSTATSTATSTATSASSAS软件与统计应用教程软
2、件与统计应用教程8.1.1 聚类分析的一般概念聚类分析的一般概念 设设有有n个个样样品品(多多元元观观测测值值),每每个个样样品品测测得得m项项指指标标(变变量量),得得到到观观测测数数据据xij(i=1,n;j=1,m),如如表表所示。所示。X1X2XmX(1)x11x12x1mX(2)x21x22x2mX(n)xn1xn2xnmSTATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程表表8-1中中数数据据又又称称为为观观测测数数据据阵阵或或简简称称为为数数据据阵阵,其其数数学表示为:学表示为:其其中中列列向向量量Xj=(x1j,x2j,xnj),表表示示第第j项项指
3、指标标(j=1,2,m),行行向向量量X(i)=(xi1,xi2,xin)表表示示第第i个样品。个样品。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程1.1.两种两种聚类分析聚类分析 根据分类对象的不同,根据分类对象的不同,聚类分析聚类分析分为两种:分为两种:(1)样样品品聚聚类类:样样品品聚聚类类是是对对样样品品(观观测测)进进行行的的分分类类处处理理,又又称称为为Q型型分分类类,相相当当于于对对观观测测数数据据阵阵按按行行分分类。类。(2)变变量量聚聚类类:变变量量聚聚类类是是对对变变量量(指指标标)进进行行的的分分类类处处理理,又又称称为为R型型分分类类
4、,相相当当于于对对观观测测数数据据阵阵按按列列分分类。类。两种聚类在形式上是对称的,处理方法也是相似的。两种聚类在形式上是对称的,处理方法也是相似的。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.聚类分析聚类分析的方法的方法 聚类方法大致可归纳如下:聚类方法大致可归纳如下:(1)系统聚类法(谱系聚类)系统聚类法(谱系聚类)先先将将l个个元元素素(样样品品或或变变量量)看看成成l类类,然然后后将将性性质质最最接接近近(或或相相似似程程度度最最大大)的的2类类合合并并为为一一个个新新类类,得得到到l 1类类,再再从从中中找找出出最最接接近近的的2类类加加以
5、以合合并并变变成成了了l 2类,如此下去,最后所有的元素全聚在一类之中。类,如此下去,最后所有的元素全聚在一类之中。(2)分解法(最优分割法)分解法(最优分割法)其其程程序序与与系系统统聚聚类类相相反反。首首先先所所有有的的元元素素均均在在一一类类,然然后后按按照照某某种种最最优优准准则则将将它它分分成成2类类、3类类,如如此此下下去去,一直分裂到所需的一直分裂到所需的k类为止。类为止。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(3)动态聚类法(逐步聚类法)动态聚类法(逐步聚类法)开开始始将将l个个元元素素粗粗糙糙地地分分成成若若干干类类,然然后后用用某某
6、种种最最优优准准则进行调整,一次又一次地调整,直至不能调整为止。则进行调整,一次又一次地调整,直至不能调整为止。(4)有序样品的聚类有序样品的聚类 n个个样样品品按按某某种种因因素素(时时间间或或年年龄龄或或地地层层深深度度等等)排排成次序,要求必须是次序相邻的样品才能聚在一类。成次序,要求必须是次序相邻的样品才能聚在一类。其他还有:有重叠聚类、模糊聚类、图论聚类等方法。其他还有:有重叠聚类、模糊聚类、图论聚类等方法。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程3.3.聚类统计量聚类统计量 聚聚类类分分析析实实质质上上是是寻寻找找一一种种能能客客观观反反映映
7、元元素素之之间间亲亲疏疏关关系系的的统统计计量量,然然后后根根据据这这种种统统计计量量把把元元素素分分成成若若干干类类。常常用用的的聚聚类类统统计计量量有有距距离离系系数数和和相相似似系系数数两两类类。距距离离系系数数一一般般用用于于对对样样品品分分类类,而而相相似似系系数数一一般般用用于于对对变变量量聚聚类类。距距离离的的定定义义很很多多,如如马马氏氏距距离离、明明考考斯斯基基距距离离、兰兰氏距离、切比雪夫距离以及常见的欧氏距离:氏距离、切比雪夫距离以及常见的欧氏距离:等。相似系数有相关系数、夹角余弦、列联系数等。等。相似系数有相关系数、夹角余弦、列联系数等。STATSTATSTATSTAT
8、SASSAS软件与统计应用教程软件与统计应用教程 当当然然,采采用用不不同同的的分分类类方方法法会会得得到到不不同同的的分分类类结结果果,有有时时即即使使是是同同一一种种聚聚类类方方法法,因因距距离离的的定定义义方方法法不不同同也也会会得得到到不不同同的的分分类类结结果果。对对任任何何观观测测数数据据都都没没有有唯唯一一“正正确确的的”分分类类方方法法。实实际际应应用用中中,常常采采用用不不同同的的分分类类方方法法对对数数据据进进行行分分类类,可可以以提提出出多多种种分分类类意意见见,由由实实际际工工作者决定所需要的分类数和分类情况。作者决定所需要的分类数和分类情况。STATSTATSTATS
9、TATSASSAS软件与统计应用教程软件与统计应用教程8.1.2 系统系统聚类聚类法的基本思想和步骤法的基本思想和步骤 下面以样品聚类为例介绍系统下面以样品聚类为例介绍系统聚类聚类法。法。1.1.系统聚类法的基本思想系统聚类法的基本思想 设设有有n个个样样品品,每每个个样样品品测测得得m项项指指标标(见见表表8-1)。系系统统聚聚类类方方法法的的基基本本思思想想是是:首首先先定定义义样样品品间间的的距距离离(或或相相似似系系数数)和和类类与与类类之之间间的的距距离离。一一开开始始将将n个个样样品品各各自自自自成成一一类类,这这时时类类间间的的距距离离与与样样品品间间的的距距离离是是等等价价的的
10、;然然后后将将距距离离最最近近的的两两类类合合并并,并并计计算算新新类类与与其其他他类类的的类类间间距距离离,再再按按最最小小距距离离准准则则并并类类。这这样样每每次次减减少少一一类类,直直到到所所有有的的样样品品都都并并成成一一类类为为止止。这这个个并并类类过过程程可以用谱系聚类图形象地表达出来。可以用谱系聚类图形象地表达出来。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.系统聚类法的基本步骤系统聚类法的基本步骤 (1)数据变换数据变换 为为了了便便于于比比较较或或消消除除量量纲纲的的影影响响,在在作作聚聚类类之之前前常常常常首首先先要要对对数数据据
11、进进行行变变换换。变变换换的的方方法法有有中中心心化化变变换换、标标准准化化变变换换、极极差差标标准准化化变变换换、极极差差正正规规化化变变换换、对对数数变变换等。换等。最常用的标准化变换为:最常用的标准化变换为:其中其中 ,j=1,2,m。变变换换后后的的数数据据,每每个个变变量量的的样样本本均均值值为为0,标标准准差差为为1,而且标准化变换后的数据而且标准化变换后的数据 与变量的量纲无关。与变量的量纲无关。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(2)计算计算n个样品两两间的距离个样品两两间的距离 选选择择度度量量样样品品间间距距离离的的定定义义,计
12、计算算n个个样样品品两两两两间间的的距离,得样品间的距离矩阵距离,得样品间的距离矩阵D(0)。(3)聚类过程聚类过程 首首先先n个个样样品品各各自自构构成成一一类类,类类的的个个数数k=n:Gi=X(i)(i=1,n),此此时时类类间间的的距距离离就就是是样样品品间间的的距离(即距离(即D(1)=D(0))。)。令令j=2,n,执行如下并类过程:,执行如下并类过程:1)合合并并类类间间距距离离最最小小的的两两类类为为一一新新类类(类类间间距距离离参参见见下下文文“系系统统聚聚类类分分析析的的方方法法”)。此此时时类类的的总总个个数数k减减少少1类,即类,即k=n j+1;STATSTATSTA
13、TSTATSASSAS软件与统计应用教程软件与统计应用教程 2)计算新类与其他类的距离,得新的距离矩阵计算新类与其他类的距离,得新的距离矩阵D(j))。)。若若合合并并后后类类的的总总个个数数k仍仍大大于于1,重重复复1)和和2)步步,直直到到类的总个数为类的总个数为1时止。时止。(4)画谱系聚类图画谱系聚类图 谱谱系系图图能能明明确确清清晰晰地地描描述述各各个个样样本本点点在在不不同同层层次次上上聚聚合分类的情况。合分类的情况。(5)决定分类的个数及各类的成员决定分类的个数及各类的成员STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程3.3.系统系统聚类分析聚类
14、分析的方法的方法 设设有有原原始始数数据据阵阵,如如表表8-1所所示示。G为为在在某某一一聚聚类类水水平平上上的的类类的的个个数数,Ck是是当当前前(水水平平G)的的第第k类类,nk为为Ck中中的的样品个数,样品个数,DKL为第为第G水平的类水平的类CK和类和类CL之间的距离。之间的距离。根根据据类类间间距距离离计计算算方方法法的的不不同同,有有11种种不不同同的的聚聚类类方方法:法:(1)类平均法类平均法 类类平平均均法法(Average Linkage)用用两两类类样样品品两两两两观观测测间间距距离的平均作为类间距离,即离的平均作为类间距离,即 类平均法是一种应用较广泛,聚类效果较好的方法
15、。类平均法是一种应用较广泛,聚类效果较好的方法。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(2)重心法重心法 重重心心法法(Centroid Method)用用两两个个类类重重心心(均均值值)之之间间的(平方)欧氏距离定义类间距离,即的(平方)欧氏距离定义类间距离,即(3)最长距离法最长距离法 最最长长距距离离法法(Complete Method)用用两两类类观观测测间间最最远远一一对观测的距离定义类间距离,即对观测的距离定义类间距离,即(4)最短距离法最短距离法 最最短短距距离离法法(Single Linkage)用用两两类类观观测测间间最最近近一一对对
16、观测的距离定义类间距离,即观测的距离定义类间距离,即STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(5)Ward最小方差法(离差平方和法)最小方差法(离差平方和法)Ward最最小小方方差差法法(Wards Mininum-Variance Method)也称也称Ward离差平方和法。类间距离定义为离差平方和法。类间距离定义为 Ward方方法法并并类类时时总总是是使使得得并并类类导导致致的的类类内内离离差差平平方方和增量最小。和增量最小。其其它它的的聚聚类类方方法法还还有有最最大大似似然然法法(EML)法法、可可变变类类平平均均法法(Flexible-Beta
17、Method)、McQuitty相相似似分分析析法法(McQuittys Similarity Analysis)、中中间间距距离离法法(Median Method)、两两 阶阶 段段 密密 度度 估估 计计 法法(Two Stage Density Linkage)等。等。类平均法和类平均法和Ward最小方差法使用最广泛。最小方差法使用最广泛。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4.4.系统聚类类数的确定系统聚类类数的确定(1)由适当的阀值确定由适当的阀值确定 选选定定某某种种聚聚类类方方法法,按按系系统统聚聚类类的的方方法法并并类类后后,得得到到
18、一一张张谱谱系系聚聚类类图图,聚聚类类图图(又又称称谱谱系系图图)只只反反映映样样品品间间(或或变变量量间间)的的亲亲疏疏关关系系,它它本本身身并并没没有有给给出出分分类类,需需要要给给定定一一个个临临界界相相似似尺尺度度,用用以以分分割割谱谱系系图图而而得得到到样样品品(或或变变量量)的的分分类类,如如给给定定临临界界值值(阀阀值值)为为d,那那么么,当当样样品品间间或或已已并并类类间间距距离离小小于于d时时,认认为为这这些些样样品品和和类类的关系密切,应该归属一类。的关系密切,应该归属一类。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(2)根据统计量确定
19、分类个数根据统计量确定分类个数 在在SAS的的CLUSTER过过程程中中,提提供供一一些些统统计计量量可可以以近近似似检检验验类类个个数数如如何何选选择择更更合合适适,用用统统计计量量决决定定类类数数的的方方法来自统计的方差分析思想,下面作一些介绍。法来自统计的方差分析思想,下面作一些介绍。1)R2统计量统计量其其中中PG为为分分类类数数为为G个个类类时时的的总总类类内内离离差差平平方方和和,T为为所所有有样样品品或或变变量量的的总总离离差差平平方方和和。R2越越大大,说说明明分分为为G个个类类时时每每个个类类内内的的离离差差平平方方和和都都比比较较小小,也也就就是是分分为为G个个类类是是合合
20、适适的的。但但是是,显显然然分分类类越越多多,每每个个类类越越小小,R2越越大大,所所以以我我们们只只能能取取G使使得得R2足足够够大大,但但G本本身身比比较较小,而且小,而且R2不再大幅度增加。不再大幅度增加。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 2)半偏半偏R2统计量统计量 在在把把类类CK和和类类CL合合并并为为下下一一水水平平的的类类CM时时,定定义义半半偏相关偏相关其其中中BKL=WM (WK+WL)为为合合并并类类引引起起的的类类内内离离差差平平方方和和的的增增量量,Wt为为类类Ct的的类类内内离离差差平平方方和和。半半偏偏R2用用于于评
21、评价价一一次次合合并并的的效效果果,其其值值是是上上一一步步R2与与该该步步R2的的差差值值。其值越大,说明上一次合并的效果越好。其值越大,说明上一次合并的效果越好。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 3)伪伪F统计量统计量 伪伪伪伪F统统计计量量评评价价分分为为G个个类类的的效效果果。伪伪F统统计计量量越越大大,表表示示分分为为G个个类类越越合合理理。通通常常取取伪伪F统统计计量量较较大大而而类类数数较较小的聚类水平。小的聚类水平。4)伪伪t2统计量统计量 伪伪用用此此统统计计量量评评价价合合并并类类CK和和类类CL的的效效果果,该该值值大大说说
22、明明合合并并的的两两个个类类CK和和CL是是很很分分开开的的,不不应应合合并并这这两两个个类类,而而应该取合并前的水平。应该取合并前的水平。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程8.1.3 用用CLUSTER过过程程和和TREE过过程程进进行行系系统统聚类聚类1.CLUSTER1.CLUSTER过程过程 系统聚类系统聚类CLUSTER过程的一般格式为:过程的一般格式为:PROC CLUSTER;VAR;COPY;ID;RUN;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程其中:其中:1)PROC CLUSTER语语句句
23、为为调调用用CLUSTERS过过程程的的开开始,其常用选项及功能见表始,其常用选项及功能见表8-2。2)VAR语语句句指指定定用用来来聚聚类类的的数数值值型型变变量量。如如果果缺缺省省,则使用没有列在其他语句中的所有数值型变量。则使用没有列在其他语句中的所有数值型变量。3)COPY语语句句把把指指定定的的变变量量复复制制到到OUTTREE=的的数数据集中,以备后用。据集中,以备后用。4)ID语语句句中中指指定定的的变变量量用用于于区区分分聚聚类类过过程程中中的的输输出出及及OUTTREE数据集中的观测。数据集中的观测。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用
24、教程2.TREE2.TREE过程过程 TREE过过程程可可以以把把CLUSTER过过程程产产生生的的OUTTREE=数数据据集集作作为为输输入入,画画出出聚聚类类谱谱系系图图,并并按按照照用用户户指指定定的的聚类水平聚类水平(类数类数)产生分类结果数据集。一般格式如下:产生分类结果数据集。一般格式如下:PROC TREE;COPY;ID ;RUN;其中:1)PROC TREE语语句句为为调调用用TREE过过程程的的开开始始,其其常常用选项及功能见表用选项及功能见表8-3。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程表8-3 PROC TREE语句的常用选项
25、2)COPY语语句句把把输输入入数数据据集集中中的的变变量量复复制制到到输输出出数数据据集。集。3)ID语语句句用用于于指指定定在在输输出出树树状状图图中中的的识识别别对对象象,ID变变量量可可以以是是字字符符或或数数值值变变量量。如如果果省省略略,TREE过过程程将将使使用变量用变量_NAME_。选项名称功能说明DATA=数据集指定从CLUSTER过程生成的OUTTREE数据集作为输入。OUT=数据集指定包含最后分类结果(每一个观测属于哪一类,用一个CLUSTER变量区分)的输出数据集。NCLUSTERS指定最后把样本观测分为多少个类。HORIZONTAL横向画聚类谱系图。STATSTATS
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SAS 聚类分析 判别分析
限制150内