《第二讲聚类分析.ppt》由会员分享,可在线阅读,更多相关《第二讲聚类分析.ppt(49页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二讲聚类分析现在学习的是第1页,共49页聚类分析起源于分分类类学学,在考古的分类学中,人们主要依靠经验和专业知识来实现分类。随着生产技术和科学的发展,人类的认识不断加深,分类越来越细,要求也越来越高,有时光凭经验和专业知识是不能进行确切分类的,往往需要定性和定量分析结合起来去分类。于是数学工具逐渐被引进分类学中,形成了数数值值分分类类学学。后来随着多元分析的引进,聚聚类类分分析析又逐渐从数值分类学中分离出来而形成一个相对独立的分支。现在学习的是第2页,共49页 与多元分析的其他方法相比,聚类分析方法较为粗糙,理论上还不够完善,正处于发展阶段。但是,由于该方法应用方便,分类效果较好,因此越来越
2、为人们所重视。近些年来聚类分析的方法发展较快,内容越来越丰富。现在学习的是第3页,共49页社会经济领域中存在着大量分类问题:社会经济领域中存在着大量分类问题:例如:对我国30个省市自治区独立核算工业企业经济效益进行分析,一般不是逐个省市自治区去分析,而较好地做法是选取能反映企业经济效益的代表性指标,如百元固定资产实现利税、资金利税率、产值利税率、百元销售收入实现利润、全员劳动生产率等等,根据这些指标对30个省市自治区进行分类,然后根据分类结果对企业经济效益进行综合评价,就易于得出科学的分析。现在学习的是第4页,共49页又又如如:若若对对某某些些大大城城市市的的物物价价指指数数进进行行考考察察,
3、而而物物价价指指数数很很多多,有有农农用用生生产产物物价价指指数数、服服务务项项目目物物价价指指数数、食食品品消消费费物物价价指指数数、建建材材零零售售价价格格指指数数等等等等。由由于于要要考考察察的的物物价价指指数数很很多多,通通常常先先对对这这些些物物价价指指数数进进行行分分类类。总总之之,需需要要分分类类的的问问题题很很多多,因因此此聚聚类类分分析析这这个个有有用用的的数数学学工工具具越越来来越越受受到到人人们们的的重重视视,它它在在许许多多领领域中都得到了广泛的应用。域中都得到了广泛的应用。值值得得提提出出的的是是将将聚聚类类分分析析和和其其它它方方法法联联合合起起来来使使用用,如如判
4、判别别分析、主成分分析、回归分析、主成分分析、回归分析等往往效果更好。分析等往往效果更好。现在学习的是第5页,共49页 2 距离和相似系数距离和相似系数为了将样品(或指标)进行分类,就需要研究样品之间关系。目前用得最多的方法有两个:一种方法是用相似系数相似系数,性质越接近的样品,它们的相似系数的绝对值越接近1,而彼此无关的样品,它们的相似系数的绝对值越接近于零。比较相似的样品归为一类,不怎么相似的样品归为不同的类。另一种方法是将一个样品看作p维空间的一个点,并在空间定义距离空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类。现在学习的是第6页,共49页变量的类型由于相似系数和距离有各
5、种各样的定义,而这些定义与变量的类型关系极大,因此先介绍变量的类型。由于实际问题中,遇到的指标有的是定量的(如长度、重量等),有的是定性的(如性别、职业等),因此将变量(指标)的类型按以下三种尺度划分:现在学习的是第7页,共49页变量的类型分为以下三类:变量的类型分为以下三类:间间间间隔隔隔隔尺尺尺尺度度度度:变量是用连续的量来表示的,如长度、重量、压力、速度等等。有有有有序序序序尺尺尺尺度度度度:变量度量时没有明确的数量表示,而是划分一些等级,等级之间有次序关系,如某产品分上、中、下三等,此三等有次序关系,但没有数量表示。名名名名义义义义尺尺尺尺度度度度:变量度量时既没有数量表示,也没有次序
6、关系,如某物体有红、黄、白三种颜色,又如医学化验中的阴性与阳性,市场供求中的“产”和“销”,还有性别、职业、产品的型号等。现在学习的是第8页,共49页不不同同类类型型的的变变量量,在在定定义义距距离离和和相相似似系系数数时时,其其方方法法有有很很大大差差异异,使使用用时时必必须须注意。注意。研研究究比比较较多多的的是是间间隔隔尺尺度度,因因此此本本章章主主要要给给出出间间隔隔尺尺度度的的距距离离和和相相似似系系数数的的定定义。义。现在学习的是第9页,共49页现在学习的是第10页,共49页问题转变为矩阵的行与行、列问题转变为矩阵的行与行、列与列向量间的相似关系的讨论与列向量间的相似关系的讨论现在
7、学习的是第11页,共49页问题转变为矩阵的行与行、列与问题转变为矩阵的行与行、列与列的向量间的相似关系的讨论列的向量间的相似关系的讨论对样品分类对样品分类(称为称为Q-Q-型聚类分析型聚类分析)对指标分类对指标分类(称为称为R-R-型聚类分析型聚类分析)现在学习的是第12页,共49页 1、对样品分类对样品分类(称为称为Q型聚类分析型聚类分析)常用的距离和相似系数定义常用的距离和相似系数定义(1)距离距离如如果果把把n个个样样品品(X中中的的n个个行行)看看成成p维维空空间间中中n个个点点,则则两两个个样样品品间间相相似似程程度度可可用用p维维空空间间中中两两点点的的距距离离来来度度量量。令令表
8、示样品表示样品 与与 的距离。常用的距离有:的距离。常用的距离有:i)明氏明氏(Minkowski)距离距离 ii)马氏马氏(Mahalanobis)距离距离 iii)兰氏兰氏(Canberra)距离距离 iv)斜交叉空间距离斜交叉空间距离现在学习的是第13页,共49页i)明氏明氏(Minkowski)距离距离现在学习的是第14页,共49页采采用用明明氏氏距距离离时时要要注注意意:一一定定要要采采用用相相同同量量纲纲的的变变量量。如如果果各各变变量量的的量量纲纲不不同同,或或当当各各变变量量的的量量纲纲相相同同但但各各变变量量的的测测量量值值相相差差悬悬殊殊时时,不不能能直直接接采采用用明明氏
9、氏距距离。离。需需要要先先对对数数据据进进行行标标准准化化处处理理,然然后后再再用用标标准化处理后的数据计算距离。准化处理后的数据计算距离。最常用的标准化处理方法是最常用的标准化处理方法是:现在学习的是第15页,共49页在明氏距离中,最常用的是欧氏距离在明氏距离中,最常用的是欧氏距离。主主要要优优点点:是当坐标轴进行正交旋转时,欧氏距离是保持不变的。因此,如果对原坐标系进行平移和旋转变换,则变换后样本点间的相似情况(即它们间的距离)完全同于变换前的情形。不足之处:不足之处:第一、它与各指标的量纲有关第二、它没有考虑指标之间的相关性现在学习的是第16页,共49页举例说明欧氏距离的明显的不足之处举
10、例说明欧氏距离的明显的不足之处当改变测量单位时,算出的距离数值不同;再当改变测量单位时,算出的距离数值不同;再则当数量指标则当数量指标X X的各分量代表不同质的东西或者的各分量代表不同质的东西或者分量的差异很大时,欧氏距离常会出现分量的差异很大时,欧氏距离常会出现“大数大数吃小数吃小数”的现象的现象。现在学习的是第17页,共49页这时讨论距离时,需要进行加权,加权的办法之一是从X的分量的离散程度考虑,离差大的分量在距离中应相应地削弱它的影响程度。为此引入马氏距离。马氏距离是由印度统计学家马哈拉诺比斯于1936年引入的,故称为马氏距离。这一距离在多元统计分析中起着十分重要的作用,下面给出定义。现
11、在学习的是第18页,共49页ii)马氏马氏(Mahalanobis)距离距离现在学习的是第19页,共49页ii)ii)马氏距离的优缺点马氏距离的优缺点 马氏距离既排除了各指标之间相关性的干扰,而且还不受各指标量纲的影响。除此之外,它还有一些优点,如可以证明,将原数据作一线性交换后,马氏距离仍不变等等。马氏距离与测量单位无关,但是它夸大了变化微小的变量(或指标)的作用,这是马氏距离在实用中的缺点。现在学习的是第20页,共49页距离矩阵距离矩阵现在学习的是第21页,共49页相似系数 研究样品之间的关系,除了用距离表示外,还有相似系数,顾名思义,相似系数是描写样品之间相似程度的一个量,常用的相似系数
12、有:i)i)夹角余弦夹角余弦 ii)ii)相关系数相关系数现在学习的是第22页,共49页 i)夹角余弦夹角余弦现在学习的是第23页,共49页相似矩阵相似矩阵现在学习的是第24页,共49页 ii)相关系数相关系数现在学习的是第25页,共49页相似矩阵相似矩阵现在学习的是第26页,共49页 2 对指标分类对指标分类(称为称为R-型聚类分析型聚类分析)P个指标个指标(变量变量)之间相似性的定义与样品之间相似性的定义与样品相似性定义类似,但此时是在相似性定义类似,但此时是在n维空间中来维空间中来研究的,变量之间的相似性是通过原始资料研究的,变量之间的相似性是通过原始资料矩阵矩阵X中中P列间相似关系来研
13、究的。类似的列间相似关系来研究的。类似的也有常用的距离和相似系数定义也有常用的距离和相似系数定义常用的距离常用的距离 i)明氏明氏(Minkowski)距离距离 ii)马氏马氏(Mahalanobis)距离距离 iii)兰氏兰氏(Canberra)距离距离相似系数相似系数i)i)夹角余弦夹角余弦 ii)ii)相关系数相关系数现在学习的是第27页,共49页常用的距离和相似系数定义常用的距离和相似系数定义常用的距离常用的距离 i)明氏明氏(Minkowski)距离距离 ii)马氏马氏(Mahalanobis)距离距离 iii)兰氏兰氏(Canberra)距离距离相似系数相似系数i)i)夹角余弦夹角
14、余弦 ii)ii)相关系数相关系数在实际问题中:在实际问题中:对样品分类常用距离,对样品分类常用距离,对指标分类常用相似系数。对指标分类常用相似系数。现在学习的是第28页,共49页 聚类分析内容有系统聚类法有序样品聚类法动态聚类法模糊聚类法图论聚类法聚类预报法等。本章主要介绍常用的系统聚类法。现在学习的是第29页,共49页系统聚类法的基本思想系统聚类法(Hierachical Clustering Methods)基本思想是:先将每个研究对象(样品或指标)各自看成一类、按某种顺序分别称作第1,第2,第h类(如果对象是样品,则h=n;如果对象是指标,则h=p);然后根据对象间的相似度量,将h类中
15、最相似的两类合并,组成一个新类,这样得到h-1类,再在这h-1类中找出最相似的两类合并,得到h-2类,如此下去,直至将所有的对象并成一个大类为止。当然,真的合并成一个类就失去了聚类的意义,所以上面的聚类过程应该在某个类水平数(即未合并的类数)停下来,最终的类就取这些未合并的类。决定聚类个数是一个很复杂的问题。现在学习的是第30页,共49页在如上的并类过程中出现这样一个问题:两类之间如何度量其相似程度?为此,需要引进两类之间的“距离”或“相似系数”的概念。正如样品之间的距离可以有不同的定义方法一样,类与类之间的距离也有各种定义。例如可以定义类与类之间的距离为两类之间最近样品的距离,或者定义为两类
16、之间最远样品的距离,也可以定义为两类重心之间的距离等等。类与类之间用不同的方法定义距离,就产生了不同的系统聚类方法。现在学习的是第31页,共49页 八种系统聚类方法八种系统聚类方法系统聚类分析尽管方法很多,但归类的步骤基本上是一样的,所不同的仅是类与类之间的距离有不同的定义方法,从而得到不同的计算距离的公式。这些公式在形式上不大一样,但最后可将它们统一为一个公式,对上机计算带来很大的方便。最短距离法最长距离法中间距离法重心法类平均法可变类平均法可变法离差平方和法现在学习的是第32页,共49页系统聚类法的具体步骤:系统聚类法的具体步骤:现在学习的是第33页,共49页现在学习的是第34页,共49页
17、现在学习的是第35页,共49页现在学习的是第36页,共49页现在学习的是第37页,共49页现在学习的是第38页,共49页现在学习的是第39页,共49页其它的聚类方法还有EML法、可变类平均法(FLEXIBLE)、McQuitty相似分析法(MCQUITTY)、中间距离法(MEDIAN)、两阶段密度估计法(TWOSTAGE)等。现在学习的是第40页,共49页谱系聚类类数的确定谱系聚类类数的确定谱系聚类最终得到一个聚类树,可以把所有观测聚为一类。到底应该把观测分为几类是一个比较困难的问题,因为分类问题本身就是没有一定标准的,关于这一点实用多元统计分析(王学仁、王松桂,上海科技出版社)第十章给出了一
18、个很好的例子,即扑克牌的分类。我们可以把扑克牌按花色分类,按大小点分类,按桥牌的高花色低花色分类,等等。决定类数的一些方法来自统计的方差分析的思想,我们在这里作一些介绍。现在学习的是第41页,共49页四、类个数的确定 聚类分析中,类的个数如何确定的问题是一个十分困难的问题,人们至今仍未找到令人满意的方法;但这又是一个不可回避的问题 迄今为止,我们只是直观地叙述了“类”的概念,并未给出严格的定义,但要对各种不同的类给予统一的定义是比较困难的,“类”的概念是一个模糊的概念当然可以从不同的角度给出类的不同定义,但在实际应用中,人们并不完全从类的定义来确定类 下面介绍确定类个数的几种常见方法现在学习的
19、是第42页,共49页1由适当的阀值确定选定某种聚类方法,按系统聚类的步骤并类后,得到一张谱系聚类图聚类图(或简称谱系图)只反映样品间(或变量间)的亲疏关系,它本身并没有给出分类,需要规定一个临界相似性尺度,用以分割谱系图而得到样品(或变量)的分类比如例2 用最短 距离法得谱系聚类图(见图示2),给定临界值(阀值)d2.01,其含义为样品间绝对距离2.01时认为这些样品间关系密切,应归属同一类这相当于在距离为2.01处切一刀,显见五个样品可:分为二类:X(1),x(2)为一类,x(3),x(4),X(5)为一类现在学习的是第43页,共49页2根据数据点的散布图直观地确定类的个数根据数据点的散布图直观地确定类的个数 如果考察的指标只有二个(m2),则可通过数据点的散布图直观地确定类的个数如果有三个变量,可以绘制三维散布图并通过旋转三维坐标轴由数据点的分布来确定应分几个类(使用SAS软件)当考察的指标在三个以上时,可以由这些指标综合出二个或三个综合变量后再绘制数据点在综合变量上的散布图,从而直观地确定分类个数现在学习的是第44页,共49页现在学习的是第45页,共49页现在学习的是第46页,共49页现在学习的是第47页,共49页现在学习的是第48页,共49页现在学习的是第49页,共49页
限制150内