聚类分析.doc
《聚类分析.doc》由会员分享,可在线阅读,更多相关《聚类分析.doc(31页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流聚类分析.精品文档. 聚类分析一 引言俗话说:“物以聚类,人以群分”,在现实世界中存在着大量的分类问题。例如,生物可以分成动物和植物,动物又可分为脊椎动物和无脊椎动物等;人按年龄可分为少年、青年、中年、老年,对少年的身体形态、身体素质及生理功能的各项指标进行测试,据此对少年又可进行分类;在环境科学中,我们可以对按大气污染的轻重分成几类区域;在经济学中,根据人均国民收入、人均工农业产值和人均消费水平等多项指标对世界上所有国家的经济发展状况进行分类;在产品质量管理中,要根据各产品的某些重要指标可以将其分为一等品,二等品等。研究事物分类问题的基本方
2、法有两种:一是判别分析,二是聚类分析。若已知总体的类别数目及各类的特征,要对类别未知的个体正确地归属其中某一类,这时需要用判别分析法。若事先对总体到底有几种类型无从知晓,则要想知道观测到的个体的具体的分类情况,这时就需要用聚类分析法。聚类分析的基本思想:首先定义能度量样品(或变量)间相似程度(亲疏关系)的统计量,在此基础上求出各样品(或变量)间相似程度的度量值;然后按相似程度的大小,把样品(或变量)逐一归类,关系密切的聚集到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到所有的样品(或变量)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统;最后根据整个分类系统画出一副分
3、群图,称之为亲疏关系谱系图。聚类分析给人们提供了丰富多彩的分类方法,大致可归为:系统聚类法:首先,将个样品看成类,然后将性质最接近的两类合并成一个新类,得到类,合并后重新计算新类与其它类的距离与相近性测度。这一过程一直继续直到所有对象归为一类为止,并且类的过程可用一张谱系聚类图描述。动态聚类法(调优法):首先对个对象初步分类,然后根据分类的损失函数尽可能小的原则进行调整,直到分类合理为止。有序样品聚类法(最优分割法):开始将所有样品看成一类,然后根据某种最优准则将它们分割为二类、三类,一直分割到所需的K类为止。这种方法适用于有序样品的分类问题,故称为有序样品聚类法模糊聚类法:该方法多用于定性变
4、量的分类利用模糊集理论来处理分类问题,它对经济领域中具有模糊特征的两态数据和多态数据具有明显的分类效果图论聚类法:利用图论中最小支撑树的概念来处理分类问题,创造了独具风格的方法聚类预报法:利用聚类方法处理预报问题,在多元统计分析中,可用来作预报的方法很多,如回归分析或判别分析但对一些异常数据,如气象中的灾害性天气的预报,使用回归分析或判别分析处理的效果都不好,而聚类预报弥补了这一不足,这是一个值得重视的方法。本书主要介绍聚类分析不仅可以对样品进行分类,也可以对变量进行分类。对样品的分类称为Q型聚类分析,对变量进行分类称为R型聚类分析。聚类分析的历史还很短,它的方法很粗糙,理论上还不完善,但由于
5、能解决许多实际问题,所以很受人们重视,同回归分析、判别分析一起被称为多元分析的三大实用分析方法。二 聚类统计量在对样品(或变量)进行分类时,样品(或变量)之间的相似性是如何度量的呢?这一节中,我们介绍三种相似性度量距离、匹配系数和相似系数。距离和匹配系数常用来度量样品之间的相似性,相似系数常用来变量之间的相似性。样品之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系。通常变量按取值的不同可以分为:1.定量变量:变量用连续的量来表示,例如长度、重量、速度、人口等,又称为间隔尺度变量。2.定性变量:并不是数量上有变化,而只是性质上有差异。定性变量还可以再分为:有序尺度
6、变量:变量不是用明确的数量表示,而是用等级表示,例如某产品分为一等品、二等品、三等品等,文化程度分为文盲、小学、中学、大学等。名义尺度变量:变量用一些类表示,这些类之间既无等级关系,也无数量关系,例如性别分为男、女,职业分为工人、教师、干部、农民等。下面我们主要讨论具有定量变量的样品聚类分析,描述样品间的亲疏程度最常用的是距离。 距离1. 数据矩阵设为第个样品的第个指标,数据矩阵如下表 表1 数据矩阵 变量样品 12n 在上表中,每个样品有个变量,故每个样品都可以看成是中的一个点,个样品就是中的个点。在中需定义某种距离,第个样品与第个样品之间的距离记为,在聚类过程中,相距较近的点倾向于归为一类
7、,相距较远的点应归属不同的类。所定义的距离一般应满足如下四个条件:,对一切;且当且仅当 ,对一切;,对一切2定量变量的常用的距离对于定量变量,常用的距离有以下几种:闵科夫斯基(Minkowski)距离这里为某一自然数。闵科夫斯基距离有以下三种特殊形式:1) 当时,称为绝对值距离,常被形象地称为“城市街区”距离;2) 当时,称为欧氏距离,这是聚类分析中最常用的距离;3)当时,,称为切比雪夫距离。在实际中用得很多,但是有一些缺点,一方面距离的大小与各指标的观测单位有关,另一方面它没有考虑指标间的相关性。当各指标的测量值相差悬殊时,应先对数据标准化,然后用标准化后的数据计算距离;最常用的标准化处理是
8、:令 其中为第个变量的样本均值,为第个变量的样本方差。兰氏(Lance和Williams)距离 当( )时,第个样品与第个样品间的兰氏距离为 这个距离与各变量的单位无关,但没有考虑指标间的相关性。马氏距离(Mahalanobis)距离第个样品与第个样品间的马氏距离为其中,为样品协方差矩阵。使用马氏距离的好处是考虑到了各变量之间的相关性,并且与各变量的单位无关;但马氏距离有一个很大的缺陷,就是难确定。由于聚类是一个动态过程,故随聚类过程而变化,那么同样的两个样品之间的距离可能也会随之而变化,这不符和聚类的基本要求。因此,在实际聚类分析中,马氏距离不是理想的距离。斜交空间距离 第个样品与第个样品间
9、的斜交空间距离定义为其中是变量与变量间的相关系数。当个变量互不相关时,即斜交空间距离退化为欧氏距离(除相差一个常数倍外)。以上几种距离的定义均要求样品的变量是定量变量,如果使用的是定性变量,则有相应的定义距离的方法。3定性变量的距离下例只是对名义尺度变量的一种距离定义。 例9.1.1 某高校举办一个培训班,从学员的资料中得到这样6个变量:性别()取值为男和女;外语语种()取值为英、日和俄;专业()取值为统计、会计和金融;职业()取值为教师和非教师;居住处()取值为校内和校外;学历()取值为本科和本科以下。现有两名学员: (男,英,统计,非教师,校外,本科) (女,英,金融,教师,校外,本科以下
10、)这两名学员的第二个变量都取值“英”,称为配合的,第一个变量一个取值为“男”,另一个取值为“女”,称为不配合的。一般地,若记配合的变量数为,不配合的变量数为,则它们之间的距离可定义为按此定义本例中与之间的距离为。当样品的变量为定性变量时,通常采用匹配系数作为聚类统计量。匹配系数 定义 第个样品与第个样品的匹配系数定义为 ,其中显然匹配系数越大,说明两样品越相似。例1 对购买家具的顾客作聚类分析。有以下三个变量: :喜欢的式样,老式记为1,新式记为2; :喜欢的图案,素式记为1,格子式记为2,花式记为3; :喜欢的颜色,蓝色记为1,黄色记为2,红色记为3,绿色记为4。 下面列出 表1 四位顾客(
11、样品)的观测值 变量样品 1 2 3 4 1 3 11 2 22 3 32 2 3解 各样品为名义尺度变量,其取值仅代表不同状况、类别,无大小次序关系,故采用匹配系数作为聚类统计量,由定义得注:对,为非负整数; 越大,表明样品越相似;按由大到小,可将样品逐步聚类。上述匹配系数的计算没有考虑到各个变量取值个数的多寡而一视同仁。在上例中,式样 只取两个值1和2,图案取三个值(1,2,3),颜色取四个值(1,2,3,4). 故 即 这样,的大小主要由控制,而与的作用不适当地被削弱了。为了解决这一问题,引进对指标加权的匹配系数:其中是指标的权数,等于可能取值的个数。 对上例,求得各加权匹配系数为:聚类
12、分析方法不仅用来对样品进行分类,而且可用来对变量进行分类。在对变量进行分类时,常常采用相似系数来度量变量之间的相似性。相似系数设表示与的相似系数,它一般应满足如下三个条件: ,对一切; ,当且仅当存在常数和,使得;,对一切.最常用的相似系数有以下两种:1. 夹角余弦变量与的夹角余弦定义为它是中变量的观测向量与变量的观测向量之间夹角的余弦函数,即.2. 相关系数变量与的相关系数为其中,注:实际上是将数据标准化后的交角余弦。变量之间的这种相似性度量,在一些应用中要看相似系数的大小,而在另一些应用中要看相似系数绝对值的大小。相似系数(或其绝对值)越大,认为变量之间相似程度就越高;反之,则越低。聚类时
13、,比较相似的变量倾向于归为一类,不太相似的变量归属不同的类。变量之间常借助于相似系数来定义距离,如令一般来说,同一批数据采用不同的相似性度量,会得到不同的分析结果。在进行聚类分析时,应根据实际情况选取合适的相似性度量,如在经济变量分析中,常用相关系数来描述变量间的相似程度。 系统聚类法系统聚类的基本思想方法系统聚类是将N个样本分成若干个类的方法:系统聚类的基本思想是:先将N个样本各自看成一类,然后规定类与类之间的距离,选择距离最小的一对合并成一个新类,计算新类与其他类的距离,再将距离最近的两类合并,这样每次减少一类,直至所有的样本成为一类为止。记n为观测个数,r为变量个数,为第I次观测值(一般
14、为向量)。为第k类,中的观测个数,为观测x,y之间的距离,为第k类与第l类之间的距离,是样本的均值向量,是总样本均值。类与类之间的距离有许多定义法:(1) 类平均法(Average Linkage Method)为观测样本的欧氏距离,类平均法有两种定义一种定义方法是把类与类之间的距离定义为所有样品对之间的平均距离,即定义和之间的距离为其中和分别为类和的样品个数。当某类与合并成一个新类,计算与任一类的距离,其递推公式为另一种定义方法是定义类与类之间的平方距离为样品对之间平方距离的平均值,即在上面的递推公式中,没有被反映出来,为此可可将该公式进一步推广为其中,称这种系统聚类法为可变类平均法。用ME
15、THOD=FLE指示SAS执行(2) 重心法(Centrovid method)重心法类与类之间的距离定义为它们的重心之间的欧氏距离设和的重心分别为和,则与之间的平方距离为这种系统聚类法称为重心法,它的递推公式为重心法在处理异常值方面比其他系统聚类法更稳健,但是在别的方面一般不如类平均法或离差平方和法的效果好。由METHOD=CEN指标SAS执行(3) 最短距离法(Single)即类与类之间的距离为两类最近样品间的距离。组合公式为;由METHOD=SIN指示SAS执行最短距离法步骤如下:规定样品之间的距离,计算个样品的距离矩阵,它是一个对称矩阵。选择中的最小元素,设为,则将与合并成一个新类,记
16、为,即;在中划去与所对应的两行与两列。加入由新类与剩下的未聚合的各类之间的距离所组成的一行和一列,计算新类与任一类之间距离的递推公式为其余行列上的距离值不变,这样就得到了新的距离矩阵,记作。对重复上述对的两步得,如此下去直至所有元素合并成一类为止。如果某一步中的最小元素不止一个,则称此现象为结,对应这些最小元素的类可以任选一对合并或同时合并。(4) 最长距离法(Compelete Linkage Method)定义 即类与类之间的距离为两类最远样品间的距离.由METHOD=COM指示SAS执行。 最长距离法与最短距离法的步骤类似,当某类与合并成一个新类,与任一类的距离为(5) 中间距离法(Me
17、dian)最短距离法与最长距离法均取极端值,而对有些问题,比如要反映工资、收入、生活水平、价格等总体水平,取其中间值更能反映实际。当某类与合并成一个新类,计算与任一类的距离,其递推公式为其中常取,这时正好是以、为边的三角形中边上的中线.中间距离法(6) 密度估计法(Density Linkage Method)密度估计法包括两步:第一步定义一种新的距离,第二步基于采用最短距离法。由METHOD=DEN指示SAS执行。的估计有:1)k最近邻估计法令为点x到第k个最近观测的距离。考虑以x为中心,以为半径的闭球,在点x的密度估计为球内的观测数除以球的体积,新的距离定义为:2) 均匀核估计法考虑在一个
18、中心在x,半径为r的球,在点x上的密度的估计值为球内观测值除以体积所得的比值,新的距离定义为:3) Wong混合法Wong混合法使用基于k最近邻初始聚类分析的密度估计。对于初始类,可以从输入数据集中得到,分别是类均值或类均值之间的距离。和被认为是最近邻的,如果,对于其他初始类,新的距离定义为:(7) EML(Maximum Likelihood Method)定义两类之间的距离为:有时可修正为(8) 可变类平均法(Flexible-Beta Method)(9) McQuitty 相似分析法(10) 两阶段密度估计法(Two-Stage Density Method)(11) Ward 最小方
19、差或 Ward离差平方和法组合公式为:离差平方和法定义类中各样品到类重心的平方欧氏距离之和称为(类内)离差平方和法设类和合并成新类,则、和的离差平方和法分别是它们反映了各自类内样品的分散程度如果和这两类相距较近,则合并后所增加的离差平方和法应较小;否则,应较大.所以我们定义和之间的平方距离这种系统聚类法称为离差平方和法或ard方法.离差平方和法类间距离与两类的样品数有较大关系,两个大的类倾向于有较大的距离,因而不易合并,这往往符合我们对聚类的实际要求离差平方和法在许多场合下优于重心法,是比较好的一种系统聚类法,但它对异常值很敏感由METHOD=WARD指示SAS执行例2为研究辽宁、浙江、河南、
20、甘肃、青海五省份1991年城镇居民生活消费的分布规律,需要用调查资料对这五个省分类,变量名称及原始数据如下表所示: 表9.3 1991年辽宁等5省城镇居民月均消费数据(单位:元/人) 变量省份 辽宁浙江河南甘肃青海7.90 39.77 8.49 12.94 19.27 11.05 2.04 13.297.68 50.37 11.35 13.30 19.25 14.59 2.75 14.879.42 27.93 8.20 8.14 16.17 9.42 1.55 9.769.16 27.98 9.01 9.32 15.99 9.10 1.82 11.3510.06 28.64 10.52 10.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析
限制150内