《应用多元统计分析》第五版PPT(第六章)ppt.ppt
《《应用多元统计分析》第五版PPT(第六章)ppt.ppt》由会员分享,可在线阅读,更多相关《《应用多元统计分析》第五版PPT(第六章)ppt.ppt(91页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第六章 聚类分析,6.1 引言6.2 距离和相似系数6.3 系统聚类法6.4 动态聚类法,1,6.1 引言,聚类分析:将分类对象分成若干类,相似的归为同一类,不相似的归为不同的类。聚类分析和判别归类有着不同的分类目的,彼此之间既有区别又有联系。聚类分析分为Q型(分类对象为样品)和R型(分类对象为变量)两种。,2,相似性的不同定义,3,6.2 距离和相似系数,相似性度量:距离和相似系数。样品之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系。变量的测量尺度:间隔、有序和名义尺度。间隔变量:变量用连续的量来表示,如长度、重量、速度、温度等。有序变量:变量度量时不用明确
2、的数量表示,而是用等级来表示,如某产品分为一等品、二等品、三等品等有次序关系。名义变量:变量用一些类表示,这些类之间既无等级关系也无数量关系,如性别、职业、产品的型号等。,4,间隔变量也称为定量变量,有序变量和名义变量统称为定性变量或属性变量或分类变量。对于间隔变量,距离常用来度量样品之间的相似性,相似系数常用来度量变量之间的相似性。本章主要讨论具有间隔尺度变量的样品聚类分析方法。一、距离二、相似系数,5,一、距离,设x =(x1,x2,xp) 和y =(y1,y2,yp)为两个样品,则所定义的距离一般应满足如下三个条件:(i)非负性:d(x, y)0,d(x, y)=0当且仅当x=y;(ii
3、)对称性:d(x, y) = d(y, x);(iii)三角不等式:d(x, y)d(x,z) + d(z, y)。,6,常用的距离,1.明考夫斯基(Minkowski)距离2.兰氏(Lance和Williams)距离3.马氏距离,7,1.明考夫斯基距离,明考夫斯基距离(简称明氏距离):这里q1。明氏距离的三种特殊形式:(i)当q=1时, ,称为绝对值距离,常被形象地称作“城市街区”距离;(ii)当q=2时, ,这是欧氏距离,它是聚类分析中最常用的一个距离;(iii)当q=时, ,称为切比雪夫距离。,8,绝对值距离图示,9,对各变量的数据作标准化处理,当各变量的单位不同或测量值范围相差很大时,
4、应先对各变量的数据作标准化处理。最常用的标准化处理是,令 其中 和sii分别为xi的样本均值和样本方差。,10,2.兰氏距离,当所有的数据皆为正时,可以定义x与y之间的兰氏距离为该距离与各变量的单位无关,且适用于高度偏斜或含异常值的数据。,11,3.马氏距离,x和y之间的马氏距离为 其中S为样本协差阵。聚类过程中的类一直变化着,S一般难以确定,除非有关于不同类的先验知识。因此,在实际聚类分析中,马氏距离一般不是理想的距离。,12,名义尺度变量的一种距离定义,例6.2.1 某高校举办一个培训班,从学员的资料中得到这样六个变量: x1 :性别(男,女) x2 :外语语种(英语,非英语) x3 :专
5、业(统计,非统计) x4 :职业(教师,非教师) x5 :居住处(校内,校外) x6 :学位(硕士,学士)现有两名学员:x=(男,英语,统计,非教师,校外,学士)y=(女,英语,非统计,教师,校外,硕士),13,一般地,若记 m1:配合的变量数m2:不配合的变量数 则它们之间的距离可定义为故按此定义,本例中x 与y 之间的距离为2/3。,14,二、相似系数,变量之间的相似性度量,在一些应用中要看相似系数的大小,而在另一些应用中要看相似系数绝对值的大小。相似系数(或其绝对值)越大,认为变量之间的相似性程度就越高;反之,则越低。聚类时,比较相似的变量倾向于归为一类,不太相似的变量归属不同的类。,1
6、5,变量间相似系数一般应满足的条件,(1)cij=1,当且仅当xi=axj+b,a(0) 和b是常数; (2)|cij|1,对一切i,j; (3)cij=cji,对一切i,j。,16,两个向量的夹角余弦,17,1.夹角余弦,变量xi与xj的夹角余弦定义为它是Rn中变量xi的观测向量(x1i,x2i,xni)与变量xj的观测向量(x1j,x2j,xnj)之间夹角ij的余弦函数,即cij(1)=cosij。,18,2.相关系数,变量xi与xj的相关系数为如果变量xi与xj是已标准化了的,则它们间的夹角余弦就是相关系数。,19,相似系数除常用来度量变量之间的相似性外有时也用来度量样品之间的相似性,同
7、样,距离有时也用来度量变量之间的相似性。由距离来构造相似系数总是可能的,如令 这里dij为第i个样品与第j个样品的距离,cij可作为相似系数,用来度量样品之间的相关性。距离必须满足定义距离的三个条件,所以不是总能由相似系数构造。高尔(Gower)证明,当相似系数矩阵(cij)为非负定时,如令 则dij满足距离定义的三个条件。,20,6.3 系统聚类法,系统聚类法(或层次聚类法)是通过一系列相继的合并或相继的分割来进行的,分为聚集的和分割的两种,适用于样品数目n不是非常大的情形。聚集系统法的基本思想是:开始时将n个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并
8、成一个新类,计算新类与其他类的距离;重复进行两个最近类的合并,每次减少一类,直至所有的样品合并为一类。,21,一开始每个样品各自作为一类,22,分割系统法的聚类步骤与聚集系统法正相反。由n个样品组成一类开始,按某种最优准则将它分割成两个尽可能远离的子类,再用同样准则将每一子类进一步地分割成两类,从中选一个分割最优的子类,这样类数将由两类增加到三类。如此下去,直至所有n个样品各自为一类或采用某种停止规则。聚集系统法最为常用,本节着重介绍其中常用的六种方法并略提另两种方法,所有这些聚类方法的区别在于类与类之间距离的定义不同。,23,6.3 系统聚类法,一、最短距离法 二、最长距离法三、类平均法四、
9、重心法*五、中间距离法六、离差平方和法(Ward方法)*七、系统聚类法的统一八、系统聚类法的性质九、使用图形作聚类及对效果的评估十、对变量的聚类十一、类的个数,24,一、最短距离法,定义类与类之间的距离为两类最近样品间的距离,即,25,图6.3.1 最短距离法:DKL=d23,最短距离法的聚类步骤,(1)规定样品之间的距离,计算n个样品的距离矩阵D(0),它是一个对称矩阵。(2)选择D(0)中的最小元素,设为DKL,则将GK和GL合并成一个新类,记为GM,即GM= GKGL。 (3)计算新类GM与任一类GJ之间距离的递推公式为,26,递推公式的图示理解,27,最短距离法的聚类步骤(续),在D(
10、0)中,GK和GL所在的行和列合并成一个新行新列,对应GM ,该行列上的新距离值由上述递推公式求得,其余行列上的距离值不变,这样就得到新的距离矩阵,记作D(1) 。(4)对D(1)重复上述对D(0)的两步得D(2) ,如此下去直至所有元素合并成一类为止。,28,如果某一步D(m)中最小的元素不止一个,则称此现象为结,对应这些最小元素的类可以任选一对合并或同时合并。最短距离法最容易产生结,且有一种挑选长链状聚类的倾向,称为链接倾向。最短距离法不适合对分离得很差的群体进行聚类。,29,结的图示:,一个最短距离法产生链接的例子(例6.3.4),30,例6.3.1 设有五个样品,每个只测量了一个指标,
11、分别是1,2,6,8,11,试用最短距离法将它们分类。记G1=1,G2=2,G3=6,G4=8,G5=11,样品间采用绝对值距离。,表6.3.1 D(0),31,其中G6= G1G2,其中G7= G3G4,表6.3.2 D(1),表6.3.3 D(2),32,其中G6= G1G2,表6.3.4 D(3),33,图6.3.2 最短距离法树形图,二、最长距离法,类与类之间的距离定义为两类最远样品间的距离,即,34,图6.3.3 最长距离法:DKL=d15,最长距离法与最短距离法的并类步骤完全相同,只是类间距离的递推公式有所不同。递推公式:,35,对例6.3.1采用最长距离法。,36,图6.3.4
12、最长距离法树形图,异常值的影响,最长距离法容易被异常值严重地扭曲。,37,三、类平均法,有两种定义。定义1:类GK和GL之间的距离定义为,38,图6.3.5 类平均法,递推公式:,39,定义2:类GK和GL之间的平方距离定义为递推公式:类平均法较好地利用了所有样品之间的信息,在很多情况下它被认为是一种比较好的系统聚类法。,40,例6.3.2 在例6.3.1中采用(使用平方距离的)类平均法进行聚类。一开始将D(0)的每个元素都平方,并记作 。,表6.3.5,41,表6.3.6,表6.3.7,42,表6.3.8,43,图6.3.6 类平均法树形图,四、重心法,设类GK和GL的重心(均值)分别为 ,
13、则GK与GL之间的平方距离定义为,44,图6.3.7 重心法,GM= GKGL的重心是 其中nM=nK+nL为GM的样品个数。递推公式:与其他系统聚类法相比,重心法在处理异常值方面更稳健,但是在别的方面一般不如类平均法或离差平方和法的效果好。,45,*五、中间距离法,设GM= GKGL ,对于任一类GJ,考虑由DKJ,DLJ和DKL为边长组成的三角形,取DKL边的中线作为DMJ。DMJ的计算公式为,46,图6.3.8 中间距离法的几何表示,六、离差平方和法(Ward方法),(类内)离差平方和:类中各样品到类重心(均值)的平方欧氏距离之和。设类GK和GL合并成新类GM,则GK, GL和GM的离差
14、平方和分别是对固定的类内样品数,它们反映了各自类内样品的分散程度。,47,类内离差平方和的几何解释,类内离差平方和WK是类GK内各点到类重心点 的直线距离之平方和。,48,定义GK和GL之间的平方距离为 也可表达为 离差平方和法使得两个大的类倾向于有较大的距离,因而不易合并;相反,两个小的类却因倾向于有较小的距离而易于合并。这往往符合我们对聚类的实际要求。,49,50,图6.3.9 离差平方和法与重心法的聚类比较,递推公式:对例6.3.1采用离差平方和法进行聚类。,51,图6.3.10 离差平方和法树形图,例6.3.3 表6.3.9列出了1999年全国31个省、直辖市和自治区的城镇居民家庭平均
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 利用 运用 多元 统计分析 第五 ppt 第六
限制150内