应用多元统计分析第五章聚类分析讲稿.pptx
《应用多元统计分析第五章聚类分析讲稿.pptx》由会员分享,可在线阅读,更多相关《应用多元统计分析第五章聚类分析讲稿.pptx(66页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、应用多元统计分析第五章聚类分析1第一页,讲稿共六十六页哦2第五章 把对象分类聚类分析第二页,讲稿共六十六页哦3分类n俗语说,物以类聚、人以群分。n当有一个分类指标时,分类比较容易。n但是当有多个指标,要进行分类就不是很容易了。n比如,要想把中国的县分成若干类,可以按照自然条件来分:考虑降水、土地、日照、湿度等各方面;n也可以考虑收入、教育水准、医疗条件、基础设施等指标;第三页,讲稿共六十六页哦4聚类分析n由于不同的指标项对重要程度或依赖关系是相互不同的,所以也不能用平均的方法,因为这样会忽视相对重要程度的问题。n所以需要进行多元分类,即聚类分析。n最早的聚类分析是由考古学家在对考古分类中研究中
2、发展起来的,同时又应用于昆虫的分类中,此后又广泛地应用在天气、生物等方面。第四页,讲稿共六十六页哦5聚类分析n对于一个数据,人们既可以对变量(指标)进行分类(相当于对数据中的列分类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。n对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的,没有什么不同。第五页,讲稿共六十六页哦6聚类中选择变量的要求n和聚类分析的目标密切相关n反映了要分类对象的特征n变量之间不应该高度相关。第六页,讲稿共六十六页哦7如何聚类?如何聚类?n聚类分析就是要找出具有相近程度的点或类聚为一类;n如何衡量这个“相近程度”?n一种方法
3、是用相似系数相似系数,性质越接近的样品,它们的相似系数的绝对值越接近1,而彼此无关的样品,它们的相似系数的绝对值越接近于零。比较相似的样品归为一类,不怎么相似的样品归为不同的类。n另一种方法是将一个样品看作p维空间的一个点,并在空间定义距离空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类。第七页,讲稿共六十六页哦8距离和相似系数第八页,讲稿共六十六页哦9距离距离n什么是距离?n首先我们n看样本数n据:n一般满足以下四个条件时,就称为聚例:第九页,讲稿共六十六页哦10常用距离常用距离明氏距离明氏距离nMinkowski距离:n当q=1时:n当q=2时:n当q=时:第十页,讲稿共六十六
4、页哦11明氏距离的缺点明氏距离的缺点n距离的大小与个指标的观测单位有关,具有一定的人为性。n例如:对体重和身高进行测量,采用不同单位,其距离测量的结果不同。以欧氏距离为例。22221112)()()2(yxyxd第十一页,讲稿共六十六页哦12当长度当长度=cm时:时:第十二页,讲稿共六十六页哦13当长度当长度=mm时:时:改进的方法:对数据进行标准化,然后再计算距离。改进的方法:对数据进行标准化,然后再计算距离。第十三页,讲稿共六十六页哦14采用明氏距离需要注意的是:n一定要采用相同量纲的变量。如果各变量的量纲不同,或当各变量的量纲相同但各变量的测量值相差悬殊时,不能直接采用明氏距离。n需要先
5、对数据进行标准化处理,然后再用标准化处理后的数据计算距离。n最常用的标准化处理方法是:第十四页,讲稿共六十六页哦15对指标标准化的方法第十五页,讲稿共六十六页哦16明氏距离的缺点明氏距离的缺点n另一个缺点:它没有考虑到指标之间的相关性。n改进的方法是:采用马氏距离n马氏距离是1936年由印度数学家:马哈拉比斯由协方差矩阵计算构造的距离。第十六页,讲稿共六十六页哦17距离矩阵第十七页,讲稿共六十六页哦18相似系数n研究样品之间的关系,除了用距离表示外,还有相似系数,顾名思义,相似系数是描写样品之间相似程度的一个量,常用的相似系数有:n夹角余弦夹角余弦 n相关系数相关系数第十八页,讲稿共六十六页哦
6、19相似系数相似系数n夹角余弦夹角余弦cosinen尽管图中尽管图中AB和和CDn长度不一样,但形长度不一样,但形n状相似。当长度不状相似。当长度不n是主要矛盾时,就是主要矛盾时,就n可利用夹角余弦这可利用夹角余弦这n样的相似系数。样的相似系数。第十九页,讲稿共六十六页哦20夹角余弦夹角余弦cosine将任何两个样品iX与jX看成 p 维空间的两个向量,这两个向量的夹角余弦用ijcos表示。则 pkpkjkikpkjkikijxxxx11221cos 当ijcos=1,说明两个样品iX与jX完全相似;ijcos接近 l,说明iX与jX相似密切;ijcos=0,说明iX与jX完全不一样;ijco
7、s接近 0,说明iX与jX差别大。第二十页,讲稿共六十六页哦21相似矩阵相似矩阵把所有两两样品的相似系数都算出,可排成相似系数矩阵:nnnnnncoscoscoscoscoscoscoscoscos212222111211 其中1coscoscos2211nn,是一个实对称阵,所以只须计算上三角形部分或下三角形部分,根据可对 n 个样品进行分类,把比较相似的样品归为一类,不怎么相似的样品归为不同的类。第二十一页,讲稿共六十六页哦22相关系数相关系数通常所说相关系数,一般指变量间的相关系数,作为刻划样品间的相似关系也可类似给出定义,即第 i 个样品与第 j 个样品之间的相关系数定义为:pkpkj
8、jkiikpkjjkiikijxxxxxxxxr11221)()()(实际上,ijr就是两个向量iiXX 与jjXX的夹角余弦,其中),(iiiixxxX,),(jjjjxxxX。若将原始数据标准化,则0jiXX,这时ijrijcos。第二十二页,讲稿共六十六页哦23相关系数矩阵相关系数矩阵n把两两样品的相关系数都计算出来,可形成样品相把两两样品的相关系数都计算出来,可形成样品相关系数矩阵。关系数矩阵。npn2n12p22211p1211rrrrrrrrrR)(ijr第二十三页,讲稿共六十六页哦24第二十四页,讲稿共六十六页哦25聚类分析内容n系统聚类法n有序样品聚类法n动态聚类法n模糊聚类法
9、n图论聚类法n聚类预报法等。本章主要介绍常用的系统聚类法。第二十五页,讲稿共六十六页哦26系统聚类法第二十六页,讲稿共六十六页哦27系统聚类法的基本思想n先将每个研究对象(样品或指标)各自看成一类。n然后根据对象间的相似度量,将h类中最相似的两类合并,组成一个新类,这样得到h-1类,再在这h-1类中找出最相似的两类合并,得到h-2类,如此下去,直至将所有的对象并成一个大类为止。n当然,真的合并成一个类就失去了聚类的意义,所以上面的聚类过程应该在某个类水平数(即未合并的类数)停下来,最终的类就取这些未合并的类。决定聚类个数是一个很复杂的问题。第二十七页,讲稿共六十六页哦28系统聚类法的步骤系统聚
10、类法的步骤可选择适当的距离,计算距离可选择适当的距离,计算距离把每个样品看成一类,构造把每个样品看成一类,构造n个类个类合并最近的两类为一新类合并最近的两类为一新类计算新类与当前各类的距离计算新类与当前各类的距离判判断断画聚类图画聚类图根据实际情况,确定类和类的个数根据实际情况,确定类和类的个数仅有一个类仅有一个类不是仅有一个类不是仅有一个类采用系统聚类法采用系统聚类法第二十八页,讲稿共六十六页哦29系统聚类法系统聚类法n正如样品之间的距离可以有不同的定义方法一样,类与类之间的距离也有各种定义。n例如可以定义类与类之间的距离为两类之间最近样品的距离,或者定义为两类之间最远样品的距离,也可以定义
11、为两类重心之间的距离等等。类与类之间用不同的方法定义距离,就产生了不同的系统聚类方法。第二十九页,讲稿共六十六页哦30八种系统聚类方法八种系统聚类方法n最短距离法n最长距离法n中间距离法n重心法n类平均法n可变类平均法n可变法n离差平方和法n系统聚类分析尽管方法很多,但归类的步骤基本上是一样的,所不同的仅是类与类之间的距离有不同的定义方法,从而得到不同的计算距离的公式。这些公式在形式上不大一样,但最后可将它们统一为一个公式,对上机计算带来很大的方便。第三十页,讲稿共六十六页哦31系统聚类法系统聚类法n最短距离法Nearest NeighborG1 G2 G3 G4 G5G1G2G3G4G50
12、1 02.5 1.5 06 5 3.5 0 8 7 5.5 2 0G6 G3 G4 G5G6G3G4G50 1.5 05 3.5 07 5.5 2 0 第三十一页,讲稿共六十六页哦32系统聚类法系统聚类法n最长距离法Furthest NeighborG1 G2 G3 G4 G5G1G2G3G4G50 1 02.5 1.5 06 5 3.5 0 8 7 5.5 2 0G6 G3 G4 G5G6G3G4G50 2.5 06 3.5 08 5.5 2 0 第三十二页,讲稿共六十六页哦系统聚类法系统聚类法-中间法中间法332222412121pqkqkpkrDDDD第三十三页,讲稿共六十六页哦系统聚类
13、法系统聚类法-中间法中间法34G1 G2 G3 G4 G5G1G2G3G4G50 1 02.5 1.5 06 5 3.5 0 8 7 5.5 2 075.11415.1215.221412121212232231236DDDDG6 G3 G4 G5G6G3G4G50 1.75 05.50 3.5 07.25 5.5 2 第三十四页,讲稿共六十六页哦35系统聚类法系统聚类法n重心法Centroid Clusteringn重心法定义两类之间的距离就是两类重心的距离。设 的重心(即该类样品的均值)分别是 (注意一般他们是p维向量),则 之间的距离是 计算公式为:具体计算过程见参考书2p78-79。q
14、GG 和pqpXX 和qGG 和p2222pqrqrpkqrqkprpkrDnnnnDnnDnnD第三十五页,讲稿共六十六页哦36系统聚类法系统聚类法n类平均法Between-groups Linkagen重心法虽有很好的代表性,但并未充分利用个样品的信息,因此给出类平均法,它定义两类之间的距离平方为这两类元素两两之间距离平方的平均,即:n设聚类到某一步将的距离为:与,则任一类合并为和rkrqpGGGGG222kqrqkprpkrDnnDnnD第三十六页,讲稿共六十六页哦37系统聚类法系统聚类法n离差平方和法Words MethodnWords法的基本思想是来自于方差分析,如果分类正确,同类样
15、品的离差平方和应当较小,类与类的离差平方和应当较大。具体方法:n先将n个样品各自成一类,然后每次缩小一类;n每缩小一类离差平方和就要增大,选择使离差平方和增加最小的两类合并,直到所有的样品归为一类为止。第三十七页,讲稿共六十六页哦38系统聚类法系统聚类法n 中样品的离差平方和为:tG第三十八页,讲稿共六十六页哦39系统聚类法系统聚类法n如有五个样品:1,2,3.5,7,9n第一步:将五个样品各自分成一类,显然这时的类内离差平方和S=0;n第二步:将一切可能的任意两样品合并,计算所增加的离差平方和:n如第三十九页,讲稿共六十六页哦40 G1 G2 G3 G4 G5 G1 G2 G3 G4 G5
16、0 0.5 0 3.125 1.123 0 18 12.5 6.125 0 32 24.5 12.125 2 0此外,还有类内平均法等。此外,还有类内平均法等。第四十页,讲稿共六十六页哦41SPSS中的聚类分析与过程第四十一页,讲稿共六十六页哦42例例9.1 9.1 饮料数据(饮料数据(drink.sav drink.sav)1616种饮料的热量、咖啡因、钠及价格四种变量种饮料的热量、咖啡因、钠及价格四种变量 第四十二页,讲稿共六十六页哦43SPSS中的聚类分析中的聚类分析nSpss中的聚类功能常用的有两种:n快速聚类(迭代过程):K-Means Clustern分层聚类:Hierarchic
17、al第四十三页,讲稿共六十六页哦44Hierarchical Cluster聚类n分层聚类由两种方法:分解法和凝聚法。n分层聚类的功能:即可进行样品的聚类,也可进行变量的聚类。n分层聚类的原理:即我们前面介绍过的系统聚类方法的原理和过程。第四十四页,讲稿共六十六页哦45Hierarchical Cluster聚类n分层聚类的中要进行以下的选择:n数据的标准化n测度方法的选择:距离方法的选择或相似性、关联程度的选择。n聚类方法的选择:即以什么方法聚类,spss中提供了7中方法可进行选择。n输出图形的选择:树形图或冰柱图。第四十五页,讲稿共六十六页哦46Agglomeration Schedule
18、Agglomeration Schedule38.4660041415.82400109161.583007351.6041096122.05400117132.5220099113.03930134104.1360010374.24546124144.9248212265.4600514347.14291013397.52012714239.6151113151212.7340140Stage123456789101112131415Cluster 1Cluster 2Cluster CombinedCoefficientsCluster 1Cluster 2Stage Cluster Fi
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 多元 统计分析 第五 聚类分析 讲稿
限制150内