应用统计学幻灯片.ppt
《应用统计学幻灯片.ppt》由会员分享,可在线阅读,更多相关《应用统计学幻灯片.ppt(92页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、应用统计学课件第1页,共92页,编辑于2022年,星期六基本思想 聚类分析的基本思想:对所研究的样品或指标(变量)之间存在着程度不同的相似性(或亲疏关系)。于是根据一批样品的多个指标,具体找出一些能够度量样品或指标之间的相似程度的统计量。以这些统计量为分类的依据,把一些相似程度较大的样品(或指标)聚合为一类。并把另一些彼此之间相似程度较大的样品(或指标)聚合为另一类。从而按相似程度的大小,把关系密切的样品聚合到一个小的分类单位,关系疏远的样品聚合到一个大的分类单位,直到把所有的样品(或指标)都聚合完毕。把不同的类型一一划分出来,形成一个由小到大的分类系统。再把整个分类系统画成一张分群图(又称谱
2、系图),用它把所有样品(或指标)间的亲疏关系表示出来。第2页,共92页,编辑于2022年,星期六聚类分析和判别分析的区别 应该指出,聚类分析和判别分析都是研究事物分类的基本方法,但二者有着重要的区别。聚类分析把分类对象按一定规则划分成若干类型,这些类型不是事先给定的。而判别分析则事先已知类型的划分.通常每一类都有一个训练样本,据此得出判别函数或判别准则,从而对新样品的归属作出判别。与多元分析的其它方法相比,聚类分析的方法很粗糙,理论也尚不完善。但由于它的应用取得很大成功,和回归分析和判别分析一起被称为多元分析的三大实用方法。本章重点介绍一些常用的分类统计量和目前较为广泛使用的谱系聚类方法。最后
3、,简要介绍一种模糊聚类法。第3页,共92页,编辑于2022年,星期六4.1 分类统计量 聚类分析不仅可以对样品进行分类,也可以对指标(变量)进行分类。设有 个样品,每个样品有 个指标 。对观察值 ,可根据 间的某种相似性,对 个样品进行分类。例如某班有 个学生,可根据每个学生的各科考试成绩把学生分为优、良、中和差四类。另一方面,也可对指标进行分类。即根据某种相似性,把这个指标进行分类。例如在服装设计中,往往要测量很多的指标(变量),如身高,上体长,臂长,肩宽,胸围等。对这些指标,大致可分为两大类。一类反映人的高矮,另一类反映人的胖瘦。第4页,共92页,编辑于2022年,星期六分类统计量 对样品
4、进行分类的方法称为 Q 型聚类法。由于每个样品可看成是 p 维空间的一个点,n 个样品就组成 p 维空间中的 n 个点。这时,自然可以用距离来度量样品之间的相似性。而对指标(变量)进行分类的方法,称为R 型聚类法。指标(变量)间的某种相似性,常用“相似系数”来描述。下面介绍几种常用的距离和相似系数。第5页,共92页,编辑于2022年,星期六4.1.1 样品间的“相似性”度量距离 设每个样品有 p 个指标,观察值记为(4.1.1)每个样品 可看成是 p 维空间的一个点。于是,可用各点之间的距离来衡量各样品点之间的接近程度。样品 和 之间的距离 ,一般应满足如下的三个条件:(),且 时当且仅当 ;
5、();();有时所用的距离不满足(),但在广义的角度上仍称为距离。常用的距离有如下几种:第6页,共92页,编辑于2022年,星期六1.明考斯基(Minkowski)距离(明氏距离)(4.1.2)明氏距离有如下三种特殊形式。第7页,共92页,编辑于2022年,星期六2.绝对距离(m=1)(4.1.3)第8页,共92页,编辑于2022年,星期六3.欧氏距离(m=2)(4.1.4)第9页,共92页,编辑于2022年,星期六4.切比雪夫(Chebychev)距离(m=)(4.1.5)第10页,共92页,编辑于2022年,星期六数据的标准化方法 当各指标的观察值相差很大时,则不应直接采用明氏距离。这时应
6、对每个指标的数据进行标准化,然后对标准化数据计算距离。令 (4.1.6)(4.1.8)(4.1.7)分别表示第 个指标的样本均值、样本方差和样本极差。第11页,共92页,编辑于2022年,星期六标准化方法或极差标准化(4.1.9)(4.1.10)当考虑这些指标(变量)之间的相关性时,可采用方差加权距离或马氏距离。数据的标准化方法有标准差标准化第12页,共92页,编辑于2022年,星期六5.方差加权距离(4.1.11)其中 为第 个指标的方差。第13页,共92页,编辑于2022年,星期六6.马氏(Mahalanobis)距离 其中 为 维向量 的协方差矩阵。当 和 未知时,可用 作为 的估计,而
7、用 作为 的估计,记 ,则(4.1.12)其中第14页,共92页,编辑于2022年,星期六 例4.1.1 欧洲各国的语言有许多相似之处,有的十分相近。为了研究这些语言之间的历史关系,对数字 1,2,10 的单词作比较,表4.1.1列出了英语(E),挪威语(N),丹麦语(Da),荷兰语(Du),德语(G),法语(Fr),西班牙语(S),意大利语(I),波兰语(P),匈牙利语(H)和芬兰语(Fi)11种语言的单词 1,2,10 的拼写方法,希望计算这11种语言之间的距离。第15页,共92页,编辑于2022年,星期六表4.1.111种欧洲语言的数词第16页,共92页,编辑于2022年,星期六选择适用
8、的距离 在聚类分析中通常要结合实际问题来选择适用的距离,有时应根据实际问题定义新的距离,下面的例子说明了这一点。显然,本例无法直接用上述公式来计算距离。但可以发现前三种文字(英、挪、丹)很相似,特别是每个单词的第一个字母。于是可以用10个数词中第一个字母不同的个数来定义两种语言之间的距离。例如英语和挪威语中只有1和8的第一个字母不同,则它们之间的距离为2。这11种语言两两之间的距离列于表4.1.2。第17页,共92页,编辑于2022年,星期六表4.1.2 11种欧洲语言之间的距离 第18页,共92页,编辑于2022年,星期六4.1.2 变量间的“关联性”度量相似系数 越接近1,说明指标(变量)
9、与 的关系越密切。用 表示 的 个观察值()。常用的相似系数有以下几种:聚类分析方法不仅可以样品进行分类,同时也可对指标(变量)进行分类。在对指标(变量)进行分类时,用相似系数来度量指标(变量)之间的相似程度。第 个指标 (变量)与第 个指标 (变量)之间的相似系数用 来表示,一般应满足如下的三个条件:().().().第19页,共92页,编辑于2022年,星期六1.夹角余弦(4.1.13)这是 n 维空间中指标(变量)的观察向量 与的观察向量 之间的夹角余弦。第20页,共92页,编辑于2022年,星期六2.相关系数 指标(变量)与 的相关系数为(4.1.14)可以表示 与 线性相关的程度,这
10、是把数据标准化后的夹角余弦。当指标(变量)为定性(例如性别,职业,等级)时,也可以定义样品间的“距离”和指标(变量)之间的“相似系数”。第21页,共92页,编辑于2022年,星期六4.2 谱系聚类法 谱系聚类法是广泛采用的一种聚类方法,许多统计软件(例如SAS,SPSS)中都有专门的程序。谱系聚类法的基本思想是逐步把距离最近的类合并在一起。具体做法是 1 先把每个样品(指标)作为一类,即有类 n。2 选择距离最近的两类合并成一个新类,每次合并至少要减少一类。3 如此重复,直至所有样品(指标)都并成一类为止。谱系聚类法的合并过程中要涉及两个类之间的距离,而类与类之间的距离有许多种不同定义,而不同
11、的定义则产生不同的谱系聚类法。本节首先引进三种类与类之间的距离,然后详细介绍谱系聚类法。第22页,共92页,编辑于2022年,星期六4.2.1 类与类之间的距离 先讨论样品聚类的方法。用 i,j 表示样品 。用 表示 与 之间的距离,用 与 表示两个类,所包含的样品数分别为 与 。与 之间的距离用 表示。下面给出三种最常用的类与类之间距离的定义。第23页,共92页,编辑于2022年,星期六1.最短距离(4.2.1)即定义 与 之间的距离为 与 中最近的两个样品的距离。类与类之间的最短距离有如下的递推公式。设 由 与 合并而成,则 与其它类 的最短距离为(4.2.2)第24页,共92页,编辑于2
12、022年,星期六2.最长距离(4.2.3)即定义 与 之间的距离为 与 中最远的两个样品的距离。类与类之间的最长距离有如下的递推公式。设 由 与合并而成,则 到 的最长距离为(4.2.4)第25页,共92页,编辑于2022年,星期六3.类平均距离(4.2.5)即定义 与 之间的距离为 与 中所有两两样品之间距离的平均数。类平均距离的递推公式如下,设 由 与 合并而成,则 到 的类平均距离为第26页,共92页,编辑于2022年,星期六类平均距离(4.2.6)其中 为 中的样品数,为 中的样品数,。上述类与类之间的距离,不但适用对样品的聚类,同时也适用对指标(变量)的聚类。这时可以用指标之间的相似
13、系数 代替 。为了方便,两类之间的相似系数也统称为两类间的距离。第27页,共92页,编辑于2022年,星期六4.2.2 谱系聚类法 根据样品之间的距离(或指标间的相似系数),以及类与类之间的距离,就可进行谱系聚类,基本步骤归纳如下:1.n 个样品各成一类,计算两两之间的距离(或相似系数),得距离矩阵(或相似系数矩)。n 阶矩阵 D 对称,矩阵 D 的对角线上的元素全为零(相似系数矩阵的对角线元素全为1)。这时 ,记 。2.选择 中的最小元素(相似系数矩阵则选最大元素),设为 ,则将 与 合并成一个新类 。在 中划去 与 所在的行与列,再加入新类 所对应的行与列,得到一个新的距离矩阵 。是一个
14、n-1 阶对称矩阵。如果最小元素不止一个,可同时合并。每合并两类,距离矩第28页,共92页,编辑于2022年,星期六谱系聚类法阵降低一阶。3.对 重复步骤2 得对称矩阵 ,依次类推,直到所有样品(指标)合并成一类为止。4.在合并时记下两类合并时的样品(或变量)的编号,以及合并两类时的距离(或相似系数)的大小(称为水平),并绘成聚类的谱系图。然后根据实际情况或要求,选定相应的临界水平,从而确定分类的个数。对给定的 ,采用不同的类与类之间距离定义,通常就会得到不同的聚类结果。对于上述三种类与类距离的谱系聚类法,分别称为最短距离法,最长距离法和类平均法。下面通过具体例子说明这三种谱系聚类方法。第29
15、页,共92页,编辑于2022年,星期六例4.2.1 为研究辽宁、浙江、河南、甘肃、青海5省份1991年城镇居民生活消费的分布规律,需要用调查资料对5个省分类,指标(变量)及数据如表 4.2.1。表4.2.1 1991年5省城镇居民月均消费数据(单位:元/人)第30页,共92页,编辑于2022年,星期六例其中 :人均粮食支出,:人均衣着商品支出 :人均副食支出,:人均食用品支出 :人均烟、酒、茶支出,:人均燃料支出 :人均其它副食支出,:人均非商品支出 把每个省看作一个样品,以1,2,3,4,5分别表示辽宁、浙江、河南、甘肃、青海5个省.计算两两之间的欧氏距离 ,例如第31页,共92页,编辑于2
16、022年,星期六例于是得距离矩阵 如下:各元素数值的大小反映了城镇居民两两之间的消费水平的相似性。由于甘肃省与河南省之间的欧氏距离最小(为2.20),表明这两个省份城镇居民的消费水平最接近。第32页,共92页,编辑于2022年,星期六1.最短距离法 对例4.2.1,采用最短距离法的聚类过程如下:()把每个省看作一个样品,即 .这时 ,中的最小元素为 .因而在水平 2.20 上合并 和 成 .利用递推公式(4.2.2),计算 与 之间的最短距离第33页,共92页,编辑于2022年,星期六最短距离法 划去 中 所在的行与列,加入新类 与其余各类的距离作为新行与新列,得 如下第34页,共92页,编辑
17、于2022年,星期六最短距离法 ()中的最短距离为 ,于是在水平2.21上把 和 合并成新类 。计算 与 的最短距离为划去 中 和 所在的行与列,并加上的相应行与列得第35页,共92页,编辑于2022年,星期六最短距离法 ()中的最短距离为 ,因而在水平11.67上合并 和 成新类 。得于是 ()最后,在水平12.80上合并 和 ,这时所有的5个省聚为一类。第36页,共92页,编辑于2022年,星期六谱系图 本例首先在水平2.20上合并样品3 和样品4 成新类 。接着又在2.21水平上合并 和 成新类 。然后在水平11.67上合并 和 成新类 。最后在水平12.80上合并 和 成一个大类。把上
18、述聚合过程及合并时的水平用图表示出来,称为谱系图(或聚类图)。(见图4.2.1)第37页,共92页,编辑于2022年,星期六阈值 在聚类分析中,最后应分成几类,即类的个数问题,至今尚未有令人满意的方法。一种常用方法是根据谱系图选择一个合适的阈值T,当类间距离大于T 时就不再并类。例如对图4.2.1,取 T=12 时,相当于在距离12处切一刀,则5个样品分成两类,即辽宁和浙江为一类,河南、甘肃和青海为一类。而取 T=2.5时可分为三类,即河南、甘肃和青海为一类,辽宁与浙江各自为一类。第38页,共92页,编辑于2022年,星期六2最长距离法 对例4.2.1,采用最长距离法的聚类过程如下:()首先在
19、水平 2.20 上合并 和 成新类 。第39页,共92页,编辑于2022年,星期六最长距离法 ()计算 与 之间的最长距离得 如下第40页,共92页,编辑于2022年,星期六最长距离法 ()根据 ,最小。于是在3.51水平上把 和 合并成新类 。根据递推公式(4.2.4),与 的最长距离为于是得第41页,共92页,编辑于2022年,星期六最长距离法 ()根据 ,在11.67水平上合并,把 和 合并成新类 。按递推公式(4.2.4)得从而 ()最后,在水平24.63上合并 和 ,即所有的样品聚为一类。同样可画出最长距离法的谱系图(图4.22)。对于例4.2.1,最长距离法与最短距离法的分类结果相
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 统计学 幻灯片
限制150内