聚类分析 (2)2优秀PPT.ppt
《聚类分析 (2)2优秀PPT.ppt》由会员分享,可在线阅读,更多相关《聚类分析 (2)2优秀PPT.ppt(58页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、聚类分析1现在学习的是第1页,共58页v引言引言 地质学中有很多分类研究的问题,如地质学中有很多分类研究的问题,如沉积岩、古生沉积岩、古生物、矿物、油气藏、油气地球化学勘探指标的分类物、矿物、油气藏、油气地球化学勘探指标的分类等是等是一些直接分类的例子;油气资源评价、油源对比等研究一些直接分类的例子;油气资源评价、油源对比等研究中也有分类;地层划分属于另一种分类。为叙述方便,中也有分类;地层划分属于另一种分类。为叙述方便,在此把分类的具体目标统称为在此把分类的具体目标统称为个体个体(样品或变量样品或变量)。聚类分析聚类分析:根据个体之间的亲疏程度,将它们进行根据个体之间的亲疏程度,将它们进行逐
2、级定量分类的一种多元统计分析方法。逐级定量分类的一种多元统计分析方法。根据分类的不同方式,又把聚类分析分为根据分类的不同方式,又把聚类分析分为聚合法聚合法和和分解法分解法聚类分析。聚类分析。2现在学习的是第2页,共58页1 聚类分析和聚类统计量聚类分析和聚类统计量一、聚类分析一、聚类分析1 2 5 4 6 7 3 8 9 10 11 13 12 14 0.25 1.00 0.75 0.50 0.95 0.90 0.83 0.82 0.88 0.35 0.07 0.93 1.00 1.00 1.00 1.00 0.91 图图6-1 油气化探指标聚类谱系图油气化探指标聚类谱系图(1,2,14为化探
3、指标编号为化探指标编号)引例引例:化探指标的分类化探指标的分类 如某地区油气地表化探样如某地区油气地表化探样品具有品具有14项指标,按照指标项指标,按照指标相关程度相关程度分类分类,结果如图。类结果如图。类内指标具有密切的成因联系,内指标具有密切的成因联系,据此可以化简研究系统据此可以化简研究系统。参照上例,给出聚合法聚类分析的一般概念。参照上例,给出聚合法聚类分析的一般概念。1.聚合法聚类分析聚合法聚类分析3现在学习的是第3页,共58页 聚合法聚类分析聚合法聚类分析是按个体在性质或成因上的亲疏关是按个体在性质或成因上的亲疏关系,把个体逐级聚集成类的一种多元统计分析方法。系,把个体逐级聚集成类
4、的一种多元统计分析方法。又称为又称为点群分析点群分析,对对样品样品进行分类进行分类称称Q型聚类分析型聚类分析 对对变量变量进行分类进行分类称称R型聚类分析型聚类分析 这种聚类分析开始时,每个个体各自为一类,然这种聚类分析开始时,每个个体各自为一类,然后以后以某种表示个体亲疏关系的统计量某种表示个体亲疏关系的统计量为分类依据,把彼为分类依据,把彼此关系相对密切的个体合并为小类,再把关系相对密此关系相对密切的个体合并为小类,再把关系相对密切的小类进一步合并,切的小类进一步合并,最后直到合并成一个大类,最后直到合并成一个大类为止。最终得到一个反映各对象间亲疏关系的分类结为止。最终得到一个反映各对象间
5、亲疏关系的分类结果果 聚类分析谱系图,如图聚类分析谱系图,如图6-1。4现在学习的是第4页,共58页 例如例如1 1 2 2 3 3是是6个个体,据个体的相似性,个个体,据个体的相似性,把个体分为把个体分为3类类,结果是结果是:1 1、2 2、3 3。这是。这是一种把一种把大类分解成小类大类分解成小类的问题的问题,地层的岩性段划分属地层的岩性段划分属于这类问题。于这类问题。2.分解法聚类分析分解法聚类分析 这种聚类方法与聚合法这种聚类方法与聚合法“方向方向”恰好相反,恰好相反,开始时开始时全部个体为全部个体为1大类,依据某种分类指标,把全部个体大类,依据某种分类指标,把全部个体分为分为2类、类
6、、3类、类、,直到满足分类的要求为止。直到满足分类的要求为止。二、聚类分析统计量二、聚类分析统计量 衡量个体间衡量个体间性质或成因亲疏性质或成因亲疏(相似、相关相似、相关)程度程度的统计的统计指标。指标。5现在学习的是第5页,共58页 1.聚合法聚类统计量聚合法聚类统计量 设设有有n个个样样品品,每每个个样样品品有有m个个变变量量,它它们们的的观观测测值值xij(i=1,2,n;j=1,2,m)构构成成一一个个数数据据矩矩阵阵,记记为:为:v 第第i行是第行是第i个样品个样品m个变量的观测值,可视为个变量的观测值,可视为m 维空间维空间的一个点或一个矢量;的一个点或一个矢量;由由 Xnm可以看
7、出:可以看出:分类分类对象对象几个常用的聚类分析统计量几个常用的聚类分析统计量:6现在学习的是第6页,共58页v 样品间样品间的相似性就是的相似性就是矩阵行间矩阵行间的相似性,对样品聚的相似性,对样品聚类就是将矩阵中相似程度高的行合并为类;类就是将矩阵中相似程度高的行合并为类;v变量间变量间的相关性就是的相关性就是矩阵列间矩阵列间的相关性,对变量聚类的相关性,对变量聚类就是将矩阵中相关程度高的列合并为类。就是将矩阵中相关程度高的列合并为类。(1)Q型聚类分析统计量型聚类分析统计量 相似系数相似系数设样品观测值设样品观测值:v 第第j 列是第列是第j个变量的个变量的n次观测值,可视为次观测值,可
8、视为n维空间的一维空间的一个点或一个矢量;个点或一个矢量;7现在学习的是第7页,共58页(6-1)如此,可形成一个相似系数矩阵如此,可形成一个相似系数矩阵R=rijnn。将将Xi与与Xj看成两个矢量,则看成两个矢量,则Xi与与Xj的相似系数定义为的相似系数定义为两矢量夹角的余弦两矢量夹角的余弦:8现在学习的是第8页,共58页 在上述相似系数矩阵中,在上述相似系数矩阵中,rij=rji,rii=1。rij 越接近越接近1,Xi与与Xj的性质越相近。的性质越相近。R描述了各样品间的相似程描述了各样品间的相似程度。度。9现在学习的是第9页,共58页(6-2)矢量矢量Xi与与Xj的相关系数为的相关系数
9、为:相关系数相关系数 如此可形成一个相关系数矩阵如此可形成一个相关系数矩阵R=rijnn。在相关系数矩阵中:在相关系数矩阵中:rij=rji,rii=1。rij越接近越接近1,Xi与与Xj的相关程度越大。的相关程度越大。10现在学习的是第10页,共58页为避免为避免dij过大造成计算溢出,将上式改为过大造成计算溢出,将上式改为:(6-3)距离系数距离系数在在m 维直角坐标系中,维直角坐标系中,2个点间的距离为:个点间的距离为:即形成距离系数矩阵即形成距离系数矩阵dijnn。dij=dji,dii=0。dij越接越接近近0,Xi与与Xj的性质越相近。的性质越相近。11现在学习的是第11页,共58
10、页(2)R型聚类分析统计量型聚类分析统计量 仿照仿照Q 型聚类分析统计量,容易写出型聚类分析统计量,容易写出R型聚类分析统型聚类分析统计量。计量。变量间的相关性是数据矩阵变量间的相关性是数据矩阵列列间的相关关系。间的相关关系。分类分类对象对象注意求和限的变化及角标的变化。注意求和限的变化及角标的变化。12现在学习的是第12页,共58页(6-4)相似系数相似系数 矢量矢量Xi与与Xj的相似系数为的相似系数为:形成相似系数矩阵形成相似系数矩阵rijmm。其中。其中:rij=rji,rii=1。rij越越接近接近1,Xi与与Xj的相似程度越大。的相似程度越大。13现在学习的是第13页,共58页(6-
11、5)相关系数相关系数矢量矢量Xi与与Xj的相关系数为的相关系数为:形成相关系数矩阵形成相关系数矩阵rijmm。其中。其中:rij=rji,rii=1。rij越接近越接近1,Xi与与Xj的相关程度越大。的相关程度越大。14现在学习的是第14页,共58页 在在n 维直角坐标系中,维直角坐标系中,2个点间的距离为:个点间的距离为:(6-6)距离系数距离系数 形成距离系数矩阵形成距离系数矩阵dijmm。dij=dji,dii=0。dij越接近越接近0,Xi与与Xj的性质越相近。的性质越相近。15现在学习的是第15页,共58页 仅介绍分解法中的仅介绍分解法中的最优分割法最优分割法。n个样品个样品m个变量
12、的观测值构成一个数据矩阵个变量的观测值构成一个数据矩阵:分类分类对象对象 这里的这里的Xnm是是数据序列数据序列(数据的排列顺序不能改变数据的排列顺序不能改变)。此处分类是指此处分类是指按行把数据序列分割开多个段。按行把数据序列分割开多个段。2.分解法聚类统计量分解法聚类统计量16现在学习的是第16页,共58页第第1段段第第2段段第第k段段 对对Xnm的最优分割是指把的最优分割是指把Xnm 分段后,各分段后,各段内数据段内数据的离差平方和最小的离差平方和最小(各段内样品的差异最小各段内样品的差异最小),而各,而各段间段间数据的离差平方和最大数据的离差平方和最大(各段之间样品的差异最大各段之间样
13、品的差异最大)。如果把如果把Xnm分成分成k段段(组组),每段内有每段内有nl(l=1,2,k)个样个样品,分段结果记为:品,分段结果记为:17现在学习的是第17页,共58页总离差平方和总离差平方和:(常数常数)把把Xnm分为分为k段有很多种可能的分法。对于其中的任段有很多种可能的分法。对于其中的任何一种分法,都有:何一种分法,都有:段内离差平方和段内离差平方和:(6-7)段间离差平方和段间离差平方和:18现在学习的是第18页,共58页为样品的总数;为样品的总数;xlj(i)为第为第l 段内第段内第j个样品第个样品第 i个变量的观测值;个变量的观测值;为第为第i个变量个变量n个观测值的平均值。
14、个观测值的平均值。其中:其中:为第为第l 段内第段内第 i个变量个变量nl 个观测值的平均值;个观测值的平均值;19现在学习的是第19页,共58页 对于给定的数据来说,对于给定的数据来说,S是个常数,是个常数,S1最小,最小,S2必然最必然最大。因此可将大。因此可将段内离差平方和段内离差平方和可以证明:可以证明:一一个个地地质质数数据据序序列列分分段段后后满满足足段段内内离离差差平平方方和和最最小小,则称相应的分法为,则称相应的分法为最优分割最优分割。做为做为分解法聚类分析的聚类统计量分解法聚类分析的聚类统计量。20现在学习的是第20页,共58页聚 合 法分 解 法相似系数段内离差平方和相关系
15、数段间离差平方和距离系数总离差平方和表表6-1 常用聚类分析统计量常用聚类分析统计量21现在学习的是第21页,共58页2 聚合法聚类分析聚合法聚类分析 聚合法聚类是将类由多变少、直到把全部个体合聚合法聚类是将类由多变少、直到把全部个体合并成一类的聚类方法。它是目前对并成一类的聚类方法。它是目前对个体个体进行聚类的常进行聚类的常用方法。聚类过程大致如下:用方法。聚类过程大致如下:(1)原始类,即聚类以前的个体各自成类;原始类,即聚类以前的个体各自成类;(2)第第1级级聚聚类类,以以某某种种统统计计量量计计算算各各个个体体间间的的亲亲疏疏程程度度,把把关关系系密密切切的的对对象象合合并并成成1类类
16、,并并构构造造成成一一个个代代表性个体表性个体,做为新的个体参加下一级聚类;,做为新的个体参加下一级聚类;多个个体组成的小类多个个体组成的小类22现在学习的是第22页,共58页(4)按上述方法进行第按上述方法进行第3级聚类、第级聚类、第4级聚类、级聚类、,直到全直到全部个体合并为部个体合并为1类为止。类为止。(3)第第2级聚类,再计算个体间的级聚类,再计算个体间的亲疏程度亲疏程度,把关系密,把关系密切的个体合并为切的个体合并为1类类(可能是个体与个体或个体与上一可能是个体与个体或个体与上一级已聚成的小类合并级已聚成的小类合并),并又构造一个代表该类的,并又构造一个代表该类的代表代表性个体性个体
17、参加下一级聚类;参加下一级聚类;在上述聚类过程中,需要不断地计算在上述聚类过程中,需要不断地计算个体与个体、个体与个体、个体与类、类与类间个体与类、类与类间的亲疏程度,下面介绍计算它们的亲疏程度,下面介绍计算它们之间亲疏程度的递推公式和聚类过程。之间亲疏程度的递推公式和聚类过程。23现在学习的是第23页,共58页 对于对于n维维(样品点样品点)或或m维维(变量点变量点)空间的空间的2个点来说,其个点来说,其距离在概念上是明确的距离在概念上是明确的(点间线段的长度点间线段的长度)。但。但2类间的距类间的距离离就有不同的定义,既可定义为就有不同的定义,既可定义为2类中相距最近类中相距最近2点之间点
18、之间的距离,又可定义为的距离,又可定义为2类中相距最远类中相距最远2点之间的距离,还点之间的距离,还可以取可以取2类的重心距离等。类的重心距离等。一、距离类统计量聚合法一、距离类统计量聚合法 由于距离的定义不同,因此也就产生了不同的聚合法。由于距离的定义不同,因此也就产生了不同的聚合法。下面介绍四种距离度量下的聚合法。下面介绍四种距离度量下的聚合法。24现在学习的是第24页,共58页 1.最短距离法最短距离法 (1)最短距离最短距离 如图,定义如图,定义p类和类和q类间的类间的最短距离为:最短距离为:(6-8)dij是是p、q类类中中任任意意2个个样样品品Xi与与Xj之之间间的的距距离离。用用
19、最最短短距离进行的聚合聚类叫做距离进行的聚合聚类叫做最短距离法最短距离法。最短距离最短距离最长距离最长距离图图6-2 类间距离类间距离ABCDp类类q类类 聚聚类类过过程程中中不不可可避避免免要要涉涉及及到到合合并并成成的的类类与与另另一一个个类类之间最短距离的计算。之间最短距离的计算。25现在学习的是第25页,共58页图图6-3 类类r与类与类f的最短距离的最短距离 如如果果p类类和和q类类合合并并为为类类r,计计算算类类r与与另另外外的的类类f之之间间最最短短距距离离时时,直直接接方方法法是是逐逐一一计计算算类类r与与类类f中中所所有有个个体体间间的的距距离离,选选最最小小者即为最短距离。
20、者即为最短距离。(6-9)p类类q类类f类类r类类 为为计计算算便便捷捷,可可由由之之前前的的计计算算结结果果进进行行递递推推,递递推推公公式为:式为:26现在学习的是第26页,共58页 油源对比包括原油与原油、原油与生油岩的对比,油源对比包括原油与原油、原油与生油岩的对比,主要是解决油源的问题。设编号为主要是解决油源的问题。设编号为、的样品的样品是取自生油层是取自生油层k1、k2、k3的岩样,编号为的岩样,编号为的样品是取的样品是取自储层自储层k0的油样。需解决的问题是的油样。需解决的问题是:k0的油来自哪个生油的油来自哪个生油层?表层?表6-2给出了油源对比常用的甾烷族化合物相对含量。给出
21、了油源对比常用的甾烷族化合物相对含量。表表6-2 甾烷族化合物相对含量甾烷族化合物相对含量 分子离子样品372386398400412414生油层岩样(k1)3.7211.205.7815.805.209.11生油层岩样(k2)5.306.125.308.107.127.80生油层岩样(k3)9.6510.209.6113.209.4010.70储集层油样(k0)10.7813.107.8115.907.8112.80v以油源对比为例,说明聚类过程以油源对比为例,说明聚类过程27现在学习的是第27页,共58页 计算个体计算个体(样品样品)点间的距离矩阵,记为点间的距离矩阵,记为:第一级聚类第一
22、级聚类D(0)中,中,d34=d43=5.2110 在所有距离中最短。在所有距离中最短。准备工作准备工作28现在学习的是第28页,共58页 表表明明岩岩样样k3与与油油样样k0的的甾甾烷烷族族化化合合物物相相对对含含量量最最接接近近,应应合合成成1类类,记记为为r,r=,。同同时时按按式式(6-9)计计算算类类r与与其其它各类间的最短距离矩阵它各类间的最短距离矩阵,记为记为D(1):第二级聚类第二级聚类 r=,在在D(1)中中,d13=d31=8.8183在在所所有有距距离离中中最最短短,表表明明与与r类类最最亲亲近近,应应合合为为1类类,记记为为k,k=,。再再按按式式(6-9)计计算算类类
23、k与与其其它它各各类类(仅仅剩剩下下编编号号为为的的样样品品了了)间间的最短距离矩阵,记为的最短距离矩阵,记为D(2):29现在学习的是第29页,共58页 由由D(2)可可知知,四四个个样样品品以以距距离离D=9.6553聚聚为为一一大大类类。按聚类顺序绘制聚类谱系如下:按聚类顺序绘制聚类谱系如下:0.0000 5.2110 8.8183 9.6553 根据聚类谱系图根据聚类谱系图,可认为可认为k0储层中的油主要来自储层中的油主要来自k3生生油层,但也不能排除混有其他生油层的油。油层,但也不能排除混有其他生油层的油。第三级聚类第三级聚类30现在学习的是第30页,共58页 (2)最短距离法聚类的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 22优秀PPT 优秀 PPT
限制150内