第六章 聚类分析.ppt
《第六章 聚类分析.ppt》由会员分享,可在线阅读,更多相关《第六章 聚类分析.ppt(58页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第六章第六章 聚聚 类类 分分 析析1 聚类分析和聚类统计量2 聚合法聚类分析3 分解法聚类分析(最优分割法)4 应用简介1v引言引言 地质学中有很多分类研究的问题,如地质学中有很多分类研究的问题,如沉积岩、古沉积岩、古生物、矿物、油气藏、油气地球化学勘探指标的分生物、矿物、油气藏、油气地球化学勘探指标的分类类等是一些直接分类的例子;油气资源评价、油源等是一些直接分类的例子;油气资源评价、油源对比等研究中也有分类;地层划分属于另一种分类。对比等研究中也有分类;地层划分属于另一种分类。为叙述方便,在此把分类的具体目标统称为为叙述方便,在此把分类的具体目标统称为个体个体(样品或变量样品或变量)。聚
2、类分析聚类分析:根据个体之间的亲疏程度,将它们进根据个体之间的亲疏程度,将它们进行逐级定量分类的一种多元统计分析方法。行逐级定量分类的一种多元统计分析方法。根据分类的不同方式,又把聚类分析分为根据分类的不同方式,又把聚类分析分为聚合法聚合法和和分解法分解法聚类分析。聚类分析。21 聚类分析和聚类统计量聚类分析和聚类统计量一、聚类分析一、聚类分析1 2 5 4 6 7 3 8 9 10 11 13 12 14 0.25 1.00 0.75 0.50 0.95 0.90 0.83 0.82 0.88 0.35 0.07 0.93 1.00 1.00 1.00 1.00 0.91 图图6-1 油气化
3、探指标聚类谱系图油气化探指标聚类谱系图(1,2,14为化探指标编号为化探指标编号)引例引例:化探指标的分类化探指标的分类 如某地区油气地表化探如某地区油气地表化探样品具有样品具有14项指标,按照项指标,按照指标指标相关程度相关程度分类分类,结果如结果如图。类内指标具有密切的图。类内指标具有密切的成因联系,据此可以化简成因联系,据此可以化简研究系统研究系统。参照上例,给出聚合法聚类分析的一般概念。参照上例,给出聚合法聚类分析的一般概念。1.聚合法聚类分析聚合法聚类分析3 聚合法聚类分析聚合法聚类分析是按个体在性质或成因上的亲疏是按个体在性质或成因上的亲疏关系,把个体逐级聚集成类的一种多元统计分析
4、方关系,把个体逐级聚集成类的一种多元统计分析方法。又称为法。又称为点群分析点群分析,对对样品样品进行分类进行分类称称Q型聚类分析型聚类分析 对对变量变量进行分类进行分类称称R型聚类分析型聚类分析 这种聚类分析开始时,每个个体各自为一类,然这种聚类分析开始时,每个个体各自为一类,然后以后以某种表示个体亲疏关系的统计量某种表示个体亲疏关系的统计量为分类依据,为分类依据,把彼此关系相对密切的个体合并为小类,再把关系把彼此关系相对密切的个体合并为小类,再把关系相对密切的小类进一步合并,相对密切的小类进一步合并,最后直到合并成,最后直到合并成一个大类为止。最终得到一个反映各对象间亲疏关一个大类为止。最终
5、得到一个反映各对象间亲疏关系的分类结果系的分类结果 聚类分析谱系图,如图聚类分析谱系图,如图6-1。4 例如例如1 1 2 2 3 3是是6个个体,据个体的相似性,个个体,据个体的相似性,把个体分为把个体分为3类类,结果是结果是:1 1、2 2、3 3。这是。这是一种把一种把大类分解成小类大类分解成小类的问题的问题,地层的岩性段划地层的岩性段划分属于这类问题。分属于这类问题。2.分解法聚类分析分解法聚类分析 这种聚类方法与聚合法这种聚类方法与聚合法“方向方向”恰好相反,恰好相反,开始开始时全部个体为时全部个体为1大类,依据某种分类指标,把全部大类,依据某种分类指标,把全部个体分为个体分为2类、
6、类、3类、类、,直到满足分类的要求为止。直到满足分类的要求为止。二、聚类分析统计量二、聚类分析统计量 衡量个体间衡量个体间性质或成因亲疏性质或成因亲疏(相似、相关相似、相关)程度程度的的统计指标。统计指标。5 1.聚合法聚类统计量聚合法聚类统计量 设设有有n个个样样品品,每每个个样样品品有有m个个变变量量,它它们们的的观观测测值值xij(i=1,2,n;j=1,2,m)构构成成一一个个数数据据矩阵,记为:矩阵,记为:v 第第i行是第行是第i个样品个样品m个变量的观测值,可视为个变量的观测值,可视为m 维空间的一个点或一个矢量;维空间的一个点或一个矢量;由由 Xnm可以看出:可以看出:分分类类对
7、对象象几个常用的聚类分析统计量几个常用的聚类分析统计量:6v 样品间样品间的相似性就是的相似性就是矩阵行间矩阵行间的相似性,对样的相似性,对样品聚类就是将矩阵中相似程度高的行合并为类;品聚类就是将矩阵中相似程度高的行合并为类;v变量间变量间的相关性就是的相关性就是矩阵列间矩阵列间的相关性,对变量的相关性,对变量聚类就是将矩阵中相关程度高的列合并为类。聚类就是将矩阵中相关程度高的列合并为类。(1)Q型聚类分析统计量型聚类分析统计量 相似系数相似系数设样品观测值设样品观测值:v 第第j 列是第列是第j个变量的个变量的n次观测值,可视为次观测值,可视为n维空间维空间的一个点或一个矢量;的一个点或一个
8、矢量;7(6-1)如此,可形成一个相似系数矩阵如此,可形成一个相似系数矩阵R=rijnn。将将Xi与与Xj看成两个矢量,则看成两个矢量,则Xi与与Xj的相似系数定的相似系数定义为义为两矢量夹角的余弦两矢量夹角的余弦:8 在上述相似系数矩阵中,在上述相似系数矩阵中,rij=rji,rii=1。rij 越接越接近近1,Xi与与Xj的性质越相近。的性质越相近。R描述了各样品间的相描述了各样品间的相似程度。似程度。9(6-2)矢量矢量Xi与与Xj的相关系数为的相关系数为:相关系数相关系数 如此可形成一个相关系数矩阵如此可形成一个相关系数矩阵R=rijnn。在相关系数矩阵中:在相关系数矩阵中:rij=r
9、ji,rii=1。rij越接近越接近1,Xi与与Xj的相关程度越大。的相关程度越大。10为避免为避免dij过大造成计算溢出,将上式改为过大造成计算溢出,将上式改为:(6-3)距离系数距离系数在在m 维直角坐标系中,维直角坐标系中,2个点间的距离为:个点间的距离为:即形成距离系数矩阵即形成距离系数矩阵dijnn。dij=dji,dii=0。dij越接近越接近0,Xi与与Xj的性质越相近。的性质越相近。11(2)R型聚类分析统计量型聚类分析统计量 仿照仿照Q 型聚类分析统计量,容易写出型聚类分析统计量,容易写出R型聚类分型聚类分析统计量。析统计量。变量间的相关性是数据矩阵变量间的相关性是数据矩阵列
10、列间的相关关系。间的相关关系。分分类类对对象象注意求和限的变化及角标的变化。注意求和限的变化及角标的变化。12(6-4)相似系数相似系数 矢量矢量Xi与与Xj的相似系数为的相似系数为:形成相似系数矩阵形成相似系数矩阵rijmm。其中。其中:rij=rji,rii=1。rij越接近越接近1,Xi与与Xj的相似程度越大。的相似程度越大。13(6-5)相关系数相关系数矢量矢量Xi与与Xj的相关系数为的相关系数为:形成相关系数矩阵形成相关系数矩阵rijmm。其中。其中:rij=rji,rii=1。rij越接近越接近1,Xi与与Xj的相关程度越大。的相关程度越大。14 在在n 维直角坐标系中,维直角坐标
11、系中,2个点间的距离为:个点间的距离为:(6-6)距离系数距离系数 形成距离系数矩阵形成距离系数矩阵dijmm。dij=dji,dii=0。dij越越接近接近0,Xi与与Xj的性质越相近。的性质越相近。15 仅介绍分解法中的仅介绍分解法中的最优分割法最优分割法。n个样品个样品m个变量的观测值构成一个数据矩阵个变量的观测值构成一个数据矩阵:分类分类对象对象 这里的这里的Xnm是是数据序列数据序列(数据的排列顺序不能改变数据的排列顺序不能改变)。此处分类是指此处分类是指按行把数据序列分割开多个段。按行把数据序列分割开多个段。2.分解法聚类统计量分解法聚类统计量16第第1段段第第2段段第第k段段 对
12、对Xnm的最优分割是指把的最优分割是指把Xnm 分段后,各分段后,各段内数段内数据的离差平方和最小据的离差平方和最小(各段内样品的差异最小各段内样品的差异最小),而,而各各段间数据的离差平方和最大段间数据的离差平方和最大(各段之间样品的差各段之间样品的差异最大异最大)。如果把如果把Xnm分成分成k段段(组组),每段内有每段内有nl(l=1,2,k)个样品,分段结果记为:个样品,分段结果记为:17总离差平方和总离差平方和:(常数常数)把把Xnm分为分为k段有很多种可能的分法。对于其中段有很多种可能的分法。对于其中的任何一种分法,都有:的任何一种分法,都有:段内离差平方和段内离差平方和:(6-7)
13、段间离差平方和段间离差平方和:18为样品的总数;为样品的总数;xlj(i)为第为第l 段内第段内第j个样品第个样品第 i个变量的观测值;个变量的观测值;为第为第i个变量个变量n个观测值的平均值。个观测值的平均值。其中:其中:为第为第l 段内第段内第 i个变量个变量nl 个观测值的平均值;个观测值的平均值;19 对于给定的数据来说,对于给定的数据来说,S是个常数,是个常数,S1最小,最小,S2必然最大。因此可将必然最大。因此可将段内离差平方和段内离差平方和可以证明:可以证明:一一个个地地质质数数据据序序列列分分段段后后满满足足段段内内离离差差平平方方和和最小最小,则称相应的分法为,则称相应的分法
14、为最优分割最优分割。做为做为分解法聚类分析的聚类统计量分解法聚类分析的聚类统计量。20聚聚 合合 法法分分 解解 法法相似系数相似系数段内离差平方和段内离差平方和相关系数相关系数段间离差平方和段间离差平方和距离系数距离系数总离差平方和总离差平方和表表6-1 常用聚类分析统计量常用聚类分析统计量212 聚合法聚类分析聚合法聚类分析 聚合法聚类是将类由多变少、直到把全部个体聚合法聚类是将类由多变少、直到把全部个体合并成一类的聚类方法。它是目前对合并成一类的聚类方法。它是目前对个体个体进行聚类进行聚类的常用方法。聚类过程大致如下:的常用方法。聚类过程大致如下:(1)原始类,即聚类以前的个体各自成类;
15、原始类,即聚类以前的个体各自成类;(2)第第1级级聚聚类类,以以某某种种统统计计量量计计算算各各个个体体间间的的亲亲疏疏程程度度,把把关关系系密密切切的的对对象象合合并并成成1类类,并并构构造造成成一个一个代表性个体代表性个体,做为新的个体参加下一级聚类;,做为新的个体参加下一级聚类;多个个体组成的小类多个个体组成的小类22(4)按上述方法进行第按上述方法进行第3级聚类、第级聚类、第4级聚类、级聚类、,直到全部个体合并为直到全部个体合并为1类为止。类为止。(3)第第2级聚类,再计算个体间的级聚类,再计算个体间的亲疏程度亲疏程度,把关,把关系密切的个体合并为系密切的个体合并为1类类(可能是个体与
16、个体或个体可能是个体与个体或个体与上一级已聚成的小类合并与上一级已聚成的小类合并),并又构造一个代表,并又构造一个代表该类的该类的代表性个体代表性个体参加下一级聚类;参加下一级聚类;在上述聚类过程中,需要不断地计算在上述聚类过程中,需要不断地计算个体与个体、个体与个体、个体与类、类与类间个体与类、类与类间的亲疏程度,下面介绍计算它的亲疏程度,下面介绍计算它们之间亲疏程度的递推公式和聚类过程。们之间亲疏程度的递推公式和聚类过程。23 对于对于n维维(样品点样品点)或或m维维(变量点变量点)空间的空间的2个点来个点来说,其距离在概念上是明确的说,其距离在概念上是明确的(点间线段的长度点间线段的长度
17、)。但但2类间的距离类间的距离就有不同的定义,既可定义为就有不同的定义,既可定义为2类中类中相距最近相距最近2点之间的距离,又可定义为点之间的距离,又可定义为2类中相距最类中相距最远远2点之间的距离,还可以取点之间的距离,还可以取2类的重心距离等。类的重心距离等。一、距离类统计量聚合法一、距离类统计量聚合法 由于距离的定义不同,因此也就产生了不同的聚由于距离的定义不同,因此也就产生了不同的聚合法。下面介绍四种距离度量下的聚合法。合法。下面介绍四种距离度量下的聚合法。24 1.最短距离法最短距离法 (1)最短距离最短距离 如图,定义如图,定义p类和类和q类间类间的最短距离为:的最短距离为:(6-
18、8)dij是是p、q类类中中任任意意2个个样样品品Xi与与Xj之之间间的的距距离离。用最短距离进行的聚合聚类叫做用最短距离进行的聚合聚类叫做最短距离法最短距离法。最短距离最短距离最长距离最长距离图图6-2 类间距离类间距离ABCDp类类q类类 聚聚类类过过程程中中不不可可避避免免要要涉涉及及到到合合并并成成的的类类与与另另一个类一个类之间最短距离的计算。之间最短距离的计算。25图图6-3 类类r与类与类f的最短距离的最短距离 如如果果p类类和和q类类合合并并为为类类r,计计算算类类r与与另另外外的的类类f之之间间最最短短距距离离时时,直直接接方方法法是是逐逐一一计计算算类类r与与类类f中中所所
19、有有个个体体间间的的距距离离,选最小者即为最短距离。选最小者即为最短距离。(6-9)p类类q类类f类类r类类 为为计计算算便便捷捷,可可由由之之前前的的计计算算结结果果进进行行递递推推,递推公式为:递推公式为:26 油源对比包括原油与原油、原油与生油岩的对油源对比包括原油与原油、原油与生油岩的对比,主要是解决油源的问题。设编号为比,主要是解决油源的问题。设编号为、的样品是取自生油层的样品是取自生油层k1、k2、k3的岩样,编号为的岩样,编号为的样品是取自储层的样品是取自储层k0的油样。需解决的问题是的油样。需解决的问题是:k0的的油来自哪个生油层?表油来自哪个生油层?表6-2给出了油源对比常用
20、的给出了油源对比常用的甾烷族化合物相对含量。甾烷族化合物相对含量。表表6-2 甾烷族化合物相对含量甾烷族化合物相对含量 分子离子分子离子样品样品372386398400412414生油层岩样生油层岩样(k1)3.7211.205.7815.805.209.11生油层岩样生油层岩样(k2)5.306.125.308.107.127.80生油层岩样生油层岩样(k3)9.6510.209.6113.209.4010.70储集层油样储集层油样(k0)10.7813.107.8115.907.8112.80v以油源对比为例,说明聚类过程以油源对比为例,说明聚类过程27 计算个体计算个体(样品样品)点间的
21、距离矩阵,记为点间的距离矩阵,记为:第一级聚类第一级聚类D(0)中,中,d34=d43=5.2110 在所有距离中最短。在所有距离中最短。准备工作准备工作28 表表明明岩岩样样k3与与油油样样k0的的甾甾烷烷族族化化合合物物相相对对含含量量最最接接近近,应应合合成成1类类,记记为为r,r=,。同同时时按按式式(6-9)计计算类算类r与其它各类间的最短距离矩阵与其它各类间的最短距离矩阵,记为记为D(1):第二级聚类第二级聚类 r=,在在D(1)中中,d13=d31=8.8183在在所所有有距距离离中中最最短短,表表明明与与r类类最最亲亲近近,应应合合为为1类类,记记为为k,k=,。再再按按式式(
22、6-9)计计算算类类k与与其其它它各各类类(仅仅剩剩下下编编号号为为的样品了的样品了)间的最短距离矩阵,记为间的最短距离矩阵,记为D(2):29 由由D(2)可可知知,四四个个样样品品以以距距离离D=9.6553聚聚为为一一大大类。按聚类顺序绘制聚类谱系如下:类。按聚类顺序绘制聚类谱系如下:0.0000 5.2110 8.8183 9.6553 根据聚类谱系图根据聚类谱系图,可认为可认为k0储层中的油主要来自储层中的油主要来自k3生油层,但也不能排除混有其他生油层的油。生油层,但也不能排除混有其他生油层的油。第三级聚类第三级聚类30 (2)最短距离法聚类的基本过程最短距离法聚类的基本过程 准备
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第六章 聚类分析 第六
限制150内