ClusterAnalysis聚类分析实用.pptx
《ClusterAnalysis聚类分析实用.pptx》由会员分享,可在线阅读,更多相关《ClusterAnalysis聚类分析实用.pptx(59页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第2讲 聚类分析2.1 2.1 聚类分析的基本思想聚类分析的基本思想2.2 2.2 相似性的度量相似性的度量2.3 2.3 类和类的特征类和类的特征2.4 2.4 系统聚类法系统聚类法2.5 2.5 非系统聚类法简介非系统聚类法简介第1页/共59页 2.1 2.1 聚类分析的基本思想 1.什么是聚类分析?什么是聚类分析?所谓所谓“类类”就是就是相似元素的集合。相似元素的集合。聚类就是根据研究对象某一方面的相似性将其聚类就是根据研究对象某一方面的相似性将其归类,使得同一类中的对象之间的相似性比与归类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。或者使其他类的对象的相似性更强。或者
2、使类内类内对象对象的同质性最大化和的同质性最大化和类间类间对象的异质性最大化。对象的异质性最大化。2.基本思想基本思想根据研究对象的多个观测指标,具体地找出一根据研究对象的多个观测指标,具体地找出一些能够度量各对象之间相似程度的统计量,然些能够度量各对象之间相似程度的统计量,然后利用统计量将样品或指标进行归类。后利用统计量将样品或指标进行归类。把相似把相似的样品或指标归为一类,把不相似的归为其的样品或指标归为一类,把不相似的归为其他类。直到把所有的样品(或指标)聚合完他类。直到把所有的样品(或指标)聚合完毕毕.第2页/共59页2.1 2.1 聚类分析的基本思想3、聚类分析的类型:聚类分析的类型
3、:对样品分类,称为对样品分类,称为Q Q型聚类分析型聚类分析 对变量分类,称为对变量分类,称为R R型聚类分析型聚类分析 Q Q型聚类是使具有相似性特征的样品聚集在型聚类是使具有相似性特征的样品聚集在一起,使差异性大的样品分离开来。一起,使差异性大的样品分离开来。R R型聚类是使具有相似性的变量聚集在一起,型聚类是使具有相似性的变量聚集在一起,差异性大的变量分离开来。差异性大的变量分离开来。R R型聚类可在相似变量中选择少数具有代表型聚类可在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数,性的变量参与其他分析,实现减少变量个数,达到变量降维的目的。达到变量降维的目的。第3页/
4、共59页2.2 2.2 相似性的度量相似性的度量一、样本或变量的一、样本或变量的相似性相似性程度的数量指标:程度的数量指标:1、相似系数相似系数 性质越接近的变量或样品,它们的相似系数越接近于1或一l,而彼此无关的变量或样品,它们的相似系数则越接近于0,相似的为一类,不相似的为不同类;2、距离距离 它是将每一个样品看作p维空间的一个点,并用某种度量方法测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。v样品分类(Q型聚类)常以距离距离刻画相似性v变量分类(R型聚类)常以相似系数相似系数刻画相似性第4页/共59页v距离和相似系数有着各种不同的定义,而这些定距离和相似系数有着各
5、种不同的定义,而这些定义与变量类型有着非常密切的关系。义与变量类型有着非常密切的关系。v变量可分为变量可分为定性变量和定量变量。定性变量和定量变量。若按测量尺度若按测量尺度的不同可以分为的不同可以分为:(1 1)间隔尺度变量:变量用连续的量来表示,)间隔尺度变量:变量用连续的量来表示,包括定距和定比尺度,如长度、重量、速度、温度包括定距和定比尺度,如长度、重量、速度、温度等。等。(2 2)有序尺度变量:变量度量时不用明确的数)有序尺度变量:变量度量时不用明确的数量表示,而是用等级来表示,如产品分为一等品、量表示,而是用等级来表示,如产品分为一等品、二等品、三等品等有次序关系。二等品、三等品等有
6、次序关系。(3 3)名义尺度变量:变量用)名义尺度变量:变量用既没有既没有数量关系数量关系也也没有次序关系,只有一些特性状态,没有次序关系,只有一些特性状态,如性别、职业、如性别、职业、产品的型号等。产品的型号等。对于间隔尺度变量,聚类时数据单位往往不同,为为使不同量纲、不同数量级的数据能在一起比较,通常需要先进数据变换处理 第5页/共59页3.常用的数据变换方法 (1)中心化变换中心化变换 变换后数据的均值为变换后数据的均值为0,而协差阵不变,而协差阵不变.(2)标准化变换标准化变换 变换后的数据变换后的数据,每个变量的样本均值为每个变量的样本均值为0,标准差为标准差为1,且标准化变换后的数
7、据且标准化变换后的数据x*ij与变量的量纲无关与变量的量纲无关.(3)极差标准化变换极差标准化变换 变换后的数据变换后的数据,每个变量的样本均值为每个变量的样本均值为0,极差为极差为1,变变换后的数据也是无量纲的量换后的数据也是无量纲的量.第6页/共59页 (4)极差正规化变换极差正规化变换(规格化变换规格化变换)变换后的数据变换后的数据0 x*ij 1;极差为极差为1,也是无量纲的量也是无量纲的量.(5)对数变换对数变换 可将具有指数特征的数据结构化为线性数据结构可将具有指数特征的数据结构化为线性数据结构.第7页/共59页二、样品间相似性的度量:距离二、样品间相似性的度量:距离 设有n个样品
8、,每个样品测有p个指标(变量),原始资料阵为:每个样品都可以看成p维空间中的一点,n个样品就是p维空间中的n个点第i个样品与第j个样品之间的距离记为第8页/共59页1 1、距离公理:、距离公理:v第i个和第j个样品之间的距离 满足如下四个四个性质性质:第9页/共59页2 2、常用距离、常用距离:(1 1)明考夫斯基距离)明考夫斯基距离(Minkowski distance)Minkowski distance)明氏距离有三种特殊形式:明氏距离有三种特殊形式:(1 1a a)绝对距离(绝对距离(BlockBlock距离)距离):当当q=1q=1时时(1b)欧氏距离(Euclidean dista
9、nce):当q=2时(1c)切比雪夫距离:当 时第10页/共59页 缺点缺点:(1)与各变量的量纲有关与各变量的量纲有关;(2)没有考虑指标间的相关性没有考虑指标间的相关性;(3)没有考虑各变量方差的不同没有考虑各变量方差的不同.如欧氏距如欧氏距离离,变差大的变量在距离中的作用变差大的变量在距离中的作用(贡献贡献)就会大就会大,这是不合适的这是不合适的.合理的方法就是对各变量加权合理的方法就是对各变量加权,如用如用1/s2 作为作为权数可得出权数可得出“统计距离统计距离”:第11页/共59页v当各变量的单位不同或测量值范围相差很大时,当各变量的单位不同或测量值范围相差很大时,不应直接采用明氏距
10、离,而应先对各变量的数据不应直接采用明氏距离,而应先对各变量的数据作标准化处理,然后用标准化后的数据计算距离。作标准化处理,然后用标准化后的数据计算距离。常用的标准化处理:常用的标准化处理:其中 为第j个变量的样本均值;为第j个变量的样本方差。第12页/共59页(2 2)兰氏距离兰氏距离 当当 时:时:克服量纲的影响克服量纲的影响 未考虑指标间未考虑指标间相关性的影响相关性的影响适用于变量之间互不相关的情形适用于变量之间互不相关的情形第13页/共59页v(4 4)马氏距离)马氏距离克服量纲的影响克服量纲的影响 克服指标间相克服指标间相关性的影响关性的影响缺点:缺点:协方差矩协方差矩阵难以确定阵
11、难以确定第15页/共59页三、变量间相似性的度量:相似系数三、变量间相似性的度量:相似系数v 相似系数(或其绝对值)越大,变量之间的相似性程度越高;反之,越低。聚类时,相似的变量归为一类,不太相似的变量归为不同的类。变量 与 的相似系数用 表示,满足以下三个条件:第16页/共59页1 1、夹角余弦、夹角余弦 从向量集合的角度所定义的一种测度变量之间亲疏程度的相似系数。设在从向量集合的角度所定义的一种测度变量之间亲疏程度的相似系数。设在n n维维空间的向量空间的向量第17页/共59页2 2、相关系数、相关系数设 和是第 和 个变量的观测值,则二者之间的相似测度为:相关系数就是对数据作相关系数就是
12、对数据作中心化或标准化处理中心化或标准化处理后的夹角余弦后的夹角余弦.第18页/共59页 至此,我们可以根据所选择的距离构成样本至此,我们可以根据所选择的距离构成样本点间的距离表:点间的距离表:00 0第19页/共59页2.3 2.3 类和类的特征类和类的特征一、类的定义:用G表示类,设G中有n个元素,dij表示元素i与j之间的距离类的定义:T为一个给定的阈值,若对于任意的i,jG,有dij T,则称G为一个类。第20页/共59页二、类的特征:二、类的特征:设类G中有样品 。n为G内的样品数。(1)类均值(或称为重心)(2)离差、协方差矩阵 (3)类G的直径 第21页/共59页(4)类的离差平
13、方和 对于聚类前的n个样品,可以证明:n个样品总离差平方和聚成k类后各类内离差平方 之和类间离差平方和 令T为总离差平方和,Pk为分为K类的类内离差平方之和。其中其中 第22页/共59页2.4 2.4 系统聚类法系统聚类法一、系统聚类法的基本思想和步骤 1.是一种其聚类过程可以用所谓的谱系结构或树形结构来描绘的方法。事先不用确定分多少类事先不用确定分多少类 2.基本思想:先所有的研究对象各自算作一类,将最先所有的研究对象各自算作一类,将最“靠靠近近”的两个类首先聚类,再将这个新类和其余类的两个类首先聚类,再将这个新类和其余类中最中最“靠近靠近”的类合并,每次缩小一类,直至所的类合并,每次缩小一
14、类,直至所有的对象都合并为一类为止。有的对象都合并为一类为止。第23页/共59页 系统聚类法的聚类原则决定于样品间的距离系统聚类法的聚类原则决定于样品间的距离(或相似系数或相似系数)及类间距离的定义及类间距离的定义,类间距离的类间距离的不同定义就产生了不同的系统聚类分析方法不同定义就产生了不同的系统聚类分析方法.几个记号几个记号:用用dij表示样品表示样品X(i)和和X(j)之间的距离之间的距离,当样品间的亲疏关系采用相似系数当样品间的亲疏关系采用相似系数C Cij ij 时时,令令 dij=1-|Cij|(或或 d2ij=1-C2ij););用用Dij表示类表示类Gi和和Gj间的距离间的距离
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- ClusterAnalysis 聚类分析 实用
限制150内