数据挖掘方法聚类分析幻灯片.ppt
《数据挖掘方法聚类分析幻灯片.ppt》由会员分享,可在线阅读,更多相关《数据挖掘方法聚类分析幻灯片.ppt(61页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘方法聚类分析第1页,共61页,编辑于2022年,星期六 “物以类聚物以类聚,人以群分人以群分”,科学研究在揭示对象特点及其相互作用的过程中,不惜花费时间和精力进行对象分类,以揭示其中相同和不相同的特征。第2页,共61页,编辑于2022年,星期六 聚类分析(Cluster Analysis)是研究“物以类聚”的一种多元统计方法。国内有人称它为群分析、点群分析、簇群分析、集群分析等。第3页,共61页,编辑于2022年,星期六o在解剖学研究中,希望能依据骨骼的形状、大小等特征将人类从猿到人分为几个不同的阶段;o在临床诊治中,希望能根据耳朵的特征,把正常耳朵划分为几个类别,为临床修复耳缺损时提
2、供参考;o在卫生管理学中,希望能根据医院的诊治水平、工作效率等众多指标将医院分成几个类别;o在营养学研究中,如何能根据各种运动的耗糖量和耗能量将十几种运动按耗糖量和耗能量进行分类,使营养学家既能对运动员适当的补充能量,又不增加体重。在医学研究中的聚类需求举例:在医学研究中的聚类需求举例:第4页,共61页,编辑于2022年,星期六聚类分析的方向:聚类分析的方向:聚类分析(cluster analysis)是将样本个体或指标变量按其具有的特性进行分类的一种统计分析方法。o对样本进行聚类,称为样本(Q型)聚类分析。其目的是将分类不明确的样本按性质相似程度分成若干组,从而发现同类样本的共性和不同类样本
3、间的差异。o对指标进行聚类,称为指标(R型)聚类分析。其目的是将分类不明确的指标按性质相似程度分成若干组,从而在尽量不损失信息的条件下,用一组少量的指标来代替原来的多个指标(主成分分析?因子分析?)。第5页,共61页,编辑于2022年,星期六在医生医疗质量研究中,有n个医生参加医疗质量评比,每一个医生有k个医疗质量指标被记录。利用聚类分析可以将n个医生按其医疗质量的优劣分成几类,或者把 k个医疗质量指标按反映的问题侧重点不同分成几类。在冠心病研究中,观察n个病人的 k个观察指标,并利用聚类分析方法分析这n个病人各自属于哪一类别,相似的病人可以采取相似的治疗措施;同时也能将k个指标分类,找出说明
4、病人病情不同方面的指标类,帮助医生更好地全面了解病人病情。例如:例如:第6页,共61页,编辑于2022年,星期六聚类分析不同于因素分析:聚类分析不同于因素分析:因素分析是根据所有变量间的相关关系提取公共因子;聚类分析是先将最相似的两个变量聚为一小类,再去与最相似的变量或小类合并,如此分层依次进行;聚类分析也不同于判别分析:聚类分析也不同于判别分析:判别分析是要先知道各种类,然后判断某个案是否属于某一类。第7页,共61页,编辑于2022年,星期六聚类分析(聚类):聚类分析(聚类):把总体中性质相近的归为一类,把性质不把总体中性质相近的归为一类,把性质不相近的归为其他类。相近的归为其他类。判别分析
5、(分类)判别分析(分类):已知总体分类,判别样本属于总体中:已知总体分类,判别样本属于总体中的哪一类。的哪一类。第8页,共61页,编辑于2022年,星期六问题问题:如何刻画样本/特征变量间的亲疏关系或相似程度?第9页,共61页,编辑于2022年,星期六聚类分析的基本原理聚类分析的基本原理 聚类分析是一种数值分类方法(即完全是根据数据关系)。要进行聚类聚类分析是一种数值分类方法(即完全是根据数据关系)。要进行聚类分析就要首先建立一个由某些事物属性构成的指标体系,或者说是一个变量分析就要首先建立一个由某些事物属性构成的指标体系,或者说是一个变量组合。入选的每个指标必须能刻画事物属性的某个侧面,所有
6、指标组合起来组合。入选的每个指标必须能刻画事物属性的某个侧面,所有指标组合起来形成一个完备的指标体系,它们互相配合可以共同刻画事物的特征。形成一个完备的指标体系,它们互相配合可以共同刻画事物的特征。所谓完备的指标体系,是说入选的指标是充分的,其它任何新增变量对辨所谓完备的指标体系,是说入选的指标是充分的,其它任何新增变量对辨别事物差异无显著性贡献。如果所选指标不完备,则导致分类偏差。别事物差异无显著性贡献。如果所选指标不完备,则导致分类偏差。简单地说,聚类分析的结果取决于变量的选择和变量值获取的两个方面。简单地说,聚类分析的结果取决于变量的选择和变量值获取的两个方面。变量选择越准确、测量越可靠
7、,得到的分类结果越是能描述事物各类间的本变量选择越准确、测量越可靠,得到的分类结果越是能描述事物各类间的本质区别。质区别。第10页,共61页,编辑于2022年,星期六 聚类分析完全是根据数据情况来进行的。就一个由聚类分析完全是根据数据情况来进行的。就一个由n个样本、个样本、k个特个特征变量组成的数据文件来说征变量组成的数据文件来说,当对样本进行聚类分析时,相当于对,当对样本进行聚类分析时,相当于对k 维维坐标系中的坐标系中的n 个点进行分组,所依据的是它们的距离个点进行分组,所依据的是它们的距离;当对变量进行聚;当对变量进行聚类分析时,相当于对类分析时,相当于对n维坐标系中的维坐标系中的k个点
8、进行分组,所依据的也是点距。个点进行分组,所依据的也是点距。所以距离或相似性程度是聚类分析的基础。点距如何计算呢?拿连续测所以距离或相似性程度是聚类分析的基础。点距如何计算呢?拿连续测量的变量来说,可以用欧氏距离平方计算:即各变量差值的平方和。量的变量来说,可以用欧氏距离平方计算:即各变量差值的平方和。第11页,共61页,编辑于2022年,星期六1.1.聚类分析的前期准备工作聚类分析的前期准备工作 聚类分析是以完备的数据文件为基础的,这一数据文件除观测变量比较聚类分析是以完备的数据文件为基础的,这一数据文件除观测变量比较完备之外,一般还要求各个观测变量的量纲一致,即各变量取值的数量级一完备之外
9、,一般还要求各个观测变量的量纲一致,即各变量取值的数量级一致,否则各变量在描述客观事物某方面特征差异性的作用有被夸大或缩小的致,否则各变量在描述客观事物某方面特征差异性的作用有被夸大或缩小的可能。可能。所以,聚类分析前要检查各变量的量纲是否一致,不一致则需进行转换,所以,聚类分析前要检查各变量的量纲是否一致,不一致则需进行转换,如将各变量均作标准化转换就可保证量纲一致。如将各变量均作标准化转换就可保证量纲一致。2.2.各数据挖掘工具中聚类分析的主要方法各数据挖掘工具中聚类分析的主要方法第12页,共61页,编辑于2022年,星期六 聚类分析的聚类分析的基本思想基本思想是认为我们所研究的样本或指标
10、(变量)之间是认为我们所研究的样本或指标(变量)之间存在着程度不同的相似性(亲疏关系)。于是根据一批样本的多个观测存在着程度不同的相似性(亲疏关系)。于是根据一批样本的多个观测指标,具体找出一些彼此之间相似程度较大的样本(或指标)聚合为一指标,具体找出一些彼此之间相似程度较大的样本(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样本(或指标)又聚合为另一类,把另外一些彼此之间相似程度较大的样本(或指标)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有样本(或指标)都聚合完毕,把不同
11、的类型一一分类单位,直到把所有样本(或指标)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。最后把整个分类系统画成一划分出来,形成一个由小到大的分类系统。最后把整个分类系统画成一张谱系图,用它把所有样本(或指标)间的亲疏关系表示出来。这种方张谱系图,用它把所有样本(或指标)间的亲疏关系表示出来。这种方法是最常用的、最基本的一种,称为系统聚类分析。法是最常用的、最基本的一种,称为系统聚类分析。第13页,共61页,编辑于2022年,星期六聚类分析的统计量聚类分析的统计量数据数据从几何学角度看,上面表中的每一行或每一列都表示了空间中的一个点或一个向量。第14页,共61页,编辑于20
12、22年,星期六1、描述两个样本之间的相似程度、描述两个样本之间的相似程度:距离距离令令 Xi=(x i 1 x i t x i k)是第是第 i 个样本观察值,个样本观察值,Xj=(x j 1 x j t x j k)是第是第 j 个样本观察值,那个样本观察值,那么,样本么,样本 Xi 和和 Xj 之间的欧氏距离是:之间的欧氏距离是:*距离越小,说明两个样本的性质越相似。距离越小,说明两个样本的性质越相似。*它的取值大小受量纲影响,不稳定。因此,一它的取值大小受量纲影响,不稳定。因此,一般使用标准化的距离公式。般使用标准化的距离公式。第15页,共61页,编辑于2022年,星期六 令令 Xs=(
13、x 1 s x i s x n s)是第是第 s 个指标变量,个指标变量,Xt=(x 1 t x i t x n t)是第是第 t 个指标变量,个指标变量,那么,那么,指标变量指标变量 Xs和和Xt之间的相关系数是:之间的相关系数是:2、描述两个指标变量之间的相似程度、描述两个指标变量之间的相似程度:相似系数:相似系数*相关系数越大,说明两个指标变量的性质越相似。相关系数越大,说明两个指标变量的性质越相似。*这是一个无量纲统计量。这是一个无量纲统计量。第16页,共61页,编辑于2022年,星期六令类令类A和类和类B中各有中各有a和和b个样本,个样本,D(i,j)为类为类A中第中第 i 个样本与
14、类个样本与类B中第中第 j 个样本之间的距离;假设个样本之间的距离;假设D(A,B)为类为类A和类和类B之间的距之间的距离,那么,常用的几种类间距离定义的方法是:离,那么,常用的几种类间距离定义的方法是:3、度量类与类之间的距离:、度量类与类之间的距离:类间距离类间距离1)最短距离法,)最短距离法,类间距离等于两类中距离最小的一对样本之类间距离等于两类中距离最小的一对样本之间的距离,即,间的距离,即,D(A,B)=minD(i,j)。2)最长距离法,)最长距离法,类间距离等于两类中距离最大的一对样本之间类间距离等于两类中距离最大的一对样本之间的距离,即,的距离,即,D(A,B)=maxD(i,
15、j)。第17页,共61页,编辑于2022年,星期六3)重心距离法,)重心距离法,类间距离等于两类的重心之间的距离,即,类间距离等于两类的重心之间的距离,即,D(A,B)=d(Xa,Xb),其中其中Xa和和Xb分别是类分别是类A和类和类B的重心,即类内所有样本的均值坐标。的重心,即类内所有样本的均值坐标。4)平均距离法)平均距离法,类间距离等于两类中所有样本对之间距离的平均,类间距离等于两类中所有样本对之间距离的平均值,即,值,即,D(A,B)=sumD(i,j)/(ab)。5)中间距离法)中间距离法,类间距离等于两类中所有样本对之间距离的中间值,类间距离等于两类中所有样本对之间距离的中间值,即
16、,即,D(A,B)=medianD(i,j)。*类间距离越小,说明两个类内的样品性质越相似。类间距离越小,说明两个类内的样品性质越相似。第18页,共61页,编辑于2022年,星期六*4、度量类与类之间的相似系数:、度量类与类之间的相似系数:类间相似系数类间相似系数令类令类A和类和类B中各有中各有a和和b个指标变量,个指标变量,Za和和Zb分别是由类分别是由类A和类和类B中所有指标变量的线性组合构成的新变量(称为类中所有指标变量的线性组合构成的新变量(称为类成分),例如:成分),例如:Za=a1 X1+a2 X2 Zb=b1 X3+b2 X4+b3 X5且它们的组合系数使得这两个新变量具有最大的
17、方差,且它们的组合系数使得这两个新变量具有最大的方差,则称则称Za和和Zb之间的相关系数为类之间的相关系数为类A和类和类B之间的相关系数。之间的相关系数。说明:说明:类间相似系数越大,说明两个类内的指标变量性类间相似系数越大,说明两个类内的指标变量性质质 越相似。越相似。第19页,共61页,编辑于2022年,星期六举例举例第20页,共61页,编辑于2022年,星期六第21页,共61页,编辑于2022年,星期六第22页,共61页,编辑于2022年,星期六距离(distance)或称相似度(similarity)两点之间的距离:欧氏距离(Euclidean distance)欧氏距离的平方(squ
18、ared Euclidean distance)曼哈顿距离(Manhattan distance;City-Block)A1A2A3第23页,共61页,编辑于2022年,星期六关于曼哈顿距离关于曼哈顿距离 曼哈顿距离两点在南北方向上的距离加上在东西方上的距离,即D(I,J)=|XI-XJ|+|YI-YJ|。对于一个具有正南正北、正东正西方向规则布局的城镇街道,从一点到达另一点的距离正是在南北方向上旅行的距离加上在东西方向上旅行的距离因此曼哈顿距离又称为出租车距离。第24页,共61页,编辑于2022年,星期六类间距离:单一连接法(single linkage):又称最短距离法。完全连接法(com
19、plete linkage):又称最长距离法。平均连接法(average linkage)重心法(centroid method)第25页,共61页,编辑于2022年,星期六ABC第26页,共61页,编辑于2022年,星期六算法聚类分析算法,不需要事先知道资料该分成几个已知的类型,而可以依照资料间彼此的相关程度来完成分类分群的目的。此法可概分为:分割算法(Partitioning Algorithms),层次算法(Hierarchical Algorithms),密度型算法(Density-Based Algorithms)第27页,共61页,编辑于2022年,星期六分割算法数据由使用者指定分
20、割成K个集群群组。每一个分割(partition)代表一个集群(cluster),集群是以最佳化分割标准(partitioning criterion)为目标,分割标准的目标函数又称为相似函数(similarity function)。因此,同一集群的数据对象具有相类似的属性。分割算法中最常见的是k-平均方法(K-means)k-中心点方法(K-medoid)两种方法都是属于启发式(heuristic)第28页,共61页,编辑于2022年,星期六K-means算法:集群内资料平均值为集群的中心K-means集群算法,因为其简单易于了解使用的特性,对于球体形状(spherical-shaped)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 方法 聚类分析 幻灯片
限制150内