《聚类分析的思路和方法精选PPT.ppt》由会员分享,可在线阅读,更多相关《聚类分析的思路和方法精选PPT.ppt(79页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于聚类分析的思路和方法第1页,讲稿共79张,创作于星期二2什么是聚类分析?v聚类分析是根据聚类分析是根据“物以类聚物以类聚”的道理,对样本或指标进行的道理,对样本或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的分类的一种多元统计分析方法,它们讨论的对象是大量的样本,要求能合理地按各自的特性进行合理的分类,没有样本,要求能合理地按各自的特性进行合理的分类,没有任何模式可供参考或依循,即在没有先验知识的情况下进任何模式可供参考或依循,即在没有先验知识的情况下进行的。行的。第2页,讲稿共79张,创作于星期二3聚类分析的基本思想聚类分析的基本思想v基本思想是认为研究的样本或变量之间存在着
2、程度不同的相似基本思想是认为研究的样本或变量之间存在着程度不同的相似性(亲疏关系)。性(亲疏关系)。v根据一批样本的多个观测指标,找出一些能够度量样本或变量根据一批样本的多个观测指标,找出一些能够度量样本或变量之间相似程度的统计量,以这些统计量作为分类的依据,把一之间相似程度的统计量,以这些统计量作为分类的依据,把一些相似程度较大的样本(或指标)聚合为一类,把另外一些相些相似程度较大的样本(或指标)聚合为一类,把另外一些相似程度较大的样本(或指标)聚合为一类,直到把所有的样本似程度较大的样本(或指标)聚合为一类,直到把所有的样本(或指标)都聚合完毕,形成一个由小到大的分类系统。(或指标)都聚合
3、完毕,形成一个由小到大的分类系统。第3页,讲稿共79张,创作于星期二4聚类分析无处不在聚类分析无处不在v谁经常光顾商店,谁买什么东西,买多少?谁经常光顾商店,谁买什么东西,买多少?v按按会会员员卡卡记记录录的的光光临临次次数数、光光临临时时间间、性性别别、年年龄龄、职职业业、购物种类、金额等变量分类购物种类、金额等变量分类v这样商店可以这样商店可以v识识别别顾顾客客购购买买模模式式(如如喜喜欢欢一一大大早早来来买买酸酸奶奶和和鲜鲜肉肉,习习惯惯周末时一次性大采购)周末时一次性大采购)v刻画不同的客户群的特征刻画不同的客户群的特征第4页,讲稿共79张,创作于星期二5聚类分析无处不在v挖掘有价值的
4、客户,并制定相应的促销策略:挖掘有价值的客户,并制定相应的促销策略:如,对经常购买酸奶的客户如,对经常购买酸奶的客户对累计消费达到对累计消费达到12个月的老客户个月的老客户v针针对对潜潜在在客客户户派派发发广广告告,比比在在大大街街上上乱乱发发传传单命中率更高,成本更低!单命中率更高,成本更低!第5页,讲稿共79张,创作于星期二6聚类分析无处不在v谁是银行信用卡的黄金客户?谁是银行信用卡的黄金客户?利利用用储储蓄蓄额额、刷刷卡卡消消费费金金额额、诚诚信信度度等等变变量量对对客客户户分分类类,找找出出“黄黄金客户金客户”!这样银行可以这样银行可以制定更具吸引力的服务,留住客户!比如:制定更具吸引
5、力的服务,留住客户!比如:v一定额度和期限的免息透支服务!一定额度和期限的免息透支服务!v赠送百盛的贵宾打折卡!赠送百盛的贵宾打折卡!v在他或她生日的时候送上一个小蛋糕!在他或她生日的时候送上一个小蛋糕!第6页,讲稿共79张,创作于星期二7聚类的应用领域v经济领域:经济领域:帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。画不同的客户群的特征。谁喜欢打国际长途,在什么时间,打到那里?谁喜欢打国际长途,在什么时间,打到那里?对住宅区进行聚类,确定自动提款机对住宅区进行聚类,确定自动提款机AT
6、M的安放位置的安放位置股票市场板块分析,找出最具活力的板块龙头股股票市场板块分析,找出最具活力的板块龙头股企业信用等级分类企业信用等级分类v生物学领域生物学领域推导植物和动物的分类;推导植物和动物的分类;对基因分类,获得对种群的认识对基因分类,获得对种群的认识v数据挖掘领域数据挖掘领域作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定的类做进一作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定的类做进一步的研究步的研究第7页,讲稿共79张,创作于星期二8 例例 对对10位位应应聘聘者者做做智智能能检检验验。3项项指指标标X,Y和和Z分分别别表表示示数数学学推推理理能能力力、空空
7、间间想想象象能能力力和和语语言言理理解解能能力力。得分如下,选择合适的统计方法对应聘者进行分类。得分如下,选择合适的统计方法对应聘者进行分类。应聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424第8页,讲稿共79张,创作于星期二9第9页,讲稿共79张,创作于星期二10第10页,讲稿共79张,创作于星期二11 聚聚类类分分析析根根据据一一批批样样本本的的许许多多观观测测指指标标,按按照照一一定定的的数数学学公公式式具具体体地地计计算算一一些些样样本本或或一一些些指指标标的的相相似似程程度度,把把
8、相相似似的的样样本或指标归为一类,把不相似的归为一类。本或指标归为一类,把不相似的归为一类。第11页,讲稿共79张,创作于星期二12样本或变量间亲疏程度的测度样本或变量间亲疏程度的测度v研究样本或变量的亲疏程度的数量指标有两种:研究样本或变量的亲疏程度的数量指标有两种:v一一种种叫叫相相似似系系数数,性性质质越越接接近近的的变变量量或或样样本本,它它们们的的相相似似系系数数越越接接近近于于1 1或或一一l l,而而彼彼此此无无关关的的变变量量或或样样本本它它们们的的相相似似系系数数则则越越接接近近于于0 0,相相似似的的为为一一类类,不不相相似似的的为为不不同类。同类。v另另一一种种叫叫距距离
9、离,它它是是将将每每一一个个样样本本看看作作p p维维空空间间的的一一个个点点,并并用用某某种种度度量量测测量量点点与与点点之之间间的的距距离离,距距离离较较近近的的归归为为一一类类,距离较远的点应属于不同的类。距离较远的点应属于不同的类。第12页,讲稿共79张,创作于星期二13v设有设有n个样本单位,每个样本测得个样本单位,每个样本测得p项指标项指标(变量),原始资料矩阵为:(变量),原始资料矩阵为:第13页,讲稿共79张,创作于星期二14定比变量的聚类统计量:距离统计量定比变量的聚类统计量:距离统计量v绝对距离绝对距离v欧式距离欧式距离v明考斯基距离明考斯基距离v兰氏距离兰氏距离v马氏距离
10、马氏距离v切氏距离切氏距离第14页,讲稿共79张,创作于星期二15v1.绝对距离(绝对距离(Block距离)距离)v2.欧氏距离欧氏距离(Euclidean distance)第15页,讲稿共79张,创作于星期二16v3.明考斯基距离明考斯基距离(Minkowski)v4.兰氏距离兰氏距离v5.马氏距离马氏距离v6.切比雪夫距离切比雪夫距离(Chebychev)第16页,讲稿共79张,创作于星期二17第17页,讲稿共79张,创作于星期二18v1.相关系数相关系数v2.夹角余弦夹角余弦定比变量的聚类统计量:相似系数统计量定比变量的聚类统计量:相似系数统计量第18页,讲稿共79张,创作于星期二19
11、计数变量计数变量(Count)(离散变量)的聚类统计量(离散变量)的聚类统计量v对对于于计计数数变变量量或或离离散散变变量量,可可用用于于度度量量样样本本(或或变变量量)之之间间的的相相似似性性或或不不相相似似性性程程度度的的统统 计计 量量 主主 要要 有有 卡卡 方方 测测 度度(Chi-square measure)和和 Phi方方 测测 度度(Phi-square measure)。)。第19页,讲稿共79张,创作于星期二20二值二值(Binary)变量的聚类统计量变量的聚类统计量第20页,讲稿共79张,创作于星期二21聚类的类型v根根据据聚聚类类对对象象的的不不同同,分分为为Q型型聚
12、聚类类和和R型型聚聚类类。vQ型型聚聚类类:样样本本之之间间的的聚聚类类即即Q型型聚聚类类分分析析,则常用则常用距离距离来测度样本之间的亲疏程度。来测度样本之间的亲疏程度。vR型型聚聚类类:变变量量之之间间的的聚聚类类即即R型型聚聚类类分分析析,常用常用相似系数相似系数来测度变量之间的亲疏程度。来测度变量之间的亲疏程度。第21页,讲稿共79张,创作于星期二22聚类的类型v根根据据聚聚类类方方法法的的不不同同分分为为系系统统聚聚类类和和K均均值值聚聚类。类。v系系统统聚聚类类:又又称称为为层层次次聚聚类类(hierarchical cluster),是是指指聚聚类类过过程程是是按按照照一一定定层
13、层次次进进行的。行的。vK均值聚类(均值聚类(K-means Cluster)第22页,讲稿共79张,创作于星期二23层次聚类层次聚类v基本思想:基本思想:在在聚聚类类分分析析的的开开始始,每每个个样样本本(或或变变量量)自自成成一一类类;然然后后,按按照照某某种种方方法法度度量量所所有有样样本本(或或变变量量)之之间间的的亲亲疏疏程程度度,并并把把最最相相似似的的样样本本(或或变变量量)首首先先聚聚成成一一小小类类;接接下下来来,度度量量剩剩余余的的样样本本(或或变变量量)和和小小类类间间的的亲亲疏疏程程度度,并并将将当当前前最最接接近近的的样样本本(或或变变量量)与与小小类类聚聚成成一一类
14、类;再再接接下下来来,再再度度量量剩剩余余的的样样本本(或或变变量量)和和小小类类间间的的亲亲疏疏程程度度,并并将将当当前前最最接接近近的的样样本本(或或变变量量)与与小小类类聚聚成成一一类类;如如此此反反复复,直直到到所所有有样样本本(或变量)聚成一类为止。(或变量)聚成一类为止。第23页,讲稿共79张,创作于星期二24v系统聚类法不仅需要度量个体与个体之间的系统聚类法不仅需要度量个体与个体之间的距离,还要度量类与类之间的距离。类间距距离,还要度量类与类之间的距离。类间距离被度量出来之后,距离最小的两个小类将离被度量出来之后,距离最小的两个小类将首先被合并成为一类。由类间距离定义的不首先被合
15、并成为一类。由类间距离定义的不同产生了不同的系统聚类法。同产生了不同的系统聚类法。第24页,讲稿共79张,创作于星期二25类间距离的度量方法v最短距离法最短距离法(Nearest Neighbor)v最长距离法最长距离法(Further Neighbor)v组间平均连接法组间平均连接法(Between-group linkage)v组内平均连接法组内平均连接法(Within-group linkage)v重心法重心法(Centroid clustering)v中位数法中位数法(Median clustering)v离差平方和法离差平方和法(Wards method)第25页,讲稿共79张,创作
16、于星期二26最短距离法最短距离法(Nearest Neighbor)v以两类中距离最近的两个个体之间的距离作以两类中距离最近的两个个体之间的距离作为类间距离。为类间距离。第26页,讲稿共79张,创作于星期二27x21x12x22x11第27页,讲稿共79张,创作于星期二28最长距离法最长距离法(Further Neighbor)v以两类中距离最远的两个个体之间的距离作以两类中距离最远的两个个体之间的距离作为类间距离。为类间距离。第28页,讲稿共79张,创作于星期二29x11x21第29页,讲稿共79张,创作于星期二30组间平均连接法组间平均连接法(Between-group linkage)v
17、以以两两类类个个体体两两两两之之间间距距离离的的平平均均数数作作为为类类间间距离。距离。第30页,讲稿共79张,创作于星期二31组间平均连接法(Between-group Linkage)第31页,讲稿共79张,创作于星期二32组内平均连接法组内平均连接法(Within-group linkage)v将将两两类类个个体体合合并并为为一一类类后后,以以合合并并后后类类中中所所有个体之间的平均距离作为类间距离。有个体之间的平均距离作为类间距离。第32页,讲稿共79张,创作于星期二33 组内平均连接法(组内平均连接法(Within-group Linkage)x21x12x22x11第33页,讲稿共
18、79张,创作于星期二34重心法重心法(Centroid clustering)v以以两两类类变变量量均均值值(重重心心)之之间间的的距距离离作作为为类类间距离。间距离。第34页,讲稿共79张,创作于星期二35重心距离:均值点的距离重心距离:均值点的距离第35页,讲稿共79张,创作于星期二36中位数法中位数法(Median clustering)v以两类变量中位数之间的距离作为类间距离。以两类变量中位数之间的距离作为类间距离。第36页,讲稿共79张,创作于星期二37离差平方和法离差平方和法(Wards method)v离离差差平平方方和和法法是是由由Ward提提出出的的,因因此此也也称称为为Wa
19、rd方方法法。具具体体做做法法是是,先先将将n个个个个体体各各自自成成一一类类,然然后后每每次次减减少少一一类类,随随着着类类与与类类的的不不断断聚聚合合,类类内内的的离离差差平平方方和和必必然然不不断断增增大大,选选择择使使离离差差平平方方和和增增加加最最小小的的两两类类合合并并,直直到所有的个体归为一类为止。到所有的个体归为一类为止。第37页,讲稿共79张,创作于星期二38 主要步骤主要步骤1.1.选择变量选择变量 (1)和聚类分析的目的密切相关)和聚类分析的目的密切相关 (2)反映要分类变量的特征)反映要分类变量的特征 (3)在不同研究对象上的值有明显的差异)在不同研究对象上的值有明显的
20、差异 (4)变量之间不能高度相关)变量之间不能高度相关2.2.数据变换处理数据变换处理 为了消除各指标量纲的影响,需要对原始数为了消除各指标量纲的影响,需要对原始数据进行必要的变换处理。据进行必要的变换处理。第38页,讲稿共79张,创作于星期二393.3.计算聚类统计量计算聚类统计量 聚聚类类统统计计量量是是根根据据变变换换以以后后的的数数据据计计算算得得到到的的一一个个新新数数据据,它它用用于于表表明明各各样样本本或或变变量量间间的的关关系系密密切切程程度度。常常用用的的统统计计量量有有距距离离和和相似系数两大类。相似系数两大类。第39页,讲稿共79张,创作于星期二40 4.4.聚类聚类 主
21、要涉及两个问题:主要涉及两个问题:(1 1)选择聚类的方法)选择聚类的方法 (2 2)确定形成的类数)确定形成的类数第40页,讲稿共79张,创作于星期二415.5.聚类结果的解释和证实聚类结果的解释和证实 对聚类结果进行解释是希望对各个类的特征进行准确的描对聚类结果进行解释是希望对各个类的特征进行准确的描述,给每类起一个合适的名称。这一步可以借助各种描述性统述,给每类起一个合适的名称。这一步可以借助各种描述性统计量进行分析,通常的做法是计算各类在各聚类变量上的均值,计量进行分析,通常的做法是计算各类在各聚类变量上的均值,对均值进行比较,还可以解释各类产生的原因。对均值进行比较,还可以解释各类产
22、生的原因。第41页,讲稿共79张,创作于星期二42k-均值聚类均值聚类K-means ClustervK-均值聚类也叫快速聚类均值聚类也叫快速聚类v要求事先确定分类数要求事先确定分类数v运算速度快(特别是对于大样本)运算速度快(特别是对于大样本)第42页,讲稿共79张,创作于星期二43k-均值聚类均值聚类K-means Clusterv系系统统首首先先选选择择k个个聚聚类类中中心心,根根据据其其他他观观测测值值与与聚聚类类中中心心的的距距离离远远近近,将将所所有有的的观观测测值值分分成成k类类;再再将将k个个类类的的中中心心(均均值值)作作为为新新的的聚聚类类中中心心,重重新新按按照照距距离离
23、进进行行分分类类;,这这样样一一直直迭迭代代下下去去,直直到到达达到到指指定定的的迭迭代代次次数数或或达达到到中中止止迭迭代代的的判判据据要要求求时时,聚聚类类过过程程结束。结束。第43页,讲稿共79张,创作于星期二44聚类分析终止的条件聚类分析终止的条件v迭迭代代次次数数:当当目目前前的的迭迭代代次次数数等等于于指指定定的的迭迭代次数(代次数(SPSS默认为默认为10)时终止迭代。)时终止迭代。v类类中中心心点点偏偏移移程程度度:新新确确定定的的类类中中心心点点距距上上个个类类中中心心点点的的最最大大偏偏移移量量小小于于等等于于指指定定的的量量(SPSS默认为默认为0)时终止聚类。)时终止聚
24、类。第44页,讲稿共79张,创作于星期二45例子1:31个省区小康和现代化指数的聚类分析v利利用用2001年年全全国国31个个省省市市自自治治区区各各类类小小康康和和现代化指数的数据,对地区进行聚类分析。现代化指数的数据,对地区进行聚类分析。v数数据据中中包包括括6类类指指数数:综综合合指指数数、社社会会结结构构指指数数、经经济济与与技技术术发发展展指指数数、人人口口素素质质指指数数、生活质量指数、法制与治安指数生活质量指数、法制与治安指数。第45页,讲稿共79张,创作于星期二46系统聚类第46页,讲稿共79张,创作于星期二47vAgglomeration schedule:输出聚类过程表:输
25、出聚类过程表vProximity matrix:输输出出各各个个体体之之间间的的距距离离矩阵矩阵vCluster Membership:每个个体类别归属表:每个个体类别归属表第47页,讲稿共79张,创作于星期二48vDendrogram:聚类树形图:聚类树形图vIcicle:冰柱图:冰柱图第48页,讲稿共79张,创作于星期二49第49页,讲稿共79张,创作于星期二50第50页,讲稿共79张,创作于星期二51第51页,讲稿共79张,创作于星期二52第52页,讲稿共79张,创作于星期二53第53页,讲稿共79张,创作于星期二54如果分为3类v第第1类:北京、上海、天津类:北京、上海、天津v第第2类
26、:江苏、山东、辽宁、浙江、广东、福类:江苏、山东、辽宁、浙江、广东、福建、黑龙江、吉林建、黑龙江、吉林v第第3类:其余省区类:其余省区第54页,讲稿共79张,创作于星期二55输出各组的统计信息在数据文件中保存分在数据文件中保存分类信息类信息DataSplit file第55页,讲稿共79张,创作于星期二56第56页,讲稿共79张,创作于星期二57第57页,讲稿共79张,创作于星期二58K均值聚类vIterate and classify:不断计算新的类中心,替换旧的类中心。:不断计算新的类中心,替换旧的类中心。vClassify only:根据初始类中心进行聚类,不改变类中心。:根据初始类中心
27、进行聚类,不改变类中心。第58页,讲稿共79张,创作于星期二59第59页,讲稿共79张,创作于星期二60第60页,讲稿共79张,创作于星期二61第61页,讲稿共79张,创作于星期二62第62页,讲稿共79张,创作于星期二63第63页,讲稿共79张,创作于星期二64例子2:土壤样本聚类分析v有有20个个土土壤壤样样本本,利利用用含含沙沙量量、淤淤泥泥含含量量、粘粘土土含含量量、有有机机物物、pH值值5个个变变量量的的数数据据对对这这20个土壤样本进行分类。个土壤样本进行分类。第64页,讲稿共79张,创作于星期二65系统聚类第65页,讲稿共79张,创作于星期二66第66页,讲稿共79张,创作于星期二67第67页,讲稿共79张,创作于星期二68第68页,讲稿共79张,创作于星期二69第69页,讲稿共79张,创作于星期二70第70页,讲稿共79张,创作于星期二71第71页,讲稿共79张,创作于星期二72第72页,讲稿共79张,创作于星期二73K均值聚类第73页,讲稿共79张,创作于星期二74第74页,讲稿共79张,创作于星期二75第75页,讲稿共79张,创作于星期二76第76页,讲稿共79张,创作于星期二77第77页,讲稿共79张,创作于星期二78第78页,讲稿共79张,创作于星期二感谢大家观看第79页,讲稿共79张,创作于星期二
限制150内