聚类分析的思路和方法讲稿.ppt
《聚类分析的思路和方法讲稿.ppt》由会员分享,可在线阅读,更多相关《聚类分析的思路和方法讲稿.ppt(79页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于聚类分析的思路和方法第一页,讲稿共七十九页哦2什么是聚类分析?v聚类分析是根据聚类分析是根据“物以类聚物以类聚”的道理,对样本或指标进行分的道理,对样本或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样本,类的一种多元统计分析方法,它们讨论的对象是大量的样本,要求能合理地按各自的特性进行合理的分类,没有任何模式要求能合理地按各自的特性进行合理的分类,没有任何模式可供参考或依循,即在没有先验知识的情况下进行的。可供参考或依循,即在没有先验知识的情况下进行的。第二页,讲稿共七十九页哦3聚类分析的基本思想聚类分析的基本思想v基本思想是认为研究的样本或变量之间存在着程度不同的相似性基本
2、思想是认为研究的样本或变量之间存在着程度不同的相似性(亲疏关系)。(亲疏关系)。v根据一批样本的多个观测指标,找出一些能够度量样本或变量之根据一批样本的多个观测指标,找出一些能够度量样本或变量之间相似程度的统计量,以这些统计量作为分类的依据,把一些相间相似程度的统计量,以这些统计量作为分类的依据,把一些相似程度较大的样本(或指标)聚合为一类,把另外一些相似程度似程度较大的样本(或指标)聚合为一类,把另外一些相似程度较大的样本(或指标)聚合为一类,直到把所有的样本(或指标)较大的样本(或指标)聚合为一类,直到把所有的样本(或指标)都聚合完毕,形成一个由小到大的分类系统。都聚合完毕,形成一个由小到
3、大的分类系统。第三页,讲稿共七十九页哦4聚类分析无处不在聚类分析无处不在v谁经常光顾商店,谁买什么东西,买多少?谁经常光顾商店,谁买什么东西,买多少?v按按会会员员卡卡记记录录的的光光临临次次数数、光光临临时时间间、性性别别、年年龄龄、职业、购物种类、金额等变量分类职业、购物种类、金额等变量分类v这样商店可以这样商店可以v识识别别顾顾客客购购买买模模式式(如如喜喜欢欢一一大大早早来来买买酸酸奶奶和和鲜鲜肉肉,习惯周末时一次性大采购)习惯周末时一次性大采购)v刻画不同的客户群的特征刻画不同的客户群的特征第四页,讲稿共七十九页哦5聚类分析无处不在v挖掘有价值的客户,并制定相应的促销策略:挖掘有价值
4、的客户,并制定相应的促销策略:如,对经常购买酸奶的客户如,对经常购买酸奶的客户对累计消费达到对累计消费达到12个月的老客户个月的老客户v针针对对潜潜在在客客户户派派发发广广告告,比比在在大大街街上上乱乱发发传传单命中率更高,成本更低!单命中率更高,成本更低!第五页,讲稿共七十九页哦6聚类分析无处不在v谁是银行信用卡的黄金客户?谁是银行信用卡的黄金客户?利利用用储储蓄蓄额额、刷刷卡卡消消费费金金额额、诚诚信信度度等等变变量量对对客客户户分分类类,找找出出“黄金客户黄金客户”!这样银行可以这样银行可以制定更具吸引力的服务,留住客户!比如:制定更具吸引力的服务,留住客户!比如:v一定额度和期限的免息
5、透支服务!一定额度和期限的免息透支服务!v赠送百盛的贵宾打折卡!赠送百盛的贵宾打折卡!v在他或她生日的时候送上一个小蛋糕!在他或她生日的时候送上一个小蛋糕!第六页,讲稿共七十九页哦7聚类的应用领域v经济领域:经济领域:帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻画不同的帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。客户群的特征。谁喜欢打国际长途,在什么时间,打到那里?谁喜欢打国际长途,在什么时间,打到那里?对住宅区进行聚类,确定自动提款机对住宅区进行聚类,确定自动提款机ATM的安放位置的安放位置股票市场板块分析,找出最具活力的板块
6、龙头股股票市场板块分析,找出最具活力的板块龙头股企业信用等级分类企业信用等级分类v生物学领域生物学领域推导植物和动物的分类;推导植物和动物的分类;对基因分类,获得对种群的认识对基因分类,获得对种群的认识v数据挖掘领域数据挖掘领域作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定的类做进一步的研作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定的类做进一步的研究究第七页,讲稿共七十九页哦8 例例 对对10位位应应聘聘者者做做智智能能检检验验。3项项指指标标X,Y和和Z分分别别表表示示数数学学推推理理能能力力、空空间间想想象象能能力力和和语语言言理理解解能能力力。得分如下,选择合适
7、的统计方法对应聘者进行分类。得分如下,选择合适的统计方法对应聘者进行分类。应聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424第八页,讲稿共七十九页哦9第九页,讲稿共七十九页哦10第十页,讲稿共七十九页哦11 聚聚类类分分析析根根据据一一批批样样本本的的许许多多观观测测指指标标,按按照照一一定定的的数数学学公公式式具具体体地地计计算算一一些些样样本本或或一一些些指指标标的的相相似似程程度度,把把相相似似的的样样本或指标归为一类,把不相似的归为一类。本或指标归为一类,把不相似的归为一类。第十一页
8、,讲稿共七十九页哦12样本或变量间亲疏程度的测度样本或变量间亲疏程度的测度v研究样本或变量的亲疏程度的数量指标有两种:研究样本或变量的亲疏程度的数量指标有两种:v一一种种叫叫相相似似系系数数,性性质质越越接接近近的的变变量量或或样样本本,它它们们的的相相似似系系数数越越接接近近于于1 1或或一一l l,而而彼彼此此无无关关的的变变量量或或样样本本它它们们的的相相似似系系数数则则越越接接近近于于0 0,相相似似的的为为一一类类,不不相相似似的的为为不不同同类。类。v另另一一种种叫叫距距离离,它它是是将将每每一一个个样样本本看看作作p p维维空空间间的的一一个个点点,并并用用某某种种度度量量测测量
9、量点点与与点点之之间间的的距距离离,距距离离较较近近的的归归为为一类,距离较远的点应属于不同的类。一类,距离较远的点应属于不同的类。第十二页,讲稿共七十九页哦13v设有设有n个样本单位,每个样本测得个样本单位,每个样本测得p项指标项指标(变量),原始资料矩阵为:(变量),原始资料矩阵为:第十三页,讲稿共七十九页哦14定比变量的聚类统计量:距离统计量定比变量的聚类统计量:距离统计量v绝对距离绝对距离v欧式距离欧式距离v明考斯基距离明考斯基距离v兰氏距离兰氏距离v马氏距离马氏距离v切氏距离切氏距离第十四页,讲稿共七十九页哦15v1.绝对距离(绝对距离(Block距离)距离)v2.欧氏距离欧氏距离(
10、Euclidean distance)第十五页,讲稿共七十九页哦16v3.明考斯基距离明考斯基距离(Minkowski)v4.兰氏距离兰氏距离v5.马氏距离马氏距离v6.切比雪夫距离切比雪夫距离(Chebychev)第十六页,讲稿共七十九页哦17第十七页,讲稿共七十九页哦18v1.相关系数相关系数v2.夹角余弦夹角余弦定比变量的聚类统计量:相似系数统计量定比变量的聚类统计量:相似系数统计量第十八页,讲稿共七十九页哦19计数变量计数变量(Count)(离散变量)的聚类统计量(离散变量)的聚类统计量v对对于于计计数数变变量量或或离离散散变变量量,可可用用于于度度量量样样本本(或或变变量量)之之间间
11、的的相相似似性性或或不不相相似似性性程程度度的的统统 计计 量量 主主 要要 有有 卡卡 方方 测测 度度(Chi-square measure)和和 Phi方方 测测 度度(Phi-square measure)。)。第十九页,讲稿共七十九页哦20二值二值(Binary)变量的聚类统计量变量的聚类统计量第二十页,讲稿共七十九页哦21聚类的类型v根根据据聚聚类类对对象象的的不不同同,分分为为Q型型聚聚类类和和R型型聚聚类类。vQ型型聚聚类类:样样本本之之间间的的聚聚类类即即Q型型聚聚类类分分析析,则常用则常用距离距离来测度样本之间的亲疏程度。来测度样本之间的亲疏程度。vR型型聚聚类类:变变量量
12、之之间间的的聚聚类类即即R型型聚聚类类分分析析,常用常用相似系数相似系数来测度变量之间的亲疏程度。来测度变量之间的亲疏程度。第二十一页,讲稿共七十九页哦22聚类的类型v根根据据聚聚类类方方法法的的不不同同分分为为系系统统聚聚类类和和K均均值值聚聚类。类。v系系统统聚聚类类:又又称称为为层层次次聚聚类类(hierarchical cluster),是是指指聚聚类类过过程程是是按按照照一一定定层层次次进进行的。行的。vK均值聚类(均值聚类(K-means Cluster)第二十二页,讲稿共七十九页哦23层次聚类层次聚类v基本思想:基本思想:在在聚聚类类分分析析的的开开始始,每每个个样样本本(或或变
13、变量量)自自成成一一类类;然然后后,按按照照某某种种方方法法度度量量所所有有样样本本(或或变变量量)之之间间的的亲亲疏疏程程度度,并并把把最最相相似似的的样样本本(或或变变量量)首首先先聚聚成成一一小小类类;接接下下来来,度度量量剩剩余余的的样样本本(或或变变量量)和和小小类类间间的的亲亲疏疏程程度度,并并将将当当前前最最接接近近的的样样本本(或或变变量量)与与小小类类聚聚成成一一类类;再再接接下下来来,再再度度量量剩剩余余的的样样本本(或或变变量量)和和小小类类间间的的亲亲疏疏程程度度,并并将将当当前前最最接接近近的的样样本本(或或变变量量)与与小小类类聚聚成成一一类类;如如此此反反复复,直
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 思路 方法 讲稿
限制150内