聚类分析讲义课件.ppt





《聚类分析讲义课件.ppt》由会员分享,可在线阅读,更多相关《聚类分析讲义课件.ppt(67页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、聚类分析v6.1 引言v6.2 距离和相似系数v6.3 系统聚类法v6.4 动态聚类法 2/25/202316.1 引言2/25/20232什么是聚类v聚类(Clustering)就是将数据分组成为多个类(Cluster)。在同一个类内对象之间具有较高的相似度,不同类之间的对象差别较大。2/25/20233什么是聚类v早在孩提时代,人就通过不断改进下意识中的聚类模式来学会如何区分猫和狗,动物和植物2/25/20234聚类分析无处不在v谁经常光顾商店,谁买什么东西,买多少?按忠诚卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类这样商店可以.识别顾客购买模式(如喜欢一大早来买
2、酸奶和鲜肉,习惯周末时一次性大采购)刻画不同的客户群的特征(用变量来刻画,就象刻画猫和狗的特征一样)2/25/20235什么情况下需要聚类为什么这样分类?因为每一个类别里面的人消费方式都不一样,需要针对不同的人群,制定不同的关系管理方式,以提高客户对公司商业活动的相应率。2/25/20236聚类分析无处不在v挖掘有价值的客户,并制定相应的促销策略:如,对经常购买酸奶的客户对累计消费达到12个月的老客户v针对潜在客户派发广告,比在大街上乱发传单命中率更高,成本更低!2/25/20237聚类分析无处不在v谁是银行信用卡的黄金客户?利用储蓄额、刷卡消费金额、诚信度等变量对客户分类,找出“黄金客户”!
3、这样银行可以制定更吸引的服务,留住客户!比如:v一定额度和期限的免息透资服务!v百盛的贵宾打折卡!v在他或她生日的时候送上一个小蛋糕!2/25/20238聚类的应用领域v经济领域:帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。谁喜欢打国际长途,在什么时间,打到那里?对住宅区进行聚类,确定自动提款机ATM的安放位置股票市场板块分析,找出最具活力的板块龙头股企业信用等级分类v生物学领域推导植物和动物的分类;对基因分类,获得对种群的认识v数据挖掘领域作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定的类做进一步的研究2/25/20239有贡献的研究领
4、域v数据挖掘聚类可伸缩性、各种各种复杂形状类的识别,高维聚类等v统计学主要集中在基于距离的聚类分析,发现球状类v机器学习无指导学习(聚类不依赖预先定义的类,不等同于分类)v空间数据技术v生物学v市场营销学2/25/202310什么情况下需要聚类v以上分析,没有大量的数据去支持,Data Mining就什么都挖不出来。v大量的数据不等于大量的垃圾,我们需要针对客户市场细分所需要的资料。如需要知道白金持卡人和金卡持卡人的流动率,各自平均消费水平有多少,等;v聚类分析可以辅助企业进行客户细分,但是Data mining的客户细分不等同于商业领域的细分,看不懂结果,也可能造成企业管理层无法对结果善加利
5、用。2/25/202311聚类分析原理介绍v聚类分析中“类”的特征:聚类所说的类不是事先给定的,而是根据数据的相似性和距离来划分聚类的数目和结构都没有事先假定2/25/202312聚类分析原理介绍v聚类方法的目的是寻找数据中:潜在的自然分组结构a structure of“natural”grouping感兴趣的关系relationship2/25/202313聚类分析原理介绍v什么是自然分组结构Natural grouping?v我们看看以下的例子:v有16张牌v如何将他们分为 一组一组的牌呢?AKQJ2/25/202314聚类分析原理介绍v分成四组v每组里花色相同v组与组之间花色相异AKQ
6、J花色相同的牌为一副花色相同的牌为一副Individual suits2/25/202315聚类分析原理介绍v分成四组v符号相同的牌为一组AKQJ符号相同的的牌符号相同的的牌Like face cards2/25/202316聚类分析原理介绍v分成两组v颜色相同的牌为一组AKQJ颜色相同的配对颜色相同的配对Black and red suits2/25/202317聚类分析原理介绍v分成两组v大小程度相近的牌分到一组AKQJ大配对和小配对大配对和小配对Major and minor suits2/25/202318聚类分析原理介绍v这个例子告诉我们,分组的意义在于我们怎么定义并度量“相似性”S
7、imilarv因此衍生出一系列度量相似性的算法AKQJ大配对和小配对大配对和小配对Major and minor suits2/25/2023196.2 距离和相似系数v相似性度量:距离和相似系数。v距离常用来度量样品之间的相似性,相似系数常用来度量变量之间的相似性。v样品之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系。2/25/202320变量的测量尺度v通常变量按测量尺度的不同可以分为间隔、有序和名义尺度变量三类。v间隔尺度变量:变量用连续的量来表示,如长度、重量、速度、温度等。v有序尺度变量:变量度量时不用明确的数量表示,而是用等级来表示,如某产品分为一
8、等品、二等品、三等品等有次序关系。v名义尺度变量:变量用一些类表示,这些类之间既无等级关系也无数量关系,如性别、职业、产品的型号等。v本章主要讨论具有间隔尺度变量的样品聚类分析方法。2/25/2023212/25/202322v距离有多种定义方法,在聚类分析中最常用的是欧氏距离,即有v当各变量的单位不同或测量值范围相差很大时,应先对各变量的数据作标准化处理。最常用的标准化处理是,令 其中 和 分别为第 个变量的样本均值和样本方差。2/25/202323二、相似系数v聚类分析方法不仅用来对样品进行分类,而且可用来对变量进行分类,在对变量进行分类时,常常采用相似系数来度量变量之间的相似性。v变量之
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 讲义 课件

限制150内