聚类方法(Clustering).ppt
《聚类方法(Clustering).ppt》由会员分享,可在线阅读,更多相关《聚类方法(Clustering).ppt(46页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、聚类方法(Clustering),统研会学术交流篇之,演讲人: 上海财经大学统计学系吕江平,主讲内容,聚类方法原理介绍 案例分析(SAS/Enterprise Miner) 推荐参考书目,什么是聚类,聚类(Clustering)就是将数据分组成为多个类(Cluster)。在同一个类内对象之间具有较高的相似度,不同类之间的对象差别较大。,什么是聚类,早在孩提时代,人就通过不断改进下意识中的聚类模式来学会如何区分猫和狗,动物和植物,聚类分析无处不在,谁经常光顾商店,谁买什么东西,买多少? 按忠诚卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类 这样商店可以. 识别顾客购买模式
2、(如喜欢一大早来买酸奶和鲜肉,习惯周末时一次性大采购) 刻画不同的客户群的特征(用变量来刻画,就象刻画猫和狗的特征一样),什么情况下需要聚类,为什么这样分类? 因为每一个类别里面的人消费方式都不一样,需要针对不同的人群,制定不同的关系管理方式,以提高客户对公司商业活动的相应率。,聚类分析无处不在,挖掘有价值的客户,并制定相应的促销策略: 如,对经常购买酸奶的客户 对累计消费达到12个月的老客户 针对潜在客户派发广告,比在大街上乱发传单命中率更高,成本更低!,聚类分析无处不在,谁是银行信用卡的黄金客户? 利用储蓄额、刷卡消费金额、诚信度等变量对客户分类,找出“黄金客户”! 这样银行可以 制定更吸
3、引的服务,留住客户!比如: 一定额度和期限的免息透资服务! 百盛的贵宾打折卡! 在他或她生日的时候送上一个小蛋糕!,聚类的应用领域,经济领域: 帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。 谁喜欢打国际长途,在什么时间,打到那里? 对住宅区进行聚类,确定自动提款机ATM的安放位置 股票市场板块分析,找出最具活力的板块龙头股 企业信用等级分类 生物学领域 推导植物和动物的分类; 对基因分类,获得对种群的认识 数据挖掘领域 作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定的类做进一步的研究,有贡献的研究领域,数据挖掘 聚类可伸缩性、各种各种复杂
4、形状类的识别,高维聚类等 统计学 主要集中在基于距离的聚类分析,发现球状类 机器学习 无指导学习(聚类不依赖预先定义的类,不等同于分类) 空间数据技术 生物学 市场营销学,什么情况下需要聚类,以上分析,没有大量的数据去支持,Data Mining就什么都挖不出来。 大量的数据不等于大量的垃圾,我们需要针对客户市场细分所需要的资料。如需要知道白金持卡人和金卡持卡人的流动率,各自平均消费水平有多少,等; 聚类分析可以辅助企业进行客户细分,但是Data mining的客户细分不等同于商业领域的细分,看不懂结果,也可能造成企业管理层无法对结果善加利用。,聚类分析原理介绍,聚类分析中“类”的特征: 聚类
5、所说的类不是事先给定的,而是根据数据的相似性和距离来划分 聚类的数目和结构都没有事先假定,聚类分析原理介绍,聚类方法的目的是寻找数据中: 潜在的自然分组结构a structure of “natural” grouping 感兴趣的关系relationship,聚类分析原理介绍,什么是自然分组结构Natural grouping ? 我们看看以下的例子: 有16张牌 如何将他们分为 一组一组的牌呢?,聚类分析原理介绍,分成四组 每组里花色相同 组与组之间花色相异,花色相同的牌为一副 Individual suits,聚类分析原理介绍,分成四组 符号相同的牌为一组,符号相同的的牌 Like fa
6、ce cards,聚类分析原理介绍,分成两组 颜色相同的牌为一组,颜色相同的配对 Black and red suits,聚类分析原理介绍,分成两组 大小程度相近的牌分到一组,大配对和小配对 Major and minor suits,聚类分析原理介绍,这个例子告诉我们,分组的意义在于我们怎么定义并度量“相似性”Similar 因此衍生出一系列度量相似性的算法,大配对和小配对 Major and minor suits,聚类分析原理介绍,相似性Similar的度量(统计学角度) 距离Q型聚类(主要讨论) 主要用于对样本分类 常用的距离有(只适用于具有间隔尺度变量的聚类): 明考夫斯基距离(包括
7、:绝对距离、欧式距离、切比雪夫距离) 兰氏距离 马氏距离 斜交空间距离 此不详述,有兴趣可参考应用多元分析(第二版)王学民 相似系数R型聚类 用于对变量分类,可以用变量之间的相似系数的变形如1rij定义距离 这里不详细介绍这种聚类度量方法,聚类分析原理介绍,变量按测量尺度(Measurement Level)分类 间隔(Interval)尺度变量 连续变量,如长度、重量、速度、温度等 有序(Ordinal)尺度变量 等级变量,不可加,但可比,如一等、二等、三等奖学金 名义(Nominal)尺度变量 类别变量,不可加也不可比,如性别、职业等,当对象是同时被各种类型的变量描述时,怎样描述对象之间的
8、相异度呢? 一种可取的办法是把所有变量一起处理,将不同类型的变量组合在单个相异矩阵中,把所有有意义的变量转换到【0,1】的区间上,只进行一次聚类分析。详见参考书,主要聚类算法的分类,层次的方法(也称系统聚类法)(hierarchical method) 划分方法(partitioning method) 基于密度的方法(density-based method) 基于网格的方法(grid-based method) 基于模型的方法(model-based method) 其中,前两种算法是利用统计学定义的距离进行度量,层次的方法(也称系统聚类法)(hierarchical method),定义
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 方法 法子 clustering
限制150内