《聚类分析详解课件.ppt》由会员分享,可在线阅读,更多相关《聚类分析详解课件.ppt(65页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、报告人:-主要内容引言聚类分析原理聚类分析的种类聚类分析应注意的问题聚类分析应用聚类分析工具及案例分析-引言“物以类聚,人以群分”市场营销中的市场细分和客户细分问题。可从客户分类入手,根据客户的年龄、职业、收入、消费金额、消费频率、喜好等方面进行单变量或者多变量的客户分组。不足:不足:客户群划分带有明显的主观色彩,需要有丰富的行业经验才能做到比较合理和理想的客户细分。主要表现在,同一客户细分段中的客户在某些方面并不相似,而不同客户细分段中的客户在某些特征方面却又很相似。解决方法:解决方法:从数据自身出发,充分利用数据进行客户的客观分组,使诸多有相似性的客户被分在同一组,而不相似的客户被区分到另
2、一组中。这时便可采用聚类分析方法。-主要内容引言聚类分析原理聚类分析原理聚类分析的种类聚类分析应注意的问题聚类分析应用聚类分析工具及案例分析-聚类分析定义聚类:聚类:聚类(clustering)是对大量未知标注的数据集,按数据的内在相似性内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小,其过程被称为聚类。-聚类分析定义聚类分析定义:聚类分析定义:聚类分析是将样品样品或变量变量按照他们性质上的亲疏程度亲疏程度进行分类的多元统计分析方法。进行聚类分析时,用来描述物品或变量的亲疏程度通常有两个途径:一是把每个样品或变量看成是多维空间上的一个点,在多维坐标中,定义点与
3、点、类与类之间的距离,用点与点间距离距离来描述样品或变量的亲疏程度;二是计算样品或变量的相似系数相似系数,用相似系数来描述样品或变量之间的亲疏程度。-聚类分析特点聚类分析是一种建立分类的多元统计分析方法,它能将一批样本(或变量)数据根据其诸多特征,按照在性质上的亲疏程度亲疏程度在没有先验知识没有先验知识的情况下进行自动分类,产生多个分类结果。类内部的个体在特征上具有相似性,不同类间个体特征的差异性较大。-聚类分析特点编号编号购物环境购物环境服务质量服务质量A商厦7368B商厦6664C商厦8482D商厦9188E商厦9490把商厦分成两类:把商厦分为三类:没有指定分类标准,大家为什么会这么分呢
4、?从数据出发,根据性质上的亲疏程度亲疏程度进行分类!A、B为一类,C、D、E为一类A、B为一类,C为一类,D、E为一类-聚类分析特点编号编号购物环境购物环境服务质量服务质量A商厦7368B商厦6664C商厦8482D商厦9188E商厦9490把商厦分成两类:把商厦分为三类:没有指定分类标准,大家为什么会这么分呢?从数据出发,根据性质上的亲疏程度亲疏程度进行分类!A、B为一类,C、D、E为一类A、B为一类,C为一类,D、E为一类样本样本变量变量-亲疏程度的度量方法亲疏程度的度量也叫相似性度量,方法主要有两个:(1)距离距离常用来度量样品样品之间的相似性;(2)相似系数相似系数常用来度量变量变量之
5、间的相似性。编号编号购物环境购物环境服务质量服务质量A商厦7368B商厦6664C商厦8482D商厦9188E商厦9490样本样本变量变量-距离-距离欧氏(Euclidean)距离平方欧氏(Squared Euclidean)距离明氏(明科夫斯基 Minkowski)距离切比雪夫(Chebychev)距离兰氏(Lance和Willianms)距离马氏(Mahalanobis)距离斜交空间距离其他详细定义请参考教材:信息分析方法与应用王伟军,清华大学出版社SPSS统计分析方法及应用薛薇,电子工业出版社-距离编号编号购物环境购物环境服务质量服务质量A商厦7368B商厦6664-距离编号编号购物环境
6、购物环境服务质量服务质量A商厦7368B商厦6664E商厦9490-相似系数-相似系数-相似系数编号编号购物环境购物环境服务质量服务质量A商厦7368B商厦6664-参考教材:应用多元统计分析高惠璇,北京大学出版社相似系数-主要内容引言聚类分析原理聚类分析的种类聚类分析的种类聚类分析应注意的问题聚类分析应用聚类分析工具及案例分析-聚类分析的种类(1)系统聚类法(也叫分层聚类或层次聚类)(2)动态聚类法(也叫快速聚类)(3)模糊聚类法(4)图论聚类法-系统聚类法对比-常用的系统聚类方法一、最短距离法 二、最长距离法三、中间距离法四、类平均法五、重心法六、离差平方和法(Ward方法)-一、最短距离
7、法定义类与类之间的距离为两类最近样品间的距离,即详细步奏和实例详细步奏和实例-最短距离法的聚类步骤(1)规定样品之间的距离,计算 个样品的距离矩阵 ,它是一个对称矩阵。(2)选择 中的最小元素,设为 ,则将 和 合并成一个新类,记为 ,即(3)计算新类 与任一类 之间距离的递推公式为-最短距离法的聚类步骤在 中,和 所在的行和列合并成一个新行新列,对应 ,该行列上的新距离值由(6.3.2)式求得,其余行列上的距离值不变,这样就得到新的距离矩阵,记作 。(4)对 重复上述对 的两步得 ,如此下去直至所有元素合并成一类为止。如果某一步 中最小的元素不止一个,则称此现象为结(tie),对应这些最小元
8、素的类可以任选一对合并或同时合并。-28-二、最长距离法类与类之间的距离定义为两类最远样品间的距离,即详细步奏和实例详细步奏和实例-最长距离法与最短距离法的并类步骤完全相同,只是类间距离的递推公式有所不同。递推公式:最长距离法容易被异常值严重地扭曲,一个有效的方法是将这些异常值单独拿出来后再进行聚类。最长距离法的聚类步奏-三、中间距离法类与类之间的距离既不取两类最近样品间的距离,也不取两类最远样品间的距离,而是取介于两者中间的距离。-以上我们对例6.3.1采用了多种系统聚类法进行聚类,其结果都是相同的,原因是该例只有很少几个样品,此时聚类的过程不易有什么变化。一般来说,只要聚类的样品数目不是太
9、少,各种聚类方法所产生的聚类结果一般是不同的,甚至会有大的差异。从下面例子中可以看到这一点。-动态聚类法(快速聚类)动态聚类法的基本思想是,选择一批凝聚点或给出一个初始的分类,让样品按某种原则向凝聚点凝聚,对凝聚点进行不断的修改或迭代,直至分类比较合理或迭代稳定为止。类的个数k可以事先指定,也可以在聚类过程中确定。选择初始凝聚点(或给出初始分类)的一种简单方法是采用随机抽选(或随机分割)样品的方法。动态聚类法有许多种方法,一种比较流行的动态聚类法k均值法。对比-k均值法的基本步骤(1)选择k个样品作为初始凝聚点,或者将所有样品分成k个初始类,然后将这k个类的重心(均值)作为初始凝聚点。(2)对
10、除凝聚点之外的所有样品逐个归类,将每个样品归入凝聚点离它最近的那个类(通常采用欧氏距离),该类的凝聚点更新为这一类目前的均值,直至所有样品都归了类。(3)重复步骤(2),直至所有的样品都不能再分配为止。最终的聚类结果在一定程度上依赖于初始凝聚点或初始分类的选择。经验表明,聚类过程中的绝大多数重要变化均发生在第一次再分配中。-k均值法的基本步骤选择凝聚点初始分类分类是否合理修改分类最终分类否是-主要内容引言聚类分析原理聚类分析的种类聚类分析应注意的问题聚类分析应注意的问题聚类分析应用聚类分析工具及案例分析-聚类分析应注意的问题(1 1)所选择的变量应符合聚类的要求)所选择的变量应符合聚类的要求如
11、果希望依照学校的科研情况对高校进行分类,那么可以选择参加科研的人数、年投入经费、立项课题数、支出经费、科研成果数、获奖数等变量,而不应选择诸如在校学生人数、校园面积、年用水量等变量。因为它们不符合聚类的要求,分类的结果也就无法真实地反映科研分类的情况。-聚类分析应注意的问题(2 2)各变量的变量值不应该有数量级上的差异)各变量的变量值不应该有数量级上的差异聚类分析是以各种距离来度量个体间“亲疏”程度的。从各种距离的定义来看,数量级将对距离产生较大的影响,并影响最终的聚类结果。数据变换方法:数据变换方法:中心化变换规格化变换标准化变化对数变换平方根变化等参考教材:信息分析方法与应用王伟军,清华大
12、学出版社-聚类分析应注意的问题(3 3)各变量间不应有较强的线性相关关系)各变量间不应有较强的线性相关关系聚类分析是以各种距离来度量个体间的“亲疏”程度的。从各种距离的定义来看,所选择的每个变量都会在距离中做出“贡献”。如果所选变量之间存在较高的线性关系,能够相互替代,那么计算距离时同类变量将重复“贡献”,将在距离中有较高的权重,因而使最终的聚类结果偏向该类变量。-主要内容引言聚类分析原理聚类分析的种类聚类分析应注意的问题聚类分析应用聚类分析应用聚类分析工具及案例分析-聚类分析的应用经济领域:帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。谁喜欢打国际长
13、途,在什么时间,打到那里?对住宅区进行聚类,确定自动提款机ATM的安放位置股票市场板块分析,找出最具活力的板块龙头股企业信用等级分类生物学领域推导植物和动物的分类;对基因分类,获得对种群的认识数据挖掘领域作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定的类做进一步的研究-主要内容引言聚类分析原理聚类分析的种类聚类分析应注意的问题聚类分析应用聚类分析工具及案例分析聚类分析工具及案例分析-聚类分析工具及案例分析SPSSIBM SPSS Modeler(以前叫Clementine,商业化软件)SAS(SAS Enterprise Miner)商业数学软件MATLAB数据挖掘软件WEKA(免费的,非商业化)IBM DB2 Intelligent Miner其他(如DBMiner、See5等)国内常用的分析工具是SPSS以SPSS分析工具为例,对“某年20个代表性地区农村居民家庭平均每人生活消费现金支出”进行聚类分析。-农村居民家庭平均每人生活消费现金支出农村居民家庭平均每人生活消费现金支出-系统聚类分析最短距离法-系统聚类分析案例最短距离法-聚类表聚类表谱系图谱系图-最短距离法谱系图最短距离法谱系图最长距离法谱系图最长距离法谱系图-动态聚类分析案例-谢谢大家!请大家批评指正!谢谢大家!请大家批评指正!-
限制150内