聚类分析简介原理与应用教学文案.ppt
《聚类分析简介原理与应用教学文案.ppt》由会员分享,可在线阅读,更多相关《聚类分析简介原理与应用教学文案.ppt(62页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、20-1120-11月月月月-22-22 多元统计分析:聚类分析1聚类分析简介原理与应用20-1120-11月月月月-22-22 多元统计分析:聚类分析2聚类分析的定义n 聚类分析是研究如何研究对象(样品或变量)按照多个方面的特征进行综合分类的一种多元统计方法,它是根据物以类聚的原理将相似的样品(或变量)归为一类。n聚类和分类有什么区别?n无监督学习n与分类判别不同,进行聚类前并不知道将要划分成几个组和什么样的组,也不知道根据哪些空间区分规则来定义组20-1120-11月月月月-22-22 多元统计分析:聚类分析3n商业n聚类分析被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征。
2、聚类分析是细分市场的有效工具,同时也可用于研究消费者行为,寻找新的潜在市场、选择实验的市场,并作为多元分析的预处理。聚类分析主要应用20-1120-11月月月月-22-22 多元统计分析:聚类分析4聚类分析主要应用n生物n聚类分析被用来动植物分类和对基因进行分类,获取对种群固有结构的认识20-1120-11月月月月-22-22 多元统计分析:聚类分析5Q型聚类统计量与R型聚类统计量设有容量为n的样本观测数据,观测矩阵为:样本变量Q型聚类R型聚类变量之间的聚类即R型聚类分析,常用相似系数来测度变量之间的亲疏程度。样品之间的聚类即Q型聚类分析,常用距离来测度样品之间的亲疏程度。20-1120-11
3、月月月月-22-22 多元统计分析:聚类分析6Q型聚类统计量距离n明氏距离测度明氏距离测度 明考夫斯基明考夫斯基(MinkowskiMinkowski)距离距离设 和是第i和 j 个样品的观测值,则二者之间的距离为:当 时,绝对值距离 当 时,欧氏距离当 时,切比雪夫距离20-1120-11月月月月-22-22 多元统计分析:聚类分析7记切比雪夫距离证明20-1120-11月月月月-22-22 多元统计分析:聚类分析8Q型聚类统计量距离国际象棋棋盘上二个位置间的切比雪夫距离是指王要从一个位子移至另一个位子需要走的步数。由于王可以往斜前或斜后方向移动一格,因此可以较有效率的到达目的的格子。上图是
4、棋盘上所有位置距f6位置的切比雪夫距离。20-1120-11月月月月-22-22 多元统计分析:聚类分析9Q型聚类统计量距离明氏距离两个缺点:n明氏距离的值与各指标的量纲有关n明氏距离的定义没有考虑各个变量之间的相关性和重要性。明氏距离是把各个变量都同等看待,将两个样品在各个变量上的离差简单地进行了综合。n兰氏距离兰氏距离20-1120-11月月月月-22-22 多元统计分析:聚类分析10n马氏距离马氏距离Q型聚类统计量距离这是印度著名统计学家马哈拉诺比斯(PCMahalanobis)所定义的一种距离,其计算公式为:分别表示第i个样品和第j样品的p指标观测值所组成的列向量,即样本数据矩阵中第i
5、个和第j个行向量的转置,表示观测变量之间的协方差短阵。在实践应用中,若总体协方差矩阵 未知,则可用样本协方差矩阵作为估计代替计算。20-1120-11月月月月-22-22 多元统计分析:聚类分析11R型聚类统计量相似系数n相似系数设 和是第 和 个样品的观测值,则二者之间的相似测度为:20-1120-11月月月月-22-22 多元统计分析:聚类分析12R型聚类统计量夹角余弦n夹角余弦夹角余弦时从向量集合的角度所定义的一种测度变量之间亲疏程度的相似系数。设在n维空间的向量20-1120-11月月月月-22-22 多元统计分析:聚类分析13问题n马(欧)氏距离和余弦相似度的区别20-1120-11
6、月月月月-22-22 多元统计分析:聚类分析14问题n适用于何种不同的数据分析模型n欧氏距离能够体现个体数值特征的绝对差异,所以更多的用于需要从维度的数值大小中体现差异的分析,如使用用户行为指标分析用户价值的相似度或差异n余弦相似度更多的是从方向上区分差异,而对绝对的数值不敏感,更多的用于使用用户对内容评分来区分用户兴趣的相似度和差异,同时修正了用户间可能存在的度量标准不统一的问题(因为余弦相似度对绝对数值不敏感)商品商品1商品商品2用户133用户25520-1120-11月月月月-22-22 多元统计分析:聚类分析15问题nQ型与R型聚类区别?Q型聚类:当聚类把所有的观测记录(cases)进
7、行分类时,它把性质相似的观测分在同一个类,性质差异较大的观测分在不同的类。R型聚类:当聚类把变量(variables)作为分类对象时。这种聚类用在变量数目比较多、且相关性比较强的情形,目的是将性质相近的变量聚类为同一个类,并从中找出代表变量,从而减少变量个数以达到降维的效果。20-1120-11月月月月-22-22 多元统计分析:聚类分析16系统聚类n凝聚的:从点作为个体簇开始,每一步合并两个最接近的簇。这需要定义簇的临近性(类间距离)的概念。n分裂的:从包含所有点的某个簇开始,每一步分裂一个簇,直到剩下单点簇。在这种情况下,我们需要确定我每一步分裂那个簇,以及如何分裂。20-1120-11月
8、月月月-22-22 多元统计分析:聚类分析17系统聚类方法n最短距离法设两个类 ,分别含有n1和n2个样本点20-1120-11月月月月-22-22 多元统计分析:聚类分析18系统聚类方法若某步聚类将 和 合并为新类 ,即 ,新类 与其他类 间的距离递推公式为 20-1120-11月月月月-22-22 多元统计分析:聚类分析19系统聚类方法n最长距离法设两个类 ,分别含有n1和n2个样本点20-1120-11月月月月-22-22 多元统计分析:聚类分析20系统聚类方法若某步聚类将 和 合并为新类 ,即 ,新类 与其他类 间的距离递推公式为 20-1120-11月月月月-22-22 多元统计分析
9、:聚类分析21系统聚类方法n重心法重心距离:两类中心分别为 ,则20-1120-11月月月月-22-22 多元统计分析:聚类分析2220-1120-11月月月月-22-22 多元统计分析:聚类分析2320-1120-11月月月月-22-22 多元统计分析:聚类分析24系统聚类方法n类平均法20-1120-11月月月月-22-22 多元统计分析:聚类分析25递推公式:推导:20-1120-11月月月月-22-22 多元统计分析:聚类分析26系统聚类方法n离差平方和设将n个样品分成k类G1,G2,Gk,用Xit表示Gt中的第I个样品,nt表示Gt中样品的个数,是Gt的重心,则Gt的样品离差平方和为
10、20-1120-11月月月月-22-22 多元统计分析:聚类分析27系统聚类方法20-1120-11月月月月-22-22 多元统计分析:聚类分析28递推公式上述的各种类间距离定义的递推公式可以统一成如下公式20-1120-11月月月月-22-22 多元统计分析:聚类分析29系统聚类书:175页例子20-1120-11月月月月-22-22 多元统计分析:聚类分析30系统聚类类的个数确定n给定阈值:通过观测聚类图,给出一个合适的阈值T。要求类与类之间的距离不要超过T值。例如我们给定T=0.3,当聚类时,类间的距离已经超过了0.3,则聚类结束。20-1120-11月月月月-22-22 多元统计分析:
11、聚类分析31系统聚类半偏相关n半偏相关统计量其中T是数据的总离差平方和,是组内离差平方和。比较大,说明分比较大,说明分G G个类时类内的离差平方和比较小,也个类时类内的离差平方和比较小,也就是说分就是说分G G类是合适的。但是,分类越多,每个类的类内的类是合适的。但是,分类越多,每个类的类内的离差平方和就越小,离差平方和就越小,也就越大;所以我们只能取合适的也就越大;所以我们只能取合适的G G,使得,使得 足够大,而足够大,而G G本身很小本身很小,随着,随着G G的增加,的增加,的增幅的增幅不大。比如,假定分不大。比如,假定分4 4类时,类时,=0.8=0.8;下一次合并分下一次合并分3 3
12、类时类时,下降了许多,下降了许多,=0.32=0.32,则分,则分4 4类是合适的。类是合适的。20-1120-11月月月月-22-22 多元统计分析:聚类分析32系统聚类半偏相关20-1120-11月月月月-22-22 多元统计分析:聚类分析33系统聚类伪F统计量n伪F统计量伪F统计量用于评价聚为G类的效果。如果聚类的效果好,类间的离差平方和相对于类内的离差平方和大,所以应该取伪F统计量较大而类数较小的聚类水平。其中T是数据的总离差平方和,是类内离差平方和20-1120-11月月月月-22-22 多元统计分析:聚类分析34系统聚类伪F统计量20-1120-11月月月月-22-22 多元统计分
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 简介 原理 应用 教学 文案
限制150内