系统工程聚类分析幻灯片.ppt
《系统工程聚类分析幻灯片.ppt》由会员分享,可在线阅读,更多相关《系统工程聚类分析幻灯片.ppt(29页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、系系统工程聚工程聚类分析分析第1页,共29页,编辑于2022年,星期一什么是聚类分析聚类分析是根据“物以类聚”的道理,对样品(观测量)或指标(变量)进行分类的一种多元统计分析方法。将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。聚类分析的目的:使类内对象的同质性最大化和类间对象的异质性最大化。原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。第2页,共29页,编辑于2022年,星期一聚类分析的应用:无处不在早在孩提时代,人就通过不断改进下意识中的聚类模式来学会如何区分猫和狗,动物和植物谁经常光顾商店,谁买什么东西,买多少?按忠诚卡记录的光临次数、光临时间
2、、性别、年龄、职业、购物种类、金额等变量分类这样商店可以.识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习惯周末时一次性大采购)刻画不同的客户群的特征(用变量来刻画,就象刻画猫和狗的特征一样)第3页,共29页,编辑于2022年,星期一为什么这样分类?(分类的好处)因为每一个类别里面的人消费方式都不一样,需要针对不同的人群,制定不同的关系管理方式,以提高客户对公司商业活动的参与率。挖掘有价值的客户,并制定相应的促销策略:如,对经常购买酸奶的客户对累计消费达到12个月的老客户针对潜在客户派发广告,比在大街上乱发传单命中率更高,成本更低!第4页,共29页,编辑于2022年,星期一如:对企业的经济效益
3、进行评价时,建立了一个由多个指标组成的指标体系,由于信息的重叠,一些指标之间存在很强的相关性,所以需要将相似的指标聚为一类,从而达到简化指标体系的目的。第5页,共29页,编辑于2022年,星期一基本思想:是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类,把不相似的归为其他类。直到把所有的样品(或指标)聚合完毕.相似样本或指标的集合称为类。问题:如何来选择样品(或指标)间相似的测度指标,如何将有相似性的类连接起来?第6页,共29页,编辑于2022年,星期一聚类分析的类型有:对样本分类,称为Q型聚类分
4、析对变量分类,称为R型聚类分析nQQ型聚类型聚类是对样本进行聚类,它使具有相似性特征的样本聚集在一起,使差异性大的样本分离开来。nR R型聚类型聚类是对变量进行聚类,它使具有相似性的变量聚集在一起,差异性大的变量分离开来,可在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数,达到变量降维的目的。第7页,共29页,编辑于2022年,星期一n样品聚类:样品聚类:对观测量(Case)进行聚类(不同的目的选用不同的指标作为分类的依据,如选拔运动员与分课外活动小组)。n变量聚类:变量聚类:找出彼此独立且有代表性的自变量,而又不丢失大部分信息。在生产活动中不乏有变量聚类的实例,如:衣服号码
5、(身长、胸围、裤长、腰围)、鞋的号码。变量聚类使批量生产成为可能。第8页,共29页,编辑于2022年,星期一聚类分析的方法:系统聚类(层次聚类)非系统聚类(非层次聚类)系统聚类法包括:凝聚方式聚类、分解方式聚类非系统聚类法包括:模糊聚类法、K均值法(快速聚类法)等等第9页,共29页,编辑于2022年,星期一以系统聚类法为例第10页,共29页,编辑于2022年,星期一样本或变量的相似性程度的数量指标:距离距离 它是将每一个样品看作p维空间的一个点,并用某种度量方法测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。相似系数相似系数 性质越接近的变量或样品,它们的相似系数越接近于
6、1或一l,而彼此无关的变量或样品它们的相似系数则越接近于0,相似的为一类,不相似的为不同类;样本分类(样本分类(QQ型聚类)型聚类)常以常以距离距离刻画相似性刻画相似性指标分类指标分类(R(R型聚类型聚类)常以常以相似系数相似系数刻画相似性刻画相似性第11页,共29页,编辑于2022年,星期一第12页,共29页,编辑于2022年,星期一常用距离明考夫斯基距离(Minkowski distance)明氏距离有三种特殊形式:绝对距离(Block距离):当q=1时第13页,共29页,编辑于2022年,星期一常用距离明氏距离有三种特殊形式:欧氏距离欧氏距离(Euclidean distance):当q
7、=2时切比雪夫距离:当 q=时第14页,共29页,编辑于2022年,星期一明考夫斯基距离主要有以下两个缺点:明氏距离的值与各指标的量纲有关,而各指标计量单位的选择有一定的人为性和随意性,各变量计量单位的不同不仅使此距离的实际意义难以说清,而且,任何一个变量计量单位的改变都会使此距离的数值改变从而使该距离的数值依赖于各变量计量单位的选择。明氏距离的定义没有考虑各个变量之间的相关性和重要性。实际上,明考夫斯基距离是把各个变量都同等看待,将两个样品在各个变量上的离差简单地进行了综合。第15页,共29页,编辑于2022年,星期一当各变量的单位不同或测量值范围相差很大时,不应直接采用明氏距离,而应先对各
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 系统工程 聚类分析 幻灯片
限制150内