系统工程聚类分析精品文稿.ppt
《系统工程聚类分析精品文稿.ppt》由会员分享,可在线阅读,更多相关《系统工程聚类分析精品文稿.ppt(29页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、系系统工程聚工程聚类分析分析第1页,本讲稿共29页什么是聚类分析聚类分析是根据“物以类聚”的道理,对样品(观测量)或指标(变量)进行分类的一种多元统计分析方法。将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。聚类分析的目的:使类内对象的同质性最大化和类间对象的异质性最大化。原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。第2页,本讲稿共29页聚类分析的应用:无处不在早在孩提时代,人就通过不断改进下意识中的聚类模式来学会如何区分猫和狗,动物和植物谁经常光顾商店,谁买什么东西,买多少?按忠诚卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量
2、分类这样商店可以.识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习惯周末时一次性大采购)刻画不同的客户群的特征(用变量来刻画,就象刻画猫和狗的特征一样)第3页,本讲稿共29页为什么这样分类?(分类的好处)因为每一个类别里面的人消费方式都不一样,需要针对不同的人群,制定不同的关系管理方式,以提高客户对公司商业活动的参与率。挖掘有价值的客户,并制定相应的促销策略:如,对经常购买酸奶的客户对累计消费达到12个月的老客户针对潜在客户派发广告,比在大街上乱发传单命中率更高,成本更低!第4页,本讲稿共29页如:对企业的经济效益进行评价时,建立了一个由多个指标组成的指标体系,由于信息的重叠,一些指标之间存在
3、很强的相关性,所以需要将相似的指标聚为一类,从而达到简化指标体系的目的。第5页,本讲稿共29页基本思想:是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类,把不相似的归为其他类。直到把所有的样品(或指标)聚合完毕.相似样本或指标的集合称为类。问题:如何来选择样品(或指标)间相似的测度指标,如何将有相似性的类连接起来?第6页,本讲稿共29页聚类分析的类型有:对样本分类,称为Q型聚类分析对变量分类,称为R型聚类分析nQ Q型聚类型聚类是对样本进行聚类,它使具有相似性特征的样本聚集在一起,使差异性大的样本
4、分离开来。nR R型聚类型聚类是对变量进行聚类,它使具有相似性的变量聚集在一起,差异性大的变量分离开来,可在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数,达到变量降维的目的。第7页,本讲稿共29页n样品聚类:样品聚类:对观测量(Case)进行聚类(不同的目的选用不同的指标作为分类的依据,如选拔运动员与分课外活动小组)。n变量聚类:变量聚类:找出彼此独立且有代表性的自变量,而又不丢失大部分信息。在生产活动中不乏有变量聚类的实例,如:衣服号码(身长、胸围、裤长、腰围)、鞋的号码。变量聚类使批量生产成为可能。第8页,本讲稿共29页聚类分析的方法:系统聚类(层次聚类)非系统聚类(非
5、层次聚类)系统聚类法包括:凝聚方式聚类、分解方式聚类非系统聚类法包括:模糊聚类法、K均值法(快速聚类法)等等第9页,本讲稿共29页以系统聚类法为例第10页,本讲稿共29页样本或变量的相似性程度的数量指标:距离距离 它是将每一个样品看作p维空间的一个点,并用某种度量方法测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。相似系数相似系数 性质越接近的变量或样品,它们的相似系数越接近于1或一l,而彼此无关的变量或样品它们的相似系数则越接近于0,相似的为一类,不相似的为不同类;样本分类(样本分类(QQ型聚类)型聚类)常以常以距离距离刻画相似性刻画相似性指标分类指标分类(R(R型聚类
6、型聚类)常以常以相似系数相似系数刻画相似性刻画相似性第11页,本讲稿共29页第12页,本讲稿共29页常用距离明考夫斯基距离(Minkowski distance)明氏距离有三种特殊形式:绝对距离(Block距离):当q=1时第13页,本讲稿共29页常用距离明氏距离有三种特殊形式:欧氏距离欧氏距离(Euclidean distance):当q=2时切比雪夫距离:当 q=时第14页,本讲稿共29页明考夫斯基距离主要有以下两个缺点:明氏距离的值与各指标的量纲有关,而各指标计量单位的选择有一定的人为性和随意性,各变量计量单位的不同不仅使此距离的实际意义难以说清,而且,任何一个变量计量单位的改变都会使此
7、距离的数值改变从而使该距离的数值依赖于各变量计量单位的选择。明氏距离的定义没有考虑各个变量之间的相关性和重要性。实际上,明考夫斯基距离是把各个变量都同等看待,将两个样品在各个变量上的离差简单地进行了综合。第15页,本讲稿共29页当各变量的单位不同或测量值范围相差很大时,不应直接采用明氏距离,而应先对各变量的数据作标准化处理,然后用标准化后的数据计算距离。常用的标准化处理:常用的标准化处理:其中 为第j个变量的样本均值;为第j个变量的样本方差。第16页,本讲稿共29页二、相似系数二、相似系数相似系数(或其绝对值)越大,变量之间的相似性程度越高;反之,越低。聚类时,比较相似的变量归为一类,不太相似
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 系统工程 聚类分析 精品 文稿
限制150内