聚类分析与判别分析.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《聚类分析与判别分析.ppt》由会员分享,可在线阅读,更多相关《聚类分析与判别分析.ppt(22页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于聚类分析与判别分析现在学习的是第1页,共22页概述概述n聚类分析:顾名思义是一种分类的多元统计分析方法。按照个体或聚类分析:顾名思义是一种分类的多元统计分析方法。按照个体或样品样品(individuals,objects or subjects)的特征将它们分类,使同的特征将它们分类,使同一类别内的个体具有尽可能高的同质性一类别内的个体具有尽可能高的同质性(homogeneity),而类别之,而类别之间则应具有尽可能高的异质性间则应具有尽可能高的异质性(heterogeneity)。现在学习的是第2页,共22页基本思想基本思想n指标:描述研究对象(样本或变量,常用的是样本)之间的联指标:描
2、述研究对象(样本或变量,常用的是样本)之间的联系的紧密程度。系的紧密程度。“距离距离”和和“相似系数相似系数”,假定研究对象均用,假定研究对象均用所谓的所谓的“点点”来表示。来表示。n一般的规则是将一般的规则是将“距离距离”较小的点或较小的点或“相似系数相似系数”较大的点归为较大的点归为同一类,将同一类,将“距离距离”较大的点或较大的点或“相似系数相似系数”较小的点归为不同较小的点归为不同的类!的类!n严格说来聚类分析并不是纯粹的统计技术,它不像其它多元分析法那严格说来聚类分析并不是纯粹的统计技术,它不像其它多元分析法那样,需要从样本去推断总体。聚类分析一般都涉及不到有关统计量的样,需要从样本
3、去推断总体。聚类分析一般都涉及不到有关统计量的分布,也不需要进行显著性检验。聚类分析更像是一种建立假设的方分布,也不需要进行显著性检验。聚类分析更像是一种建立假设的方法,而对假设的检验还需要借助其它统计方法。法,而对假设的检验还需要借助其它统计方法。现在学习的是第3页,共22页n分分类:类:nQ型型聚聚类类对对样样本本进进行行分分类类处处理;理;nR型型聚聚类类对对变变量量进进行行分分类类处处理。理。n方方法:法:n系系统统聚聚类类法法nK-均均值值聚聚类类法法n有有序序样样品品聚聚类类法法现在学习的是第4页,共22页个体之间距离的度量方法个体之间距离的度量方法n针针对对连连续续变变量量的的距
4、距离离测测量:量:n欧欧式式距距离;离;n欧欧式式距距离离平平方;方;n切切比比雪雪夫夫距距离;离;n布布洛洛克克距距离;离;n明明可可夫夫斯斯基基距距离;离;n自自定定义义距距离;离;n夹夹角角余余弦;弦;n皮皮尔尔逊逊相相关关系系数数现在学习的是第5页,共22页n针针对对计计数数变变量量的的距距离离测测度:度:n卡卡方方距距离;离;nPhi方方距距离;离;n针针对对二二值值变变量量的的距距离离测测度:度:n二二值值欧欧式式距距离;离;n二二值值欧欧式式距距离离平平方;方;n不不对对称称指指数;数;n不不相相似似性性测测度;度;n方方差差一般聚类个数在46类,不宜太多,或太少;现在学习的是第
5、6页,共22页聚类分析应注意的问题聚类分析应注意的问题n所选择的变量应符合聚类的要求;所选择的变量应符合聚类的要求;n各变量的变量值不应有数量级上的差异;各变量的变量值不应有数量级上的差异;n各变量间不应有较强的线性相关关系。各变量间不应有较强的线性相关关系。现在学习的是第7页,共22页系统聚类系统聚类/层次聚类层次聚类n凝凝聚聚式式聚聚类类和和分分解解式式聚聚类。类。n基基本本思思想:想:距距离离相相近近的的样样品品(或或变变量)量)先先聚聚成成类,类,距距离离相相远远的的后后聚聚成成类,类,过过程程一一直直进进行行下下去,去,每每个个样样品品(或或变变量)量)总总能能聚聚到到合合适适的的类
6、类中。中。n步步骤:骤:n第第一一步:步:每每个个样样品品独独自自聚聚成成类,类,共共n个个类;类;n第第二二步:步:把把距距离离较较近近的的两两个个样样品品聚聚合合为为一一类,类,形形成成n-1类;类;n第第三三步:步:将将n-1个个类类中中“距距离离”最最近近的的两两个个类类进进一一步步聚聚成成一一类,类,形形成成n-2类;类;n直直至至所所有有样样品品全全聚聚成成一一类。类。现在学习的是第8页,共22页个体与小类,小类与小类个体与小类,小类与小类“亲疏程度亲疏程度”度量方法度量方法n组间平均连接距离:个体与小类中每个个体距离的平均值;组间平均连接距离:个体与小类中每个个体距离的平均值;n
7、组内平均连接距离:组内平均连接距离:个体与小类中每个个体距离以及小类内各个体与小类中每个个体距离以及小类内各个体间距离的平均值个体间距离的平均值;n最近邻距离:个体与小类中每个个体距离的最小值;最近邻距离:个体与小类中每个个体距离的最小值;n最远邻距离:个体与小类中每个个体距离的最大值;最远邻距离:个体与小类中每个个体距离的最大值;n重心距离:该个体与小类的重心点的距离;重心距离:该个体与小类的重心点的距离;n中位数距离;中位数距离;n离差平方和法:使小类内离差平方和增加最小的两小类应首先合并离差平方和法:使小类内离差平方和增加最小的两小类应首先合并为一类。为一类。现在学习的是第9页,共22页
8、案例案例9.3 系统聚类分析系统聚类分析n案例案例9.3.sav的资料是我国的资料是我国2005年各地城镇居民平均每人全年家庭年各地城镇居民平均每人全年家庭收入来源统计表。试对全国各地区的收入来源结构进行分类。收入来源统计表。试对全国各地区的收入来源结构进行分类。现在学习的是第10页,共22页二阶段聚类分析二阶段聚类分析n二阶段聚类分析是一种新型的分层聚类方法,主要用于一般的数据二阶段聚类分析是一种新型的分层聚类方法,主要用于一般的数据挖掘和多元统计的交叉领域挖掘和多元统计的交叉领域模式分类,其算法适用于任何尺度模式分类,其算法适用于任何尺度的变量。的变量。现在学习的是第11页,共22页案例案
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 判别分析
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内