聚类分析和判别分析PPT课件.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《聚类分析和判别分析PPT课件.ppt》由会员分享,可在线阅读,更多相关《聚类分析和判别分析PPT课件.ppt(22页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于聚类分析与判别分析第一张,PPT共二十二页,创作于2022年6月概述概述n聚聚类类分分析析:顾顾名名思思义义是是一一种种分分类类的的多多元元统统计计分分析析方方法法。按按照照个个体体或或样样品品(individuals,objects or subjects)的的特特征征将将它它们们分分类类,使使同同一一类类别别内内的的个个体体具具有有尽尽可可能能高高的的同同质质性性(homogeneity),而而类类别别之之间间则则应应具具有尽可能高的异质性有尽可能高的异质性(heterogeneity)。第二张,PPT共二十二页,创作于2022年6月基本思想基本思想n指指标标:描描述述研研究究对对象象
2、(样样本本或或变变量量,常常用用的的是是样样本本)之之间间的的联联系系的的紧紧密密程程度度。“距距离离”和和“相相似似系系数数”,假假定定研研究究对对象象均均用用所所谓谓的的“点点”来表示。来表示。n一一般般的的规规则则是是将将“距距离离”较较小小的的点点或或“相相似似系系数数”较较大大的的点点归归为为同同一类,将一类,将“距离距离”较大的点或较大的点或“相似系数相似系数”较小的点归为不同的类!较小的点归为不同的类!n严严格格说说来来聚聚类类分分析析并并不不是是纯纯粹粹的的统统计计技技术术,它它不不像像其其它它多多元元分分析析法法那那样样,需需要要从从样样本本去去推推断断总总体体。聚聚类类分分
3、析析一一般般都都涉涉及及不不到到有有关关统统计计量量的的分分布布,也也不不需需要要进进行行显显著著性性检检验验。聚聚类类分分析析更更像像是是一一种种建建立立假假设设的的方方法,而对假设的检验还需要借助其它统计方法。法,而对假设的检验还需要借助其它统计方法。第三张,PPT共二十二页,创作于2022年6月n分分类类:nQ型型聚聚类类对对样样本本进进行行分分类类处处理理;nR型型聚聚类类对对变变量量进进行行分分类类处处理理。n方方法法:n系系统统聚聚类类法法nK-均均值值聚聚类类法法n有有序序样样品品聚聚类类法法第四张,PPT共二十二页,创作于2022年6月个体之间距离的度量方法个体之间距离的度量方
4、法n针针对对连连续续变变量量的的距距离离测测量量:n欧欧式式距距离离;n欧欧式式距距离离平平方方;n切切比比雪雪夫夫距距离离;n布布洛洛克克距距离离;n明明可可夫夫斯斯基基距距离离;n自自定定义义距距离离;n夹夹角角余余弦弦;n皮皮尔尔逊逊相相关关系系数数第五张,PPT共二十二页,创作于2022年6月n针针对对计计数数变变量量的的距距离离测测度度:n卡卡方方距距离离;nPhi方方距距离离;n针针对对二二值值变变量量的的距距离离测测度度:n二二值值欧欧式式距距离离;n二二值值欧欧式式距距离离平平方方;n不不对对称称指指数数;n不不相相似似性性测测度度;n方方差差一般聚类个数在46类,不宜太多,或
5、太少;第六张,PPT共二十二页,创作于2022年6月聚类分析应注意的问题聚类分析应注意的问题n所选择的变量应符合聚类的要求;所选择的变量应符合聚类的要求;n各变量的变量值不应有数量级上的差异;各变量的变量值不应有数量级上的差异;n各变量间不应有较强的线性相关关系。各变量间不应有较强的线性相关关系。第七张,PPT共二十二页,创作于2022年6月系统聚类系统聚类/层次聚类层次聚类n凝凝聚聚式式聚聚类类和和分分解解式式聚聚类类。n基基本本思思想想:距距离离相相近近的的样样品品(或或变变量量)先先聚聚成成类类,距距离离相相远远的的后后聚聚成成类类,过过程程一一直直进进行行下下去去,每每个个样样品品(或
6、或变变量量)总总能能聚聚到到合合适适的的类类中中。n步步骤骤:n第第一一步步:每每个个样样品品独独自自聚聚成成类类,共共n个个类类;n第第二二步步:把把距距离离较较近近的的两两个个样样品品聚聚合合为为一一类类,形形成成n-1类类;n第第三三步步:将将n-1个个类类中中“距距离离”最最近近的的两两个个类类进进一一步步聚聚成成一一类类,形形成成n-2类类;n直直至至所所有有样样品品全全聚聚成成一一类类。第八张,PPT共二十二页,创作于2022年6月个体与小类,小类与小类个体与小类,小类与小类“亲疏程度亲疏程度”度量方法度量方法n组间平均连接距离:个体与小类中每个个体距离的平均值;组间平均连接距离:
7、个体与小类中每个个体距离的平均值;n组组内内平平均均连连接接距距离离:个个体体与与小小类类中中每每个个个个体体距距离离以以及及小小类类内内各各个个体间距离的平均值体间距离的平均值;n最近邻距离:个体与小类中每个个体距离的最小值;最近邻距离:个体与小类中每个个体距离的最小值;n最远邻距离:个体与小类中每个个体距离的最大值;最远邻距离:个体与小类中每个个体距离的最大值;n重心距离:该个体与小类的重心点的距离;重心距离:该个体与小类的重心点的距离;n中位数距离;中位数距离;n离离差差平平方方和和法法:使使小小类类内内离离差差平平方方和和增增加加最最小小的的两两小小类类应应首首先先合合并并为一类。为一
8、类。第九张,PPT共二十二页,创作于2022年6月案例案例9.3 系统聚类分析系统聚类分析n案案例例9.3.sav的的资资料料是是我我国国2005年年各各地地城城镇镇居居民民平平均均每每人人全全年年家家庭庭收入来源统计表。试对全国各地区的收入来源结构进行分类。收入来源统计表。试对全国各地区的收入来源结构进行分类。第十张,PPT共二十二页,创作于2022年6月二阶段聚类分析二阶段聚类分析n二二阶阶段段聚聚类类分分析析是是一一种种新新型型的的分分层层聚聚类类方方法法,主主要要用用于于一一般般的的数数据据挖挖掘掘和和多多元元统统计计的的交交叉叉领领域域模模式式分分类类,其其算算法法适适用用于于任任何
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 判别分析 PPT 课件
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内