欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    第12章-聚类分析课件.pptx

    • 资源ID:69310967       资源大小:967.07KB        全文页数:17页
    • 资源格式: PPTX        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第12章-聚类分析课件.pptx

    第12章 聚类分析 聚类分析13.1.1 聚类分析的基本原理13.1.2 层次聚类13.1.3 K-均值聚类13.1.4 聚类分析的Stata命令n把把“对象对象”分成不同的类别分成不同的类别l这这些些类类不不是是事事先先给给定定的的,而而是是直直接接根根据据数数据据的的特特征征确定的确定的n把把相相似似的的东东西西放放在在一一起起,从从而而使使得得类类别别内内部部的的“差差异异”尽可能小,而类别之间的尽可能小,而类别之间的“差异差异”尽可能大尽可能大n聚聚类类分分析析就就是是按按照照对对象象之之间间的的“相相似似”程程度度把把对对象象进进行行分类分类什么是聚类分析?(cluster analysis)n聚聚类类分分析析的的“对对象象”可可以以是是所所观观察察的的多多个个样样本本,也也可可以以是针对每个样本测得的多个变量是针对每个样本测得的多个变量n按照变量对所观察的样本进行分类称为按照变量对所观察的样本进行分类称为Q型聚类型聚类l按按照照多多项项经经济济指指标标(变变量量)对对不不同同的的地地区区(样样本本)进进行行分分类类n按照样本对多个变量进行分类,则称为按照样本对多个变量进行分类,则称为R型聚类型聚类l按照不同地区的样本数据对多个经济变量进行分类按照不同地区的样本数据对多个经济变量进行分类n两两种种聚聚类类没没有有什什么么本本质质区区别别,实实际际中中人人们们更更感感兴兴趣趣的的通通常是根据变量对样本进行分类常是根据变量对样本进行分类(Q型聚类型聚类)什么是聚类分析?(两种分类方式)n按对象的按对象的“相似相似”程度分类程度分类n根根据据样样本本的的观观测测数数据据测测度度变变量量之之间间的的相相似似性性程程度度可可以以使使用用夹夹角角余余弦弦、Pearson相相关关系系数数等等工工具具,也也称称为为相相似似系系数数l变量间的相似系数越大,说明它们越相近变量间的相似系数越大,说明它们越相近n根据变量来测度样本之间的相似程度则使用根据变量来测度样本之间的相似程度则使用“距离距离”l把把离离得得比比较较近近的的归归为为一一类类,而而离离得得比比较较远远的的放放在在不不同的类同的类什么是聚类分析?(按什么分类)相似性的度量(样本点间距离的计算方法)Euclidean距离距离Squared Euclidean距离距离Block距离距离Chebychev距离距离Minkovski距离距离n在在对对变变量量进进行行分分类类时时,度度量量变变量量之之间间的的相相似似性性常常用用相相似似系数,测度方法有系数,测度方法有相似性的度量(变量相似系数的计算方法)夹角余弦夹角余弦 Pearson相关系数相关系数 n层次聚类又称系统聚类层次聚类又称系统聚类n事事先先不不确确定定要要分分多多少少类类,而而是是先先把把每每一一个个对对象象作作为为一一类类,然后一层一层进行分类然后一层一层进行分类n根根据据运运算算的的方方向向不不同同,层层次次聚聚类类法法又又分分为为合合并并法法和和分分解解法法,两种方法的运算原理一样,只是方向相反,两种方法的运算原理一样,只是方向相反层次聚类(hierarchical cluster)n将每一个样本作为一类,如果是将每一个样本作为一类,如果是k个样本就分个样本就分k成类成类n按按照照某某种种方方法法度度量量样样本本之之间间的的距距离离,并并将将距距离离最最近近的的两两个样本合并为一个类别,从而形成了个样本合并为一个类别,从而形成了k-1个类别个类别n再再计计算算出出新新产产生生的的类类别别与与其其他他各各类类别别之之间间的的距距离离,并并将将距距离离最最近近的的两两个个类类别别合合并并为为一一类类。这这时时,如如果果类类别别的的个个数数仍仍然然大大于于1,则则继继续续重重复复这这一一步步,直直到到所所有有的的类类别别都都合合并成一类为止并成一类为止n总是先把离得最近的两个类进行合并总是先把离得最近的两个类进行合并l合并越晚的类,距离越远合并越晚的类,距离越远l事事先先并并不不会会指指定定最最后后要要分分成成多多少少类类,而而是是把把所所有有可可能能的的分分类类都都列列出出,再再视视具具体体情情况况选选择择一一个个合合适适的的分分类结果类结果 层次聚类(合并法)n分解方法原理与合并法相反分解方法原理与合并法相反n先先把把所所有有的的对对象象(样样本本或或变变量量)作作为为一一大大类类,然然后后度度量量对对象象之之间间的的距距离离或或相相似似程程度度,并并将将距距离离或或相相似似程程度度最最远远的的对象分离出去,形成两大类对象分离出去,形成两大类(其中的一类只有一个对象其中的一类只有一个对象)n再再度度量量类类别别中中剩剩余余对对象象之之间间的的距距离离或或相相似似程程度度,并并将将最最远远的的分分离离出出去去,不不断断重重复复这这一一过过程程,直直到到所所有有的的对对象象都都自成一类为止自成一类为止层次聚类(分解法)nNearest neighbor(最最短短距距离离法法)用用两两个个类类别别中中各各个个数数据据点点之之间间最最短短的的那那个个距距离离来来表表示示两两个个类类别别之之间间的距离的距离nFurthest neighbor(最最长长距距离离法法)用用两两个个类类别别中中各各个个数数据据点点之之间间最最长长的的那那个个距距离离来来表表示示两两个个类类别别之之间间的距离的距离nCentroid clustering(重重心心法法)用用两两个个类类别别的的重重心心之间的距离来表示两个类别之间的距离之间的距离来表示两个类别之间的距离nbetween-groups linkage(组组 间间 平平 均均 距距 离离 法法)SPSS的的默默认认方方法法。是是用用两两个个类类别别中中间间各各个个数数据据点点之之间的距离的平均来表示两个类别之间的距离间的距离的平均来表示两个类别之间的距离nWards method(离离差差平平方方和和法法)使使各各类类别别中中的的离离差平方和较小,而不同类别之间的离差平方和较大差平方和较小,而不同类别之间的离差平方和较大类间距离的计算方法n层层次次聚聚类类事事先先不不需需要要确确定定要要分分多多少少类类,聚聚类类过过程程一一层层层层进进行行,最最后后得得出出所所有有可可能能的的类类别别结结果果,研研究究这这根根据据具具体体情情况况确确定定最最后后需需要要的的类类别别。该该方方法法可可以以绘绘制制出出树树状状聚聚类类图图,方方便便使使用用者者直直观观选选择择类类别别,但但其其缺缺点点是是计计算算量量较较大大,对大批量数据的聚类效率不高对大批量数据的聚类效率不高nK-均均值值聚聚类类事事先先需需要要确确定定要要分分的的类类别别数数据据,计计算算量量要要小小得多,效率比层次聚类要高,得多,效率比层次聚类要高,n也被称为快速聚类也被称为快速聚类(quick cluster)K-均值聚类(K-means cluster)n第第1步:步:确定要分的类别数目确定要分的类别数目Kl需要研究者自己确定需要研究者自己确定l在在实实际际应应用用中中,往往往往需需要要研研究究者者根根据据实实际际问问题题反反复复尝尝试试,得得到到不不同同的的分分类类并并进进行行比比较较,得得出出最最后后要要分分的类别数量的类别数量n第第2步:步:确定确定K个类别的初始聚类中心个类别的初始聚类中心l要要求求在在用用于于聚聚类类的的全全部部样样本本中中,选选择择K个个样样本本作作为为K个类别的初始聚类中心个类别的初始聚类中心l与与确确定定类类别别数数目目一一样样,原原始始聚聚类类中中心心的的确确定定也也需需要要研究者根据实际问题和经验来综合考虑研究者根据实际问题和经验来综合考虑K-均值聚类(步骤)n第第3步步:根根据据确确定定的的K个个初初始始聚聚类类中中心心,依依次次计计算算每每个个样样本本到到K个个聚聚类类中中心心的的距距离离欧欧氏氏距距离离,并并根根据据距距离离最最近近的的原原则将所有的样本分到事先确定的则将所有的样本分到事先确定的K个类别中个类别中n第第4步步:根根据据所所分分成成的的K个个类类别别,计计算算出出各各类类别别中中每每个个变变量量的的均均值值,并并以以均均值值点点作作为为新新的的K个个类类别别中中心心。根根据据新新的的中中心心位位置置,重重新新计计算算每每个个样样本本到到新新中中心心的的距距离离,并并重重新新进行分类进行分类K-均值聚类(步骤)n第第5步:步:重复第重复第4步,直到满足终止聚类条件为止步,直到满足终止聚类条件为止l迭代次数达到研究者事先指定的最大迭代次数迭代次数达到研究者事先指定的最大迭代次数l新新确确定定的的聚聚类类中中心心点点与与上上一一次次迭迭代代形形成成的的中中心心点点的的最大偏移量小于指定的量最大偏移量小于指定的量nK-均均值值聚聚类类法法是是根根据据事事先先确确定定的的K个个类类别别反反复复迭迭代代直直到到把把每每个个样样本本分分到到指指定定的的里里类类别别中中。类类别别数数目目的的确确定定具具有有一一定定的的主主主主观观性性,究究竟竟分分多多少少类类合合适适,需需要要研研究究者者对对研研究究问题的了解程度、相关知识和经验问题的了解程度、相关知识和经验K-均值聚类(步骤)Stata命令matrix dissimilaritycluster、clustermatcluster kmeans、cluster kmedianscluster dendrogram17本章结束,谢谢观看!本章结束,谢谢观看!

    注意事项

    本文(第12章-聚类分析课件.pptx)为本站会员(飞****2)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开