欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    聚类分析的思路和方法讲稿.ppt

    • 资源ID:47078206       资源大小:1.31MB        全文页数:79页
    • 资源格式: PPT        下载积分:18金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要18金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    聚类分析的思路和方法讲稿.ppt

    关于聚类分析的思路和方法第一页,讲稿共七十九页哦2什么是聚类分析?v聚类分析是根据聚类分析是根据“物以类聚物以类聚”的道理,对样本或指标进行分的道理,对样本或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样本,类的一种多元统计分析方法,它们讨论的对象是大量的样本,要求能合理地按各自的特性进行合理的分类,没有任何模式要求能合理地按各自的特性进行合理的分类,没有任何模式可供参考或依循,即在没有先验知识的情况下进行的。可供参考或依循,即在没有先验知识的情况下进行的。第二页,讲稿共七十九页哦3聚类分析的基本思想聚类分析的基本思想v基本思想是认为研究的样本或变量之间存在着程度不同的相似性基本思想是认为研究的样本或变量之间存在着程度不同的相似性(亲疏关系)。(亲疏关系)。v根据一批样本的多个观测指标,找出一些能够度量样本或变量之根据一批样本的多个观测指标,找出一些能够度量样本或变量之间相似程度的统计量,以这些统计量作为分类的依据,把一些相间相似程度的统计量,以这些统计量作为分类的依据,把一些相似程度较大的样本(或指标)聚合为一类,把另外一些相似程度似程度较大的样本(或指标)聚合为一类,把另外一些相似程度较大的样本(或指标)聚合为一类,直到把所有的样本(或指标)较大的样本(或指标)聚合为一类,直到把所有的样本(或指标)都聚合完毕,形成一个由小到大的分类系统。都聚合完毕,形成一个由小到大的分类系统。第三页,讲稿共七十九页哦4聚类分析无处不在聚类分析无处不在v谁经常光顾商店,谁买什么东西,买多少?谁经常光顾商店,谁买什么东西,买多少?v按按会会员员卡卡记记录录的的光光临临次次数数、光光临临时时间间、性性别别、年年龄龄、职业、购物种类、金额等变量分类职业、购物种类、金额等变量分类v这样商店可以这样商店可以v识识别别顾顾客客购购买买模模式式(如如喜喜欢欢一一大大早早来来买买酸酸奶奶和和鲜鲜肉肉,习惯周末时一次性大采购)习惯周末时一次性大采购)v刻画不同的客户群的特征刻画不同的客户群的特征第四页,讲稿共七十九页哦5聚类分析无处不在v挖掘有价值的客户,并制定相应的促销策略:挖掘有价值的客户,并制定相应的促销策略:如,对经常购买酸奶的客户如,对经常购买酸奶的客户对累计消费达到对累计消费达到12个月的老客户个月的老客户v针针对对潜潜在在客客户户派派发发广广告告,比比在在大大街街上上乱乱发发传传单命中率更高,成本更低!单命中率更高,成本更低!第五页,讲稿共七十九页哦6聚类分析无处不在v谁是银行信用卡的黄金客户?谁是银行信用卡的黄金客户?利利用用储储蓄蓄额额、刷刷卡卡消消费费金金额额、诚诚信信度度等等变变量量对对客客户户分分类类,找找出出“黄金客户黄金客户”!这样银行可以这样银行可以制定更具吸引力的服务,留住客户!比如:制定更具吸引力的服务,留住客户!比如:v一定额度和期限的免息透支服务!一定额度和期限的免息透支服务!v赠送百盛的贵宾打折卡!赠送百盛的贵宾打折卡!v在他或她生日的时候送上一个小蛋糕!在他或她生日的时候送上一个小蛋糕!第六页,讲稿共七十九页哦7聚类的应用领域v经济领域:经济领域:帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻画不同的帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。客户群的特征。谁喜欢打国际长途,在什么时间,打到那里?谁喜欢打国际长途,在什么时间,打到那里?对住宅区进行聚类,确定自动提款机对住宅区进行聚类,确定自动提款机ATM的安放位置的安放位置股票市场板块分析,找出最具活力的板块龙头股股票市场板块分析,找出最具活力的板块龙头股企业信用等级分类企业信用等级分类v生物学领域生物学领域推导植物和动物的分类;推导植物和动物的分类;对基因分类,获得对种群的认识对基因分类,获得对种群的认识v数据挖掘领域数据挖掘领域作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定的类做进一步的研作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定的类做进一步的研究究第七页,讲稿共七十九页哦8 例例 对对10位位应应聘聘者者做做智智能能检检验验。3项项指指标标X,Y和和Z分分别别表表示示数数学学推推理理能能力力、空空间间想想象象能能力力和和语语言言理理解解能能力力。得分如下,选择合适的统计方法对应聘者进行分类。得分如下,选择合适的统计方法对应聘者进行分类。应聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424第八页,讲稿共七十九页哦9第九页,讲稿共七十九页哦10第十页,讲稿共七十九页哦11 聚聚类类分分析析根根据据一一批批样样本本的的许许多多观观测测指指标标,按按照照一一定定的的数数学学公公式式具具体体地地计计算算一一些些样样本本或或一一些些指指标标的的相相似似程程度度,把把相相似似的的样样本或指标归为一类,把不相似的归为一类。本或指标归为一类,把不相似的归为一类。第十一页,讲稿共七十九页哦12样本或变量间亲疏程度的测度样本或变量间亲疏程度的测度v研究样本或变量的亲疏程度的数量指标有两种:研究样本或变量的亲疏程度的数量指标有两种:v一一种种叫叫相相似似系系数数,性性质质越越接接近近的的变变量量或或样样本本,它它们们的的相相似似系系数数越越接接近近于于1 1或或一一l l,而而彼彼此此无无关关的的变变量量或或样样本本它它们们的的相相似似系系数数则则越越接接近近于于0 0,相相似似的的为为一一类类,不不相相似似的的为为不不同同类。类。v另另一一种种叫叫距距离离,它它是是将将每每一一个个样样本本看看作作p p维维空空间间的的一一个个点点,并并用用某某种种度度量量测测量量点点与与点点之之间间的的距距离离,距距离离较较近近的的归归为为一类,距离较远的点应属于不同的类。一类,距离较远的点应属于不同的类。第十二页,讲稿共七十九页哦13v设有设有n个样本单位,每个样本测得个样本单位,每个样本测得p项指标项指标(变量),原始资料矩阵为:(变量),原始资料矩阵为:第十三页,讲稿共七十九页哦14定比变量的聚类统计量:距离统计量定比变量的聚类统计量:距离统计量v绝对距离绝对距离v欧式距离欧式距离v明考斯基距离明考斯基距离v兰氏距离兰氏距离v马氏距离马氏距离v切氏距离切氏距离第十四页,讲稿共七十九页哦15v1.绝对距离(绝对距离(Block距离)距离)v2.欧氏距离欧氏距离(Euclidean distance)第十五页,讲稿共七十九页哦16v3.明考斯基距离明考斯基距离(Minkowski)v4.兰氏距离兰氏距离v5.马氏距离马氏距离v6.切比雪夫距离切比雪夫距离(Chebychev)第十六页,讲稿共七十九页哦17第十七页,讲稿共七十九页哦18v1.相关系数相关系数v2.夹角余弦夹角余弦定比变量的聚类统计量:相似系数统计量定比变量的聚类统计量:相似系数统计量第十八页,讲稿共七十九页哦19计数变量计数变量(Count)(离散变量)的聚类统计量(离散变量)的聚类统计量v对对于于计计数数变变量量或或离离散散变变量量,可可用用于于度度量量样样本本(或或变变量量)之之间间的的相相似似性性或或不不相相似似性性程程度度的的统统 计计 量量 主主 要要 有有 卡卡 方方 测测 度度(Chi-square measure)和和 Phi方方 测测 度度(Phi-square measure)。)。第十九页,讲稿共七十九页哦20二值二值(Binary)变量的聚类统计量变量的聚类统计量第二十页,讲稿共七十九页哦21聚类的类型v根根据据聚聚类类对对象象的的不不同同,分分为为Q型型聚聚类类和和R型型聚聚类类。vQ型型聚聚类类:样样本本之之间间的的聚聚类类即即Q型型聚聚类类分分析析,则常用则常用距离距离来测度样本之间的亲疏程度。来测度样本之间的亲疏程度。vR型型聚聚类类:变变量量之之间间的的聚聚类类即即R型型聚聚类类分分析析,常用常用相似系数相似系数来测度变量之间的亲疏程度。来测度变量之间的亲疏程度。第二十一页,讲稿共七十九页哦22聚类的类型v根根据据聚聚类类方方法法的的不不同同分分为为系系统统聚聚类类和和K均均值值聚聚类。类。v系系统统聚聚类类:又又称称为为层层次次聚聚类类(hierarchical cluster),是是指指聚聚类类过过程程是是按按照照一一定定层层次次进进行的。行的。vK均值聚类(均值聚类(K-means Cluster)第二十二页,讲稿共七十九页哦23层次聚类层次聚类v基本思想:基本思想:在在聚聚类类分分析析的的开开始始,每每个个样样本本(或或变变量量)自自成成一一类类;然然后后,按按照照某某种种方方法法度度量量所所有有样样本本(或或变变量量)之之间间的的亲亲疏疏程程度度,并并把把最最相相似似的的样样本本(或或变变量量)首首先先聚聚成成一一小小类类;接接下下来来,度度量量剩剩余余的的样样本本(或或变变量量)和和小小类类间间的的亲亲疏疏程程度度,并并将将当当前前最最接接近近的的样样本本(或或变变量量)与与小小类类聚聚成成一一类类;再再接接下下来来,再再度度量量剩剩余余的的样样本本(或或变变量量)和和小小类类间间的的亲亲疏疏程程度度,并并将将当当前前最最接接近近的的样样本本(或或变变量量)与与小小类类聚聚成成一一类类;如如此此反反复复,直直到到所所有有样样本本(或变量)聚成一类为止。(或变量)聚成一类为止。第二十三页,讲稿共七十九页哦24v系统聚类法不仅需要度量个体与个体之间的系统聚类法不仅需要度量个体与个体之间的距离,还要度量类与类之间的距离。类间距距离,还要度量类与类之间的距离。类间距离被度量出来之后,距离最小的两个小类将离被度量出来之后,距离最小的两个小类将首先被合并成为一类。由类间距离定义的不首先被合并成为一类。由类间距离定义的不同产生了不同的系统聚类法。同产生了不同的系统聚类法。第二十四页,讲稿共七十九页哦25类间距离的度量方法v最短距离法最短距离法(Nearest Neighbor)v最长距离法最长距离法(Further Neighbor)v组间平均连接法组间平均连接法(Between-group linkage)v组内平均连接法组内平均连接法(Within-group linkage)v重心法重心法(Centroid clustering)v中位数法中位数法(Median clustering)v离差平方和法离差平方和法(Wards method)第二十五页,讲稿共七十九页哦26最短距离法最短距离法(Nearest Neighbor)v以两类中距离最近的两个个体之间的距离作以两类中距离最近的两个个体之间的距离作为类间距离。为类间距离。第二十六页,讲稿共七十九页哦27x21x12x22x11第二十七页,讲稿共七十九页哦28最长距离法最长距离法(Further Neighbor)v以两类中距离最远的两个个体之间的距离作以两类中距离最远的两个个体之间的距离作为类间距离。为类间距离。第二十八页,讲稿共七十九页哦29x11x21第二十九页,讲稿共七十九页哦30组间平均连接法组间平均连接法(Between-group linkage)v以以两两类类个个体体两两两两之之间间距距离离的的平平均均数数作作为为类类间间距离。距离。第三十页,讲稿共七十九页哦31组间平均连接法(Between-group Linkage)第三十一页,讲稿共七十九页哦32组内平均连接法组内平均连接法(Within-group linkage)v将将两两类类个个体体合合并并为为一一类类后后,以以合合并并后后类类中中所所有个体之间的平均距离作为类间距离。有个体之间的平均距离作为类间距离。第三十二页,讲稿共七十九页哦33 组内平均连接法(组内平均连接法(Within-group Linkage)x21x12x22x11第三十三页,讲稿共七十九页哦34重心法重心法(Centroid clustering)v以以两两类类变变量量均均值值(重重心心)之之间间的的距距离离作作为为类类间距离。间距离。第三十四页,讲稿共七十九页哦35重心距离:均值点的距离重心距离:均值点的距离第三十五页,讲稿共七十九页哦36中位数法中位数法(Median clustering)v以两类变量中位数之间的距离作为类间距离。以两类变量中位数之间的距离作为类间距离。第三十六页,讲稿共七十九页哦37离差平方和法离差平方和法(Wards method)v离离差差平平方方和和法法是是由由Ward提提出出的的,因因此此也也称称为为Ward方方法法。具具体体做做法法是是,先先将将n个个个个体体各各自自成成一一类类,然然后后每每次次减减少少一一类类,随随着着类类与与类类的的不不断断聚聚合合,类类内内的的离离差差平平方方和和必必然然不不断断增增大大,选选择择使使离离差差平平方方和和增增加加最最小小的的两两类类合合并并,直直到所有的个体归为一类为止。到所有的个体归为一类为止。第三十七页,讲稿共七十九页哦38 主要步骤主要步骤1.1.选择变量选择变量 (1)和聚类分析的目的密切相关)和聚类分析的目的密切相关 (2)反映要分类变量的特征)反映要分类变量的特征 (3)在不同研究对象上的值有明显的差异)在不同研究对象上的值有明显的差异 (4)变量之间不能高度相关)变量之间不能高度相关2.2.数据变换处理数据变换处理 为了消除各指标量纲的影响,需要对原始数为了消除各指标量纲的影响,需要对原始数据进行必要的变换处理。据进行必要的变换处理。第三十八页,讲稿共七十九页哦393.3.计算聚类统计量计算聚类统计量 聚聚类类统统计计量量是是根根据据变变换换以以后后的的数数据据计计算算得得到到的的一一个个新新数数据据,它它用用于于表表明明各各样样本本或或变变量量间间的的关关系系密密切切程程度度。常常用用的的统统计计量量有有距距离离和和相似系数两大类。相似系数两大类。第三十九页,讲稿共七十九页哦40 4.4.聚类聚类 主要涉及两个问题:主要涉及两个问题:(1 1)选择聚类的方法)选择聚类的方法 (2 2)确定形成的类数)确定形成的类数第四十页,讲稿共七十九页哦415.5.聚类结果的解释和证实聚类结果的解释和证实 对聚类结果进行解释是希望对各个类的特征进行准确对聚类结果进行解释是希望对各个类的特征进行准确的描述,给每类起一个合适的名称。这一步可以借助各种的描述,给每类起一个合适的名称。这一步可以借助各种描述性统计量进行分析,通常的做法是计算各类在各聚类描述性统计量进行分析,通常的做法是计算各类在各聚类变量上的均值,对均值进行比较,还可以解释各类产生的变量上的均值,对均值进行比较,还可以解释各类产生的原因。原因。第四十一页,讲稿共七十九页哦42k-均值聚类均值聚类K-means ClustervK-均值聚类也叫快速聚类均值聚类也叫快速聚类v要求事先确定分类数要求事先确定分类数v运算速度快(特别是对于大样本)运算速度快(特别是对于大样本)第四十二页,讲稿共七十九页哦43k-均值聚类均值聚类K-means Clusterv系系统统首首先先选选择择k个个聚聚类类中中心心,根根据据其其他他观观测测值值与与聚聚类类中中心心的的距距离离远远近近,将将所所有有的的观观测测值值分分成成k类类;再再将将k个个类类的的中中心心(均均值值)作作为为新新的的聚聚类类中中心心,重重新新按按照照距距离离进进行行分分类类;,这这样样一一直直迭迭代代下下去去,直直到到达达到到指指定定的的迭迭代代次次数数或或达达到到中中止止迭迭代代的的判判据据要要求求时时,聚聚类类过过程程结束。结束。第四十三页,讲稿共七十九页哦44聚类分析终止的条件聚类分析终止的条件v迭迭代代次次数数:当当目目前前的的迭迭代代次次数数等等于于指指定定的的迭迭代次数(代次数(SPSS默认为默认为10)时终止迭代。)时终止迭代。v类类中中心心点点偏偏移移程程度度:新新确确定定的的类类中中心心点点距距上上个个类类中中心心点点的的最最大大偏偏移移量量小小于于等等于于指指定定的的量量(SPSS默认为默认为0)时终止聚类。)时终止聚类。第四十四页,讲稿共七十九页哦45例子1:31个省区小康和现代化指数的聚类分析v利利用用2001年年全全国国31个个省省市市自自治治区区各各类类小小康康和和现代化指数的数据,对地区进行聚类分析。现代化指数的数据,对地区进行聚类分析。v数数据据中中包包括括6类类指指数数:综综合合指指数数、社社会会结结构构指指数数、经经济济与与技技术术发发展展指指数数、人人口口素素质质指指数数、生活质量指数、法制与治安指数生活质量指数、法制与治安指数。第四十五页,讲稿共七十九页哦46系统聚类第四十六页,讲稿共七十九页哦47vAgglomeration schedule:输出聚类过程表:输出聚类过程表vProximity matrix:输输出出各各个个体体之之间间的的距距离离矩阵矩阵vCluster Membership:每个个体类别归属表:每个个体类别归属表第四十七页,讲稿共七十九页哦48vDendrogram:聚类树形图:聚类树形图vIcicle:冰柱图:冰柱图第四十八页,讲稿共七十九页哦49第四十九页,讲稿共七十九页哦50第五十页,讲稿共七十九页哦51第五十一页,讲稿共七十九页哦52第五十二页,讲稿共七十九页哦53第五十三页,讲稿共七十九页哦54如果分为3类v第第1类:北京、上海、天津类:北京、上海、天津v第第2类:江苏、山东、辽宁、浙江、广东、福类:江苏、山东、辽宁、浙江、广东、福建、黑龙江、吉林建、黑龙江、吉林v第第3类:其余省区类:其余省区第五十四页,讲稿共七十九页哦55输出各组的统计信息在数据文件中保存分类信在数据文件中保存分类信息息DataSplit file第五十五页,讲稿共七十九页哦56第五十六页,讲稿共七十九页哦57第五十七页,讲稿共七十九页哦58K均值聚类vIterate and classify:不断计算新的类中心,替换旧的类中心。:不断计算新的类中心,替换旧的类中心。vClassify only:根据初始类中心进行聚类,不改变类中心。:根据初始类中心进行聚类,不改变类中心。第五十八页,讲稿共七十九页哦59第五十九页,讲稿共七十九页哦60第六十页,讲稿共七十九页哦61第六十一页,讲稿共七十九页哦62第六十二页,讲稿共七十九页哦63第六十三页,讲稿共七十九页哦64例子2:土壤样本聚类分析v有有20个个土土壤壤样样本本,利利用用含含沙沙量量、淤淤泥泥含含量量、粘粘土土含含量量、有有机机物物、pH值值5个个变变量量的的数数据据对对这这20个土壤样本进行分类。个土壤样本进行分类。第六十四页,讲稿共七十九页哦65系统聚类第六十五页,讲稿共七十九页哦66第六十六页,讲稿共七十九页哦67第六十七页,讲稿共七十九页哦68第六十八页,讲稿共七十九页哦69第六十九页,讲稿共七十九页哦70第七十页,讲稿共七十九页哦71第七十一页,讲稿共七十九页哦72第七十二页,讲稿共七十九页哦73K均值聚类第七十三页,讲稿共七十九页哦74第七十四页,讲稿共七十九页哦75第七十五页,讲稿共七十九页哦76第七十六页,讲稿共七十九页哦77第七十七页,讲稿共七十九页哦78第七十八页,讲稿共七十九页哦感感谢谢大大家家观观看看第七十九页,讲稿共七十九页哦

    注意事项

    本文(聚类分析的思路和方法讲稿.ppt)为本站会员(石***)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开