聚类分析与判别分析 (2)课件.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《聚类分析与判别分析 (2)课件.ppt》由会员分享,可在线阅读,更多相关《聚类分析与判别分析 (2)课件.ppt(73页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、聚类分析与判别分聚类分析与判别分析析第1页,此课件共73页哦 让混沌涌来吧!让云彩形成一片沼泽!我等待着成形。Robert Frost 统计名言统计名言第2页,此课件共73页哦l l日日常常生生活活中中,人人们们总总是是喜喜欢欢用用“不不是是一一家家人人不不进进一一家家门门”这这样样通通俗俗的的话话语语来来表表示示具具有有某某些些相相似似特特征征的的人人(或或物物)理理应应“走走到到”一一起起。究究其其本本质质,人人们们是是尝尝试试用用某某一一种种标标准准把把所所有有的的对象进行分门别类对象进行分门别类l l在在自自然然科科学学和和社社会会科科学学的的各各个个领领域域,存存在在着着大大量量的的
2、分分类类问问题题。比比如如根根据据人人均均GDPGDP、人人均均消消费费水水平平等等多多项项指指标标把把世世界界各各国国划划分分成成不不同同的的经经济济发发展展程程度度;在在地地质质勘勘探探中中,根根据据岩岩石石标标本本的的多多种种特性来判别地层所属的地质年代等特性来判别地层所属的地质年代等怎样解决下面的问题?怎样解决下面的问题?第3页,此课件共73页哦l l这这些些分分类类问问题题中中,有有些些是是事事先先并并不不知知道道存存在在什什么么类类别别,完完全全按按照照反反映映对对象象特特征征的的数数据据所所揭揭示示的的规规律律把把对对象象进进行行分分类类;有有些些则则是是在在事事先先有有了了某某
3、些些可可信信的的分分类类标标准准之之后后,判判定定一一个个新新的的研究对象应该归属到哪一类别研究对象应该归属到哪一类别l l这这两两种种研研究究分分类类的的基基本本方方法法分分别别就就是是多多元元分分析析中中的的聚聚类类分分析析和和判判别分析,二者之间既有区别又有联系别分析,二者之间既有区别又有联系怎样解决下面的问题?怎样解决下面的问题?第4页,此课件共73页哦第第 8 聚类分析与判别分析聚类分析与判别分析8.1 聚类分析聚类分析8.2 判别分析判别分析第5页,此课件共73页哦8.1 聚类分析聚类分析 8.1.1 按什么来聚类?按什么来聚类?8.1.2 怎样度量距离远近?怎样度量距离远近?8.
4、1.3 分层聚类法分层聚类法 8.1.4 K-均值聚类法均值聚类法第第 8 章章 聚类分析与判别分析聚类分析与判别分析第6页,此课件共73页哦l l聚聚类类分分析析是是一一种种建建立立分分类类的的多多元元统统计计方方法法,它它能能将将一一批批样样本本(变变量量)数数据据根根据据其其诸诸多多特特征征,按按照照在在性性质质上上的的亲亲疏疏程程度度在在没没有有先先验验知知识识的的情情况况下下进进行行自自动动分分类类,产产生生多多个个分分类类结结果果。类类内内部部个个体体特特征征具具有有相相似似性性,类类间个体特征的差异性较大。间个体特征的差异性较大。l l所所谓谓“没没有有先先验验知知识识”是是指指
5、没没有有事事先先设设定定分分类类标标准准;所所谓谓“亲亲疏疏远远近近”是是指指在在各各变变量量(特特征征)取取值值上上的的总总体体差差异异程程度。聚类分析正是基于此实现数据的自动分类。度。聚类分析正是基于此实现数据的自动分类。什么是聚类分析?什么是聚类分析?第7页,此课件共73页哦l l聚聚类类分分析析的的目目的的就就是是把把分分类类对对象象按按照照一一定定的的规规则则分分成成合合理理的的若若干干类类别别,这这些些类类不不是是事事先先给给定定的的,而而是是直直接接根据数据的特征确定的根据数据的特征确定的l l当当面面对对一一个个数数据据时时,人人们们既既可可以以按按照照观观测测值值对对变变量量
6、进进行行分分类类,也也可可以以按按照照观观测测值值对对样样本本进进行行分分类类,这这在在聚聚类类分分析析中中被被分别称为分别称为R R型聚类和型聚类和QQ型聚类型聚类l l但但在在数数学学上上和和实实现现过过程程中中,这这两两种种聚聚类类并并没没有有什什么么本本质质区区别别,考考虑虑到到人人们们更更感感兴兴趣趣的的往往往往是是基基于于变变量量信信息息对对样样品品进进行行分分类类,因因此此在在此此重重点点以以QQ型型聚聚类类为为例例来来介介绍绍该方法该方法什么是聚类分析?什么是聚类分析?第8页,此课件共73页哦8.1.1 按什么来聚类?按什么来聚类?8.1 聚类分析聚类分析第9页,此课件共73页
7、哦2008年5月【例例例例8.18.1】下下面面的的表表8-18-1是是2020个个不不同同品品牌牌的的啤啤酒酒的的热热量量、纳纳含含量量、酒酒精精以以及及价格数据。价格数据。按什么来聚类?按什么来聚类?第10页,此课件共73页哦n n在在古古老老的的分分类类学学中中,人人们们只只能能依依靠靠经经验验和和专专业业知知识识进进行行定定性性的的分分类类,但但在在我我们们有有了了上上述述数数据据之之后后,一一个个很很自自然然的的想想法就是能不能按照这些指标取值进行定量分类法就是能不能按照这些指标取值进行定量分类n n如如果果我我们们只只考考虑虑有有关关这这些些品品牌牌的的某某一一项项指指标标,分分类
8、类就就很很简简单单了了,只只要要把把该该指指标标取取值值相相差差不不大大的的品品牌牌归归为为一一类类即即可可。但但现现实实中中摆摆在在我我们们面面前前的的往往往往是是包包含含多多个个变变量量的的复复杂杂信信息息,那那么么该该如如何何同同时时根根据据例例8.18.1中的四个变量来对啤酒品牌聚类呢?中的四个变量来对啤酒品牌聚类呢?n n其其实实想想法法是是一一样样的的,就就是是把把离离得得比比较较近近的的品品牌牌归归为为一一类类,而而离离得得比比较较远远的的品品牌牌放放在在不不同同的的类类。在在数数学学处处理理上上就就是是用用“距距离离”来来度度量量对对象之间的相似性象之间的相似性 按什么来聚类?
9、按什么来聚类?第11页,此课件共73页哦8.1.2 怎样度量距离远近?怎样度量距离远近?8.1 聚类分析聚类分析第12页,此课件共73页哦n n对对“亲亲疏疏远远近近”的的测测度度一一般般有有两两个个角角度度:一一是是个个体体间间的的相相似似程程度度;二二是是个个体体间间的的差差异异程程度度。衡衡量量相相似似程程度度通通常常可可采采用用简简单单相相关关系系数数或等级相关系数等;个体间的差异程度通常用某种距离来测度。或等级相关系数等;个体间的差异程度通常用某种距离来测度。n n为为测测度度个个体体间间距距离离首首先先将将每每个个样样本本数数据据看看p p维维空空间间中中的的一一个个点点。一一般般
10、点点与与点点之之间间的的距距离离越越小小,意意味味着着它它们们越越“亲亲密密”,越越可可能能聚聚为一类。为一类。n n度度量量点点间间距距离离的的方方法法有有很很多多种种,如如果果涉涉及及的的p p个个变变量量是是定定距距型型变变量量,常常用用的的距距离离定定义义包包括括欧欧氏氏距距离离、平平方方欧欧氏氏距距离离、切切比比雪雪夫夫距距离离、绝绝对对值值距距离离(blackblack距距离离)、明明考考斯斯基基距距离离、夹夹角角余余弦弦距距离离、用用户户自定义距离等。自定义距离等。怎样度量距离远近?怎样度量距离远近?第13页,此课件共73页哦1.1.欧氏距离:欧氏距离:欧氏距离:欧氏距离:2.2
11、.切比雪夫距离:切比雪夫距离:切比雪夫距离:切比雪夫距离:3.3.绝对距离绝对距离绝对距离绝对距离(black(black距离距离距离距离):):4.4.明考斯基距离明考斯基距离(q(q可以任意指定可以任意指定)怎样度量距离远近?怎样度量距离远近?第14页,此课件共73页哦5.5.夹角余弦距离:夹角余弦距离:夹角余弦距离:夹角余弦距离:怎样度量距离远近?怎样度量距离远近?第15页,此课件共73页哦n n如如果果涉涉及及的的k k个个变变量量是是计计数数型型变变量量,常常用用的的距距离离定定义义包包括括卡卡方方距距离、离、PhiPhi方距离等。方距离等。n n1.1.卡方距离卡方距离:n n2.
12、Phi2.Phi方距离:方距离:(n(n是总频数是总频数)怎样度量距离远近?怎样度量距离远近?第16页,此课件共73页哦n n如如果果涉涉及及的的k k个个变变量量是是二二值值变变量量,个个体体间间的的距距离离定定义义常常用用简简单单匹配系数、匹配系数、JaccardJaccard系数。系数。n1.简单匹配系数简单匹配系数:n n2.Jaccard2.Jaccard系数系数怎样度量距离远近?怎样度量距离远近?个体xjk1 10 0个体xik1 1a ab b0 0c cd d第17页,此课件共73页哦n1.所选择的变量应符合聚类的要求。n2.各变量的变量值不应有数量级上的差异。为此常需对数据预
13、先进行标准化处理后再进行聚类。n3.各变量间不应该有较强的线性相关关系。n常见的聚类方法有层次聚类法和K-Means聚类法等。聚类分析需注意以下几点:聚类分析需注意以下几点:第18页,此课件共73页哦8.1.3 层次聚类法层次聚类法8.1 聚类分析聚类分析第19页,此课件共73页哦n n层层次次(分分层层)聚聚类类法法又又称称系系统统聚聚类类法法(hierarchical(hierarchical cluster)cluster),是是聚聚类类分析诸方法中用得最多的一种,它的基本步骤是:分析诸方法中用得最多的一种,它的基本步骤是:开开始始将将每每一一个个样样品品各各自自单单独独作作为为一一类类
14、,然然后后按按照照定定义义好好的的样样品品之之间间的的距距离离(此此时时的的类类间间距距离离等等同同于于点点间间距距离离)进进行行计计算算,将将距距离离最最近近的的两两个个类类合合并并成成一一个个新新类类,这这样样类类别别相相对对于于开开始始的的时时候候就就减少了一个减少了一个再再按按照照定定义义好好的的类类间间距距离离,计计算算这这个个新新的的类类别别与与其其他他类类之之间间的的距距离离,结结合合开开始始剩剩下下的的其其他他类类之之间间的的距距离离,再再找找出出距距离离最最近的两个类合并成一个类近的两个类合并成一个类如如此此重重复复,每每次次合合并并便便减减少少一一个个类类,直直至至最最后后
15、把把所所有有的的样样品品合并为一个大类合并为一个大类层次聚类法层次聚类法(hierarchical cluster)第20页,此课件共73页哦用用SPSS实现分层聚类实现分层聚类第第第第1 1步:步:步:步:选择选择【AnalyzeAnalyze】下拉菜单,并选择下拉菜单,并选择【Classify-Classify-Hierarchical Cluster Hierarchical Cluster 】(分层聚类分层聚类)选项进入主对话框选项进入主对话框 第第第第2 2步:步:步:步:在主对话框中将原始数据中用于聚类的所有变量选入在主对话框中将原始数据中用于聚类的所有变量选入 【Variable
16、(s)Variable(s)】,把区分样品的标签变量选入,把区分样品的标签变量选入【Label Label Cases by Cases by】,在,在【ClusterCluster】下选择下选择【CasesCases】(这是这是 QQ型聚类,如果要对变量进行型聚类,如果要对变量进行R R型聚类,则选择型聚类,则选择 【VariablesVariables】)第第第第3 3步步步步:点点入入【DisplayDisplay】选选择择输输出出内内容容:【StatisticsStatistics】输输出出相相关关统统计计量;量;【PlotsPlots】输出相关图形。输出相关图形。第21页,此课件共7
17、3页哦用用SPSS实现分层聚类实现分层聚类第第第第4 4步步步步:点点入入【PlotsPlots】选选中中【DendrogramDendrogram】(树树状状图图),点点击击 【ContinueContinue】回回到到主主对对话话框框.在在【IcicleIcicle】中中指指定定输输出出冰冰挂挂图图,其其中中【All All clustersclusters】表表示示输输出出每每个个阶阶段段的的冰冰挂挂图图;【Specified Specified range range of of clustersclusters】表表示示只只输输出出某某阶阶段段的的冰冰挂挂图图,从从第第几几步步到到第
18、第几几步步,中中间间间间隔隔几几步步。在在【OrientationOrientation】中中指指定定如如何何显显示示冰冰挂挂图图,其其中中【VerticalVertical】表示纵向显示;表示纵向显示;【HorizontalHorizontal】表示横向显示表示横向显示第第第第 5 5步步步步:点点 入入【MethodMethod】,可可 以以 在在【Cluster Cluster MethodMethod】中中 选选 择择 类类间间距距离离的的定定义义方方法法,在在【MeasureMeasure】下下选选择择点点间间距距离离 的的定定义义方方法法(其其中中【IntervalInterval
19、】中中的的方方法法适适合合于于定定距距型型变变量量;【CountsCounts】中中的的方方法法适适合合于于计计数数型型变变量量;【BinaryBinary】中中的的方方法法适适合合于于二二值值变变量量)。【Cluster Cluster MethodMethod】给给出出是是计计算算个个体体与与小小类类、小小类与小类间距离的方法。类与小类间距离的方法。用用SPSSSPSS对例对例8.18.1实现分层聚类实现分层聚类第22页,此课件共73页哦用用SPSS实现分层聚类实现分层聚类第第第第6 6步步步步:在在【Transform Transform ValuesValues】或或【Transfor
20、m Transform MeasuresMeasures】下下选选择择是是否否对对原原始始数数据据进进行行标标准准化化处处理理或或其其他他变变换换。【By By variablevariable】表表示示针针对对变变量量,适适用用于于QQ型型聚聚类类分分析析;【By By casecase】表表示示针针对对样样本本,适用于适用于R R型聚类分析。点击型聚类分析。点击【ContinueContinue】回到主对话框回到主对话框第第第第7 7步步步步:点点开开【StatisticsStatistics】选选中中【Agglomeration Agglomeration scheduleschedul
21、e】(聚聚类类清清单单)点击点击【ContinueContinue】回到主对话框回到主对话框第第第第8 8步步步步:点点 入入【SaveSave】,可可 以以 在在【Cluster Cluster MembershipMembership】(群群 成成 员员数数)下下选选择择在在原原始始数数据据中中保保留留分分成成多多少少类类别别的的分分类类结结 果果,点击点击【ContinueContinue】回到主对话框,点击回到主对话框,点击【OKOK】用用SPSSSPSS对例对例8.18.1实现分层聚类实现分层聚类第23页,此课件共73页哦n nNearest Nearest neighbor(nei
22、ghbor(最最短短距距离离法法)用用两两个个类类别别中中各各个个数数据据点点之间最短的那个距离来表示两个类别之间的距离之间最短的那个距离来表示两个类别之间的距离n nFurthest Furthest neighbor(neighbor(最最长长距距离离法法)用用两两个个类类别别中中各各个个数数据据点点之间最长的那个距离来表示两个类别之间的距离之间最长的那个距离来表示两个类别之间的距离n nCentroid Centroid clustering(clustering(重重心心法法)用用两两个个类类别别的的重重心心之之间间的的距离来表示两个类别之间的距离距离来表示两个类别之间的距离n nbe
23、tween-groups between-groups linkage(linkage(组组间间平平均均距距离离法法)SPSSSPSS的的的的默默默默认认认认方方方方法法法法。是是用用两两个个类类别别中中间间各各个个数数据据点点之之间间的的距距离离的的平平均均来来表表示示两个类别之间的距离两个类别之间的距离n nWards Wards method(method(离离差差平平方方和和法法)使使各各类类别别中中的的离离差差平平方和较小,而不同类别之间的离差平方和较大方和较小,而不同类别之间的离差平方和较大类间距离方法的选择类间距离方法的选择(Cluster Method)第24页,此课件共73页
24、哦n n IntervalInterval data(data(连连连连续续续续变变变变量量量量)可可选选方方法法有有:Euclidean Euclidean distance,distance,squared squared Euclidean Euclidean distance,distance,cosine,cosine,Pearson Pearson correlation,correlation,Chebychev,Chebychev,block,block,Minkowski,Minkowski,and customized.and customized.n n CountCou
25、nt data(data(计计计计数数数数变变变变量量量量)可可选选方方法法有有:chi-square chi-square measure and phi-square measure.measure and phi-square measure.n BinaryBinary data(data(二二二二 分分分分 分分分分 类类类类 变变变变 量量量量)可可 选选 方方 法法 有有:Euclidean Euclidean distance,distance,squared squared Euclidean Euclidean distance,distance,size size dif
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析与判别分析 2课件 聚类分析 判别分析 课件
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内