SPSS聚类分析详解.ppt
《SPSS聚类分析详解.ppt》由会员分享,可在线阅读,更多相关《SPSS聚类分析详解.ppt(80页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、聚类分析聚类分析 聚类分析是研究(样品或指标)分类问题的一种多元统计方法。类是指相似元聚类分析是研究(样品或指标)分类问题的一种多元统计方法。类是指相似元素的集合。素的集合。分类:分类:1、系统聚类法、系统聚类法-(分层聚类)系统聚类法是应用最广泛的一种(分层聚类)系统聚类法是应用最广泛的一种 (Hierarchical Cluster过程)过程)1)、)、聚类原则:都是相近的聚为一类,即距离最近或最相似的聚为聚类原则:都是相近的聚为一类,即距离最近或最相似的聚为 一类。一类。2)、)、分层聚类的方法可以用于样本聚类(分层聚类的方法可以用于样本聚类(Q)型,也可以用于变量聚类)型,也可以用于变
2、量聚类 (R型)。型)。2、非系统聚类法、非系统聚类法-(快速聚类法(快速聚类法-K-均值聚类法)(均值聚类法)(K-means Cluster)3、两步聚类法、两步聚类法-一种探索性的聚类方法(一种探索性的聚类方法(TwoStep Cluster)K-均值聚类分析均值聚类分析K-means Cluster 又称为快速样本聚类法,是非系统聚类中最常用的聚类法。又称为快速样本聚类法,是非系统聚类中最常用的聚类法。优点:优点:是占内存少、计算量小、处理速度快,特别适合大样本的是占内存少、计算量小、处理速度快,特别适合大样本的聚类分析。聚类分析。缺点:缺点:应用范围有限,要求用户制定分类数目应用范围
3、有限,要求用户制定分类数目(要告知要告知),只能对,只能对观测量(样本)观测量(样本)聚类,而不能对变量聚类,且所使用的聚类变聚类,而不能对变量聚类,且所使用的聚类变量必须都是连续性变量量必须都是连续性变量。基本原理基本原理具体做法具体做法1、按照指定的分类数目、按照指定的分类数目n,按某种方法选择某些观测量,设为,按某种方法选择某些观测量,设为Z1,Z2,Zn,作为初始聚心。,作为初始聚心。2、计算每个观测量到各个聚心的欧氏距离。即、计算每个观测量到各个聚心的欧氏距离。即 按就近原则将每个观测量选入一个类中,然后计算各个类的中按就近原则将每个观测量选入一个类中,然后计算各个类的中心位置,即均
4、值,作为新的聚心。心位置,即均值,作为新的聚心。3、使用计算出来的新聚心重新进行分类,分类完毕后继续计算、使用计算出来的新聚心重新进行分类,分类完毕后继续计算各类的中心位置,作为新的聚心,如此反复操作,直到两次迭各类的中心位置,作为新的聚心,如此反复操作,直到两次迭代计算的聚心之间距离的最大改变量小于初始聚类心间最小距代计算的聚心之间距离的最大改变量小于初始聚类心间最小距离的倍数时,或者到达迭代次数的上限时,停止迭代。离的倍数时,或者到达迭代次数的上限时,停止迭代。数据标准化处理:数据标准化处理:存储中间过程数据存储中间过程数据数据标准化处理,并存储。指定5类收敛标准值存储最终结果输出情况,在
5、数据文件中(存储最终结果输出情况,在数据文件中(QCL-1、QCL-2)初始聚心选项,输出方差分析表初始聚类中心表具体城市看后表最终聚类中心表最终聚类中心表聚类结果:聚类结果:QCL-1说明聚类结果,说明聚类结果,QCL-2说明聚类的长度情况说明聚类的长度情况系统聚类法系统聚类法Hierarchical Cluster系统聚类法优点:系统聚类法优点:既可以对观测量(样品)也可对变量进行既可以对观测量(样品)也可对变量进行聚类,既可以连续变量也可以是分类变量,提聚类,既可以连续变量也可以是分类变量,提供的距离计算方法和结果显示方法也很丰富。供的距离计算方法和结果显示方法也很丰富。应用实例应用实例
6、某电冰箱厂开发某一新产品,在投放市场前希望对以往经销某电冰箱厂开发某一新产品,在投放市场前希望对以往经销的国内的国内6 6个地区征集对新产品的评价,若对新产品的评价指个地区征集对新产品的评价,若对新产品的评价指标有三项:式样、性能、颜色,评价的调整表采用标有三项:式样、性能、颜色,评价的调整表采用1010分制,分制,调查结果的数据如下表调查结果的数据如下表 1 2 3 4 5 6 性能 9 1 10 9 2 8 颜色 8 2 7 9 4 6 式样 7 2 8 3 5 7 地区(样品)指标用分类法对用分类法对6 6个样品进行分类,以估计哪些地区最有可能经销个样品进行分类,以估计哪些地区最有可能经
7、销这类新产品?这类新产品?按公式计算两两样品间的相似系数,得相似矩阵按公式计算两两样品间的相似系数,得相似矩阵 1 2 3 4 5 6 123456Q=按四条原则进行分类按四条原则进行分类作聚类分析图作聚类分析图X3X6X1X4X2X510.9940.9550.9940.933一、问题提出一、问题提出聚类分析聚类分析对一批样品或指标进行分类的一种统对一批样品或指标进行分类的一种统 计方法。计方法。具体处理方法:(思路)具体处理方法:(思路)1 1、具体研究的分类对象:样品或指标、具体研究的分类对象:样品或指标2 2、方法:把、方法:把“性质相似性质相似”或或“相互关系密切相互关系密切”的样品的
8、样品或指标聚在一起。或指标聚在一起。3 3、步骤:、步骤:1 1)首先给出度量)首先给出度量“相似相似”或或“关系密切关系密切”的的统计统计指标指标 2 2)形成一个由小到大的分析系统。)形成一个由小到大的分析系统。3 3)把整个分类系统画成一张分类图)把整个分类系统画成一张分类图(3 3)相关系数)相关系数(4 4)关联系数)关联系数 指标:(指标:(1 1)统计指标是相似系数。)统计指标是相似系数。根据相似性归为一类,否则为另一类。根据相似性归为一类,否则为另一类。(2 2)统计指标是样品(空间的点)之间的距离)统计指标是样品(空间的点)之间的距离 将距离近的点归成一类,否则为另一类。将距
9、离近的点归成一类,否则为另一类。二、聚类统计量二、聚类统计量首先定义一些分类统计指标首先定义一些分类统计指标 刻画样或指标之刻画样或指标之间的相似程度(这些统计指标称为聚类统计量)间的相似程度(这些统计指标称为聚类统计量)在市场研究中,样品在市场研究中,样品 用作分类的事物用作分类的事物 指标指标 用来作为分类依据的变量。用来作为分类依据的变量。(如:年龄、收入、销售量)(如:年龄、收入、销售量)(一)相似系数(夹角余弦)一)相似系数(夹角余弦)一般式:假定每个样品包含有一般式:假定每个样品包含有P P项指标,若有几个样品项指标,若有几个样品的调查数据的调查数据每一个样品都可看成P维空间中的一
10、个向量对于任意两个样品Xi和Xj的相似程度可用这两个向量之间的夹角余弦 来表示:Xi和Xj相重合时,夹角相似程度为Xi和Xj相互垂直时,相似程度为相似密切解析几何知识:相似系数其中:如果把上述如果把上述n n个样品的任何两个样品的相似系数个样品的任何两个样品的相似系数都计算出来并排列成一都计算出来并排列成一个矩阵:个矩阵:根据算出的根据算出的,就可对就可对n n个样品进行聚类个样品进行聚类用相似系数作为聚类统计量时的分类方法用相似系数作为聚类统计量时的分类方法1 1、分类原则:、分类原则:(1 1)若选出一对样品,在已分好的类中未出现,则形)若选出一对样品,在已分好的类中未出现,则形成一个独立
11、新类。成一个独立新类。(2 2)若选出两个样品中,有一个是在已分好的类中出)若选出两个样品中,有一个是在已分好的类中出现过,则把另一个样品也加入到该类中去。现过,则把另一个样品也加入到该类中去。(3 3)若选出一对样品,都分别出现已经分好的两类中,)若选出一对样品,都分别出现已经分好的两类中,则把这两个类联结在一起。则把这两个类联结在一起。(4 4)若选出的一对样品都出现在同一组中,则这对样)若选出的一对样品都出现在同一组中,则这对样品就不用再分组了。品就不用再分组了。按上述四条原则反复进行,直到把所有样品都分类完毕,按上述四条原则反复进行,直到把所有样品都分类完毕,最后以分类图形式表示最后以
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 聚类分析 详解
限制150内