spss统计分析及应用教程-第7章-聚类分析与判断分析解析.ppt
《spss统计分析及应用教程-第7章-聚类分析与判断分析解析.ppt》由会员分享,可在线阅读,更多相关《spss统计分析及应用教程-第7章-聚类分析与判断分析解析.ppt(137页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第7章 聚类分析与判断分析 第7章 聚类分析与判断分析 v本章学习目标本章学习目标 理解聚类分析、判别分析的基本思想与原理;掌握聚类分析、判别分析方法;掌握聚类分析、判别分析实验目的、实验内容和实验步骤;掌握实验结果的分析与利用;了解聚类分析、判别分析在经济管理数据分析中的应用。第7章 聚类分析与判断分析v类群划分是更好地发现特点,找出规律的一种常用方法。通过对不同群体的比较分析可以更好地理解事物之间的差异、规律和特点。v聚类分析可以解决的问题 v判断分析的基本思想 v聚类分析与判断分析的不同实验一实验一 系统聚类分析系统聚类分析v实验目的实验目的 明确聚类分析有关的概念;理解系统聚类基本思想
2、与原理;熟练掌握系统聚类的过程;能用SPSS软件进行系统聚类分析;培养运用系统聚类方法解决身边实际问题的能力。实验一实验一 系统聚类分析系统聚类分析v准备知识准备知识系统聚类分析的定义与基本思想 系统聚类分析又称为层次聚类分析,其基本思想是依据样品或变量之间的亲疏远近关系,将最相似的对象结合在一起,以逐次聚合的方式,将样品或变量进行分类,直到最后所有的样品或变量都聚成一类。系统聚类有两种形式:Q型聚类和R型聚类。聚类统计量 为了对样品进行分类,首先要引进表示样品之间的相似或关联程度的度量,称为聚类统计量。常用的聚类统计量有三种:匹配系数、距离、相似系数 匹配系数匹配系数 1当分类指标x1,x2
3、,xp为类别标度变量时,通常可采用匹配系数作为聚类统计量。匹配系数匹配系数:第i个样品与第j个样品的匹配系数为:sijZ1+Z2+Zp 当xik等于xjk时,Zk=1 当xik不等于xjk时,Zk=0显然匹配系数越大,说明两样品越相似,越应划归为同一类。距离距离 2当指标中有间隔标度变量时,用匹配系数作聚类统计量已经不再适宜。此时,可将每个样品观测值看作p维空间中的一个点,这样两个样品之间的相似程度可以用p维的空间距离来度量。距离越小,相似程度越高,两样品越应归为一类。距离距离 2计算距离的方法有:兰氏距离兰氏距离仅适用与一切Xij0的情况,这个距离也可以克服各个指标之间量纲的影响,这是一个自
4、身标准化的量,由于它对大的奇异值不敏感,它特别适合于高度偏倚的数据,但其没有考虑指标之间的相关性。距离距离 2闵可夫斯基距离 距离距离 2马氏距离设与是来自均值向量为,协方差为(0)的总体G中的p维样品,则两个样品间的马氏距离为:马氏距离考虑了观测变量之间的相关性以及观测变量之间的变异性,不再受各指标量纲的影响。相似系数相似系数 3有些事物的相似,并非一定要求数值上的一致或相近,例如相似三角形,父亲与儿子之间的相似,尽管尺寸、大小相差悬殊,却非常相似。这类事物的类别划分应用的统计量为相似系数。相似系数又可以分为夹角余弦与相关系数 类与类间距离的确定方法(1)最短距离法(Nearest Neig
5、hbor)(2)最长距离法(Furthest Neighbor)(3)组间平均衔接法(Between-groups Linkage)(4)组内平均衔接法(Within-groups Linkage)(5)重心法(Centroid Clustering)(6)离差平方和法(Ward Method)实验一 系统聚类分析 v实验内容实验内容v某牙膏公司为了调查消费者购买牙膏时考虑哪些因素,设计调查问卷进行调查,问卷如下:1.您购买牙膏时,认为防蛀功能重要程度如何?A非常重要 B比较重要 C重要 D一般 E不重要 F比较不重要 G非常不重要2.您购买牙膏时,认为亮泽牙齿功能重要程度如何?A非常重要 B
6、比较重要 C重要 D一般 E不重要 F比较不重要 G非常不重要3.您购买牙膏时,认为保护牙龈功能重要程度如何?A非常重要 B比较重要 C重要 D一般 E不重要 F比较不重要 G非常不重要4.您购买牙膏时,认为清新口汽功能重要程度如何?A非常重要 B比较重要 C重要 D一般 E不重要 F比较不重要 G非常不重要5.您购买牙膏时,认为预防坏牙功能重要程度如何?A非常重要 B比较重要 C重要 D一般 E不重要 F比较不重要 G非常不重要6.您购买牙膏时,认为魅力牙齿功能重要程度如何?A非常重要 B比较重要 C重要 D一般 E不重要 F比较不重要 G非常不重要 实验一 单因素方差分析v实验步骤实验步骤
7、 考虑到调查问卷中所涉及的指标有6个,因此可以考虑先对六个指标进行因子分析,提取出公因子后以公因子为聚类指标进行聚类。聚类分析选用系统聚类法。系统聚类法由SPSS17.0的Classify过程中的Hierarchical cluster过程实现。下面以案例说明系统聚类过程的基本操作步骤。实验一 单因素方差分析v实验步骤实验步骤(1)准备工作。在SPSSl7.0中打开数据文件7-1.sav,通过选择“文件打开”命令将数据调入SPSSl7.0的工作文件窗口。首先对六个变量进行因子分析(操作过程参加因子分析一章)。共提取两个公因子,分别命名为“护牙因子”和“美牙因子”。v购买某品牌牙膏考虑因素调查数
8、据文件(2)从菜单上依次选择“分析分类系统聚类”命令,打开系统聚类对话框,如图(3)在如图所示的系统聚类主对话框中,相关内容介绍如下:检验变量列表:用于选择聚类指标的所有变量。变量:用于输入聚类指标。本例在图对话框左端的变量列表将要聚类指标添加到右边的检验变量列表中。本案例中选择因子分析得到的两个公因子“护牙因子”和“美牙因子”作为聚类指标变量。“标注各案”中选入具有唯一标识作用的变量以标注出case。本案例选择order变量。“分群”下选择“各案”选项,表示对各案进行系统聚类,选择“变量”选项,表示对变量进行聚类分析。本案例选择“各案”选项。“输出”选项下有两个单选项:“统计量”、“图”。选
9、择“统计量”选项,右上角“统计量”功能按钮置亮;选择“图”选项,“绘制”功能按钮置亮。(4)单击“统计量”选项按钮定义其他选项 合并进程表选项,输出系统聚类进度表,聚类过程中每一步样品或类的合并情况。相似性矩阵选项,输出相似性矩阵,显示各项间的距离。“聚类成员”选项确定输出样品隶属类表。“无”选项表示不输出样品隶属类表。“单一方案”选项选中后,在“聚类数”后的方框中输入大于1的整数n,则显示划分为n类时的样品隶属类表。“方案范围”选项选中后,在“最小聚类数”与“最大聚类数”后的方框中分别输入要显示各案归属的类的范围。(5)单击“绘制”功能按钮,出现如图的对话框。“龙骨图”,选择此项输出反映聚类
10、结构的龙骨图。“冰柱”选项定义显示冰状图的类别数,“所有聚类”选项表示显示全部聚类结果的冰状图。“聚类的指定全距”,限制聚类解范围,在下面的“开始聚类”,“停止聚类”,“排序标准”后的三个小框中分别输入三个正整数值m,n,k(mn,kn),表示从最小聚类解m开始,以增量k为步长,到最大聚类解n为止,显示冰柱图。“无”选项表示不显示冰状图。“方向选项”中的“纵向”与“横向”定义冰状图的显示方向,垂直冰柱图或水平冰柱图。(6)“方法(Method)”功能按钮,展开如图的对话框,在此对话框中,定义类间距离的确定方法和类内距离的确定方法。聚类方法(M)组间联接:合并两类使得两类间的平均距离最小,是系统
11、默认选项。组内联接:合并两类使得合并后的类中所有项间的平均距离最小。最近邻元素:也称作最近距离法,以两类中最近的样品之间的距离为类间距离。最远邻元素:也称作最远距离法,以两类中最远的样品之间的距离为类间距离。聚类方法(M)质心聚类法:也称作重心法,以两类中各样品的重心之间的距离为类间距离。中位数聚类法:也称作中位数法,以两类中各样品的中位数之间的距离为类间距离。Ward法:也称作华德最小偏差平方和法,聚类中使类内各样品的偏差平方和最小,类间偏差平方和尽可能大。当聚类指标的测度水平不同时,会选择不同的计算聚类的方法。当聚类指标的测度水平为定比数据时,共有八种计算类内样品间距离的方法。当聚类指标为
12、定类数据时,有“卡方度量”和“Phi方度量”两种计算类内样品间距离的方法。当聚类指标为虚拟变量时,有“平方Euclidean距离”、“尺度差分”、“模式差别”、“方差”、“离散”、“形状”、“简单匹配”和“4点相关性”、“Lambda”、“Anderberg的D”、“骰子”、“Hamann”、等多种计算类内样品间距离的方法。转换值选项栏用于选择数据标准化方法标准化方法有七个选项.“无”表示不进行标准化,为系统默认选项。“Z得分”表示应用标准化计算公式进行标准化处理。“全距从-1到1”表示,标准化结果分布在-1到+1之间。标准化方法有七个选项.“全距从0到1”表示,标准化结果分布在0到+1之间。
13、“1的最大量”,将数据标准化到最大值1。“均值为1”,将数据标准化到均值为1。“标准差为1”将数据标准化到标准差为1。“转换度量”选项“转换度量”选项用于选择测度转换方法。在距离测度选择完毕后,可以选择本栏选项对距离测度的结果进行测度转换。共有有三个选项:绝对值、更改符号、重新标度到0-1全距。“绝对值”,绝对值转换法,将测度值的负号移去。一般当只对相关数量感兴趣的时候才使用此法。“更改符合”,变号转换法,进行相似测度和不相似测度之间的相互转换。选择此项,通过改变符号来颠倒距离测度的顺序。“重新标度到0-1全距”,采用此法将各距离测度值减去最小距离值再除以其全距,使距离测度标准化。(7)“保存
14、”功能按钮选择系统距离分析主对话框中的“保存”功能按钮,打开如图的对话框。“聚类成员”功能区下有三个单选项,该三个单选项与“统计量”对话框下的“聚类成员”功能区下的三个单选项完全相同,区别在于“保存”对话框中的聚类成员归属情况保存在数据文件中。“统计量”对话框下的“聚类成员”功能区中的选项选择后,结果显示在输出数据文件中。v实验结果实验结果和分析案例处理汇总案例处理汇总 聚类表聚类表 聚类表聚类表 第一列“阶”,聚类阶段,表示聚类过程中的步数,本案例一共聚类29此,因此共有29阶。第二列“群集组合”,表示集群1与集群2合并为一个新的类别。第三列“系数”,表示距离测度系数。第四列“首次出现阶集群
15、”第四列“首次出现阶集群”,该列群集1或群集2取值为0表示群集1或群集2为各案;群集1或群集2取值不为0表示群集1或群集2为类群而不是各案。第五列“下一阶”,表示此阶合并后的类在下一次聚类出现在哪一阶。如本例中第一行为15,表示个案9和个案19合并后的类将出现在第15阶。在本案例中,聚类表显示,第一步先将所有30个个案中聚类最近的个案9与个案19合并为一类,因为二者之间的距离测度系数仅为0.001,为最小。此阶中合并的两个群集在“首次出现阶群集”的取值都为0,因此第一阶是两个个案的合并。“下一阶”取值为15,表示合并后的类在低15阶中将再次参与合并。在第15阶中,群集1是个案2,群集2是个案9
16、,二者之间的距离测度系数为0.134,“首次出现阶群集”中群集1为8,群集2为1,表示参与本次聚类的群集1,即个案2为类,不是个案,该类来源于第8阶聚类的结果。群集2也是类,该类来源于第1阶聚类的结果,第15阶是两个类的合并,合并后的类将在第23阶再次参与聚类分析。依次追踪,可以在聚类表中看出所有的聚类过程。群集成员群集成员 群集成员群集成员 表中共显示了分成5类、4类和3类时的聚类结果,如分成5类时,聚类结果显示 第一类包括(1,3,6,7,8,11,13,16,17,18,22,25,27)第二类包括(2,5,9,12,15,19,21,23,30)第三类包括(4,14,24,26,29)
17、;第四类包括(10);第五类包括(20,28)。冰柱图冰柱图 冰柱图冰柱图 左侧y轴为集群数标识出划分类群的个数,横轴表示个案,用一个直尺与横轴平行放置在冰柱图上,如直尺放置在集群数为5的位置,直尺割断突出的冰状,则没有被割断的冰柱表示的个案就归为一类。本案例中,从割断冰状的情况可以看出,个案20与个案28归为一类;个案10自成一类;个案29,26,24,14,4归为一类;个案21,30,15,5,19,9,23,12,2归为一类;其余个案归为一类。树状图树状图 树状图树状图 在树状图的最上方,“Rescaled Distance Cluster Combine”表示聚类重新标定距离。即相当于
18、冰柱图中的纵轴“集群数”。树状图的解读方法与冰柱图类似,用一把直尺切割树状图的横线,当直尺放置在集群数为5的位置,直尺垂直放置后,可以切割5条横线,表示可以将30个个案划分为5个类群,每一类群所包含的个案就是该被割断的横线所包含的个案数。在树状图中的纵轴有两列,第一列表示聚类主对话框中所选入“标注个案”中的变量的取值。第二列表示个案的观测量序号。v实验总结实验总结 系统聚类可以分为两种类型,一种是对个案进行分类,一种是的变量进行分类。比较常用的是对个案进行分类。v实验总结实验总结 系统聚类首先要根据解决的问题,选择聚类指标,聚类指标的选择是为能反映类群特点,因此,聚类指标的选择非常重要。不同的
19、聚类指标,聚类的结果大相径庭,同时能反映各类别的特点与规律也存在较大的差异。聚类的指标不宜过多,如果过多,则特点与规律不明显,且类别的划分比较复杂,也不宜过少,如果只有一个聚类指标,在无需聚类。如果变量数量过多,可以考虑先对变量进行因子分析,用提取出的公因子作为聚类指标,会使问题的分析简化且规律明显。v实验总结实验总结 系统聚类可以帮助我们选择聚类数目。但不能告诉我们每一类别的聚类中心的位置,因此具有一定的局限性,因此可以选择快速聚类方法进行深入分析。v实验总结实验总结 值得注意的是,选用不同的聚类方法,计算距离的方法不同,所得到的分类结果会存在差异,建议选用其他聚类方法,对多种聚类结果进行比
20、较。比较的方法有两种,一是根据对分类问题本身有关的专业知识来判断哪种分类结果更合理;二是将各种结果中的共性取出来,将有疑问的个案先放在一边待判,先将其余个案进行分类。最后用最短距离法对待判的个案作特殊处理以决定它们的归属。实验二 快速聚类分析 v实验目的实验目的 找出各类别的聚类中心及类别归属情况;理解快速聚类的基本思想与原理;熟练掌握应用SPSS软件进行快速聚类的方法;能对快速聚类结果进行深入分析;培养运用快速聚类方法解决身边实际问题的能力。实验二 快速聚类分析v准备知识准备知识快速聚类的思想 快速聚类是在知道该样本可以划分为几个类别,然后依据一定的聚类方法将样本中的个案按照最短距离法进行归
21、类,并最后算出每一类别的聚类中心的方法。v快速聚类的步骤 1 1找出原始聚类中心 2 2计算距离 3 3归类并调整直至合理 v应用spss软件进行快速聚类的步骤 1 1选择聚类指标 2 2确定聚类数目 3 3选择聚类方法 4 4选择快速聚类各选项 实验二 快速聚类分析v实验内容实验内容 以系统聚类实验数据为本实验的数据,对牙膏购买时考虑的“护牙因子”和“美牙因子”为聚类指标,对30个个案进行快速聚类,对划分为三类时的个案归属及各类特点进行分析。分析每一类别的特点和规律。实验二 快速聚类分析v实验步骤实验步骤(1)准备工作。在SPSSl7.0中打开数据文件7-1-1.sav,通过选择“文件打开”
22、命令将数据调入SPSSl7.0的工作文件窗口。(2)从菜单上依次选择“分析分类K-均值聚类”,打开其对话框,如图所示,执行上述操作即可打开快速聚类主对话框 (3)选择聚类指标从快速聚类主对话框中左侧源变量框中选择聚类指标移入右侧的变量框中,如本案例中选择“护牙因子”和“美牙因子”两个变量移入右侧的变量框中。(4)确定聚类数在“聚类数”功能区右侧的方框中输入聚类数目,如本案例已知把30个个案划分为3类,因此在“聚类数”后的方框内输入3。(5)确定聚类方法快速聚类中有两种聚类方法:迭代与分类、分类。“迭代与分类”,该方法是系统默认的方法,表示在迭代过程中不断地更新聚类中。“分类”,用初始聚类中心对
23、个案进行聚类,聚类中心始终不变。(6)选择标记变量从左侧源变量框中选择一个具有唯一标识作用的变量移入“个案标记依据”下的变量框中。如本案例选择“order”变量。(7)选择是否从外部提取初始聚类中心在快速聚类主对话框的下方,有一个“聚类中心”功能区,该功能区有两项功能:读取初始聚类中心和写入最终聚类中心。本案例选择写入最终聚类中心。(8)“迭代”选项单击“迭代”功能按钮,展开如图7-2-4的对话框,设置迭代的参数。在“最大迭代次数”后输入一个整数以限定最大的迭代步数,系统默认值为10,即最多进行10步迭代。“收敛性标准”后输入一个不超过1的正数作为判定迭代收敛的标准。缺省的收敛标准值为0.02
24、,表示当两次迭代计算的聚类中心之间距离的最大改变量小于初始聚类中心间最小距离的2%时终止迭代。(9)单击“保存”功能按钮保存对话框总选择保存新变量的方式。“聚类成员”,在工作文件中建立一个名为“QCL-1”的新变量,其值为各观测量隶属于哪一类别的状况。本案例中“QCL-1”变量的取值为1,2,3。“与聚类中心的距离”,在在工作文件中建立一个名为“QCL-2”的新变量,其值为各观测量与所属类聚类中心之间的欧式距离。(10)单击“选项”功能按钮选项对话框中定义输出的统计量值及缺失值的处理方法。“统计量”栏用于指定输出的统计量。“初始聚类中心”选项为系统默认选项,输出初始聚类中心表。“ANOVA”选
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- spss 统计分析 应用 教程 聚类分析 判断 分析 解析
限制150内