spss统计分析及应用教程-第7章-聚类分析与判断分析解析.ppt
第7章 聚类分析与判断分析 第7章 聚类分析与判断分析 v本章学习目标本章学习目标 理解聚类分析、判别分析的基本思想与原理;掌握聚类分析、判别分析方法;掌握聚类分析、判别分析实验目的、实验内容和实验步骤;掌握实验结果的分析与利用;了解聚类分析、判别分析在经济管理数据分析中的应用。第7章 聚类分析与判断分析v类群划分是更好地发现特点,找出规律的一种常用方法。通过对不同群体的比较分析可以更好地理解事物之间的差异、规律和特点。v聚类分析可以解决的问题 v判断分析的基本思想 v聚类分析与判断分析的不同实验一实验一 系统聚类分析系统聚类分析v实验目的实验目的 明确聚类分析有关的概念;理解系统聚类基本思想与原理;熟练掌握系统聚类的过程;能用SPSS软件进行系统聚类分析;培养运用系统聚类方法解决身边实际问题的能力。实验一实验一 系统聚类分析系统聚类分析v准备知识准备知识系统聚类分析的定义与基本思想 系统聚类分析又称为层次聚类分析,其基本思想是依据样品或变量之间的亲疏远近关系,将最相似的对象结合在一起,以逐次聚合的方式,将样品或变量进行分类,直到最后所有的样品或变量都聚成一类。系统聚类有两种形式:Q型聚类和R型聚类。聚类统计量 为了对样品进行分类,首先要引进表示样品之间的相似或关联程度的度量,称为聚类统计量。常用的聚类统计量有三种:匹配系数、距离、相似系数 匹配系数匹配系数 1当分类指标x1,x2,xp为类别标度变量时,通常可采用匹配系数作为聚类统计量。匹配系数匹配系数:第i个样品与第j个样品的匹配系数为:sijZ1+Z2+Zp 当xik等于xjk时,Zk=1 当xik不等于xjk时,Zk=0显然匹配系数越大,说明两样品越相似,越应划归为同一类。距离距离 2当指标中有间隔标度变量时,用匹配系数作聚类统计量已经不再适宜。此时,可将每个样品观测值看作p维空间中的一个点,这样两个样品之间的相似程度可以用p维的空间距离来度量。距离越小,相似程度越高,两样品越应归为一类。距离距离 2计算距离的方法有:兰氏距离兰氏距离仅适用与一切Xij0的情况,这个距离也可以克服各个指标之间量纲的影响,这是一个自身标准化的量,由于它对大的奇异值不敏感,它特别适合于高度偏倚的数据,但其没有考虑指标之间的相关性。距离距离 2闵可夫斯基距离 距离距离 2马氏距离设与是来自均值向量为,协方差为(0)的总体G中的p维样品,则两个样品间的马氏距离为:马氏距离考虑了观测变量之间的相关性以及观测变量之间的变异性,不再受各指标量纲的影响。相似系数相似系数 3有些事物的相似,并非一定要求数值上的一致或相近,例如相似三角形,父亲与儿子之间的相似,尽管尺寸、大小相差悬殊,却非常相似。这类事物的类别划分应用的统计量为相似系数。相似系数又可以分为夹角余弦与相关系数 类与类间距离的确定方法(1)最短距离法(Nearest Neighbor)(2)最长距离法(Furthest Neighbor)(3)组间平均衔接法(Between-groups Linkage)(4)组内平均衔接法(Within-groups Linkage)(5)重心法(Centroid Clustering)(6)离差平方和法(Ward Method)实验一 系统聚类分析 v实验内容实验内容v某牙膏公司为了调查消费者购买牙膏时考虑哪些因素,设计调查问卷进行调查,问卷如下:1.您购买牙膏时,认为防蛀功能重要程度如何?A非常重要 B比较重要 C重要 D一般 E不重要 F比较不重要 G非常不重要2.您购买牙膏时,认为亮泽牙齿功能重要程度如何?A非常重要 B比较重要 C重要 D一般 E不重要 F比较不重要 G非常不重要3.您购买牙膏时,认为保护牙龈功能重要程度如何?A非常重要 B比较重要 C重要 D一般 E不重要 F比较不重要 G非常不重要4.您购买牙膏时,认为清新口汽功能重要程度如何?A非常重要 B比较重要 C重要 D一般 E不重要 F比较不重要 G非常不重要5.您购买牙膏时,认为预防坏牙功能重要程度如何?A非常重要 B比较重要 C重要 D一般 E不重要 F比较不重要 G非常不重要6.您购买牙膏时,认为魅力牙齿功能重要程度如何?A非常重要 B比较重要 C重要 D一般 E不重要 F比较不重要 G非常不重要 实验一 单因素方差分析v实验步骤实验步骤 考虑到调查问卷中所涉及的指标有6个,因此可以考虑先对六个指标进行因子分析,提取出公因子后以公因子为聚类指标进行聚类。聚类分析选用系统聚类法。系统聚类法由SPSS17.0的Classify过程中的Hierarchical cluster过程实现。下面以案例说明系统聚类过程的基本操作步骤。实验一 单因素方差分析v实验步骤实验步骤(1)准备工作。在SPSSl7.0中打开数据文件7-1.sav,通过选择“文件打开”命令将数据调入SPSSl7.0的工作文件窗口。首先对六个变量进行因子分析(操作过程参加因子分析一章)。共提取两个公因子,分别命名为“护牙因子”和“美牙因子”。v购买某品牌牙膏考虑因素调查数据文件(2)从菜单上依次选择“分析分类系统聚类”命令,打开系统聚类对话框,如图(3)在如图所示的系统聚类主对话框中,相关内容介绍如下:检验变量列表:用于选择聚类指标的所有变量。变量:用于输入聚类指标。本例在图对话框左端的变量列表将要聚类指标添加到右边的检验变量列表中。本案例中选择因子分析得到的两个公因子“护牙因子”和“美牙因子”作为聚类指标变量。“标注各案”中选入具有唯一标识作用的变量以标注出case。本案例选择order变量。“分群”下选择“各案”选项,表示对各案进行系统聚类,选择“变量”选项,表示对变量进行聚类分析。本案例选择“各案”选项。“输出”选项下有两个单选项:“统计量”、“图”。选择“统计量”选项,右上角“统计量”功能按钮置亮;选择“图”选项,“绘制”功能按钮置亮。(4)单击“统计量”选项按钮定义其他选项 合并进程表选项,输出系统聚类进度表,聚类过程中每一步样品或类的合并情况。相似性矩阵选项,输出相似性矩阵,显示各项间的距离。“聚类成员”选项确定输出样品隶属类表。“无”选项表示不输出样品隶属类表。“单一方案”选项选中后,在“聚类数”后的方框中输入大于1的整数n,则显示划分为n类时的样品隶属类表。“方案范围”选项选中后,在“最小聚类数”与“最大聚类数”后的方框中分别输入要显示各案归属的类的范围。(5)单击“绘制”功能按钮,出现如图的对话框。“龙骨图”,选择此项输出反映聚类结构的龙骨图。“冰柱”选项定义显示冰状图的类别数,“所有聚类”选项表示显示全部聚类结果的冰状图。“聚类的指定全距”,限制聚类解范围,在下面的“开始聚类”,“停止聚类”,“排序标准”后的三个小框中分别输入三个正整数值m,n,k(mn,kn),表示从最小聚类解m开始,以增量k为步长,到最大聚类解n为止,显示冰柱图。“无”选项表示不显示冰状图。“方向选项”中的“纵向”与“横向”定义冰状图的显示方向,垂直冰柱图或水平冰柱图。(6)“方法(Method)”功能按钮,展开如图的对话框,在此对话框中,定义类间距离的确定方法和类内距离的确定方法。聚类方法(M)组间联接:合并两类使得两类间的平均距离最小,是系统默认选项。组内联接:合并两类使得合并后的类中所有项间的平均距离最小。最近邻元素:也称作最近距离法,以两类中最近的样品之间的距离为类间距离。最远邻元素:也称作最远距离法,以两类中最远的样品之间的距离为类间距离。聚类方法(M)质心聚类法:也称作重心法,以两类中各样品的重心之间的距离为类间距离。中位数聚类法:也称作中位数法,以两类中各样品的中位数之间的距离为类间距离。Ward法:也称作华德最小偏差平方和法,聚类中使类内各样品的偏差平方和最小,类间偏差平方和尽可能大。当聚类指标的测度水平不同时,会选择不同的计算聚类的方法。当聚类指标的测度水平为定比数据时,共有八种计算类内样品间距离的方法。当聚类指标为定类数据时,有“卡方度量”和“Phi方度量”两种计算类内样品间距离的方法。当聚类指标为虚拟变量时,有“平方Euclidean距离”、“尺度差分”、“模式差别”、“方差”、“离散”、“形状”、“简单匹配”和“4点相关性”、“Lambda”、“Anderberg的D”、“骰子”、“Hamann”、等多种计算类内样品间距离的方法。转换值选项栏用于选择数据标准化方法标准化方法有七个选项.“无”表示不进行标准化,为系统默认选项。“Z得分”表示应用标准化计算公式进行标准化处理。“全距从-1到1”表示,标准化结果分布在-1到+1之间。标准化方法有七个选项.“全距从0到1”表示,标准化结果分布在0到+1之间。“1的最大量”,将数据标准化到最大值1。“均值为1”,将数据标准化到均值为1。“标准差为1”将数据标准化到标准差为1。“转换度量”选项“转换度量”选项用于选择测度转换方法。在距离测度选择完毕后,可以选择本栏选项对距离测度的结果进行测度转换。共有有三个选项:绝对值、更改符号、重新标度到0-1全距。“绝对值”,绝对值转换法,将测度值的负号移去。一般当只对相关数量感兴趣的时候才使用此法。“更改符合”,变号转换法,进行相似测度和不相似测度之间的相互转换。选择此项,通过改变符号来颠倒距离测度的顺序。“重新标度到0-1全距”,采用此法将各距离测度值减去最小距离值再除以其全距,使距离测度标准化。(7)“保存”功能按钮选择系统距离分析主对话框中的“保存”功能按钮,打开如图的对话框。“聚类成员”功能区下有三个单选项,该三个单选项与“统计量”对话框下的“聚类成员”功能区下的三个单选项完全相同,区别在于“保存”对话框中的聚类成员归属情况保存在数据文件中。“统计量”对话框下的“聚类成员”功能区中的选项选择后,结果显示在输出数据文件中。v实验结果实验结果和分析案例处理汇总案例处理汇总 聚类表聚类表 聚类表聚类表 第一列“阶”,聚类阶段,表示聚类过程中的步数,本案例一共聚类29此,因此共有29阶。第二列“群集组合”,表示集群1与集群2合并为一个新的类别。第三列“系数”,表示距离测度系数。第四列“首次出现阶集群”第四列“首次出现阶集群”,该列群集1或群集2取值为0表示群集1或群集2为各案;群集1或群集2取值不为0表示群集1或群集2为类群而不是各案。第五列“下一阶”,表示此阶合并后的类在下一次聚类出现在哪一阶。如本例中第一行为15,表示个案9和个案19合并后的类将出现在第15阶。在本案例中,聚类表显示,第一步先将所有30个个案中聚类最近的个案9与个案19合并为一类,因为二者之间的距离测度系数仅为0.001,为最小。此阶中合并的两个群集在“首次出现阶群集”的取值都为0,因此第一阶是两个个案的合并。“下一阶”取值为15,表示合并后的类在低15阶中将再次参与合并。在第15阶中,群集1是个案2,群集2是个案9,二者之间的距离测度系数为0.134,“首次出现阶群集”中群集1为8,群集2为1,表示参与本次聚类的群集1,即个案2为类,不是个案,该类来源于第8阶聚类的结果。群集2也是类,该类来源于第1阶聚类的结果,第15阶是两个类的合并,合并后的类将在第23阶再次参与聚类分析。依次追踪,可以在聚类表中看出所有的聚类过程。群集成员群集成员 群集成员群集成员 表中共显示了分成5类、4类和3类时的聚类结果,如分成5类时,聚类结果显示 第一类包括(1,3,6,7,8,11,13,16,17,18,22,25,27)第二类包括(2,5,9,12,15,19,21,23,30)第三类包括(4,14,24,26,29);第四类包括(10);第五类包括(20,28)。冰柱图冰柱图 冰柱图冰柱图 左侧y轴为集群数标识出划分类群的个数,横轴表示个案,用一个直尺与横轴平行放置在冰柱图上,如直尺放置在集群数为5的位置,直尺割断突出的冰状,则没有被割断的冰柱表示的个案就归为一类。本案例中,从割断冰状的情况可以看出,个案20与个案28归为一类;个案10自成一类;个案29,26,24,14,4归为一类;个案21,30,15,5,19,9,23,12,2归为一类;其余个案归为一类。树状图树状图 树状图树状图 在树状图的最上方,“Rescaled Distance Cluster Combine”表示聚类重新标定距离。即相当于冰柱图中的纵轴“集群数”。树状图的解读方法与冰柱图类似,用一把直尺切割树状图的横线,当直尺放置在集群数为5的位置,直尺垂直放置后,可以切割5条横线,表示可以将30个个案划分为5个类群,每一类群所包含的个案就是该被割断的横线所包含的个案数。在树状图中的纵轴有两列,第一列表示聚类主对话框中所选入“标注个案”中的变量的取值。第二列表示个案的观测量序号。v实验总结实验总结 系统聚类可以分为两种类型,一种是对个案进行分类,一种是的变量进行分类。比较常用的是对个案进行分类。v实验总结实验总结 系统聚类首先要根据解决的问题,选择聚类指标,聚类指标的选择是为能反映类群特点,因此,聚类指标的选择非常重要。不同的聚类指标,聚类的结果大相径庭,同时能反映各类别的特点与规律也存在较大的差异。聚类的指标不宜过多,如果过多,则特点与规律不明显,且类别的划分比较复杂,也不宜过少,如果只有一个聚类指标,在无需聚类。如果变量数量过多,可以考虑先对变量进行因子分析,用提取出的公因子作为聚类指标,会使问题的分析简化且规律明显。v实验总结实验总结 系统聚类可以帮助我们选择聚类数目。但不能告诉我们每一类别的聚类中心的位置,因此具有一定的局限性,因此可以选择快速聚类方法进行深入分析。v实验总结实验总结 值得注意的是,选用不同的聚类方法,计算距离的方法不同,所得到的分类结果会存在差异,建议选用其他聚类方法,对多种聚类结果进行比较。比较的方法有两种,一是根据对分类问题本身有关的专业知识来判断哪种分类结果更合理;二是将各种结果中的共性取出来,将有疑问的个案先放在一边待判,先将其余个案进行分类。最后用最短距离法对待判的个案作特殊处理以决定它们的归属。实验二 快速聚类分析 v实验目的实验目的 找出各类别的聚类中心及类别归属情况;理解快速聚类的基本思想与原理;熟练掌握应用SPSS软件进行快速聚类的方法;能对快速聚类结果进行深入分析;培养运用快速聚类方法解决身边实际问题的能力。实验二 快速聚类分析v准备知识准备知识快速聚类的思想 快速聚类是在知道该样本可以划分为几个类别,然后依据一定的聚类方法将样本中的个案按照最短距离法进行归类,并最后算出每一类别的聚类中心的方法。v快速聚类的步骤 1 1找出原始聚类中心 2 2计算距离 3 3归类并调整直至合理 v应用spss软件进行快速聚类的步骤 1 1选择聚类指标 2 2确定聚类数目 3 3选择聚类方法 4 4选择快速聚类各选项 实验二 快速聚类分析v实验内容实验内容 以系统聚类实验数据为本实验的数据,对牙膏购买时考虑的“护牙因子”和“美牙因子”为聚类指标,对30个个案进行快速聚类,对划分为三类时的个案归属及各类特点进行分析。分析每一类别的特点和规律。实验二 快速聚类分析v实验步骤实验步骤(1)准备工作。在SPSSl7.0中打开数据文件7-1-1.sav,通过选择“文件打开”命令将数据调入SPSSl7.0的工作文件窗口。(2)从菜单上依次选择“分析分类K-均值聚类”,打开其对话框,如图所示,执行上述操作即可打开快速聚类主对话框 (3)选择聚类指标从快速聚类主对话框中左侧源变量框中选择聚类指标移入右侧的变量框中,如本案例中选择“护牙因子”和“美牙因子”两个变量移入右侧的变量框中。(4)确定聚类数在“聚类数”功能区右侧的方框中输入聚类数目,如本案例已知把30个个案划分为3类,因此在“聚类数”后的方框内输入3。(5)确定聚类方法快速聚类中有两种聚类方法:迭代与分类、分类。“迭代与分类”,该方法是系统默认的方法,表示在迭代过程中不断地更新聚类中。“分类”,用初始聚类中心对个案进行聚类,聚类中心始终不变。(6)选择标记变量从左侧源变量框中选择一个具有唯一标识作用的变量移入“个案标记依据”下的变量框中。如本案例选择“order”变量。(7)选择是否从外部提取初始聚类中心在快速聚类主对话框的下方,有一个“聚类中心”功能区,该功能区有两项功能:读取初始聚类中心和写入最终聚类中心。本案例选择写入最终聚类中心。(8)“迭代”选项单击“迭代”功能按钮,展开如图7-2-4的对话框,设置迭代的参数。在“最大迭代次数”后输入一个整数以限定最大的迭代步数,系统默认值为10,即最多进行10步迭代。“收敛性标准”后输入一个不超过1的正数作为判定迭代收敛的标准。缺省的收敛标准值为0.02,表示当两次迭代计算的聚类中心之间距离的最大改变量小于初始聚类中心间最小距离的2%时终止迭代。(9)单击“保存”功能按钮保存对话框总选择保存新变量的方式。“聚类成员”,在工作文件中建立一个名为“QCL-1”的新变量,其值为各观测量隶属于哪一类别的状况。本案例中“QCL-1”变量的取值为1,2,3。“与聚类中心的距离”,在在工作文件中建立一个名为“QCL-2”的新变量,其值为各观测量与所属类聚类中心之间的欧式距离。(10)单击“选项”功能按钮选项对话框中定义输出的统计量值及缺失值的处理方法。“统计量”栏用于指定输出的统计量。“初始聚类中心”选项为系统默认选项,输出初始聚类中心表。“ANOVA”选项输出方差分析表。“每个个案的聚类信息”选项,选中后,在输出结果中显示各观测量最终被聚入的类别、各观测量与最终聚类中心之间的欧氏距离、以及最终各类聚类中心之间的欧氏距离。“缺失值”栏用于指定缺失值的处理方式。“按列表排除个案”,该选项为系统默认选项,当聚类指标中有缺失值时,剔除该观测量。“按对排除个案”,选择此选项,只有当一个观测量的全部聚类指标变量值均缺失时才将其从分析中剔除,否则根据所有其他非缺失变量值,把它分配到最近的一类中去。单击继续按钮,返回快速聚类主对话框,单击确定按钮,SPSS自动完成计算。v实验结果实验结果 组间因素组间因素 迭代历史记录迭代历史记录 迭代历史记录迭代历史记录 本案例共进行了10次迭代,每次迭代类中心与上次迭代类中心的变化量。表下的注释显示,本案例完成了最大次数的迭代,迭代无法收敛。即表示任何中心的最大绝对坐标更改为2.41E-009,初始中心间的最小距离为3.026。聚类成员聚类成员 聚类成员聚类成员 聚类成员聚类成员 本例给出了聚类成员归属结果,也叫做样品隶属类表。指出了聚类后各个案所隶属的类。从表中的数据可以看出,个案4,10,14,24,28,29共6个样品归为第一类。表中的第四列“距离”表示该个案与聚类中心之间的距离。个案2,5,9,12,15,21,30共个样品归为第二类;其余样品归为第三类。此表中最后两列的数据分别作为变量“QCL-1”和“QCL-2”的观测值保存于当前工作的数据文件中。最终聚类中心最终聚类中心 最终聚类中心散点图最终聚类中心散点图 最终聚类中心间的距离最终聚类中心间的距离 每个聚类中的案例数每个聚类中的案例数 v实验总结实验总结 快速聚类要事先知道划分为多少类。快速聚类分析的重点是会解读最终的聚类中心的坐标,该聚类中心就表示了该类的特点和规律。快速聚类结果与系统聚类的结果往往不同,因为两种聚类方法思路和步骤存在很大的区别,因此,要依据对案例个案的理论了解通过比较分析确定最终的聚类结果。系统聚类的优点是能很好地判断划分为多少类别比较合适,判断的依据是类内的差异最小,类间差异最大。快速聚类的优点是能计算出最终的聚类中心,对类的特点有一个较好的把握。实验三实验三 判别分析判别分析 v实验目的实验目的 明确判别分析有关的概念;熟练掌握判别的过程;能用SPSS软件进行判别分析;培养运用判别分析方法解决身边实际问题的能力。v知识准备知识准备 判别分析的定义与基本思想 根据历史上划分类别的有关资料和某种最优准则,确定一种判别方法,判定一个新的样本归属哪一类。也就是希望利用调查数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来,并对测得同样p项指标数据的一个新样本,能判断这个样本归属于哪一类。SPSS软件提供的判别分析过程根据已知的观测量分类和表明观测量特征的变量值推导出判别函数,并把各观测量的自变量值回代到判别函数中,根据判别函数对观测量所属类别进行判别。对比原始数据的分类和按判别函数所判的分类,给出错分概率。v知识准备知识准备 判别分析的过程 第一阶段,分析和解释各组的指标特征之间存在的差异,并建立判别函数。在这部分工作中,一是要处理的是已知分组属性的那些案例。(1)确定是否能在特征变量数据的基础上判别出已知的分组来;(2)分组能被判别的程度;(3)哪些特征变量是最有用的判别因素。二是为了分组的目的推导一个或多个数学方程,这些数学方程称为“判别函数”,他们以某种数学形式将表示特征的判别变量与分组属性结合起来,是我们能辨识一个案例所最近似的分组。v知识准备知识准备 判别分析的过程 第二阶段要处理的是未知分组属性的案例,以第一阶段的分析结果为根据将这些案例进行判别分组。这相当于根据以往经验来“预测”案例的分组属性。v知识准备知识准备 判别分析的类别(1)按判别的总体数来区分:两个总体判别分析;多个总体判别分析。(2)按区分不同总体所用的数学模型来分 线性判别;非线性判别。(3)按判别时所处理的变量方法不同 逐步判别;序惯判别。v知识准备知识准备 判别准则 1.马氏距离最小准则2.Fisher准则3.平均损失最小准则(贝叶斯判别法)4.最小平方准则5.最大似然准则6.最大概率准则v知识准备知识准备 判别分析的基本假设 当被解释变量是属性变量而解释变量是度量变量时,判别分析是合适的统计分析方法。其假设条件:(1)每一个判别变量(解释变量)不能是其他判别变量的线性组合。即解释变量之间不存在多重共线性。(2)各组变量的协方差矩阵相等。(3)各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布。(4)分组类型在两种以上,各鉴别变量的测度水平在间距测度等级以上;各分组的案例在各鉴别变量的数值上能够体现差别;要求案例数量(n)比变量的个数(K)多于两个。v知识准备知识准备 判别分析的基本模型 判别分析的基本模型就是判别函数,它表示为分组变量与满足假设的条件的判别变量的线性函数关系 判别函数值y又称为判别值(Discriminant Score),它代表各分组在某一空间上的坐标。bi为各判别变量对于判别函数值的影响。判别模型的几何含义是:各判别变量代表了k维空间。判别分析的实质就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。v判别分析模型的各参数指标及其统计检验 非标准化判别系数 判别系数又称函数系数(Function Coefficient),包括两种:非标准化的判别系数(Unstandardized Discriminant Coefficient)和标准化的判别系数。非标准化的判别系数也称为粗系数(Raw Coefficient)将原始变量值直接输入模型,得到的系数估计就是非标准化的粗系数。非标准化系数是用来计算判别值(Discriminant Score)的。v判别分析模型的各参数指标及其统计检验 标准化判别系数 标准化使得每个变量都以自己的平均值作为数轴原点,以自己的标准差作为单位,这样一来,每个案例的原始变量值,一方面表现为与平均值之间的距离,另一方面以正负号形式表示了自己偏离平均值的方向、并且各标准化系数之间具有横向可比性。哪个变量的标准化系数绝对值大,就意味着将对判别值有更大的影响,于是可以用来比较各变量对判别值的相对作用。v判别分析模型的各参数指标及其统计检验 结构系数 判别分析中的结构系数(Structural Coefficient)又称为判别负载(Discriminant Loading),它实际上是某个判别变量xi 与判别值y 之间的相关系数,它表达了两者之间的拟合水平。当这个系数的绝对值很大时,这个判别函数表达的信息与这个变量的信息几乎相同,当这个系数接近于0 时,它们之间就没有什么共同之处。如果一些变量与一个函数之间有很大的结构系数值,我们就可以用这些变量的名字命名这个函数。v判别分析模型的各参数指标及其统计检验 分组的矩心 分组的矩心(Group Centroid)描述在判别空间中每一组案例的中心位置。其计算过程是将每一组别的每一个判别变量的平均值分别代入两个判别函数。分组的矩心表示每个分组在各判别轴上的坐标值。考察在判别空间中每个案例点与各组的矩心之间的距离,便于分析具体案例分组属性的倾向。v判别分析模型的各参数指标及其统计检验 判别力指数 有时判别分析可以推导出多个判别函数,然而这些判别函数 不一定都很有用。可以根据一定指标来描述其对于判别的效益。这里所说的判别力,既包括了每个判别变量对于判别函数的作用,也包括了本判别函数对于所有原始变量总方差的代表性。判别力指数(Potency Index)就是这样一个指标,有时它也叫做方差百分比(Percent of Variance)。判别分析通过判别函数所能代表的所有原始变量的总方差百分比来表示每个判别函数的判别力。v判别分析模型的各参数指标及其统计检验 残余判别力 残余判别力的含义是,在以前计算的函数已经提取过原始信息之后,残余的变量信息对于判别分组的能力。残余判别力用统计量Wilks Lambda 来测量,其值是一个反面度量,值越小表示越高的判别力,即分组矩心极大地分离,并且相对于分组内部的离散程度非常明显。当Wilks Lambda 增加到最大值1时,组矩心就完全吻合了,这时没有分组之间的差别。v判别分析的步骤 解释变量和被解释变量的选择解释变量和被解释变量的选择 1 解释变量为定量变量;被解释变量为定性变量。v判别分析的步骤 样本的分割样本的分割 2分割成两个子样本,一个用于估计判别函数,另一个用于验证。v判别分析的步骤估计判别模型估计判别模型 3 全模型法 先前选择法 向后选择法 逐步选择法注意:当样本容量与解释变量个数之比低于20时,逐步估计变得不稳定。这些情况下用多种方法来验证结果尤其重要。v判别分析的步骤评估判别函数的统计显著性评估判别函数的统计显著性 4 在计算了判别函数以后,必须评估它的显著性。Wilks Lamada,Hotelling和Pillai准则都是评估判别函数的判别效力的显著性统计量。Roy最大特征根只检验第一个判别函数。如果使用逐步法来估计判别函数,则马氏距离和RaosV测量是最合适的 v判别分析的步骤评估整体拟合评估整体拟合 5 一旦判别方程通过了显著性检验,注意力转向确定保留的判别函数的整体拟合。这个评估包括三个任务:计算每个观测的判别Z得分,检验各组在判别Z得分上的差异和评估组的关系的预测精度。v判别分析的步骤利用判别函数对观测量进行分类利用判别函数对观测量进行分类 6 用判别分析过程导出的线性判别函数的数目与类别数目相同。确定一个观测量属于哪一类,可以把该观测量的各变量值代入每一个判别函数,哪个判别函数值大,该观测量就属于哪一类。实验三实验三 判别分析判别分析 v实验内容实验内容 利用聚类分析一章的某牙膏公司调查消费者购买牙膏时考虑哪些因素的数据。该数据中,消费者购买牙膏时考虑的因子有两大类“护牙因子”和“美牙因子”,应用聚类分析,可以将30位顾客划分为三个类群。应用该数据,计算判别函数。v实验表格 实验三实验三 协方差分析协方差分析v实验步骤实验步骤(1)准备工作。在SPSSl7.0中打开数据文件7-1.sav,通过选择“文件打开”命令将数据调入SPSSl7.0的工作文件窗口。数据文件中,因子分析提取出的两个公因子“美牙因子”和“护牙因子”作为研究对象特征的变量,聚类分析得到的类别归属保存在“类别”变量中。(2)执行“分类-判别”命令,打开判别分析的主对话框。操作过程见图 (3)从判别分析主对话框左侧的源变量框中选择反映研究对象特征的变量作为自变量,移入右侧的“自变量”下的变量框中。本案例选择“护牙因子”和“美牙因子”作为自变量。(4)从判别分析主对话框左侧的源变量框中选择保存分组信息的变量作为分组变量,移入右侧的“分组变量”下的变量框中。注意,这里所选择的分组变量是离散型变量,且其分组数至少多于两类。本案例选择“类别”变量作为分组变量移入“分组变量”框中,此时矩形框下面的定义范围置亮,单击该按钮,打开定义分组范围的小对话框如图所示。在“最小值”框中输入该分组变量的最小值,本案例输入“1”。“最大”框中输入该分组变量的最大值,本案例中输入“3”。(5)如果希望使用一部分观测量进行判别分析,推导出判别函数,而另一部分观测量用于验证判别函数的盘错率,而且,在数据文件中有一个变量的某个值可以作为这些观测量的标识,则应用判别分析主对话框中的“选择变量”功能进行选择。(6)操作方法是从左侧原变量框中选择标识变量,移入“选择变量”框中,点击其后的“值”按钮,可以打开图7-3-4所示的对话框。在展开的“设置值”子对话框中,键入标识参与分析的观测量所具有的该变量值。本案例中的标识变量为“abs”,其标识参与分析的观测量取值为“1”。因此,在“设置值”子对话框中,键入“1”。然后点击“继续”,返回主对话框。方法方法“Wilks lambda”选项,每步都是Wilk的统计量最小的变量进入判别函数。“未解释方差”选项,每步都使个类不可解释的方差之和最小的变量进入判别函数。“Mahalanobis距离”选项,每步都使靠得最近的两类间的Mahalanobis距离最大的变量进入判别函数。方法方法 “最小F值”选项,每步都使任何两类间的最小的F值最大的变量进入判别函数。“Raos V”选项,Ra os V统计量值是类间均值蝉翼的测度。每步选择使Raos V值的增量最大化的变量进入判别函数。选择此项后,需要在下面的“V至输入值”的矩形框中指定一个V值最小增量值,当变量的V值增量大于这个指定的增量值时,该变量进入判别函数。标准标准 使用F值。这是系统默认选项,当一个变量的F值大于指定的“进入值”时,选择这个变量进入判别函数,系统默认的“进入值”为3.84;当变量的F值小于指定的“删除”值时,这个变量将被从判别函数中移出,系统默认的“删除”值为2.71。自行设置“进入值”和“删除”值时要注意,“进入值”要大于“删除”值。输出输出步进摘要。显示每步选中变量之后各变量的统计量概述结果。包括Wilks 值、容差、F值、显著性水平等。两两组间距离的F值。显示两两类之间的两两F值矩阵。(7)单击“统计量”功能按钮,打开统计量对话框,如图所示。该对话框包括三个功能区 描述性描述性均值:输出各自变量在各类中的观测量和全部观测量的均值、标准差。单变量ANOVA:单变量方差分析,对各类中同一自变量均值进行假设检验,输出单变量方差分析表。“Boxs M”:输出对各类协方差矩阵相等的假设进行Boxs M检验的结果。函数系数函数系数 Fisher:计算Fisher判别函数系数。可直接用于对新样本的分类,对每一类都给给出一组系数,并且指出该类中具有最大判别分数的观测量。“未标准化”选项,输出非标准化的判别函数系数。矩阵矩阵 组内相关:输出组内相关系数矩阵。组内协方差:输出组内协方差矩阵。分组协方差:输出每一类的协方差矩阵。总体协方差:输出总体样本的协方差矩阵。(8)单击判别分析主对话框中的“分类”按钮,打开分类对话框,如图所示 先验概率先验概率 所有组相等:各先验概率相等,若分为m类,则各类先验概率均为1/m。根据组大小计算:基于各类样本占总样本的比例计算先验概率。输出输出个案结果:输出每个观测量的实际类、预测类、后验概率以及判别分数。摘要表:输出分类小结表。对每一类输出判定正确和判错的观测量数。不考虑该个案时的分类:输出每一个观测量的分类结果,所依据的判别函数为由除它之外的其他观测量导出的,因此也称为交互校验结果。使用协方差矩阵使用协方差矩阵在组内:使用合并组内协方差矩阵进行分析。分组:使用各组协方差矩阵进行分析。图图合并组:生成全部类的散点图,该图是据前两个判别函数值作出的。如果只有一个判别函数,则显示直方图。分组:对每一类生成一张散点图,这些图是据前两个判别函数值作出的。如果只有一个判别函数,则显示直方图。区域图:生成根据判别函数值将观测量分到各类去的边界图。图中每一类占据一个区域,各类的均值用星号标记出来,如果只有一个判别函数,则不显示该图。(9)单击“保存”按钮,打开保存对话框,如图所示。选择建立新变量将判别分析结果保存到当前工作文件中去。保存保存所测组成员:建立新变量,保存预测观测量所属类的值,系统默认的变量名为dis-1。保存保存判别得分:建立新变量保存判别分数。该分数是由未标准化的判别系数乘自变量的值,将这些乘积求和后加上常数得来。每次运行判别分析都给出一组表明判别分数的新变量。建立几个判别函数就有几个判别分数变量。参与分析的观测量共分为m类,则建立m-1个典则判别函数,指定该选项后,就可以生成m-1个表明判别分数的新变量。保存保存组成员概率:建立新变量,保存各观测量属于各类的概率值。有m类,对一个观测量就会给出m个概率值,因此建立m个新变量。本案例中原始和预测分类数是3,指定该选项,在第一次运行判别分析过程后,给出的表明分类概率的新变量名为dis1-1、dis1-2、dis1-3。v实验结果实验结果 分析案例处理摘要分析案例处理摘要 组统计量组统计量 组均值的均等性的检验组均值的均等性的检验 协方差矩阵的均等性的箱式检验协方差矩阵的均等性的箱式检验 典型判别函数的特征值典型判别函数的特征值 判别函数显著性的检验判别函数显著性的检验 标准化的典型判别式函数系数标准化的典型判别式函数系数 结构矩阵结构矩阵 典型判别式函数系数典型判别式函数系数 组质心处的函数组质心处的函数 典型判断函数图典型判断函数图 组的先验概率组的先验概率 分类函数系数分类函数系数 分类结果分类结果表7-3-13为分类结果。对于选定的案例,对于原始数据中分别属于区划类1,区划类2和区划类3的各观测量,仍然归于原类,判对率为100%。交叉校验的判对率也为100%。对待判的10个观测量,有3个归入区划类1,3个归入区划类2,4个归入区划类3。v实验总结实验总结 判别分析的目的主要有四个:确定在两个或更多事先定义的组上的一组变量的平均得分剖面是否存在显著性差异。确定哪些变量在各组的平均得分剖面的差异中解释最多。在一组变量得分的基础上,建立将对象分类的步骤。立由这组变量形成的组与组之间判别维数的数目及构成。v实验总结实验总结 判别分析可以列出标准化的判别函数、未标准化的判别函数和Fisher线性判别函数。标准化的判别函数可以计算出判别分数,未标准化的判别函数可以计算出判别值,Fisher线性判别函数可以判别出待判案例的类群归属状况。