多元统计分析与SPSSppt课件.ppt
《多元统计分析与SPSSppt课件.ppt》由会员分享,可在线阅读,更多相关《多元统计分析与SPSSppt课件.ppt(71页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、多元统计分析与SPSSppt课件 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望一一 在在SPSS中利用系统聚类法进行聚类分析中利用系统聚类法进行聚类分析 二二 在在SPSS中利用中利用K均值法进行聚类分析均值法进行聚类分析 三三 利用利用SPSS进行判别分析进行判别分析 四四 利用利用SPSS进行主成分分析进行主成分分析 五五 利用利用SPSS进行因子分析进行因子分析 设有20个土壤样品分别对5个变量的观测数据如表所示,试利用系统聚类法对其进行样品聚类分析。表表
2、5.16 土壤样本的观测数据土壤样本的观测数据一一 在在SPSS中利用系统聚类法进行聚类分析中利用系统聚类法进行聚类分析(一)操作步骤1.在SPSS窗口中选择AnalyzeClassifyHierachical Cluster,调出系统聚类分析主界面,并将变量X1X5移入Variables框中。在Cluster栏中选择Cases单选按钮,即对样品进行聚类(若选择Variables,则对变量进行聚类)。在Display栏中选择Statistics和Plots复选框,这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。图图 系统聚类法主界面系统聚类法主界面 2.点击Statistics按钮,设
3、置在结果输出窗口中给出的聚类分析统计量。这里我们选择系统默认值,点击Continue按钮,返回主界面。3.点击Plots按钮,设置结果输出窗口中给出的聚类分析统计图。选中Dendrogram复选框和Icicle栏中的None单选按钮,即只给出聚类树形图,而不给出冰柱图。单击Continue按钮,返回主界面。图图 Plots子对话框子对话框 4.点击Method按钮,设置系统聚类的方法选项。Cluster Method下拉列表用于指定聚类的方法,包括组间连接法、组内连接法、最近距离法、最远距离法等;Measure栏用于选择对距离和相似性的测度方法;剩下的Transform Values和Tran
4、sform Measures栏用于选择对原始数据进行标准化的方法。这里我们仍然均沿用系统默认选项。单击Continue按钮,返回主界面。图图 Method子对话框子对话框 5.点击Save按钮,指定保存在数据文件中的用于表明聚类结果的新变量。None表示不保存任何新变量;Single solution表示生成一个分类变量,在其后的矩形框中输入要分成的类数;Range of solutions表示生成多个分类变量。这里我们选择Range of solutions,并在后面的两个矩形框中分别输入2和4,即生成三个新的分类变量,分别表明将样品分为2类、3类和4类时的聚类结果。点击Continue,返
5、回主界面。图图 Save子对话框子对话框 6.点击点击OK按钮,运行系统聚类过程。按钮,运行系统聚类过程。(二)主要运行结果解释1.在结果输出窗口中我们可以看到聚类树形图(Dendrogram)。从树形图5.12可以清楚地看到,若将20个样品分为两类,则样品2、6、19、7、和样品1为一类,其余的为另一类;若将样品分为三类,则样品8、9、4从第二类中分离出来,自成一类;依此类推。图图 系统聚类法树形图系统聚类法树形图 2.由于我们已经在Save子对话框中设置了在数据文件中生成新的分类变量,所以,在数据编辑窗口中,我们可以看到生成的三个表示分类结果的新变量。变量名为clu4_1、clu3_1和c
6、lu2-1的三个分类变量分别表明了把样品分成4类、3类和2类的分类情况。图图 生成三个新的分类变量生成三个新的分类变量我国各地区2003年三次产业产值如表所示,试根据三次产业产值利用K均值法对我国31个省、自治区和直辖市进行聚类分析。二二 在在SPSS中利用中利用K均值法进行聚类分析均值法进行聚类分析(一)操作步骤1.在SPSS窗口中选择AnalyzeClassifyK-Means Cluster,调出K均值聚类分析主界面,并将变量移入Variables框中,将标志变量Region移入Label Case by框中。在Method框中选择Iterate classify,即使用K-means算
7、法不断计算新的类中心,并替换旧的类中心(若选择Classify only,则根据初始类中心进行聚类,在聚类过程中不改变类中心)。K均值聚类分析主界面均值聚类分析主界面(一)操作步骤1、AnalyzeClassifyK-Means Cluster,调出K均值聚类分析主界面。在Number of Cluster后面的矩形框中输入想要把样品聚成的类数,这里我们输入3,即将31个地区分为3类。至于Centers按钮,则用于设置迭代的初始类中心。如果不手工设置,则系统会自动设置初始类中心,这里我们不作设置。K均值聚类分析主界面均值聚类分析主界面2.点击Iterate按钮,对迭代参数进行设置。Maximu
8、m Iterations参数框用于设定K-means算法迭代的最大次数,Convergence Criterion参数框用于设定算法的收敛判据,其值应该介于0和1之间。例如判据设置为0.02,则当一次完整的迭代不能使任何一个类中心距离的变动与原始类中心距离的比小于2时,迭代停止。设置完这两个参数之后,只要在迭代的过程中先满足了其中的参数,则迭代过程就停止。这里我们选择系统默认的标准。单击Continue,返回主界面。图图Iterate子对话框子对话框3.点击Save按钮,设置保存在数据文件中的表明聚类结果的新变量。其中Cluster membership选项用于建立一个代表聚类结果的变量,默认
9、变量名为qcl_1;Distance from cluster center选项建立一个新变量,代表各观测量与其所属类中心的欧氏距离。我们将两个复选框都选中,单击Continue按钮返回。图图 Save子对话框子对话框4.点击Options按钮,指定要计算的统计量。选中Initial cluster centers和Cluster information for each case复选框。这样,在输出窗口中将给出聚类的初始类中心和每个观测量的分类信息,包括分配到哪一类和该观测量距所属类中心的距离。单击Continue返回。5.点击OK按钮,运行K均值聚类分析程序。图图 Options子对话框子
10、对话框(二)主要运行结果解释1.Initial Cluster Centers(给出初始类中心)2.Iteration History(给出每次迭代结束后类中心的变动)从表中可以看到本次聚类过程共经历了三次迭代。由于我们在Iterate子对话框中使用系统默认的选项(最大迭代次数为10和收敛判据为0),所以在第三次迭代后,类中心的变化为0,从而迭代停止。表表 迭代过程中类中心的变化量迭代过程中类中心的变化量3.Cluster Membership(给出各观测量所属的类及与所属类中心的距离)表中Cluster列给出了观测量所属的类别,Distance列给出了观测量与所属类中心的距离。(出于排版要求
11、,此表经过加工,因此与原始输出表形态有一定差异)。表表 各观测量所属类成员表各观测量所属类成员表4.Final Cluster Centers(给出聚类结果形成的类中心的各变量值)最终的类中心表最终的类中心表结合上述两表看出31个地区被分成3类。第一类包括:江苏、浙江、山东和广东4个省。这类的类中心三个产业的产值分别为1102.14亿元、6423.01亿元和4454.26亿元,属于三个产业都比较发达的地区。第二类包括:天津、山西、内蒙古、吉林、江西、广西、海南、重庆、贵州、云南、西藏、陕西、甘肃、青海、宁夏和新疆16个地区。这一类的类中心三个产业的产值分别为307.61亿元、795.41亿元和
12、673.63亿元,属于欠发达地区。剩下的11个地区为第三类。这一类的类中心三个产业的产值分别为713.28亿元、2545.20亿元和212.87亿元,属于中等发达地区。5.由于我们已经在Save子对话框中设置了在数据文件中生成新的分类变量,所以,在数据编辑窗口中,我们可以看到生成的两个表示分类结果的新变量。变量qcl_1和变量qcl_2分别代表分类号和观测量距所属类中心的距离。利用SPSS对Fisher判别法和Bayes判别法进行计算机实现。为研究某地区人口死亡状况,已按某种方法将15个已知地区样品分为3类,指标含义及原始数据如下。试建立判别函数,并判定另外4个待判地区属于哪类?X1 :0岁组
13、死亡概率 X 4:55岁组死亡概率 X 2:1岁组死亡概率 X5 :80岁组死亡概率 X 3:10岁组死亡概率 X6 :平均预期寿命 三三 利用利用SPSS进行判别分析进行判别分析 表表3.1 各地区死亡概率表各地区死亡概率表(一)操作步骤1.在SPSS窗口中选择AnalyzeClassifyDiscriminate,调出判别分析主界面,将左边的变量列表中的“group”变量选入分组变量中,将变量选入自变量中,并选择Enter independents together单选按钮,即使用所有自变量进行判别分析。判别分析主界面判别分析主界面2.点击Define Range按钮,定义分组变量的取值范
14、围。本例中分类变量的范围为1到3,所以在最小值和最大值中分别输入1和3。单击Continue按钮,返回主界面。3.单击Statistics按钮,指定输出的描述统计量和判别函数系数。选中Function Coefficients栏中的Fishers和Unstandardized。这两个选项的含义如下:Fishers:给出Bayes判别函数的系数。(注意:这个选项不是要给出Fisher判别函数的系数。这个复选框的名字之所以为Fishers,是因为按判别函数值最大的一组进行归类这种思想是由Fisher提出来的。这里极易混淆,请读者注意辨别。)Unstandardized:给出未标准化的Fisher判
15、别函数(即典型判别函数)的系数(SPSS默认给出标准化的Fisher判别函数系数)。单击Continue按钮,返回主界面。Statistics子对话框子对话框4.单击Classify按钮,定义判别分组参数和选择输出结果。选择Display栏中的Casewise results,输出一个判别结果表,包括每个样品的判别分数、后验概率、实际组和预测组编号等。其余的均保留系统默认选项。单击Continue按钮。Classify子对话框子对话框5.单击Save按钮,指定在数据文件中生成代表判别分组结果和判别得分的新变量,生成的新变量的含义分别为:Predicted group membership:存放
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计分析 SPSSppt 课件
限制150内