《最新spss上机报告3课案.doc》由会员分享,可在线阅读,更多相关《最新spss上机报告3课案.doc(78页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Four short words sum up what has lifted most successful individuals above the crowd: a little bit more.-author-datespss上机报告3课案数据结构上机实验报告统计分析软件(spss)实验报告3序号班级姓名学号日期时间地点3信计1302张温柔413630962015.07.098:00-11:45实验楼102指导教师:刘秀芹实验名称: 一、 用spss进行判别分析二、 因子分析三、 主成分分析实验任务:1、收集到意大利、韩国、罗马尼亚、法国、中国、美国、俄罗斯以及热心观众分别给300
2、名运动员平均打分的数据,希望分析各国裁判员的打分标准是否有相似性。具体数据“裁判打分.sav”.2、根据“高校科研研究.sav”数据(具体数据在可供下载的压缩包中),利用层次聚类分析对各省市的高校科研情况进行层次聚类分析。(1)根据聚类状态表,利用碎石图对聚类类数进行研究。(2)绘制聚类树形图,说明哪些省市聚在一起。(3)绘制各类科研指标的均值对比图。(4)利用方差分析方法分析各类在哪些科研指标上存在显著差异。3、已知我国南方8个少数民族11种生活方式指标的均值数据,进行层次聚类分析(1) 结合上述分析结果,说明这8个少数民族按照生活方式的聚类过程。(2) 结合上述分析结果,绘制聚类属性图。(
3、3) 如果将这8个少数民族按生活方式分成三类,那些少数民族可以归为一类?4、31个省市关于2001年全国31个省市自治区各类小康和现代化指数的数据,对地区进行Means聚类分析,分成3类,初始分类中心点由SPSS自行确定。5、试说明当变量存在数量级上的差异,进行层次聚类分析时为什么要对数据进行标准化处理?6、试说明变量之间的高度相关性是否会对层次聚类分析结果造成影响,为什么?7、试说明K-Mean聚类分析的基本步骤。8、在企业的考核中,可以根据企业的生产经营情况把企业分为优秀企业和一般企业。考核企业经营状况的指标有: 资金利润率=利润总额/资金占用总额 劳动生产率=总产值/职工平均人数 产品净
4、值率=净产值/总产值 三个指标的均值向量和协方差矩阵如下。现有二个企业,观测值分别为 (7.8,39.1,9.6)和(8.1,34.2,6.9),问这两个企业应该属于哪一类?实验目的:一、 学习利用spss进行聚类分析、判别分析对数据进行基本的处理。主要内容有层次聚类分析、快速聚类分析和判别分析。将一批样本数据按照他们在性质上的亲密程度在没有先验知识的情况下自动进行分类。学会画图表示数据的结构表示,可以画树状图,冰挂图还有碎石图。运行结果:1、(1)案例处理摘要a案例有效缺失合计N百分比N百分比N百分比300100.0%00.0%300100.0%a. 值向量间的相关性 已使用近似矩阵案例矩阵
5、文件输入意大利韩国罗马尼亚法国美国俄罗斯热心观众中国意大利1.000.910.906.917.904.909.667.903韩国.9101.000.878.935.919.887.682.885罗马尼亚.906.8781.000.875.872.929.655.922法国.917.935.8751.000.910.875.660.881美国.904.919.872.9101.000.885.665.884俄罗斯.909.887.929.875.8851.000.660.926热心观众.667.682.655.660.665.6601.000.666中国.903.885.922.881.884.
6、926.6661.000聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 2124.935004236.929003338.924206425.915105512.910046613.887537717.665600群集成员案例3 群集意大利1韩国1罗马尼亚2法国1美国1俄罗斯2热心观众3中国22、通过碎石图可以得出:随着类的不断凝聚,类目数的不断减少,类间的距离在逐渐增大。在聚成7类之前,类距增大的幅度较小,形成极为“陡峭的山峰”,但到3类后,类间的距离迅速增大形成极为“平坦的碎石路”。根据类间距离小形成类的相似性大,类间距离大形成类的相似性小的原则,可以找到“山脚”下的
7、“拐点”碎石,以它作为确定分类数目的参考。(2)案例处理汇总a,b案例有效缺失总计N百分比N百分比N百分比31100.00.031100.0a. 平方 Euclidean 距离 已使用b. 平均联结(组之间)聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 212630115469.85200222629659072.138108320251513273.20000544121524225.3170015516203736189.38103668164179524.954051177114214224.7470012824266236581.4710299243168580
8、80.8398022106238674504.513001611588909339.143062212278924771.443071713101911295059.756002514222816150669.10300211542116307806.11440201661526791380.10910018172330236391.656120201861344818134.028160231991854973236.9170025202455207713.46617152621142261526555.3470142422524124477353.091119242362717663164
9、1.5091802624514488781146.90922212825910775967399.50819132726261032818251.122202328279172293476117.0212502928253395790865.556262429292912287019144.168282730301289868157406.3320290所以,分类为:第一类:北京第二类:天津、河北、山西、辽宁、吉林、浙江、安徽、福建、山东、海南、四川、陕西第三类:内蒙古、黑龙江、江西、河南、广西、重庆、贵州、云南、西藏、甘肃、宁夏、 新疆第四类:湖南(3)单因素方差分析平方和df均方F显著性投
10、入人年数组间59778341.196319926113.73226.428.000组内20357294.15927753973.858总数80135635.35530投入高级职称的人年数组间16485966.82035495322.27334.553.000组内4294074.14727159039.783总数20780040.96830投入科研事业费(百元)组间132451401880.884344150467293.628324.318.000组内3675602946.79427136133442.474总数136127004827.67730课题总数组间16470536.56435490
11、178.85532.181.000组内4606273.43627170602.720总数21076810.00030专著数组间7203690.38532401230.12861.327.000组内1057167.8092739154.363总数8260858.19430论文数组间219675698.219373225232.74017.693.000组内111743385.717274138643.915总数331419083.93530获奖数组间169882.049356627.3503.619.026组内422436.7902715645.807总数592318.83930案例与其类别中心
12、之间的距离组间16021705187.52735340568395.84245.175.000组内3191932471.18027118219721.155总数19213637658.707303、(1)、按照距离从小到大排列,先是距离最小的1、3一类,然后是1、8,然后是5、7,然后是1、 6,然后是4、5,1、4和1、2。 经过七步类聚过程,8个样本最后聚成一大类。(2)、(3)、广西瑶族与广西侗族、贵州苗族、基诺族为一类,土家族与崩龙族、白族为一类,湖南侗族自成一类4、初始聚类中心聚类123综合指数79.2092.3051.10社会结构90.4095.1061.90经济与技术发展86.9
13、092.7031.50人口素质65.90112.0056.00生活质量86.5095.4041.00法制与治安59.4057.5075.60迭代历史记录a迭代聚类中心内的更改123124.3876.30723.5792.000.000.000a. 由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为 2。初始中心间的最小距离为 49.349。最终聚类中心聚类123综合指数75.4991.1360.02社会结构82.8696.1766.86经济与技术发展72.4192.0344.03人口素质77.74106.1369.32生活质量75.8494.2751
14、.81法制与治安67.1758.5776.15ANOVA聚类误差FSig.均方df均方df综合指数1633.823222.5182872.556.000社会结构1539.872247.3122832.547.000经济与技术发展4381.296256.7602877.190.000人口素质1817.856274.3632824.446.000生活质量3315.174259.2762855.928.000法制与治安530.188276.284286.950.004F 检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。观测到的显著性水平并未据此进行更正,因此无法将其解释
15、为是对聚类均值相等这一假设的检验。每个聚类中的案例数聚类17.00023.000321.000有效31.000缺失.0005、聚类分析是以各种距离来度量个体间的“亲疏”程度的。从各种距离的定义来看,数量级将对距离产生较大的影响,并影响最终的聚类结果。进行层次聚类分析时,为了避免上述问题,聚类分析之前应首先消除数量级对聚类的影响,对数据进行标准化就是最常用的方法。6、变量之间的高度相关性会对层次聚类分析结果造成影响,因为从各种距离的定义来看,所选择的每个变量都会在距离中做出“贡献”。如果所选变量之间存在较高的线性关系,能够相互替代,那么计算距离同类变量将重复“贡献”,将在距离中有较高的权重,因而
16、使最终结果偏向该类变量。7、一、指定聚类数目K二、确定K个初始类中心三、根据距离最近原则进行分类四、重新确定K个类中心五、判断是否已满足终止聚类分析的条件8、利用Matlab编码V=68.39 40.24 21.41;40.24 54.58 11.67;21.41 11.67 7.90;mu1=13.5,40.7,10.7;mu2=5.4,29.8,6.2;mu3=mu1-mu2;mu4=(mu1+mu2)/2;x1=7.8 39.1 9.6;x2=8.1 34.2 6.9;w1=mu3*V(-1)*(x1-mu4)w2=mu3*V(-1)*(x2-mu4)w1 = 4.0883w2 = -2
17、.2955判别题:案例处理汇总a,b案例有效缺失总计N百分比N百分比N百分比25100.00.025100.0a. 平方 Euclidean 距离 已使用b. 平均联结(组之间)聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 21152137.00200122182242.3890083172049.13500174101454.0700055101366.737407691190.441007791099.593651981825110.87320149812127.6430015102324157.743001411719184.933001212715202.329
18、111161314238.5700018141823264.565810171538310.893091916716337.20412020171718356.273314201812450.203130211939482.2371572220717634.0531617242116833.6441802222131142.96921192323151691.9672202424172069.37423200群集成员案例3 群集1:天12:辽13:吉14:江15:浙26:山17:黑38:安19:福110:江111:湖112:湖113:广114:四115:贵316:新317:河318:山319:
19、内320:河321:云322:陕323:甘324:青325:宁3分析讨论: 样本数据之间的亲疏程度主要通过样本之间的距离、样本间的相关系数来度量。SPSS根据变量数据类型的不同,采用不同的测定亲疏程度的方法。层次聚类分析中将研究对象的观察变量进行分类,它使具有共同特征的变量聚在一起。以便可以从不同类中分别选出具有代表性的变量作分析,从而减少分析变量的个数。 在完成spss操作并画出树状图后,可以根据树状图的分支找到每一个分类,也可以根据分支的竖直切线所交的交点判断分几类的不同方法。 事前组别的分类标准(作为判别分析的因变量)要尽可能准确和可靠,否则会影响判别函数的准确性,从而影响判别分析的效果。所分析的自变量应是因变量的重要影响因素,应该挑选既有重要特性又有区别能力的变量,达到以最少变量而有高辨别能力的目标。初始分析的数目不能太少。心得体会:在这一节课的学习中,我学会了利用利用spss进行判别分析,因子分析等并可以利用spss所图完成碎石图、树状图等。可以通过样本间的特定关系将其进行分类、并应用到实践中来。这让我更加明白了spss的应用的广泛性。同事也拓宽了思维,学会从不同的角度分析和解决问题,有了良好的思维方式来面对以后的问题。 2015年 07 月 09 日-
限制150内