SPSS100在实验数据分析中的应用.pdf
文章编号:1004-7204(2003)03-0037-05SPSS 10.0在实验数据分析中的应用陆志波,汪毅,王娟(同济大学环境科学与工程学院,上海200092)摘要:主要介绍如何把SPSS10.0这个软件应用于实验数据分析之中。该软件包括了几种实验数据分析中常用的统计方法如:样本检验、均数比较分析、方差分析、回归分析、偏相关分析、曲线拟合、时间序列分析、聚类分析、主成分分析法、因子分析等。关键词:SPSS;方差分析;逐步回归分析中图分类号:TP 319:X803.3 文献标识码:ASPSS 10.0 Applied In Experimental Data AnalysisLU Zhi2Bo,WANG Yi,WANGJuan(School of Environment Science and Engineering,T ongji University,ShangHai,200092,China)Abstract:This article is mainly to give an introduction to apply the software SPSS10.0 in experimental dataanalysis.It included several useful statistical processing methods such as Sample Test,Compare Means,Anal2ysis of Variance,Regression Analysis,Partial Correlation Analysis,Curve Estimation,etc.Keywords:SPSS;analysis of variance;stepwise regression analysis1SPSS10.0简介SPSS(Statistics Package for Social Science)是目前世界上最优秀的统计分析软件之一。SPSS 10.0 forWindows是它的最新版本,已经广泛应用于自然科学、社会科学中,其中涉及的领域包括工程技术、应用数学、经济学、商业、金融等等。但是它在环境监测中的应用还不是很广泛,特别是在各地方的环境监测部门基本上没有涉及到该领域。如何把这个优秀的软件很好地应用于实际工作当中,不但能够大大减少数据分析人员的工作量,而且提高了环境监测数据的准确性、实用性、可信性。并为上级部门作出相关决策时提供可靠的科学依据。下面就来简单介绍一下这个软件的几个功能模块,以及如何把它应用于环境监测数据分析之中。1.1SPSS10.0主要菜单项介绍3File(文件)菜单与大多数Windows程序相同,这里包含了对数据文件进行新建、打开、保存、页面设置、打印预览等共15条命令。其中通过“Open”选项中的“Data”项可以打开由Excel、Access、Dbase、Lotus、SY LK、Text等多种格式的数据文件。为充分利用原有的数据系统提供了方便。其中的“Cache Data”命令允许用户把数据文件复制到Cache(缓存)中,从而加快分析运算的速度。3Edit(编辑)菜单这里提供了复制、剪切、全选、粘贴、特殊粘贴等编辑命令。其中的“Option”选项允许用户对系统的默认设置进行修改,使之更加适合不同用户的要求,这其中包括默认文件夹、字体、图表输出形式、结果显示位置的控制等等。3View(视图)菜单这里是显示/隐藏状态栏、显示/隐藏工具栏、显示/隐藏字体、显示/隐藏网格线、显示/隐藏属性标签这五条命令。3Data(数据)菜单收稿日期:2003-02-19第一作者简介:陆志波,男,助教,在读硕士生,主要研究方向:环境实验研究、环境监测技术研究、环境评价与规划、计算机技术在环境实验中的应用。73 统计分析 环境技术 2003年第3期 1995-2006 Tsinghua Tongfang Optical Disc Co.,Ltd.All rights reserved.这里提供了日期定义、插入变量或观测量、为观测量进行排序、合并或者分割数据文件等共11条命令。3Transform(变换)菜单这里可以允许用户对数据进行初步的整理,其中的变换菜单提供了计算公式、随机选择、加权、观测量排序、变量分类、缺失值替换、建立时间序列等共10条命令。3Analyze(分析)菜单这个菜单项包括13个子菜单,是SPSS10.0的主要功能模块,下文就其中各个子菜单的功能作简单介绍:(1)Reports(报告):包括对于观测量的基本统计分析,如OLPA Cubes、Case Summaries等4个命令项;(2)Descriptive Statistics(描述性统计):包括Fre2quencies、Descriptive、Explore、Crosstabs等4项命令;(3)Compare Means(均值比较):包括Means、One-Sample T Test、Independent Samples T Test、PairedSamples T Test、One Way ANVOA等共5项命令;(4)General Linear Model(一般线性模型):包括Univariate、Repeated Measures等4项;(5)Correlate(相关分析):包括Bivariate Correla2tion、Partial、Distances等3项;(6)Regression(回归分析):包括Linear Regres2sion、Nonlinear Regression、Curve Estimation、Weight Esti2mation等9项命令;(7)Loglinear(对数线性)包括General LoglinearAnalyze、Logit Loglinear Analyze、Model Selection Loglin2ear Analyze等3项命令;(8)Classify(聚类分析):包括K-Means Cluster、Hierarchical Cluster、Discrimnant Analyze等3项命令;(9)Data Reduction(数据简化):只有Factor Anal2ysis一项;(10)Scale(等级分析):包括Reliability Analysis、Multidimensional Scaling等2项命令;(11)Nonparametric Tests(非参数检验):包括Chi-Square Test、Two-Independent-Samples Test等8项;(12)Survival(残余分析):包括Life Tables、CoxRegression等4项命令;(13)Multiple Response(多元反应):包括DefineSets等3个命令项。3Graphs(图表菜单)统计图是用点、线、面等各种几何图形表达统计数据的一种形象的形式,其特点是简明生动,形象具体、通俗易懂。SPSS10.0具有很强大的制图功能,可以绘制多种统计图形,远远超过EXCEL的图表功能,这些图形可以在各种统计分析过程中通过对于相应的“Plot”选项进行设置,得到需要的理想图形,也可以直接由菜单项“Graphs”图形菜单产生。SPSS的图形制作过程可以分为三个步骤:建立数据文件;生成图形;修饰生成的图形。“Graphs”图形菜单共有18条子菜单,可以生成的图形包括Bar(条形图)、Line(线形图)、Area(面积图)、Pie(饼图)、High-Low(高低收盘图)、Pareto(帕雷托图)、Control(工序控制图)、Boxplots(箱线图)、Error Bar(误差条形图)、Scat2ter(散点图)、Histogram(直方图)、P-P选项生成变量分布累计比对正态分布累计比的P-P图、Q-Q选项生成变量分布分位数对正态分布分位数的Q-Q图、Sequence(时间序列图)、ROC Curve选项通过它生成的图形可评估分组单变量分组方案的优劣、Times Series选项可以生成自相关图、偏相关图和互相关图。3Utilities(公用程序)菜单,这里包括变量集的定义、菜单栏定制内容等7条命令;3Windows(窗口)菜单,在这里用户可以最小化所有窗口,也可以实现在不同窗口中的切换。3Help(帮助)菜单,包括帮助主题、使用指南、统计教练、语法向导等6条命令。此外,SPSS10.0在面向用户的使用方面主要有以下三个突出的优势:(1)Windows的窗口方式和界面友好的对话框;(2)得出的结果均以直观易懂的图表示,在这些图表当中尽可能地使用通用的数学符号;(3)拥有全面生动的帮助。为此,本文拟介绍SPSS10.0在环境监测数据分析中的应用,让更多的研究者不再为繁杂数据分析而烦恼,只需点击鼠标,无需复杂计算,原来需要几十分钟乃至几个小时的工作量可以在几分钟内轻松完成。2SPSS10.0在实验数据分析中的应用潜力3 数据集合的参数检验与区间估计一般环境监测站都有历年的环境监测资料,在对于相同环境条件下的趋势估计中,通常采用的是832003年第3期 环境技术 统计分析 1995-2006 Tsinghua Tongfang Optical Disc Co.,Ltd.All rights reserved.置信区间的估计方法,在SPSS10.0中可以非常方便地实现T检验和置信区间的估计,具体实现的过程是选择软件中的“Analyze”“Compare means”选项,按照提示可以方便得实现大量数据的检验与区间估计。3 数据集合的非参数检验非参数检验,是不依赖于总体分布的统计推断方法,是指在总体分布不服从正态分布且分布情况不明时,用来检验数据资料是否来自同一个总体假设的一类检验方法,在环境监测数据处理中,由于各种影响因素较多,碰到的非参数检验的机会也较多,在SPSS10.0中可以方便地实现卡方检验(Chi-square Test),只需要选择“Analyze”菜单中的“Non2parametric Tests”即可按照提示进行操作,节省了大量的运算时间。3 方差分析在环境监测数据的分析过程中,不可避免地存在一定的误差,其中包括随机误差以及系统误差,而环境监测的对象通常是由许多因素互相制约又互相依存,我们在得到一批数据后,如何从反复的试验和观测中,分析出来哪些因素是对该污染状况起主导作用,是要给予重视的,哪种处理方法或者哪种是处理药剂是对处理有显著效果的,在何时是效果最好的时候等等问题。例如,我们在选择一种实验试剂时,必须在不同的反应时间,用不同的药剂进行多次试验,才能确定出最佳的投药量和最佳的反应时间,还可以同时监测多种药剂同时投加时的效果,分析其相互的影响,而在这个选择过程中用到的就是方差分析的方法,如果只是验证一种实验试剂在不同反应时间中的作用,则采用单因素分析方法,在SPSS 10.0中的实现过程就是选择“Analyze”“Compare Means”“One Way ANOVA”,如果是多种药剂的相互作用情况,则要用到多因素的方差分析,其实现过程是选择“Analyze”“General LinearModel”“Univariate”进行分析。3 相关分析在环境监测数据分析中,经常会碰到相关性问题,其主要是指各种污染指标间的相互关系,可以通过建立特定条件下的相关变量或者是模型来进行污染预报及缺失值的统计补偿。也就是在现有的多种数据基础上,建立一个或几个环境要素之间的相关关系,来对未来的环境状况进行科学的估计。在SPSS10.0中,可以进行相关分析以及偏相关分析,用相关系数矩阵的结果形式非常清楚地加以描述,便于广大用户阅读其分析结果。其实现过程是“Analyze”“Correlate”。3 回归分析(包括多元回归和逐步回归)回归分析是环境监测数据处理中比较常用的处理手段,通过建立数据间的一定的函数关系对数据加以整理与优化,并在此基础上进行估计,实现预测预报的功能。由于环境数据的影响因素一般较多,我们碰到较多的是多元的回归方法,这用普通的方法计算非常繁琐,而SPSS10.0非常轻松地实现了多元回归以及多个元素的逐步回归分析,大大减少了工作量,而且其自带的绘图功能更直观地反应出不同回归模型的区别以及各自的利弊得失,还可以同时与实际的数据进行图形对比,便于用户选择不同的模型是其又一大功能,只需用鼠标选择不同模型而不用输入繁琐的数学公式就可以对其进行回归分析,在结果中还给出了新的变量的回归系数以及指定的估计值。而其提供的偏相关分析更是独具特色,它可以在去除部分因素的影响下进行回归分析,便于判断各种影响因素的影响作用的大小程度,其实现的过程是“Analyze”“Correlate”。3 聚类分析一批监测数据有n个样品,每个样品测定n个元素,则可以对样品进行分类,也可以对元素进行分类,以便从中找到规律。对所研究的环境问题作出相应的解释。对数据进行分类,应当尽可能地排除主观因素,按照特定的科学方法对数据处理,得到的结果才是我们所探求的。聚类分析可以对数据进行分类,可以客观地找到变量间的亲疏关系,然后将全部变量归并成不同的类别,并以分类树形图表示。在普通计算方法中,通常的聚类分析需要耗费大量的时间,单单是数据的正规化和标准化就是一项非常艰巨的任务,而且容易出错,在SPSS10.0中提供的聚类分析模型很好地解决了这个问题,系统自动进行数据的标准化,在结果显示中,通过一定的选择可以得到非常理想的树形分类图。其实现过程是“Analyze”“Classify”。3 因子分析控制和治理环境污染,重要的问题是要了解污染源的情况。直接监测污染源是必要的,但是在许多情况中。直接监测是困难的。于是人们转向监测93 统计分析 环境技术 2003年第3期 1995-2006 Tsinghua Tongfang Optical Disc Co.,Ltd.All rights reserved.污染源的排放物,再由污染物数据去推算出污染源的类型及其成因。可以将污染源作为若干个待求的因子,建立起污染源因子与污染物元素数据间的数学模型,再由该数学模型推导出两者间应满足的关系式,然后进行判断,得出结果。在SPSS10.0中的实现过程是“Analyze”“Data”“Factor”。3 时间序列分析在监测一个区域的环境质量或一个工厂的污染物排放状况时监测数据随时间推移而不断变化。这种按时间顺序排列的数字或随机变量称为时间序列,可以通过时间序列分析实现对未来环境状况的预测 估 计。在SPSS10.0中 可 以 通 过 选 择“Graphs”“Time Series”来实现时间序列分析。3 应用案例3.1SPSS10.0应用于实验数据的方差分析(1)原始数据收集以下举例所采用数据引自文献5。例:分发统一的含铜0.100mg/l的样品到6个实验室,下表为各实验室5次测定值,试分析不同实验室之间是否存在显著差异。表1 各实验室的铜测定值 mg/l序号1234510.0980.0990.0980.1000.09920.0990.1010.0990.0980.09730.1010.1010.1040.1010.10240.1000.1000.0970.0970.09550.0980.0980.1020.1000.10060.0980.0940.0980.0980.098(2)SPSS10.0中的单因素方差分析我们把原始数据中的“测定值”作为应变量,把“实验室”编号作为自变量,分别输入。在输入数据以后,如果要对上例中的数据作单因素方差分析可以按如下步骤进行:步骤一:选择“Analyze”“CorrpareMeans”“One-Way ANOVA”展开单因素方差分析主对话框,见图1:图1 数据输入界面步骤二:在“One-Way ANOVA”对话框中,把“测定值”选入“Dependent List”框中,把“实验室”选入“Factor”框中,然后单击“OK”示意图及运行结果如下,见图2和表2:表2 单因素方差分析结果Sum ofsquaresdfMean squareFSigBetweengroups6.480E-0551.296E-05 5.082 0.003Withingroups6.120E-05242.550E-06total1.260E-0429图2 方差分析界面(3)本题小结对比上文所得和文献5中的相应例题可以看出,SPSS10.0在短短的几秒钟之内就得到了准确的042003年第3期 环境技术 统计分析 1995-2006 Tsinghua Tongfang Optical Disc Co.,Ltd.All rights reserved.计算结果。经SPSS判断,几个实验室之间的差异是非常显著的。3.2SPSS10.0应用于实验数据的逐步回归分析(1)原始数据收集以下举例所采用数据引自文献6;例有一实验变量y,已知其和四个自变量x1、x2、x3、x4有关,现把13个观测点的观测数据列表如下要求作逐步回归分析,给出多元回归方程。步骤一:输入原始数据,定义变量y、x1、x2、x3、x4,选择“Analyze”“Regression”“Linear”,见图3、4;步骤二:在“Linear”对话框中,把y放入因变量一栏中,其它放入自变量一栏中,在“Method”一栏中选择“Stepwise”,单击“OK”,结果示意见图5和表3;表3 逐步回归分析结果modelUnstandardizedCoefficientsStandardizedCoefficientsBStd.ErrorBetatSig1(constant)x4117.568-0.7385.2620.155-0.82122.342-4.7750.0000.0012(constant)x4x1103.097-0.6141.4402.1240.0490.1380.6830.56348.540-12.62110.4030.0000.0000.000a.Dependent Variable:y(2)本题小结通过上述计算步骤,可以得到逐步回归的方程是y=103.097-0.614x4+1.440 x1,经t检验,x4和x1的P值(Sig.)均为0.000,按照=0.01的水平,均有显著性意义。通过SPSS软件,我们方便快捷地得到了实验数据的逐步回归分析结果,避免了人工计算中的繁琐和差错。图3 变量定义和数据输入界面图4 线形回归下拉式菜单界面图5 逐步回归分析对话框界面3.3SPSS10.0在实验数据分析中的推广价值1.易学易用,可以举一反三,事半功倍,提高个人及部门的工作效率,缩短工作周期,这是本软件的最大优势;2.SPSS10.0的应用范围广,大可至一个国家或地区的历年监测数据的宏观分析与预测,小可至一个具体实验数据的处理;3.对于较大数据量的处理,显然SPSS10.0更有优势,避免了大量的人工计算或是其他程序之间的相互调用,保证数据的准确性;4.相对于其他数据处理软件而言,SPSS10.0更加面向用户,直接用对话框选择的形式,代替了冗长的命令行,使用更方便,适合非数据库专业人士的使用;5.SPSS10.0的统计结果较为全面,选择空间大,可以按照用户要求进行不同程度的统计分析,包括图表输出功能;(下转第36页)14 统计分析 环境技术 2003年第3期 1995-2006 Tsinghua Tongfang Optical Disc Co.,Ltd.All rights reserved.有4次失电发生,按设计此时FG D旁路的弹簧应动作,使烟气走旁路。但是4次之中保护没有一次正确动作,有时只有前或后的一个弹簧正确动作。从运行室至尾部烟道有很长一段距离,旁路烟道档板手动打开又需几分钟,这样高温烟气便进入吸收塔,流经时间每次长达(1015)min分钟,造成了除雾器的严重损坏,并且对系统中的其它设施如防腐衬胶、涂层、喷淋层等也有很大伤害。表1FG D系统的保护条件序号内 容1两台循环泵都故障停运。2FG D入口烟气温度超过190。3在正常运行时,FG D入口烟气挡板关闭。4在正常运行时,FG D出口烟气挡板关闭。5FG D系统失电。6蒸汽再热器发生故障,1h后FG D系统自动关闭。在调试时,弹簧都能正确动作,但由于实际运行时烟道上有许多积灰,加上长时间不用,弹簧卡涩,造成因弹力不足而打不开烟气档板。并且即使弹簧正确动作了,也有可能使锅炉负压波动而跳闸,严重威胁着机组的运行安全3。AE公司在设计上明显考虑不周。必须予以改进。3 改进措施为防止热烟气对FG D系统设备的损害,有的电厂在FG D入口烟道处加装一排冲洗水喷嘴,这是可行的。但对于连州电厂,有更简单的改进方法,即:将原烟气档板、洁净烟气档板及两个旁路档板的电源由FG D系统380V开关柜改在主厂房380V工作段或公用段,这样一来即使当FG D系统完全失电时,烟气档板仍然可以正常操作,旁路档板在47s即可全部打开使热烟气流过,从而保护了FG D系统内的防腐衬胶、磷片涂层、除雾器等其它吸收塔内部设备。连州电厂除雾器损坏的事故表明,在设计FG D系统时就应认真考虑各种可能发生的情况,从而避免重大的设备损失。参考文献:1 曾庭华,廖永进.连州电厂石灰石/石膏湿法烟气脱硫系统的工艺流程分析J.电力环境保护,2001,17(2):11213.2 曾庭华,廖永进,马斌.石灰石/石膏湿法烟气脱硫系统的调试J.华东电力,2001,29(11):39-44.3 曾庭华,廖永进.石灰石/石膏湿法烟气脱硫装置性能试验及问题分析J.华北电力技术,2002,253(1):15-19.(上接第41页)6.SPSS10.0可应用于自动实验数据自动分析,定期给出数据结果,有利于实现环境实验的计算机自动化;7.为进一步建立环境信息系统以及环境决策支持系统作好基础数据的准备,可以结合其他软件实现从数据到信息直到信息系统的转变。参考文献1 陆雍森.环境工程手册 环境监测卷(奚旦立主编,蒋展鹏主审)M.北京:高等教育出版社,19982 世界优秀统计软件SPSS10.0 for Windows实用基础教程M.北京:北京希望电子出版社,20013 环境问题的数学解法及计算机应用M.北京:中国环境科学出版社,19894 王林书等.概率论与数理统计M.北京:科学出版社,20005 奚旦立等.环境监测(修订版)M.北京:高等教育出版社,19996 韦鹤平等.环境工程计算机应用M.北京:中国环境科学出版社,19957 李昭智,李昭勇,等.译决策支持与数据仓库系统Deci2sion Support and Data Warehouse SystemM.北京:电子工业出版社,20018 张尧庭.译离散多元分析理论与实践Discrete Multivari2ate Analysis Theory and PracticeM.北京:中国统计出版社,19989 吴伯庆.FOXBASEPLUS2.1数据库系统在大气环境监测数据管理中的应用探讨J.煤矿环境保护,1995,10(2):48-5210 许建华.环境监督监测的数据统计处理J.环境监测管理与技术,1999年,11(4):41-4211 李志辉,黄国华,洪楠.SPSS7.5 for Windows 95/NT统计软件包简介J.中国卫生统计1998,15(5):49-5112 赵晓明.SPSS统计软件在环境监测实验中的应用J.实验技术与管理,1999,16(6):66-6813 翟振武.锐意进取 铺路搭桥 评 社会统计分析方法 SPSS软件应用J.人口研究,2000,24(5):7727632003年第3期 环境技术 环保技术与装置 1995-2006 Tsinghua Tongfang Optical Disc Co.,Ltd.All rights reserved.