SPSS方差分析课件.ppt
SPSS 19(中文版)统计分析实用教程 电子工业出版社1第六章SPSS 19(中文版)统计分析实用教程 电子工业出版社2主要内容主要内容6.1 方差分析简介方差分析简介6.2 单因素方差分析单因素方差分析6.3 多因素方差分析多因素方差分析6.4 协方差分析协方差分析SPSS 19(中文版)统计分析实用教程 电子工业出版社36.1 方差分析简介方差分析简介(1)方差分析的概念事件的发生往往与多个因素有关,但各个因素对事件发生的中的用作用是不一样的,而且同一因素的不同水平对事件发生的影响也是不同的。如农业研究中土壤、肥料、日照时间等因素对某种农作物产量的影响,不同饲料对牲畜体重增长的效果等,都可以使用该着分析方法来解决。(2)方差分析的基本原理 方差分析的基本原理是认为不同处理组的均值间的差别基本来源有两个:随机误差,如测量误差造成的差异或个体间的差异,称为组组内差异内差异实验条件,即不同的处理造成的差异,称为组间组间差异差异。SPSS 19(中文版)统计分析实用教程 电子工业出版社46.1 方差分析简介方差分析简介(3)方差分析常用术语观测变量:观测变量:也叫因变量,如上例中的作物产量;控制变量:控制变量:影响实验结果的自变量,也称因子,如上例中的品种、施肥量等;水平:水平:控制变量的不同类别,如A品种,B品种;10公斤化肥、20公斤化肥、30公斤化肥等;随机因素:随机因素:因素的水平与实验结果的关系是随机的,即不确定因素。(4)方差分析的两个基本假设观测变量各总体应服从正态分布 ;观测变量总体的方差应相等,即方差具有齐性:SPSS 19(中文版)统计分析实用教程 电子工业出版社5SPSS 19(中文版)统计分析实用教程 电子工业出版社6主要内容主要内容6.1 方差分析简介方差分析简介6.2 单因素方差分析单因素方差分析6.3 多因素方差分析多因素方差分析6.4 协方差分析协方差分析SPSS 19(中文版)统计分析实用教程 电子工业出版社76.2 单因素方差分析单因素方差分析6.2.1 基本概念及基本概念及统计统计原理原理(1)基本概念单因互方差分析(One-way ANOVA)也称一维方差分析,它检验由单一因素影响的一个(或几个相互独立的)因变量,由因素各水平分组的均值之间的差异,是否具有统计意义,或者说它们是否来源来同一总体。(2)统计原理单因素方差分析采用的统计推断方法是计算F统计量,进行F检验。总的变异平方和记为SST,分解为两部分:一部分是由控制变量引起的离差,记为SSA(组间Between Groups离差平方和);另一部分是由随机变量引起的离差,记为SSE(组内Within Groups离差平方和)。于是有:SST=SSA+SSE其中:SSA=SSE=SPSS 19(中文版)统计分析实用教程 电子工业出版社86.2 单因素方差分析单因素方差分析 F统计量是平均组间平方和与平均组内平方和的比值,计算公式为:从F值的计算公式可以看出,如果控制变量的不同水平对观测变量有显著影响,那么观测变量的组间离差平方和就必然大,F值也就较大;反之,如果控制变量的不同水平没有对观测变量造成显著影响,那么组内离差平方和的影响就会比较小,F值就比较小。SPSS 19(中文版)统计分析实用教程 电子工业出版社9SPSS 19(中文版)统计分析实用教程 电子工业出版社106.2 单因素方差分析单因素方差分析6.2.2 SPSS实实例分析例分析【例6.1】用四种饲料喂猪,共19头分为四组,每一组用一种饲料。一段时间后称重,猪体重增加数据如下表所示,比较四种饲料对猪体重增加的作用有无不同。饲料A饲料B饲料C饲料D133.8151.2193.4225.8125.3149.0185.3224.6143.1162.7182.8220.4128.9143.8188.5212.3135.7153.5198.6 SPSS 19(中文版)统计分析实用教程 电子工业出版社116.2 单因素方差分析单因素方差分析第第1步步 分析分析:由于考虑的是一个控制变量(饲料)对一个观测变量(猪体重)的影响,而且是4种饲料,所以不适宜用独立样本T检验(仅适用两组数据),应采用单因素方差分析。第第2步步 数据的组织数据的组织:数据分成两列,一列是猪的体重,变量名为“weight”,另一变量是饲料品种(变量值分别为1,2,3,4),变量名为“fodder”,输入数据并保存。第第3步步 方差相等的齐性检验方差相等的齐性检验:由于方差分析的前提是各个水平下(这里是不同的饲料folder影响下的体重weight)的总体服从方差相等的正态分布,且各组方差具有齐性。其中正态分布的要求并不是很严格,但对于方差相等的要求是比较严格的,因此必须对方差相等的前提进行检验。SPSS 19(中文版)统计分析实用教程 电子工业出版社12SPSS 19(中文版)统计分析实用教程 电子工业出版社136.2 单因素方差分析单因素方差分析猪重SumofSquaresdfMeanSquareFSig.BetweenGroups20538.69836846.233157.467.000WithinGroups652.1591543.477Total21190.85818几种饲料的方差检验(ANOVA)结果上表是几种饲料方差分析的结果,组间(BetweenGroups)平方和(SumofSquares)为20538.698,自由度(df)为3,均方为6846.233;组内(WithinGroups)平方和为652.159,自由度为15,均方为43.477;F统计量为157.467。由于组间比较的相伴概率Sig.(p值)=0.0000.05,因此认为各组的方差具有齐性。SPSS 19(中文版)统计分析实用教程 电子工业出版社386.4 协方差分析协方差分析DependentVariable:数学成绩SourceTypeIIISumofSquaresdfMeanSquareFSig.CorrectedModel 3757.122a5751.4246.040.005Intercept862.8171862.8176.935.022group104.163252.082.419.667entrance.4671.467.004.952group*entrance61.932230.966.249.784Error1492.87812124.406Total112898.00018CorrectedTotal5250.00017a.RSquared=.716(AdjustedRSquared=.597)上表是检验控制变量与协变量是否具有交互作用,从其中可看出group与entrance的交互作用项Sig.=0.7840.05,因此认为它们之间没有交互作用。SPSS 19(中文版)统计分析实用教程 电子工业出版社396.4 协方差分析协方差分析从以上分析可知,例6-3是满足协方差分析中关于方差齐性和协变量与控制变量之间没有交互作用这两个基本条件的,因此可用协方差分析来处理。第第4步步 执行协方差分析执行协方差分析:其设置与单变量分析相似。第第5步步 主要结果及分析主要结果及分析。可以看出入学成绩的影响是不显著的,而教学方法的影响是显著的。SPSS 19(中文版)统计分析实用教程 电子工业出版社40The EndSPSS 19(中文版)统计分析实用教程 电子工业出版社41第七章相关分析SPSS 19(中文版)统计分析实用教程 电子工业出版社42主要内容主要内容7.1 相关分析简介相关分析简介7.2 两变量相关分析两变量相关分析7.3 偏相关分析偏相关分析7.4 距离分析距离分析SPSS 19(中文版)统计分析实用教程 电子工业出版社437.1相关分析简介相关分析简介(1)函数关系与相关关系变量之间的关系可以分为两种:一种是函数关系,另一种是相关关系。函数关系是一一对应的确定性关系,比较容易分析和测度。可是在现实世界中,变量间的关系往往并不是简单的确定性关系,也就是说,变量之间有着密切的关系,但又不能由一个或几个变量的值确定另一个变量的值,即当自变量x取某一值时,因变量y的值可能会有多个。这种变量之间的非一一对应的、不确定性的关系,称之为相关关系。(2)相关分析基本概念衡量事物之间,或称变量之间线性相关程度的强弱并用适当的统计指标表示出来,这个过程就是相关分析。相关系数是衡量变量之间相关程度的一个指标,总体的相关系数用表示,样本的相关系数用r表示。SPSS 19(中文版)统计分析实用教程 电子工业出版社44主要内容主要内容7.1 相关分析简介相关分析简介7.2 两变量相关分析两变量相关分析7.3 偏相关分析偏相关分析7.4 距离分析距离分析SPSS 19(中文版)统计分析实用教程 电子工业出版社457.1二元变量相关分析二元变量相关分析(1)基本概念二元变量的相关分析是指通过计算变量间两两相关的相关系数,对两个或两个以上变量之间两两相关的程度进行分析。根据所研究的变量类型不同,又可以分为二元定距变量的相关分析和二元定序变量的相关分析。(2)统计原理u二元定距变量的相关分析:定距变量又称为间隔(interval)变量(即连续属性变量),变量值之间可以比较大小,可以用加减法计算出差异的大小。Pearson简单相关系数及t统计量SPSS 19(中文版)统计分析实用教程 电子工业出版社467.1二元变量相关分析二元变量相关分析u定序变量的相关性分析:定序变量又称为有序(ordinal)变量、顺序变量、等级变量,它取值的大小能够表示观测对象的某种顺序关系(等级、方位或大小等)。定序变量的相关系数用斯皮尔曼(Spearman)相关系数和肯德尔(Kendalls)相关系数来衡量。Spearman相关系数及Z统计量Kendalls等级相关系数及Z统计量SPSS 19(中文版)统计分析实用教程 电子工业出版社477.2 二元变量相关分析二元变量相关分析(3)分析步骤第1步 计算相关系数r:利用样本数据计算样本相关系数,样本相关系数反映了两变量间线性相关程度的强弱。相关系数的取值范围界于-1与1之间,即-1r1 l当0r 1,表明变量之间存在正相关关系;l当-1r0,表明变量之间存在负相关关系;l当|r|=1时,表示其中一个变量的取值完全取决于另一个变量,二者即为函数关系;l当r=0时,说明变量之间不存在线性相关关系,但这并不排除变量之间存在其它非线性相关的可能。根据经验可将其相关程度分为几种:当|r|0.8时视为高度相关;当0.5|r|0.8时视为中度相关;当0.3|r|0.5时视为低度相关;当|r|0,说明呈正相关,而相伴概率值Sig.=0.0050.05,因此应拒绝零假设(H0:两变量之间不具相关性),即说明儿子身高是受父亲身高显著性正影响的。父亲身高儿子身高父亲身高Pearson相关性1.703*显著性(双侧).011平方与叉积的和84.66740.333协方差7.6973.667N1212儿子身高Pearson相关性.703*1显著性(双侧).011平方与叉积的和40.33338.917协方差3.6673.538N1212*.在0.05水平(双侧)上显著相关。SPSS 19(中文版)统计分析实用教程 电子工业出版社52主要内容主要内容7.1 相关分析简介相关分析简介7.2 两变量相关分析两变量相关分析7.3 偏相关分析偏相关分析7.4 距离分析距离分析SPSS 19(中文版)统计分析实用教程 电子工业出版社53(1)基本概念偏相关分析的任务就是在研究两个变量之间的线性相关关系时控制可能对其产生影响的变量,这种相关系数称为偏相关系数。偏相关系数的数值和简单相关系数的数值常常是不同的,在计算简单相关系数时,所有其他自变量不予考虑。(2)统计原理u控制一个变量和控制两个变量的偏相关系数分别为:7.3 偏相关分析偏相关分析SPSS 19(中文版)统计分析实用教程 电子工业出版社54u检验的统计量为:(3)(3)统计分析步骤统计分析步骤第1步 根据公式计算偏相关系数;第2步 对样本来自的两总体是否存在显著性相关进行推断。l提出零假设H0:即两总体的偏相关系数与零无显著性差异;l选择检验统计量:偏相关分析选择的是t统计量;l计算t值及对应的概率p值;l决策:如果相伴概率p值小于给定的显著性水平,则应拒绝零假设,认为两总体的偏相关系数与零有显著性差异;否则,接受原假设。7.3 偏相关分析偏相关分析SPSS 19(中文版)统计分析实用教程 电子工业出版社55(4)SPSS实现举例【例7-3】下表是四川绵阳地区3年生中山柏的数据,分析月生长量与月平均气温、月降雨量、月平均日照时数、月平均湿度4个气候因素中哪些因素有关。7.3 偏相关分析偏相关分析月份月生长量月平均气温月降雨量月平均日照时数月平均湿度月份月生长量月平均气温月降雨量月平均日照时数月平均湿度10.014.21754.58171824.796.9101.68320.57.410.873.879819.324.5269.5164.68631.51017.484.775914.822194.881.683410.816.119.7137751010.31858.1848251321.1248.7149.67711813.14.979.381616.323.972.2109.5791216.812.666.582SPSS 19(中文版)统计分析实用教程 电子工业出版社56567.3 偏相关分析偏相关分析第1步分析:这4个气候因素彼此均有影响,分析时应对生长量与4个气候因素分别求偏相关,如在求生长量与气候因素的相关时控制其他因素的影响。所以需进行偏相关分析;第2步数据组织:如上表定义4个变量,输入数据即可;第3步进行偏相关分析:选择菜单“分析相关双变量”,指定分析变量和控制变量,分析变量“hgrow”和“temp”的偏相关系数,并将“rain”、“hsun”、“humi”设为控制变量。如下图所示设置。SPSS 19(中文版)统计分析实用教程 电子工业出版社57第4步主要结果及分析。7.3 偏相关分析偏相关分析从中可以看出,月降雨量、月平均日照时数和月平均湿度为控制变量,生长量与月平均气温关系密切,偏相关系数为0.977,双尾检测的相伴概率为0.000(表示趋近于0的正数),明显小于显著性水平0.05。故应拒绝原假设,说明中山柏的生长量与气温间存在显著的相关性。控制变量生长量月平均气温月降雨量&月平均日照时数&月平均湿度生长量相关性1.000.977显著性(双侧).000df07月平均气温相关性.9771.000显著性(双侧).000.df70SPSS 19(中文版)统计分析实用教程 电子工业出版社58主要内容主要内容7.1 相关分析简介相关分析简介7.2 两变量相关分析两变量相关分析7.3 偏相关分析偏相关分析7.4 距离分析距离分析SPSS 19(中文版)统计分析实用教程 电子工业出版社59(1)基本概念距离分析是对观测量之间相似或不相似程度的一种测度,是计算一对观测量之间的广义距离。这些相似性或距离测度可以用于其他分析过程,例如因子分析、聚类分析或多维定标分析,有助于分析复杂的数据集。(2)统计原理u不相似性测度l对定距数据的不相似性(距离)测度可以使用的统计量有:欧几里得距离、平方欧氏距离、切比雪夫距离、Block距离、明可斯基距离等。l对定序数据,主要使用卡方不相似测度和斐方测度。l对二值(只有两种取值)数据变量之间的距离描述,使用欧氏距离、平方欧氏距离、尺寸差异、模式差异、方差、形或兰斯和威廉斯等距离统计量。7.4 距离分析距离分析SPSS 19(中文版)统计分析实用教程 电子工业出版社60u相似性测度l对于定距数据主要使用皮尔逊相关系数和夹角余弦距离;l对于二值数据的相似性测度主要包括简单匹配系数、Jaccard相似性指数、Hamann相似性测度等20余种。7.4 距离分析距离分析其中的距离又分为个案(观测记录)之间的距离和变量之间的距离两种。(3)(3)分析步骤分析步骤 距离分析中不存在假设检验问题,主要是通过SPSS自动计算变量或个案之间的相似性或不相似性距离,根据其计算距离值的大小来确定变量或个案之间的相似性或不相似性的强弱。SPSS 19(中文版)统计分析实用教程 电子工业出版社61(4)SPSS实现举例【例7-4】已知我国四城市2004年各月的日照时数如下表所示,请分析各城市日照数是否近似。7.4 距离分析距离分析月份 北京天津 石家庄 大连 月份北京天津 石家庄 大连1194.7 161.7193.8163.57203.2 179.5185.4228.52213.5 185.2219.2195.38187.4 149.8152.11743243.6 166.8220.9223.19198.9 178.7203.4202.74248.2 214.3240.9276.910225.2 194.7220.7228.45253.3221277.9243.411201.4 172.8197.5172.96202182.5213.419012144119.197.9167SPSS 19(中文版)统计分析实用教程 电子工业出版社62第1步 分析:这是考查4个城市的日照时数是否相似的问题,可用距离分析实现。既可以计算其相似性测度,亦可计算其不相似性测度;第2步 数据组织:分别定义的变量:month”(月份)(用字符型变量)、“Beijing”(北京)、“Tianjin”(天津)、“ShiJZ”(石家庄)、“Dalian”(大连)。7.4 距离分析距离分析SPSS 19(中文版)统计分析实用教程 电子工业出版社637.4 距离分析距离分析第3步 进行距离分析:选择菜单“分析相关距离”,弹出下图所示的“距离”对话框,将4个变量(“北京”、“天津”、“石家庄”、“大连”)移入“变量”框中进行相似性度量计算;在“计算距离”组中选中“个案间”单选框,进行变量间的距离分析;在“度量标准”单选框组中选中不相似性,求解其不相似性度量。SPSS 19(中文版)统计分析实用教程 电子工业出版社64第4步主要结果及分析。7.4 距离分析距离分析表格的第一行(Euclidean距离)说明采用的是欧氏距离。这是一个对称矩阵,当两变量的欧氏距离越大,说明其差别越大,反之越小。从表中可看出“北京”和“大连”的日照数最接近,而“北京”和“天津”的日照数相差最大。Euclidean距离北京天津石家庄大连北京.000122.93371.28070.542天津122.933.000111.350121.427石家庄71.280111.350.000110.928大连70.542121.427110.928.000这是一个不相似性矩阵。SPSS 19(中文版)统计分析实用教程 电子工业出版社65The End