第8章-方差分析.doc
《第8章-方差分析.doc》由会员分享,可在线阅读,更多相关《第8章-方差分析.doc(17页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精品文档,仅供学习与交流,如有侵权请联系网站删除第8章 方差分析【学习目标】 了解方差分析的含义及其分类。 理解单因素方差分析的基本原理。 理解双因素方差分析的步骤。 掌握SPSS中单因素方差分析的操作方法。 掌握SPSS中双因素方差分析的操作方法。【引导案例】不同运动队的平均成绩之间是否有显著差异?在奥运会女子团体射箭比赛中,每个队有3名运动员,进入最后决赛的团队需要进行四轮射击,每个队员进行两次射击。这样,每个组共射出6箭,4轮共射出24箭。在2012年7月29日第30屆伦敦奥运会女子团体射箭比赛中,获得前三名的运动队最后决赛的成绩如表8-1所示: 表8-1 三国射箭队的决赛成绩 (单位:
2、环数)轮韩国(金牌)中国(银牌)日本(铜牌)1786878789991010779882710999998991089910971038109881099981091088108949109108108999899999910每队的24箭成绩可以看作该队射箭成绩的一个随机样本。现在的问题是,获得金牌、银牌和铜牌的各队之间的射箭成绩是否有明显差异呢?如果采用第六章平均数分析和T检验的方法,需要通过独立样本T检验做两两比较,总共比较3次。这样做不仅繁琐,而且每次检验犯第类错误的概率都是,多次检验会使犯第类错误的概率相应地增加,检验完成时,犯第类错误的概率会大于。同时,随着检验次数的增加,随机因素导
3、致差异的可能性也会增加。本章介绍的方差分析方法可以解决这个问题,它可以同时考虑所有的样本数据,一次检验即可判断多个总体的平均数是否相同,这不仅排除了犯第类错误的累积概率,也提高了检验的效率。8.1 方差分析的原理8.1.1 方差分析的概念1. 什么是方差分析方差分析(analysis of variance,ANOVA)是检验多个(两个或两个以上)样本来自的总体其平均数之间是否存在显著差异的一种方法。例如,不同教育水平(高中、本科、研究生)的员工收入是否有显著差异;不同地区(东部、中部、西部)的经济增长水平是否有显著差异;几种药物对一种疾病的治疗效果是否有显著差异等。需要注意的是,方差分析不是
4、检验方差的差异,而是通过比较方差的方法检验平均数的差异。2方差分析的类型方差分析可以分为单因素方差分析(one-way analysis of variance)和多因素方差分析(multi-way analysis of variance)两大类。单因素方差分析是研究一个定类或定序变量与一个数值型变量之间的关系,即通过定类或定序变量进行分组,然后比较每个组数值型变量平均数的差异。例如上面的例子都属于单因素方差分析。多因素方差分析是研究两个及两个以上定类或定序变量与一个数值型变量之间的关系,它不仅能分析多个定类或定序变量对数值型变量的独立影响,还能分析多个定类或定序变量的交互作用能否对数值型变
5、量的产生显著影响。例如,研究不同教育水平(高中、本科、研究生)和不同工作岗位(技术人员、管理人员、销售人员)的员工收入是否存在显著差异时,采用多因素方差分析既可以分别考查教育水平和工作岗位对员工收入的独立影响,还可以考查教育水平和工作岗位的交互作用对员工收入的影响。方差分析中的定类或定序变量常被称为自变量,数值型变量被称为因变量,自变量对因变量的影响称为自变量效应。下面我们将以单因素方差分析为例来介绍方差分析的基本原理,在多因素方差分析中,我们介绍最简单的双因素方差分析(two-way analysis of variance)。8.1.2 方差分析的基本原理下面通过一个实例来介绍方差分析的基
6、本原理。【例8-1】某公司采用四种促销方式销售产品,为检验不同促销方式销售产品的效果,在不同的销售点随机抽取一些样本进行分析,得到了四种促销方式的产品销售量,见表8-2。表8-2 四种促销方式的产品销售量方式一方式二方式三方式四销售量7795718086927684817868798896817083897482水平平均数总平均数要分析四种促销方式的销售效果否有显著差异,也就是要判断“促销方式”对“销售效果”是否有显著影响,判断的方法就是检验这四种促销方式下的销售量的平均数是否相等。若平均数相等,则意味着“促销方式”对“销售量”没有影响,即四种促销方式的销售效果没有显著差异;若平均数不全相等,
7、则意味着“促销方式”对“销售量”有影响,即四种促销方式的销售效果有显著差异。因此提出以下检验假设:(四种促销方式对销售量没有显著影响);不全相等(四种促销方式对销售量有显著影响)。1常用术语下面以例8-1为例,先介绍方差分析中的常用术语。(1)因素或因子(factor):即方差分析中的定类或定序变量,也就是自变量,或所要检验的对象。例如,分析不同促销方式对销售量的影响,促销方式是要检验的因素。(2)水平(level)或处理(treatment):即因素的每个取值。例如,分析不同促销方式对销售量的影响,因素促销方式的四个取值,方式一、方式二、方式三和方式四就是水平,所以因素促销方式有四个水平。(
8、3)试验:例8-1只涉及一个因素,因此称为单因素四水平的试验。(4)总体:因素的每一个水平可以看作是一个总体。例如采用促销方式一得到的5个销售量就形成一个总体,共有四种促销方式,因此形成四个总体。(5)观察值:每个因素水平下得到的样本数据。例如,商品在四种促销方式下的销售量就是观察值。2方差分解方差分析的原理是认为不同组的平均数之间的差异来源于两个方面:(1)组内方差:每个总体内部各观察值之间的差异,例如,同一促销方式里产品的销售量之间的差异,这种差异主要是由随机因素导致的,称为随机误差。(2)组间方差:不同总体之间观察值平均数的差异,例如,不同促销方式之间产品的销售量之间的差异,这种差异既可
9、能是由于抽样的随机性造成的,也可能是由于促销方式不同造成的,后者所形成的误差主要是由系统性因素造成的,称为系统误差或处理误差。若组间方差远远大于组内方差,说明系统因素的影响确实存在,即组与组之间有明显差异。若组间方差和组内方差差异不大,说明系统因素的影响不明显或不存在,即组与组之间没有太大差异。3两类误差在方差分析当中,我们将反映全部观察值的误差称为总误差(total error)。总误差可能是由于不同处理(如不同的促销方式)造成的,也可能是又由于随机因素(如抽样的随机性)造成的。前者就是处理误差,后者就是随机误差,所以有:总误差=处理误差+随机误差总方差=组内方差+组间方差4平方和(1)在统
10、计中,数据的误差通常使用平方和来表示,记为。反映全部数据总误差大小的平方和称为总平方和,记做,它反映全部观察值的离散状况,其计算公式是: (8.1)根据表8-2的数据进行计算可知:(2)反映同一水平下数据误差的平方和称为组内平方和,记为,它只包含随机误差,反映的是每个总体各观察值的离散状况,计算公式是: (8.2)根据表8-2的数据进行计算可知:促销方式一的组内平方和是:促销方式二的组内平方和是:促销方式三的组内平方和是:促销方式四的组内平方和是:所以有:(3)反映不同水平之间数据误差的平方和称为组间平方和,记做,它既包括随机误差,也包括系统误差,反映的是四个总体的样本平均数之间的差异程度,计
11、算公式是: (8.3)根据表8-2的数据进行计算可知:总平方和、组内平方和、组间平方和三者之间的关系是: (8.4)即有:1183=498+6855均方平方和的大小与观察值的多少有关,为消除观察值的个数对平方和大小的影响,需要将其平均,这就是均方(mean square),也称为方差。所以,均方由平方和除以相应的自由度求得。的自由度为,其中为全部观察值的个数;的自由度为,其中为因素水平(总体)的个数;的自由度为。6方差分析的检验统计量根据上面介绍的误差、平方和以及均方的概念可以构造方差分析的检验统计量,如表8-3所示。表8-3 方差分析表误差来源平方和自由度均方检验统计量显著性水平随机误差处理
12、误差总误差所以,方差分析的检验的步骤是:第一步:提出原假设和备择假设:原假设:不同的组都来自具有共同方差和相同平均数的正态总体,即不同组的平均数没有显著差异,即:。备择假设:不同的组来自不同的正态总体,即不同组的平均数有显著差异,即:不全相等。第二步:选择显著性水平,可以是0.01,0.05,0.1。第三步:根据计算出的值及其值(即SPSS中的)与进行比较,做出判断:若,拒绝原假设,认为不同组的平均数有显著差异;若,不拒绝原假设,认为不同组的平均数没有显著差异。8.1.3 方差分析的基本假定采用方差分析进行统计推断需要满足一些基本假定,包括: 1正态性:即每种水平所对应的总体都应服从正态分布,
13、即每种水平的观察值都是来自正态分布总体的简单随机样本。2方差齐性:即每种水平所对应的总体方差都应相等。若每种水平观察值的方差不等则不适用方差分析。3独立性:即每种水平的观察值都是从相互独立的总体中抽取的。8.2 单因方差分析如前所述,单因素方差分析是研究一个定类或定序变量与一个数值型变量之间的关系,即通过定类或定序变量进行分组,然后比较每个组数值型变量平均数的差异。在SPSS中进行单因素方差分析的操作如下:1单因素方差分析的方法(1)打开单因素方差分析对话框单击【分析】【均值比较】【单因素ANOVA】,打开单因素方差分析对话框,如图8-1所示。图8-1 单因素方差分析对话框(2)选择因变量和自
14、变量从左侧源变量窗口选择要分析的数值型变量进入【因变量列表】窗口,选择一个定类或定序变量作为自变量进入【因子】窗口。(3)确定统计输出结果单击【选项】按钮,打开单因素选项对话框,如图8-2所示,该对话框包括三项内容:【统计量】选项栏,主要包括:【描述性】输出描述统计结果,如个案数、平均数、标准差、标准误差、最小值、最大值、各组中因变量的95%的置信区间。【固定和随机效果】输出确定性影响因素和随机影响因素的选项。【方差同质性检验】进行等方差性检验。图8-2 单因素分析选项对话框【Brown-Frosythe】进行各组平均数是否相等的检验。Brown-Frosythe分布近似于分布,进行Brown
15、-Frosythe检验不要求方差相等,因此,当因变量分布不满足方差齐性要求时,采用该检验方法比方差分析更稳妥。【Welch】进行各组平均数是否相等的检验。Welch分布也近似于分布,进行Welch检验不要求方差相等,因此,当因变量分布不满足方差齐性要求时,采用该检验方法比方差分析更稳妥。【均值图】根据各组平均数输出因变量的分布图。【缺失值】确定缺失值的处理方法。【按分析顺序排除个案】只剔除分析变量为缺失值的个案;【按列表排除个案】剔除任何含有缺失值的个案。上述操作完成后,单击【继续】,返回单因素方差分析对话框。(4)打开平均数多重比较对话框单击【两两比较】,打开平均数多重比较对话框,如图8-3
16、所示。图8-3 平均数多重比较对话框该对话框包含的内容较多,初学者进行多重比较,若方差相等只需选择【假定方差齐性】选项栏中的【LSD】选项,若方差不相等只需选择【未假定方差齐性】选项栏中的【Tamhanes T2】选项,在【显著性水平】后的窗口可以定义显著性水平,系统默认为0.05。上述操作完成后,单击【继续】,返回单因素方差分析对话框。单击【确定】,提交运行。2单因素方差分析的实例【例8-2】根据例8-1,进行单因素方差分析,检验四种促销方式的销售效果否有显著差异。若存在显著差异,请进一步比较每组之间的差异。()首先提出检验假设:(四种促销方式对销售量没有显著影响);不全相等(四种促销方式对
17、销售量有显著影响)。在SPSS中进行操作的步骤如下: (1)先用探索性分析对数据的正态性进行检验。单击【分析】【描述统计】【探索】,打开探索分析统计对话框,从左侧源变量框选择变量销售量(sales)进入【因变量列表】窗口。从左侧源变量框选择变量促销方式(promotion)进入【因子列表】窗口。在输出选项栏选择【图】。单击【图标】按钮,打开探索图表对话框,选择带检验的正态图。单击【继续】返回探索分析对话框,如图8-4所示,单击【确定】,提交运行。图8-4 探索分析对话框(2)结果分析。在结果输出窗口得到图8-5:(a)促销方式一(a)促销方式二(c)促销方式三(c)促销方式四图8-5 不同促销
18、方式下的销售量标准Q-Q图观察图8-5(a)(b)(c)(d),可知四个总体基本上满足正态性假定。可以采用方差分析。(3)单击【分析】【均值比较】【单因素ANOVA】,打开单因素方差分析对话框,如图8-1所示。(4)从左侧源变量窗口选择变量销售量(sales)进入【因变量列表】窗口,选择变量促销方式(promotion)作为自变量进入【因子】窗口。(5)单击【选项】按钮,打开选项对话框,如图8-2所示,选择【描述性】和【方差同质性检验】两个选项。单击【继续】,返回单因素方差分析对话框。单击【确定】,提交运行。(6)结果分析。在结果输出窗口得到如下表格:表8-4报告了四种销售方式的下销售量的描述
19、性统计结果,包括平均数、标准差、标准误、95%的置信区间、极小值和极大值。表8-4 描述性统计表销售量N均值标准差标准误均值的95%置信区间极小值极大值下限上限方式一583.00004.301161.9235477.659488.340677.0088.00方式二590.00007.245693.2403781.003398.996778.0096.00方式三574.00004.949752.2135967.854180.145968.0081.00方式四579.00005.385162.4083272.313485.686670.0084.00总数2081.50007.890701.7644
20、177.807085.193068.0096.00表8-5报告了方差齐性检验结果,由表可知Levene 统计量的值为0.346,值=0.7930.05,不拒绝方差相等的假设,所以认为四组销售方式下的销售量满足方差相等的假定。表8-5 方差齐性检验销售量Levene 统计量df1df2显著性.346316.793表8-6是方差分析表,报告了组间平方和、组内平方和、总平方和及其自由度、均方、F值和值,由值=0.0030.05,拒绝原假设,认为四种销售方式的下销售量有显著差异。表8-6 方差分析表销售量平方和df均方F显著性组间685.0003228.3337.336.003组内498.000163
21、1.125总数1183.00019(7)经分析可知四种销售方式的下销售量有显著差异,进一步比较每组之间的差异。重复(1)(2),然后单击【两两比较】,打开多重比较对话框,在假定方差相等选项栏中选择【LSD】,如图8-3所示。然后单击【继续】,返回单因素方差分析对话框。单击【确定】,提交运行。(8)结果分析。在结果输出窗口得到表8-7。该是多重比较表,报告了每一种促销方式和另外三种促销方式的平均数比较结果。根据显著性水平可以判断出,促销方式一和方式二的销售量无显著差异;促销方式一和方式三的销售量有显著差异;促销方式一和方式四的销售量无显著差异;促销方式二和方式三的销售量有显著差异;促销方式二和方
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 方差分析
限制150内