《统计学假设检验与方差分析.pptx》由会员分享,可在线阅读,更多相关《统计学假设检验与方差分析.pptx(113页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、学习目标1.了解假设检验的基本思想和假设检验的两类错误2.掌握假设检验方法,正确给出原假设和备择假设,给出拒绝区间;3.学会一个总体参数的检验;4.理解方差分析的统计思想,掌握其具体方法。第1页/共113页第一节 假设检验的基本概念第2页/共113页假设检验的概念与思想假设检验的概念与思想第3页/共113页什么是假设?对总体参数的一种看法总体参数包括总体均值、比例、方差总体均值、比例、方差等分析之前之前必需陈述我认为该企业生产的零我认为该企业生产的零件的平均长度为件的平均长度为4 4厘米厘米!第4页/共113页什么是假设检验?1.概念 事先对总体参数或分布函数作出某种假设事先对总体参数或分布函
2、数作出某种假设事先对总体参数或分布函数作出某种假设事先对总体参数或分布函数作出某种假设 然后利用样本信息来判断原假设是否成立然后利用样本信息来判断原假设是否成立然后利用样本信息来判断原假设是否成立然后利用样本信息来判断原假设是否成立2.类型 参数假设检验参数假设检验参数假设检验参数假设检验 非非非非参数假设检验参数假设检验参数假设检验参数假设检验3.特点 采用逻辑上的反证法采用逻辑上的反证法采用逻辑上的反证法采用逻辑上的反证法 先认为假设为真,观察在此前提下所抽到样本的出先认为假设为真,观察在此前提下所抽到样本的出现是否合理。若合理则判断假设可接受,反之拒绝现是否合理。若合理则判断假设可接受,
3、反之拒绝假设。假设。依据统计上的小概率原理依据统计上的小概率原理依据统计上的小概率原理依据统计上的小概率原理第5页/共113页假设检验的基本思想假设检验的基本思想假设检验的基本思想假设检验的基本思想例1 1,某工厂质检部门规定该厂次品率不超过4方能出厂。今从1000件产品中抽出10件,经检验有4件次品,问这批产品是否能出厂?假设:这批产品可以出厂,则这批产品的次品率P0.04假设检验:A:抽到:抽到10件产品有件产品有4件次品件次品第6页/共113页如果次品率如果次品率P0.04P0.04,则事件,则事件A A的概率是的概率是相当小的,相当小的,10001000次可能出现一次。这种次可能出现一
4、次。这种可能性极小,但在一次抽样中发生了,可能性极小,但在一次抽样中发生了,显然不合理。这种不合理性源于推论的显然不合理。这种不合理性源于推论的假设前提,故上述假设不能接受。假设前提,故上述假设不能接受。第7页/共113页例例2 2 某企业生产一种零件原来的平均长度为4 cm,标准差为0.02 cm。改革生产工艺后,抽查了100件零件,样本的平均长度为3.948。改革后的零件的平均长度是否发生了显著变化?第8页/共113页假设检验:结论:小概率事件在一次试验中发生了,这是不合理的,其根源在于假设零件小概率事件在一次试验中发生了,这是不合理的,其根源在于假设零件小概率事件在一次试验中发生了,这是
5、不合理的,其根源在于假设零件小概率事件在一次试验中发生了,这是不合理的,其根源在于假设零件的平均长度为的平均长度为的平均长度为的平均长度为4cm4cm。因此应拒绝原假设,即该企业改革生产工艺前后,零件的长度有。因此应拒绝原假设,即该企业改革生产工艺前后,零件的长度有。因此应拒绝原假设,即该企业改革生产工艺前后,零件的长度有。因此应拒绝原假设,即该企业改革生产工艺前后,零件的长度有显著性差异。显著性差异。显著性差异。显著性差异。第9页/共113页假设检验中的小概率原理 什么小概率?什么小概率?1.在一次试验中,一个几乎不可能发生的事件发生的概率2.小小小小概概概概率率率率原原原原理理理理:小小小
6、小概概概概率率率率事事事事件件件件在在在在一一一一次次次次试试试试验验验验(观观观观察察察察)中几乎不可能发生。中几乎不可能发生。中几乎不可能发生。中几乎不可能发生。3.在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设,反之接受原假设4.小概率由研究者事先确定,通常用 表示,又称为检验的显著性水平显著性水平。什么是小概率什么是小概率什么是小概率第10页/共113页总体总体总体总体假设检验的过程(提出假设抽取样本作出决策)抽取随机样本抽取随机样本抽取随机样本抽取随机样本均值均值均值均值 X X=20=20我认为人口的平我认为人口的平均年龄是均年龄是5050岁岁 提出假设提出假设提出假设提出
7、假设 拒绝假设拒绝假设!别无选择别无选择.作出决策作出决策作出决策作出决策第11页/共113页假设检验的步骤假设检验的步骤提出原假设和备择假设提出原假设和备择假设确定适当的检验统计量及其分布确定适当的检验统计量及其分布规定显著性水平规定显著性水平 计算检验统计量的值或计算检验统计量的值或P值值作出统计决策作出统计决策第12页/共113页提出原假设和备择假设 什么是原假设?什么是原假设?(Null Hypothesis)(Null Hypothesis)待检验的假设,又称“0 0假设假设”,用 H0表示。什么是备择假设?(AlternativeHypothesis)与原假设对立的假设,表示为 H
8、1事实上,对某个问题提出了原假设,也就同时给出了备择假设。原假设的提出应事实上,对某个问题提出了原假设,也就同时给出了备择假设。原假设的提出应本着本着“保守保守”或或“不轻易拒绝原假设不轻易拒绝原假设”的原则。的原则。第13页/共113页假设的三种形式:假设的三种形式:第14页/共113页 什么检验统计量?什么检验统计量?1.用于假设检验问题的统计量2.选择统计量的方法与参数估计相同,需考虑待检验的参数是什么是大样本还是小样本总体方差已知还是未知3.常用的检验统计量有:Z、t、卡方、F统计量等。如 确定适当的检验统计量及其分布确定适当的检验统计量及其分布第15页/共113页规定显著性水平 什么
9、显著性水平?原假设为真时,拒绝原假设的概率。记为原假设为真时,拒绝原假设的概率。记为 ,常用的常用的 值有值有0.01,0.05,0.100.01,0.05,0.10。注意:注意:注意:注意:给定了给定了,也就确定了临界值,也就确定了临界值原假设的原假设的接受区域与拒绝区域的分界点。根据检验统接受区域与拒绝区域的分界点。根据检验统计量的分布,对于给定的计量的分布,对于给定的 查相应的概率查相应的概率分布表,即得临界值。如分布表,即得临界值。如 采用采用Z Z统计量,当统计量,当=0.05=0.05时对应的临界时对应的临界Z Z0.050.05=1.645=1.645 第16页/共113页计算检
10、验统计量的值 根据样本资料计算出检验统计量的值或根据样本资料计算出检验统计量的值或P P值。值。P P值的解释值的解释 第17页/共113页作出统计决策1.将检验统计量的值与显著性水平 的临界值进行比较,得出接受或拒绝原假设的结论;2.当检验统计量的值落在拒绝区域,则拒绝原假设;反之,接受或不能拒绝原假设。对于对于P P值,若计算所得的值,若计算所得的P P值小于值小于显著性显著性水平水平 ,则拒绝原假设,否则拒绝原假设,否则接受原假设。则接受原假设。第18页/共113页1.第一类错误(弃真错误或拒真错误)原假设为真时拒绝原假设犯第一类错误的概率为(称为显著性水平)P P(拒绝(拒绝HH0 0
11、/H/H0 0为真)为真)=2.第二类错误(取伪错误或采伪错误)原假设为假时接受原假设犯第二类错误的概率为(Beta)P P(接受(接受HH0 0/H/H0 0不真)不真)=假设检验中的两类错误假设检验中的两类错误(决策风险)(决策风险)第19页/共113页H H0 0:无罪无罪无罪无罪假设检验中的两类错误假设检验中的两类错误(决策结果)(决策结果)陪审团审判陪审团审判裁决裁决实际情况实际情况无罪无罪有罪有罪无罪无罪正确正确错误错误有罪有罪错误错误正确正确H0 检验检验决策决策实际情况实际情况H0为真为真H0为假为假接受接受H01-第二类错第二类错误误()拒绝拒绝H0第一类错第一类错误误()功
12、效功效(1-(1-)假设检验就好像一场审判过程假设检验就好像一场审判过程假设检验就好像一场审判过程统计检验过程统计检验过程统计检验过程第20页/共113页 错误和 错误的关系 你不能同时减你不能同时减少两类错误少两类错误!和和和和 的关系就像的关系就像的关系就像的关系就像翘翘板,翘翘板,翘翘板,翘翘板,小小小小 就就就就大,大,大,大,大大大大 就小就小就小就小第21页/共113页注意:在检验中人们总希望犯两类错误的可能性在检验中人们总希望犯两类错误的可能性都很小,然而,在其它条件不变的情况下,都很小,然而,在其它条件不变的情况下,a a和和 不可能同时减小。不可能同时减小。实践中,哪一类错误
13、带来的后果越严重、实践中,哪一类错误带来的后果越严重、危害越大,就应该作为首要的控制目标危害越大,就应该作为首要的控制目标.在假设检验中,一般都首先控制第一类错在假设检验中,一般都首先控制第一类错误误.第22页/共113页确定时须考虑的因素 视两类错误所产生的后果轻重而定视两类错误所产生的后果轻重而定 当犯第一类错误的后果严重时当犯第一类错误的后果严重时,则希望尽可能不犯第一类错误,宁愿犯第二类错,则希望尽可能不犯第一类错误,宁愿犯第二类错误,此时误,此时 宜小宜小。当犯第二类错误的后果严重时当犯第二类错误的后果严重时,则希望尽可能不犯第二类错误,宁愿犯第一类,则希望尽可能不犯第二类错误,宁愿
14、犯第一类错误,此时错误,此时 不宜太小不宜太小。事前对原假设的信念 对原假设越有信心,则对原假设越有信心,则 越小;反之则越小;反之则 越大越大第23页/共113页影响 错误的因素1.总体参数的真值 随着总体参数的假设值与真实值的差异缩小而增随着总体参数的假设值与真实值的差异缩小而增大大2.显著性水平 当当 减少时增大减少时增大3.总体标准差 当当 增大时增大增大时增大4.样本容量 n当当 n n 减少时增大减少时增大第24页/共113页双侧检验与单侧检验(假设的形式)假设假设研究的问题研究的问题双侧检验双侧检验左侧检验左侧检验右侧检验右侧检验H0=0 0 0 0 0 0H1 0 0 0 0第
15、25页/共113页双侧检验(原假设与备择假设的确定)1.双侧检验属于决策中的假设检验。也就是说,不论是拒绝H0还是接受H0,我们都必需采取相应的行动措施2.例如,某种零件的尺寸,要求其平均长度为10厘米,大于或小于10厘米均属于不合格3.建立的原假设与备择假设应为 H0:=10 H1:10第26页/共113页双侧检验(确定假设的步骤)1.例如问题为:检验该企业生产的零件平均长度为4厘米2.步骤从统计角度陈述问题(=4)从统计角度提出相反的问题(4)必需互斥和穷尽提出原假设(=4)提出备择假设(4)第27页/共113页提出原假设:H0:=4提出备择假设:H1:4 该企业生产的零件平均长度是该企业
16、生产的零件平均长度是4厘米吗厘米吗?(属于决策中的假设)双侧检验(例子)第28页/共113页双侧检验(显著性水平与拒绝域)抽样分布抽样分布抽样分布抽样分布抽样分布抽样分布H HH000值值值临界值临界值临界值临界值临界值临界值 /2/2 /2/2/2 样本统计量样本统计量样本统计量拒绝域拒绝域拒绝域拒绝域拒绝域拒绝域接受域接受域接受域1-1-1-置信水平置信水平置信水平置信水平置信水平置信水平第29页/共113页双侧检验(显著性水平与拒绝域)H H0 0值值临界值临界值临界值临界值/2 /2/2 样本统计量样本统计量拒绝域拒绝域拒绝域拒绝域接受域接受域抽样分布抽样分布抽样分布抽样分布1-1-置
17、信水平置信水平置信水平置信水平第30页/共113页双侧检验(显著性水平与拒绝域)H H0 0值值临界值临界值临界值临界值 /2 /2/2 样本统计量样本统计量拒绝域拒绝域拒绝域拒绝域接受域接受域抽样分布抽样分布抽样分布抽样分布1-1-置信水平置信水平置信水平置信水平第31页/共113页双侧检验(显著性水平与拒绝域)H H0 0值值临界值临界值临界值临界值/2 /2/2 样本统计量样本统计量拒绝域拒绝域拒绝域拒绝域接受域接受域抽样分布抽样分布抽样分布抽样分布1-1-置信水平置信水平置信水平置信水平第32页/共113页单侧检验(原假设与备择假设的确定)检验研究中的假设1.将所研究的假设作为备择假设
18、H12.将认为研究结果是无效的说法或理论作为原假设H0。或者说,把希望(想要)证明的假设作为备择假设3.先确立备择假设H1第33页/共113页单侧检验(原假设与备择假设的确定)q例如,采用新技术生产后,将会使产品的使用寿命明显延长到1500小时以上属于研究中的假设建立的原假设与备择假设应为 H0:1500 H1:1500q例如,改进生产工艺后,会使产品的废品率降低到2%以下属于研究中的假设建立的原假设与备择假设应为 H0:2%H1:2%第34页/共113页单侧检验(原假设与备择假设的确定)检验某项声明的有效性1.将所作出的说明(声明)作为原假设2.对该说明的质疑作为备择假设3.先确立原假设H0
19、除非我们有证据表明“声明”无效,否则就应认为该“声明”是有效的第35页/共113页单侧检验(原假设与备择假设的确定)q例如,某灯泡制造商声称,该企业所生产的灯泡的平均使用寿命在1000小时以上除非样本能提供证据表明使用寿命在1000小时以下,否则就应认为厂商的声称是正确的建立的原假设与备择假设应为 H0:1000 H1:1000第36页/共113页提出原假设:H0:1000选择备择假设:H1:1000 q该批产品的平均使用寿命超过该批产品的平均使用寿命超过1000小时吗小时吗?(属于检验声明的有效性,先提出原假设)单侧检验(例子)第37页/共113页提出原假设:H0:25选择备择假设:H1:2
20、5 q学生中经常上网的人数超过学生中经常上网的人数超过25%吗吗?(属于研究中的假设,先提出备择假设)(属于研究中的假设,先提出备择假设)单侧检验(例子)第38页/共113页单侧检验(显著性水平与拒绝域)H H0 0值值临界值临界值 样本统计量样本统计量拒绝域拒绝域接受域接受域抽样分布抽样分布抽样分布抽样分布1-1-置信水平置信水平置信水平置信水平第39页/共113页左侧检验(显著性水平与拒绝域)H HH0 00值值值临界值临界值临界值 样本统计量样本统计量样本统计量拒绝域拒绝域拒绝域接受域接受域接受域抽样分布抽样分布抽样分布抽样分布抽样分布抽样分布1-1-1-置信水平置信水平置信水平置信水平
21、置信水平置信水平观察到的样本统计量观察到的样本统计量观察到的样本统计量观察到的样本统计量观察到的样本统计量观察到的样本统计量第40页/共113页左侧检验(显著性水平与拒绝域)H HH0 00值值值临界值临界值临界值 样本统计量样本统计量样本统计量拒绝域拒绝域拒绝域接受域接受域接受域抽样分布抽样分布抽样分布抽样分布1-1-1-置信水平置信水平置信水平置信水平第41页/共113页右侧检验(显著性水平与拒绝域)H HH0 00值值值临界值临界值临界值 样本统计量样本统计量样本统计量拒绝域拒绝域拒绝域接受域接受域接受域抽样分布抽样分布抽样分布抽样分布抽样分布抽样分布1-1-1-置信水平置信水平置信水平
22、置信水平置信水平置信水平观察到的样本统计量观察到的样本统计量观察到的样本统计量观察到的样本统计量观察到的样本统计量观察到的样本统计量第42页/共113页右侧检验(显著性水平与拒绝域)H HH0 00值值值临界值临界值临界值 样本统计量样本统计量样本统计量接受域接受域接受域抽样分布抽样分布抽样分布抽样分布1-1-1-置信水平置信水平置信水平置信水平拒绝域拒绝域拒绝域第43页/共113页第二节第二节 一个正态总体的参数检验一个正态总体的参数检验第44页/共113页一、方差已知时单一正态总体均值检验 zz检验法检验法 二、方差未知时单一正态总体均值检验 tt检验法检验法 三、单一正态总体方差检验 卡
23、方检验法卡方检验法 四、单一总体成数检验 zz检验法检验法第45页/共113页一个总体的检验Z 检验检验(单侧和双侧单侧和双侧)t 检验检验(单侧和双侧单侧和双侧)Z 检验检验(单侧和双侧单侧和双侧)2 2检验检验(单侧和双侧)(单侧和双侧)均值均值一个总体一个总体成数成数方差方差第46页/共113页检验的步骤 陈述原假设 H0 陈述备择假设 H1 选择显著性水平 选择检验统计量 选择n 给出临界值 搜集数据 计算检验统计量 进行统计决策 表述决策结果第47页/共113页1.假定条件假定条件 总体服从正态分布总体服从正态分布总体服从正态分布总体服从正态分布 若不服从正态分布若不服从正态分布若不
24、服从正态分布若不服从正态分布,可用正态分布来近可用正态分布来近可用正态分布来近可用正态分布来近(n n n n 30)30)30)30)2.2.原假设为原假设为:备择假设为备择假设为:3.3.使用使用z z-统计量统计量方差已知时单一正态总体均值检验方差已知时单一正态总体均值检验 第48页/共113页H HH000值值值临界值临界值临界值临界值临界值临界值 /2/2 /2/2/2 样本统计量样本统计量样本统计量拒绝域拒绝域拒绝域拒绝域拒绝域拒绝域接受域接受域接受域1-1-1-置信水平置信水平置信水平置信水平置信水平置信水平均值的双侧 Z 检验第49页/共113页均值的单侧 Z 检验左侧:左侧:
25、左侧:左侧:Z Z0 0拒绝拒绝 H H0 0 右侧:右侧:右侧:右侧:Z Z0 0拒绝拒绝 H H0 0 第50页/共113页均值的双侧Z 检验(实例)【例】某机床厂加工一种零件,根据经验知道,该厂加工零件的椭圆度近似服从正态分布,其总体均值为0=0.081mm,总体标准差为=0.025。今换一种新机床进行加工,抽取n=200个零件进 行 检 验,得 到 的 椭 圆 度 为0.076mm。试问新机床加工零件的椭圆度的均值与以前有无显著差异?(0.05)属于决策中属于决策中的假设!的假设!第51页/共113页均值的双侧 Z 检验(计算结果)H0:=0.081H1:0.081 =0.05n=20
26、0临界值(s):检验统计量检验统计量检验统计量检验统计量:Z Z0 01.961.96-1.96-1.96.025025拒绝拒绝 H H0 0拒绝拒绝 H H0 0.025.025决策决策决策决策:结论结论结论结论:有有证证据据表表明明新新机机床床加加工工的的零零件件的椭圆度与以前有显著差异的椭圆度与以前有显著差异第52页/共113页均值的单侧Z检验(实例)【例】某批发商欲从生产厂家购进一批灯泡,根据合同规定,灯泡的使用寿命平均不能低于1000小时。已知灯泡使用寿命服从正态分布,标准差为20小时。在总体中随机抽取100只灯泡,测得样本均值为960小时。批发商是否应该购买这批灯泡?(0.05)属
27、于检验声明属于检验声明的有效性!的有效性!第53页/共113页均值的单侧Z检验(计算结果)H0:1000H1:1020 =0.05n=16临界值(s):检验统计量检验统计量检验统计量检验统计量:有证据表明这批灯泡的使用有证据表明这批灯泡的使用寿命有显著提高寿命有显著提高决策决策决策决策:结论结论结论结论:Z Z0 0拒绝域拒绝域0.050.051.6451.645第56页/共113页第57页/共113页(2 2 未知)1.假定条件总体为正态分布小样本2.3.使用t 统计量总体方差未知时的均值检验第58页/共113页第59页/共113页均值的双侧 t 检验(实例)【例】某厂采用自动包装机分装产品
28、,假定每包产品的重量服从正态分布,每包标准重量为1000克。某日随机抽查9包,测得样本平均重量为986克,样本标准差为24克。试问在0.05的显著性水平上,能否认为这天自动包装机工作正常?属于决策中属于决策中的假设!的假设!第60页/共113页均值的双侧 t 检验(计算结果)H0:=1000H1:1000 =0.05df=9-1=8临界值(s):检验统计量检验统计量检验统计量检验统计量:有证据表明这天自动包装机有证据表明这天自动包装机工作正常工作正常决策:决策:决策:决策:结论:结论:结论:结论:t t0 02.3062.306-2.306-2.3060.0250.025拒绝拒绝 H H0 0
29、拒绝拒绝 H H0 00.0250.025第61页/共113页均值的单侧 t 检验(实例)【例】一个汽车轮胎制造商声称,某一等级的轮胎的平均寿命在一定的汽车重量和正常行驶条件下大于40000公里,对一个由20个轮胎组成的随机样本作了试验,测得平均值为41000公里,标准差为5000公里。已知轮胎寿命的公里数服从正态分布,我们能否根据这些数据作出结论,该制造商的产品同他所 说 的 标 准 相 符?(=0.05)属于检验声明有属于检验声明有效性的假设!效性的假设!第62页/共113页均值的单侧 t 检验(计算结果)H0:40000H1:32.852,33.632.852,在在 =0.05=0.05
30、的水平的水平上拒绝上拒绝H H0 0有证据表明该日纤度的波动比有证据表明该日纤度的波动比平时有显著差异平时有显著差异 2 220 0 032.85232.85232.8528.9078.9078.907 /2=0.025/2=0.025/2=0.025决策决策决策决策:结论结论结论结论:第75页/共113页注意:注意:第76页/共113页第四节第四节 单因素试验的方差分析单因素试验的方差分析第77页/共113页实际生活中,常常需要观察一种或多种因素发生变化时,是否对生产或销售有显著性的影响?【例例1 1 1 1】某饮料生产企业研制出一种新型饮料。饮料的颜色共有四种,分别为某饮料生产企业研制出一
31、种新型饮料。饮料的颜色共有四种,分别为橘橘黄色黄色、粉色粉色、绿色绿色和和无色透明无色透明。这四种饮料的营养含量、味道、价格、包装等可。这四种饮料的营养含量、味道、价格、包装等可能影响销售量的因素全部相同。现从地理位置相似、经营规模相仿的五家超级市能影响销售量的因素全部相同。现从地理位置相似、经营规模相仿的五家超级市场上收集了前一时期该饮料的销售情况,见下表。试分析饮料的颜色是否对销售场上收集了前一时期该饮料的销售情况,见下表。试分析饮料的颜色是否对销售量产生影响。量产生影响。第78页/共113页 该饮料在五家超市的销售情况该饮料在五家超市的销售情况超市超市无色无色粉色粉色橘黄色橘黄色绿色绿色
32、1234526.528.725.129.127.231.228.330.827.929.627.925.128.524.226.530.829.632.431.732.8分析这一类问题的方法为:方差分析(费歇尔创立)。第79页/共113页什么是方差分析什么是方差分析?uu检验多个总体均值是否相等检验多个总体均值是否相等检验多个总体均值是否相等检验多个总体均值是否相等通过对各观察数据误差来源的分析来判断多个总体均值是否相等uu变量变量变量变量一个定类尺度的自变量2个或多个(k 个)处理水平或分类一个定距或比例尺度的因变量uu用于分析完全随机化试验设计用于分析完全随机化试验设计用于分析完全随机化试
33、验设计用于分析完全随机化试验设计第80页/共113页n检验饮料的颜色对销售量是否有影响,也就是检验四种颜色饮料的平均销售量检验饮料的颜色对销售量是否有影响,也就是检验四种颜色饮料的平均销售量是否相同是否相同n检验上述假设所采用的方法就是方差分析检验上述假设所采用的方法就是方差分析 分析:第81页/共113页u因素或因子因素或因子所要检验的对象称为因素要分析饮料的颜色对销售量是否有影响,颜色颜色是要检验的因素或因子u水平水平因素的具体表现称为水平 橘黄色橘黄色、粉色粉色、绿色绿色和和无色透明无色透明四种颜色就是因素的水平u观察值观察值在每个因素水平下得到的样本值每种颜色饮料的销售量就是观察值基本
34、概念:基本概念:第82页/共113页u 单因素试验单因素试验一项试验中只有一个因素在改变,而其他因素保持不变的试验。u 总体总体因素的每一个水平可以看作是一个总体比如橘黄色橘黄色、粉色粉色、绿色绿色和和无色透明无色透明四种颜色可以看作是四个总体u 样本数据样本数据上面的数据可以看作是从这四个总体中抽取的样本数据第83页/共113页方差分析中的基本假定方差分析中的基本假定每个总体都应服从正态分布每个总体都应服从正态分布对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本比如,每种颜色饮料的销售量必需服从正态分布各个总体的方差必须相同各个总体的方差必须相同对于各组观察数据,是从具有相
35、同方差的总体中抽取的比如,四种颜色饮料的销售量的方差都相同观察值是独立的观察值是独立的比如,每个超市的销售量都与其他超市的销售量独立第84页/共113页如何进行方差分析?如何进行方差分析?在试验中固定其他因素,观察所研究因素的在试验中固定其他因素,观察所研究因素的变异对试验的结果是否产生影响,以及影响变异对试验的结果是否产生影响,以及影响的程度的程度.第85页/共113页方差分析的两类误差:方差分析的两类误差:u条件误差条件误差(系统误差系统误差)试验因素的变化所引起的试验结果的数量差异。表现:同一家超市,不同颜色饮料的销售量也是不同的u试验误差试验误差(随机误差随机误差)试验中,不能控制的“
36、偶然因素”所引起的试验结果的差异表现:同一种颜色的饮料在不同超市上的销售量是不同的第86页/共113页如何判断引起观测数值的差异的原因?条如何判断引起观测数值的差异的原因?条件误差或者说是试验误差?件误差或者说是试验误差?分析实验结果所得数据的差异,可以判断有无条件误差的存在,进而说明所考察的变异因素对试验结果是否产生显著的作用或是效应。第87页/共113页单因素方差分析的数据结构单因素方差分析的数据结构 观察值观察值 (j)因素因素(A)水平水平A1 水平水平A2 水平水平Ak12:n y11 y12 y1k y21 y22 y2k :yn1yn2 ynk第88页/共113页例例1中所讨论的
37、4种不同颜色对销售量的影响,颜色为影响因素,4种不同的颜色是4个不同的水平方差分析数据.ppt第89页/共113页考察水平的改变是否影响总体,即诸考察水平的改变是否影响总体,即诸 是否是否全相等?全相等?如何检验上述假设?如何检验上述假设?第90页/共113页分析:分析:如何检验这两种误差的存在?如何检验这两种误差的存在?第91页/共113页总离差平方和:总离差平方和:反映了全部观察值对于总平均数的离散程度。反映了全部观察值对于总平均数的离散程度。总离差平方和总离差平方和组内平方和组内平方和组间离差平方和组间离差平方和第92页/共113页组内平方和组内平方和(误差平方和误差平方和):反映了各相
38、同水平下观察值之间的分散程度,该平反映了各相同水平下观察值之间的分散程度,该平方和反映的是随机误差的大小。方和反映的是随机误差的大小。第93页/共113页组间离差平方和:组间离差平方和:反映了各水平下样本均值之间的差异程度,该平反映了各水平下样本均值之间的差异程度,该平方和既包括随机误差,也包括系统误差。方和既包括随机误差,也包括系统误差。第94页/共113页l SS反映了全部数据总的误差程度;SSE反映了随机误差的大小;SSA反映了随机误差和系统误差的大小;l 如果原假设成立,即 为真,则表明没有系统误差,组间平方和SSA除以自由度后的组间方差与组内平方和SSE和除以自由度后的组内方差的差异
39、就不会太大;如果组间方差显著地大于组内方差,说明各水平(总体)之间的差异不仅有随机误差,还有系统误差;l 判断因素的水平是否对其观察值有影响,实际上就是比较组间方差与组内方差之间差异的大小第95页/共113页1.组间方差记为MSA计算公式为:2.2.组内方差组内方差记为记为MSEMSE计算公式为:计算公式为:第96页/共113页选择统计量:选择统计量:计算F值:第97页/共113页查找临界值:查找临界值:作出决策:作出决策:第98页/共113页单因素方差分析表(基本结构)方差来源方差来源平方和平方和SS自由度自由度df均方均方MSF 值值组间组间(因素影响因素影响)组内组内(误差误差)总和总和
40、SSASSESSk-1n-kn-1MSAMSEMSAMSE第99页/共113页单因素方差分析的步骤u 提出假设u 构造检验统计量u 统计决策第100页/共113页例题例题某工厂实行早、中、晚三班工作制。工某工厂实行早、中、晚三班工作制。工厂管理部门想了解不同班次工人劳动厂管理部门想了解不同班次工人劳动效率是否存在明显的差异。每个班次效率是否存在明显的差异。每个班次随即抽出了随即抽出了7 7 7 7个工人,得工人的劳动个工人,得工人的劳动效率(件效率(件/班)资料如表。分析不同班)资料如表。分析不同班次工人的劳动效率是否有显著性差班次工人的劳动效率是否有显著性差异。异。早班中班晚班3449393
41、74740355142334839335041355142365140101第101页/共113页第102页/共113页第103页/共113页第104页/共113页组观测数求和平均方差早班724334.714292.238095中班734749.571432.619048晚班728340.428571.619048方差分析差异源SSdfMSFP-valueF crit组间786.28572393.1429182.11761.14E-123.554557组内38.85714182.15873总计825.142920 第105页/共113页方差分析表如表方差来源 离差平方和自由度方差F值组间786
42、.2862393.143182.118组内38.857182.158总和825.14320106第106页/共113页【例例】为了对几个行业的服务质量进行评价,消费者协会在零售业、旅游业、航空公司、家电制造业分别抽取了不同的样本,其中零售业抽取7家,旅游业抽取了6家,航空公司抽取5家、家电制造业抽取了5家,然后记录了一年中消费者对总共23家服务企业投诉的次数,结果如表9.7。试分析这四个行业的服务质量是否有显著差异?(0.05)第107页/共113页消费者对四个行业的投诉次数消费者对四个行业的投诉次数 观察值观察值(j)行业行业(A)零售业零售业旅游业旅游业航空公司航空公司家电制造业家电制造业
43、123456757554645545347 624960545655 5149485547 7068636960 第108页/共113页解解:设设四四个个行行业业被被投投诉诉次次数数的的均均值值分分别别为为:1、2、3、4,则需要检验如下假设则需要检验如下假设 H0:1=2=3=4 H1:1,2,3,4不全相等不全相等ExcelExcel输出的结果如下输出的结果如下 结论:拒绝H H0 0。四个行业的服务质量有显著差异第109页/共113页方差分析中的多重比较方差分析中的多重比较 (multiple comparison procedures)第110页/共113页多重比较的意义1.通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异2.可采用Fisher提出的最最小小显显著著差差异异方法,简写为LSD3.LSD方法是对检验两个总体均值是否相等的t检验方法的总体方差估计加以修正(用MSE来代替)而得到的 第111页/共113页多重比较的步骤1.提出假设H0:mi=mj(第i个总体的均值等于第j个总体的均值)H1:mimj(第i个总体的均值不等于第j个总体的均值)2.计算检验的统计量:3.计算LSD4.决策:若 ,拒绝H0;若 ,不拒绝H0第112页/共113页感谢您的观看!第113页/共113页
限制150内