《2017数理统计与随机过程课件-第五章第一节单因素方差分析.ppt》由会员分享,可在线阅读,更多相关《2017数理统计与随机过程课件-第五章第一节单因素方差分析.ppt(24页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、l 5.1 单因素方差分析单因素方差分析l 5.1.1 5.1.1 单因素方差分析的问题单因素方差分析的问题l 单因素方差分析用来检验根据某一个分类变量得到的单因素方差分析用来检验根据某一个分类变量得到的多个分类总体的均值是否相等下面以一简例说明方差多个分类总体的均值是否相等下面以一简例说明方差分析的原理分析的原理 第五章第五章 方方 差差 分分 析析l【例例1】某化肥生产商要检验三种新产品的效果,在同某化肥生产商要检验三种新产品的效果,在同一地区选取一地区选取18块大小相同,土质相近的农田中播种同样块大小相同,土质相近的农田中播种同样的种子,用等量的甲乙丙化肥各施于六块农田,试验结的种子,用
2、等量的甲乙丙化肥各施于六块农田,试验结果每块农田的粮食产量如下所示果每块农田的粮食产量如下所示l l 试根据试验数据推断甲乙丙三种化肥的肥效是否存在试根据试验数据推断甲乙丙三种化肥的肥效是否存在差异差异产产量量甲化肥甲化肥504649524848乙化肥乙化肥495047474649丙化肥丙化肥5150494650505.1.1 单因素方差分析的问题单因素方差分析的问题l 本例中,只考虑化肥这一个因素本例中,只考虑化肥这一个因素(记为记为A)对粮食产量对粮食产量的影响,三种不同的化肥称为该因素的三个不同水平的影响,三种不同的化肥称为该因素的三个不同水平(分别记为(分别记为A1,A2,A3)l从表
3、中数据看出,即使是施同一种化肥,由于随机因素从表中数据看出,即使是施同一种化肥,由于随机因素(温度,湿度等)的影响,产量也不同(温度,湿度等)的影响,产量也不同l因而有:因而有:l (1)粮食产量是随机变量,是数值型的变量;粮食产量是随机变量,是数值型的变量;l (2)把同一化肥把同一化肥(A的同一水平的同一水平)得到的粮食产量看作得到的粮食产量看作同一总体抽得的样本,施用不同化肥得到的粮食产量视同一总体抽得的样本,施用不同化肥得到的粮食产量视为不同总体下抽得的样本,表中数据应看成从三个总体为不同总体下抽得的样本,表中数据应看成从三个总体X1,X2,X3中分别抽了容量为中分别抽了容量为6的样本
4、的观测值的样本的观测值.l 推断甲乙丙三种化肥的肥效是否存在差异的问题,就推断甲乙丙三种化肥的肥效是否存在差异的问题,就是要辨别粮食产量之间的差异主要是由随机误差造成的,是要辨别粮食产量之间的差异主要是由随机误差造成的,还是由不同化肥造成的,这一问题可归结为三个总体是还是由不同化肥造成的,这一问题可归结为三个总体是否有相同分布的讨论否有相同分布的讨论l 由于在实际中有充分的理由认为粮食产量服从正态由于在实际中有充分的理由认为粮食产量服从正态分布分布,且在安排试验时且在安排试验时,除所关心的因素除所关心的因素(这里是化肥这里是化肥)外外,其它试验条件总是尽可能做到一致其它试验条件总是尽可能做到一
5、致.l 这使我们可以认为每个总体的方差相同这使我们可以认为每个总体的方差相同l即即 XiN(i,2)i=1,2,3l 因此,推断三个总体是否具有相同分布的问题就简化因此,推断三个总体是否具有相同分布的问题就简化为:检验几个具有相同方差的正态总体均值是否相等的为:检验几个具有相同方差的正态总体均值是否相等的问题,即只需检验问题,即只需检验lH0:1=2=3l 因此,推断三个总体是否具有相同分布的问题就简因此,推断三个总体是否具有相同分布的问题就简化为:检验几个具有相同方差的正态总体均值是否相等化为:检验几个具有相同方差的正态总体均值是否相等的问题,即只需检验的问题,即只需检验H0:1=2=3l
6、象这类检验若干同方差的正态总体均值是否相等的一象这类检验若干同方差的正态总体均值是否相等的一种统计分析方法称为种统计分析方法称为方差分析方差分析l 当只有两个正态总体时,这类问题也可以用第八章讲当只有两个正态总体时,这类问题也可以用第八章讲过的两正态总体均值比较的方法来解决过的两正态总体均值比较的方法来解决l5.1.2 5.1.2 单因素方差分析的数学模型单因素方差分析的数学模型l 进行单因素方差分析时,需要得到如表进行单因素方差分析时,需要得到如表1所示所示的数据结构的数据结构 l表中用表中用A表示因素,表示因素,A的的m个取值称为个取值称为m个水平分别用个水平分别用A1,A2,Am表示,每
7、个水平对应一个总体表示,每个水平对应一个总体l 从不同水平(总体)中抽出的样本容量可以相同,也从不同水平(总体)中抽出的样本容量可以相同,也可以不同若不同水平抽出的样本容量相同则称为可以不同若不同水平抽出的样本容量相同则称为均衡均衡数据数据,否则称,否则称非均衡数据非均衡数据观测值观测值(j)A因素(因素(i)A1A2Am1x11x21xm12x12x22xm2ni平均平均值值表表1 单因素方差分析中数据结构单因素方差分析中数据结构l设设xij表示第表示第i个总体的第个总体的第j个观测值个观测值(j=1,2,,ni,i=1,2,m),由于由于 ,i=1,2,ml单因素方差分析模型常可表示为:单
8、因素方差分析模型常可表示为:xij=i+ij,相互独立,相互独立,1im,1jni.l其中其中 i表示第表示第i个总体的均值,个总体的均值,ij为随机误差为随机误差 l5.1.3 5.1.3 方差分析的方法方差分析的方法l为了方便起见,可将为了方便起见,可将 i记为:记为:i=+il其中其中 称为总均值称为总均值,i=i (i=1,2,m)l称为因素称为因素A的第的第i个水平的附加效应个水平的附加效应.l对不同水平下均值是否相同的检验对不同水平下均值是否相同的检验l H0:1=2=m,l H1:1,2,m不全相等不全相等;l就可以表示为就可以表示为:l H0:1=2=m=0,l H1:1,2,
9、m不全为零不全为零l下面简单介绍检验统计量及检验方法下面简单介绍检验统计量及检验方法l 以以 表示所有表示所有xij的总平值,的总平值,表示第表示第i组数据的组内平组数据的组内平均值,即均值,即l其中其中n=n1+n2+nm统计量:统计量:l称为称为总离差平方和总离差平方和,或简称,或简称总平方和总平方和.它反映了全部试它反映了全部试验数据之间的差异验数据之间的差异l另外另外l反映了每组数据均值和总平均值的误差,称为反映了每组数据均值和总平均值的误差,称为组间离差组间离差平方和平方和,简称,简称组间平方和组间平方和,或,或称因素称因素A平方和平方和l反映了组内数据和组内平均的随机误差,称为反映
10、了组内数据和组内平均的随机误差,称为组内离差组内离差平方和平方和,或称为,或称为误差平方和误差平方和l可以证明可以证明SST=SSMA+SSEl构造检验统计量构造检验统计量l可以证明,在可以证明,在H0成立下成立下l当原假设成立时,各总体均值相等,各样本均值间的差当原假设成立时,各总体均值相等,各样本均值间的差异应该较小,模型平方和也应较小,异应该较小,模型平方和也应较小,F统计量取很大值统计量取很大值应该是稀有的情形应该是稀有的情形l所以对给定显著性水平所以对给定显著性水平 (0,1),H0的拒绝域为:的拒绝域为:l 若由观测数据若由观测数据xij(j=1,2,ni,i=1,2,m)计算计算
11、得到得到F的观测值为的观测值为F0,当当F0落入拒绝域时拒绝原假设落入拒绝域时拒绝原假设H0,可以认为因素可以认为因素A对响应变量有显著影响;否则不能拒绝对响应变量有显著影响;否则不能拒绝H0,认为因素,认为因素A对响应变量无显著影响对响应变量无显著影响l另外,另外,F统计量的统计量的P值为值为P=PF F0,在显著水平,在显著水平 下,若下,若P=PF F0 F组间组间SSMAm 1SSMA/(m 1)MSA/MSEP组组内内SSEn mSSE/(n m)全部全部SSMA+SSEn 1l【实验实验1】利用利用Excel的数据分析工具对例的数据分析工具对例1作方差分作方差分析析l Excel的
12、数据分析工具作方差分析的步骤如下:的数据分析工具作方差分析的步骤如下:l (1)将例将例1中数据输入中数据输入Excel中,如图中,如图1所示所示l (2)在在Excel主菜单中选择主菜单中选择“工具工具”“数据分析数据分析”,打开,打开“数据分析数据分析”对话框,在对话框,在“分析工具分析工具”列表列表中选择中选择“方差分析:单因素方差分析方差分析:单因素方差分析”选项,单击选项,单击“确定确定”按钮按钮 l(3)在打开的在打开的“方差分析:单因素方差分析方差分析:单因素方差分析”对话框中,对话框中,输入输入“输入区域输入区域”:B2:D8,“分组方式分组方式”取默认的取默认的“列列”方式,
13、选中方式,选中“标志位于第一行标志位于第一行”复选框,如图复选框,如图2所所示,单击示,单击“确定确定”按钮按钮l 得到单因素方差分析的结果如图得到单因素方差分析的结果如图3所示所示 l (4)结果分析结果分析l 第一部分第一部分“SUMMARY”提供拟合模型的一般信息,包提供拟合模型的一般信息,包括各分组的名称、观测数、和、均值和方差,如图括各分组的名称、观测数、和、均值和方差,如图3所所示示l 第二部分为方差分析表,其中各项含义可参见表的说第二部分为方差分析表,其中各项含义可参见表的说明最右边多了一列:在明最右边多了一列:在 =0.05的显著水平下,单因的显著水平下,单因素方差分析素方差分
14、析F检验的临界值(即检验的临界值(即F统计量的上统计量的上 分位点:分位点:F)l 从方差分析表可以看出,从方差分析表可以看出,P值大于值大于0.05(显著水平),(显著水平),所以不能拒绝原假设,没有足够的证据证明三种化肥的所以不能拒绝原假设,没有足够的证据证明三种化肥的肥效有显著差异肥效有显著差异 l【例例2】为了对几个行业的服务质量进行评价,消费者为了对几个行业的服务质量进行评价,消费者协会在零售业、旅游业、航空公司、家电制造业分别抽协会在零售业、旅游业、航空公司、家电制造业分别抽取了不同的企业作为样本取了不同的企业作为样本l每个行业各抽取每个行业各抽取5家企业家企业,所抽取的这些企业在
15、服务对所抽取的这些企业在服务对象、服务内容、企业规模等方面基本上是相同的象、服务内容、企业规模等方面基本上是相同的l然后统计出最近一年中消费者对总共然后统计出最近一年中消费者对总共20家企业投诉的次家企业投诉的次数数l结果如下:结果如下:行行业业投投诉诉次数次数零售零售业业5766494044旅游旅游业业6839294556航空公司航空公司3149213440家家电电制造制造业业4451657758l通常,受到投诉的次数越多,说明服务的质量越差消通常,受到投诉的次数越多,说明服务的质量越差消费者协会想知道这几个行业之间的服务质量是否有显著费者协会想知道这几个行业之间的服务质量是否有显著差异,试
16、进行方差分析差异,试进行方差分析.l 本例采用单因素方差分析法,只考虑行业这一个因素本例采用单因素方差分析法,只考虑行业这一个因素对投诉次数的影响,四个不同的行业称为该因素的四个对投诉次数的影响,四个不同的行业称为该因素的四个不同水平原假设是:不同行业对服务质量的投诉次数不同水平原假设是:不同行业对服务质量的投诉次数没有显著差异没有显著差异 行行业业投投诉诉次数次数零售零售业业5766494044旅游旅游业业6839294556航空公司航空公司3149213440家家电电制造制造业业4451657758l【实验实验2】利用利用Excel的数据分析工具对例的数据分析工具对例2作方差分析作方差分析
17、l (1)将数据输入将数据输入Excel中,中,l如图所示如图所示l (2)在在Excel主菜单中选择主菜单中选择“工具工具”“数据分析数据分析”,打开,打开“数据分析数据分析”对话框,在对话框,在“分析工具分析工具”列表中选列表中选择择“方差分析:单因素方差分析方差分析:单因素方差分析”选项,单击选项,单击“确定确定”按钮按钮 l(3)在打开的在打开的“方差分析:单因素方差分析方差分析:单因素方差分析”对话框中,对话框中,输入输入“输入区域输入区域”:A2:D7,“分组方式分组方式”取默认的取默认的“列列”方式,选中方式,选中“标志位标志位l于第一行于第一行”复选框,如图复选框,如图l所示,单击所示,单击“确定确定”按钮按钮 l (4)结果分析:结果分析:l从方差分析表可以看出,从方差分析表可以看出,P值值=0.047647 0.05(显(显著水平),所以拒绝原假设,即著水平),所以拒绝原假设,即4个行业之间的服务质个行业之间的服务质量有显著差异从平均投诉的次数来看,家电制造业最量有显著差异从平均投诉的次数来看,家电制造业最高(高(59),航空公司最低(),航空公司最低(35),从各分组的方差来看,),从各分组的方差来看,航空公司的服务最稳定(方差最小)航空公司的服务最稳定(方差最小)
限制150内