单因素试验的方差分析——概率论与数理统计课件.pptx
第第 九九 章章方差分析与回归分析方差分析与回归分析第一节第一节 单因素试验的单因素试验的方差分析方差分析一、方差分析原理一、方差分析原理把考察事物的结果称为试验结果把考察事物的结果称为试验结果,也称为也称为试验指标试验指标.因素可分为两类因素可分为两类:平平。影响试验指标的条件称为影响试验指标的条件称为因素因素。一类是人们可以控制的,称为一类是人们可以控制的,称为可控因素可控因素;另一类是人们不能控制的,称为另一类是人们不能控制的,称为不可控因素不可控因素。为了考虑某个因素为了考虑某个因素A对所考察的随机变量对所考察的随机变量X的影响的影响,可以在实验时让其他因素保持不变,而仅让因素可以在实验时让其他因素保持不变,而仅让因素A改变改变,这样的试验称为这样的试验称为单因素试验单因素试验,因素,因素A所处的状态称为所处的状态称为水水在试验中变化的因素称为因子,用在试验中变化的因素称为因子,用A、B、C . 表示,表示,因子在试验中所取的不同状态称为水平,因子因子在试验中所取的不同状态称为水平,因子A的不同的不同水水平平用用12,sA AA表示。表示。以下用字以下用字母母, ,x y 等表示随等表示随机机变量。变量。 例例1 为考察种子品种对作物产量的影响为考察种子品种对作物产量的影响, 同一同一作作物选用三个命名为物选用三个命名为 123,A A A的种子的种子, 分别在条件大分别在条件大体体相同的相同的 5 块等面积的小田块上试种块等面积的小田块上试种, 其作物产量其作物产量 ( 单单位位: kg),如下表,试分析种子的不同品种对作物产量如下表,试分析种子的不同品种对作物产量的的影响影响.1A2A3A1391391511511251251391391321321481481221221061061171171251251371371251251331331421421301301391391261261281285 54 43 32 21 1重复试验序号及作物实测产量重复试验序号及作物实测产量种子品种代种子品种代号号( (水平水平) )这里试验的指标是作物产量这里试验的指标是作物产量, 作物是因素作物是因素, 三种种三种种子品种代表三个不同的水平子品种代表三个不同的水平. 首先首先,形成数据差异的直接原因是种子的不同品形成数据差异的直接原因是种子的不同品种种.因此因此, 每个品种下产量的均值差异检验是我们的主每个品种下产量的均值差异检验是我们的主要任务要任务.这种由因素这种由因素(种子品种种子品种)造成的差异称为条件造成的差异称为条件(系系统统)误差误差. 其次其次, 同一品种下数据表现出来的差异称为试验同一品种下数据表现出来的差异称为试验(随随机机)误差误差, 这是由客观条件的偶然干扰造成这是由客观条件的偶然干扰造成, 与因素与因素(品种品种)无直接联系无直接联系.方差分析正是分析两类误差的有效工具方差分析正是分析两类误差的有效工具. 本问题只考虑品种一种因素,故是单因素试验,即只本问题只考虑品种一种因素,故是单因素试验,即只有有一个因子,记为一个因子,记为 A, 5个不同的品种就是该因子的个不同的品种就是该因子的5个不同个不同的水平,分别记的水平,分别记为为12345,A A A A A由于同一品种在由于同一品种在不不同的田块上的亩产量不同,故可以认为一个品种的亩产同的田块上的亩产量不同,故可以认为一个品种的亩产量量就是一个母体,在方差分析中,总是假定各母体相互就是一个母体,在方差分析中,总是假定各母体相互独独立地服从同方差的正态分布,即第立地服从同方差的正态分布,即第 j个品种的亩产量个品种的亩产量是是一个随机变量,它服从正态分布一个随机变量,它服从正态分布:2(,), 1,2,3,4,5.jNj 试验的目的是检验假试验的目的是检验假设设012345:H是否成立。是否成立。二、单因素试验的数学模型二、单因素试验的数学模型 设在单因素试验中设在单因素试验中,所考察的因素为所考察的因素为A,A有有 s 个水平个水平123,sA A AA现在现在 Aj 水平下做了水平下做了 nj 次试验,次试验,1,2, .js试验的实测数据由下表给出试验的实测数据由下表给出: 1A2AsA11x12x1sx21x22x2sx11nx22nxsn sx为考察因素对指标的影响为考察因素对指标的影响, 把第把第 j 个水平个水平 Aj下的实下的实测测数据数据 12,jjjn jXXX看做是从第看做是从第 j 个总体个总体 jX中抽取的中抽取的容容量为量为 jn的样本的样本 (1,2, ).js在方差分析中总是假定 s个总体相互独立且服从相 同方差(未知)的正态分布. 即水平即水平 Aj 对应的总体对应的总体 2(,)jjXN 要检验的假设是:要检验的假设是:012:sH112:, sH 不全相等(1)我们假定各个水平我们假定各个水平Aj下的样本下的样本 12jjjn jXXX, ,为为 来自具有相同方差来自具有相同方差2 均值分别为均值分别为 (1,2, )jjs的正的正 态总体态总体2(,),jN j与与2 均未知均未知. 设不同水平设不同水平 Aj下的下的 样本之间相互独立样本之间相互独立. 由于由于 2(,),ijjXN 2(0,),ijjXN从而将从而将 ijjX可看成随机误差可看成随机误差, 将其记作将其记作 ,ij则则 ijX可表为可表为 2(0,),1,2,1,2, ,ijjijijijjXNinjs各相互独立,此即单因素试验方差分析的数学模型此即单因素试验方差分析的数学模型. 三、单因素方差分析及其显著性检验的方法三、单因素方差分析及其显著性检验的方法 (一一) 方差分析的任务方差分析的任务 相等相等,即检验下述假即检验下述假设设1. 检验检验 s 个总体个总体 2(,)jN (1,2, )js的均值是的均值是否否012:sH112:, sH 不全相等2. 对未知参数对未知参数 (1,2, )jjs及及2进行估计进行估计. (2)引入记号引入记号 11sjjjnn1,sjjnn其中其中 jj(1,2, )js称为总平均称为总平均. jA的第的第 j 个水平的个水平的效应效应, 表示水平表示水平 Aj下的总体平均下的总体平均效应间的关系:效应间的关系:10sjjjn值与总平均的差异值与总平均的差异, 利用上述记号, 将单因素试验方差分析单因素试验方差分析模的型改写成如下形式:21122,(0,),1,2,1,2, .0.ijjijijijjssXNinjsnnn各相互独立,显然,当且仅当 12s时, ,j即即 0j(1,2, )js由此知假设(2)等价于假设 012:0,sH112:,sH 不全为零. (3)(二二) 离差平方和分解离差平方和分解 引入记号引入记号 11jnjijijxxn(1,2, )js111,jnsijjixxn12,snnnn水平水平Aj下的样本均值下的样本均值, 称为组内平均称为组内平均(或列平均或列平均) 称为总平均称为总平均, 它是从它是从 s 个总体中抽得的样本的样本均值个总体中抽得的样本的样本均值. 用样本值用样本值 xij 与总平均与总平均 x之间的偏差平方和来反映之间的偏差平方和来反映 xij 之间的波动之间的波动. 用样本值用样本值 xij 与总平均与总平均 x之间的偏差平方和来反映之间的偏差平方和来反映 xij 之间的波动之间的波动. 记记 211()jnsTijjiSxx称称ST 为总的偏差平方和为总的偏差平方和. 对其作分解如下对其作分解如下: 221111()()()jjnnssTijijjjjijiSxxxxxx22111111()()2()()jjjnnnsssijjjijjjjijijixxxxxxxx对于第三项对于第三项, 直接计算可得直接计算可得 22111111()()2()()jjjnnnsssTijjjijjjjijijiSxxxxxxxx对于第三项对于第三项, 直接计算可得直接计算可得 11112()()2()jjnnssijjjjijjjjijixxxxxxxn x12()0sjjjjjjxxn xn x记记 211() ,jnseijjjiSxx222111() =jnssAjjjjijSxxn xnx从而有从而有 TeASSS利用利用(3)可得可得 11()jnjjijjjijxn11111()jnssjijjjjijxnnn从而有从而有 211() ,jnseijjjiS21()sAjjjjSn由此知由此知, Se 反映了误差的波动反映了误差的波动, 称其为误差的偏差称其为误差的偏差 平方和平方和(或称为组内平方和或称为组内平方和), 它集中反映了试验中与它集中反映了试验中与因因素及其水平无关的全部随机误差素及其水平无关的全部随机误差. 在在 H0 为真时为真时, SA 反反 映误差的波动映误差的波动, 在在 H0 不真时不真时, SA 反映因子反映因子A 的不同水的不同水平效应间的差异平效应间的差异(同时也包含误差同时也包含误差), 211() ,jnseijjjiS21()sAjjjjSn由此知由此知, Se 反映了误差的波动反映了误差的波动, 称其为误差的偏差称其为误差的偏差 平方和平方和(或称为组内平方和或称为组内平方和), 它集中反映了试验中与它集中反映了试验中与因因素及其水平无关的全部随机误差素及其水平无关的全部随机误差. 在在 H0 为真时为真时, SA 反反 映误差的波动映误差的波动, 在在 H0 不真时不真时, SA 反映因子反映因子A 的不同水的不同水差平方和差平方和(或效应平方和或效应平方和), 无关的条件误差无关的条件误差, 指标的影响指标的影响.称其为因素称其为因素 A 的的偏偏它描述了试验中与偶然干它描述了试验中与偶然干扰扰其数值大小集中体现了因素及水平其数值大小集中体现了因素及水平对对(三三) Se与与 SA 的统计特性的统计特性 由于由于 2(0,),ijN20,jjNn20,Nn(1,2, , 1,2,)jjs in由此可得由此可得 22222111111()jjjnnnssseijjijjjijjjjijijiESEEnEn E 22222111()()jnssjjjijjnnnsn 同理可同理可得得221(1)sAjjjESsn2(),eESns221(1)sAjjjESsn由此得由此得 2,eSEns221111sAjjjSEnss在在 H0 为真时为真时, 即即 120s时时, 有有 2,1eASSEEnss否则否则 1eASSEEnss2,1eASSEEnss否则否则 1eASSEEnss从而在从而在 H0 不真时不真时, 比值比值 (1)()AeSsSns有偏大的趋势有偏大的趋势, 记为记为 F, 即即 (1).()AeSsFSns则则 F 可以作为检验可以作为检验 H0 的统的统 计量计量. 将将 Se 写成如下分项相加的形式写成如下分项相加的形式 2221122111()()()jjjnnneiiissiiiSxxxxxx将将其其将将 Se 写成如下分项相加的形式写成如下分项相加的形式 2221122111()()()jjjnnneiiissiiiSxxxxxx其中其中 21()jnijjixx是总体是总体 2(,)jN 的样本方差的的样本方差的 1jn 倍倍, 于是于是 2212()(1)jnijjijxxn因诸因诸 xij 相互独立相互独立, 所以所以, Se 中的中的 s 个平方和相互独立个平方和相互独立, 根据根据 2分布的可加性知分布的可加性知 221(1)sejjSn因诸因诸 xij 相互独立相互独立, 所以所以, Se 中的中的 s 个平方和相互独立个平方和相互独立, 根据根据 2分布的可加性知分布的可加性知 221(1)sejjSn1(1),sjjnns因为因为 所以所以 22().eSns由由 SA 的表达式知的表达式知, SA 是是 s 个变量个变量 ()jjnxx的平方和的平方和, 它们之间有关系它们之间有关系 1111()()0jnsssjjjjjijjjjinnxxnxxxnx由此知由此知 SA的自由度为的自由度为 s1. 可以证明可以证明 SA与与Se 相互独立相互独立, 且当且当 H0 为真时,为真时, 由此知由此知 SA的自由度为的自由度为 s1. 可以证明可以证明 SA与与Se 相互独立相互独立, 且当且当 H0 为真时,为真时, 22(1)ASs基于以上分析知基于以上分析知, 当当 H0 为真时为真时, (1)(1,)()AeSsFF snsSns此即方差分析中所用到的检验统计量此即方差分析中所用到的检验统计量. 论知论知, AeSS不能太大不能太大, 的形式的形式为为1,.FFsns由上面的讨由上面的讨当当 H0 为真时为真时, 比值比值 因此拒绝域因此拒绝域拒绝域的形式为拒绝域的形式为 1,.FFsns若统计量的观测值为若统计量的观测值为F , 则有则有 1) 若若 (1,),FFsns拒绝拒绝 H0 , 水平下的效应有显著差异水平下的效应有显著差异, 12,s 不全相等不全相等. 2) 若若 (1,),FFsns接受接受 H0 , 水平下的效应无显著差异水平下的效应无显著差异. 表示因素表示因素 A 的各的各即即 表示因素表示因素 A 的各的各四、实测演算四、实测演算 单因素方差分析表单因素方差分析表 AS1s 1ASs/1/AeSsFSnseSnseSnsTS1n=1,F Fsns临界值临界值总和总和组内组内(误差误差)组间组间(因素因素A)方差比方差比均方和均方和自由度自由度平方和平方和方差来源方差来源简化的计算公式简化的计算公式1,jnjijiTx1,2, , js11jnsijjiTx22221111jjnnssTijijjijiTSxnxxn222211ssjAjjjjjTTSn xnxnneTASSS 例例2 某粮食加工厂用某粮食加工厂用4中不同方法贮藏粮食中不同方法贮藏粮食, 在一在一段时间后段时间后, 分别抽样化验测得含水率分别抽样化验测得含水率(%)如表如表9.4所示所示: 1A2A3A4A/ / /7.07.06.46.48.18.1/ / / /9.09.07.97.98.38.38.48.47.67.68.38.37.37.3/ / /7.17.17.47.45.85.85 54 43 32 21 1重复试验含水率的实测数据表重复试验含水率的实测数据表贮藏方贮藏方法法( (水水平平) )试问不同贮藏方法对粮食含水率的影响是否显著试问不同贮藏方法对粮食含水率的影响是否显著? ( =0.01)解解 这是单因素试验这是单因素试验, 因素因素 A 的水平的水平 s = 4 , 另由题意另由题意 知知 12343,5,2,3,nnnn假设贮藏方法假设贮藏方法Ai下的粮食含下的粮食含水水率服从独立同方差的正态分率服从独立同方差的正态分布布2(,),jN 1,2,3,4.j 1) 提出待检假设提出待检假设 01234:,H11234:,H 不全相等不全相等. 2) 计算行平均、总平均、行离差平方和计算行平均、总平均、行离差平方和.并列出表并列出表 ixis1A2A3A4A1.486671.486677.166677.1666721.521.50.6050.6058.458.4516.916.90.9880.9887.987.9839.939.91.446671.446676.766676.7666720.320.3行离差平方和行离差平方和( )( )行平均行平均( )( )行和行和( )水平水平2) 计算行平均、总平均、行离差平方和计算行平均、总平均、行离差平方和.并列出表并列出表 7.58462,x 42i=1()4.8106,AiiSn xx13AKs 4i=14.5263,eiSS=9,eKns=+=9.3369TeASSS112TKn 计算三个离平方和及其自由度计算三个离平方和及其自由度 3) 列方差分析表列方差分析表 1ASs1.6035=3.190.5029F eSns0.01=3,9 =6.99FF1.6035 1.6035 0.50290.5029临界值临界值12129.33699.3369总和总和6 64.52634.5263组内组内( (误误差差) )3 34.81064.8106组间组间( (贮藏方贮藏方法法) )方差比方差比均方和均方和自由度自由度平方和平方和方差来源方差来源由于由于 0.01=3.193,9 =6.99,FF不能拒绝不能拒绝 H0 , 认为各认为各 种贮藏方法所得的结果没有显著差异种贮藏方法所得的结果没有显著差异. 例例3 设有三台机器设有三台机器, 用来生产规格相同的铝合金薄用来生产规格相同的铝合金薄板板. 取样取样, 测量薄板的厚度精确至千分之一厘米测量薄板的厚度精确至千分之一厘米. 得结得结果如下表所示果如下表所示.0.2620.2610.2430.2670.2540.2450.2590.2550.2480.2640.2530.2380.2580.2570.236机器机器机器机器机器机器问各台机器所生产的薄板的厚度有无显著的差异问各台机器所生产的薄板的厚度有无显著的差异. 解解 在此问题中在此问题中, 试验的指标是薄板的厚度试验的指标是薄板的厚度, 机器机器为为因素因素, 本问题就是要本问题就是要检验假检验假设设(0.05)0123:,H1123:,H 不全相等不全相等. 此处此处 3,s 1235,nnn15n , 直接计算可得直接计算可得 2235113.80.9639120.00124533,1515TijjiTSx223222211(1.211.281.31 )3.8 150.00105333,5jAjjTTSnn0.000192.eTASSS不同的三台机器就是这个因素的三个不同的水平不同的三台机器就是这个因素的三个不同的水平. ,TAeSSS的自由度依次为的自由度依次为 114,n 12,s 12ns得方差分析表如下得方差分析表如下: 140.00124533总和总和0.000016120.000192误差误差32.920.0005266720.00105333因素因素F比比均方和均方和自由度自由度平方和平方和方差来源方差来源因为因为 0.05(2,12)3.8932.92,F故在水平故在水平0.05下拒绝下拒绝H0, 认为各台机器生产的薄板厚度有显著的差异认为各台机器生产的薄板厚度有显著的差异. 五、未知参数的估计五、未知参数的估计 由于由于 2,eSEns故可取故可取 2eSns又因为又因为 11111111jjnnsssijijjjjijijExExExnnnn1111jjnnjijjjiijjExExnn由此知由此知, , xjjx分别是分别是 ,j 的无偏估计的无偏估计. 若拒绝若拒绝H0 , 则意味着效应则意味着效应 12,s 不全为零不全为零. 由由 j的定义的定义 jj1,2, , js由由 j,jj1,2, , js的定义的定义 知知, jjxxj是是 的无偏估计的无偏估计, 并且此时有关系式并且此时有关系式 110ssjjjjjjnn xnx成立成立.2(,)jN 2(,)kN 和和 ()jk的均值差的均值差 jk的区间估计的区间估计. 在拒绝在拒绝 H0 的同时的同时,常需要作出两总体常需要作出两总体 2(,)jN 2(,)kN 和和 ()jk的均值差的均值差 jk的区间估计的区间估计. 在拒绝在拒绝 H0 的同时的同时,常需要作出两总体常需要作出两总体 ()jkjkE xx211()jkjkD xxnn因为因为 可以证明可以证明, jkxx()eSns与与 相互独立相互独立, 从而有从而有 2()()()() ()()1111jkjkjkjkejkejkxxxxSt nsnsnnSnn其中其中 (),eeSSns由此得均值差由此得均值差 jkjk2()()()() ()()1111jkjkjkjkejkejkxxxxSt nsnsnnSnn其中其中 (),eeSSns由此得均值差由此得均值差 jkjk的置信水平为的置信水平为 1的置信区间为的置信区间为 22()(11), ()(11)jkejkjkejkxxtnsSnnxxtnsSnn例例4 求例求例 3中的未知参数中的未知参数 2,jj (1,2,3)j 的点的点 估计及均值差的置信水平为估计及均值差的置信水平为0.95的置信区间的置信区间. 解解 由前述讨论知由前述讨论知 2()0.00016eSns例例4 求例求例 3中的未知参数中的未知参数 2,jj (1,2,3)j 的点的点 估计及均值差的置信水平为估计及均值差的置信水平为0.95的置信区间的置信区间. 解解 由前述讨论知由前述讨论知 2()0.00016,eSns110.242,x220.256x330.262,x0.253,x110.011xx 220.003,xx330.009xx查查 t分布表分布表, 0.0250.025()(12)2.1788,tnst由此可得由此可得 60.0252(12)(11)2.1788 16 100.0065ejktSnn查查 t分布表分布表, 0.0250.025()(12)2.1788,tnst由此可得由此可得 60.0252(12)(11)2.1788 16 100.0065ejktSnn将其代入上述公式得将其代入上述公式得 12,13,23的置信区的置信区间分别为间分别为 (0.2420.2560.006,0.2420.2560.006)( 0.020, 0.008) (0.2420.2620.006, 0.2420.2620.006)( 0.026, 0.014) (0.2560.2620.006, 0.2560.2620.006)( 0.012, 0)