第九章-方差分析.pdf
统计推断统计推断是数理统计理论的主要部分。现行的统计推断理论,是建立在概率论的基础上的。所谓统计推断,就是根据从总体中抽出的样本,去推断总体的性质(期望、方差、分布等)。例如,假定在一大群人中,身高服从正态分布N(,2),其中,2是未知参数,即推断的对象。统计推断的方法-参数估计参数估计单个正态总体均值与方差的区间估计点估计区间估计矩估计最大似然估计置信水平:1-均值的置信区间:2为已知和未知方差2的置信区间:为已知和未知统计推断的方法-假设检验假设检验单个正态总体均值与方差的假设检验的检验:2为已知(Z检验)和未知(T检验)2的检验:为未知(检验)显著性水平:1-在假设的情况下计算样本的概率(判断是不是的问题)=0?小概率事件2多个样本的情况已知两个总体的假设检验仍然可用Z检验或T检验的方法,对两个总体的均值或方差是否有显著性差异进行检验。但多个总体(多个样本)的情况,怎么办?多个样本的情况在科学试验和生产实践中,影响一事物的因素往往是很多的。例如,在化工生产中,有原料成分、反应温度、压力、浓度、设备和操作人员的水平等。每一个因素都有可能影响产品的数量和质量。所以有必要找出对产品质量有显著影响的那些因素。方差分析是鉴别各个有关因素对试验结果影响的有效方法。方差分析第九章第九章 方差分析与回归分析方差分析与回归分析方差分析的发明者方差分析由著名英方差分析由著名英国统计学家国统计学家R.A.Fisher 在在 1923 年年提出提出,为纪念为纪念Fisher,以以F命名命名,故方差分析又故方差分析又称称 F 检验检验。(Analysis of Variance,简称ANOVA)名词我们要考察的指标称为试验指标。影响试验指标的条件称为因素。因素所处的状态称为因素的水平。如果在一项试验中只有一个因素在改变称为单因素试验,如果多于一个因素在改变称为多因素试验。多个样本的例子-1设有3台机器,用来生产规格相同的铝合金薄板,取样测量薄板的厚度精确到千分之一厘米,得结果如表所示。机器1机器2机器30.2360.2570.2580.2380.2530.2640.2480.2550.2590.2450.2540.2670.2430.2610.262多个样本的例子-1我们要考察各台机器所生产的薄板厚度有无显著的差异,即考察机器这一因素对厚度有无显著的影响。即假设检验问题:H H0 0:1 1=2 2=3 3H H1 1:1 1,2 2,3 3不全相等不全相等多个样本的例子-2随机抽取50-59岁男性正常者、冠心病人、脂肪肝患者各11人,测定空腹血糖值(mmol/L),得结果如表所示。正常组正常组冠心病组冠心病组脂肪肝组脂肪肝组4.756.265.784.754.366.684.625.595.72多个样本的例子-2我们要考察三组人的空腹血糖值有无显著的差异,即考察冠心病、脂肪肝对空腹血糖值有无显著的影响。即假设检验问题:H H0 0:1 1=2 2=3 3H H1 1:1 1,2 2,3 3不全相等不全相等方差分析就是解决这类方差分析就是解决这类问题的一种统计方法问题的一种统计方法方差分析的条件和用途用途用途:1、用于进行两个或多个样本均值的比较、用于进行两个或多个样本均值的比较;2、分析两因素或多因素间的交互作用、分析两因素或多因素间的交互作用;3、用于回归方程的线性假设检验。用于回归方程的线性假设检验。条件条件:1、样本相互对立,来自正态总体;、样本相互对立,来自正态总体;2、各总体、各总体方差相等方差相等;单因素方差分析一、数据的基本形式单因素方差分析单因素方差分析例随机抽取50-59岁男性正常者、冠心病人、脂肪肝患者各11人,测定空腹血糖值,试推断三类人群空腹血糖值总体均值是否相同?单因素方差分析三组观察对象空腹血糖检测结果(mmol/L)单因素方差分析二、变异分解总变异组间变异组内变异单因素方差分析1、总变异、总变异:33个空腹血糖检测数据大小不等个空腹血糖检测数据大小不等,这种这种变异称为总变异。变异称为总变异。总变异的大小可用总变异的大小可用总偏差平方和总偏差平方和表示表示,即各观测值即各观测值Xij与总均数与总均数差值的平方和差值的平方和,记为记为SS总总。SS总总反映了所有观测值之间总反映了所有观测值之间总的变异程度的变异程度。X单因素方差分析计算公式:计算公式:222111111()()1(:)iiinnnkkkijijijijijijSSXXXXNNNSSMS总总总总总总自由度:表示总例数变异程度除与偏差平方和的大小有关外,还与其自由度有关,由于各部分自由度不相等,因此各部分偏差平方和不能直接比较,须将各部分偏差平方和除以相应自由偏差平方和除以相应自由度,其比值度,其比值称为均方差,简称均方称为均方差,简称均方(mean square,MS)。单因素方差分析均均方方MS:2、组间变异、组间变异:各处理组的样本均数大小不等各处理组的样本均数大小不等,这种变异这种变异称为组间变异称为组间变异,其大小可用各组均数其大小可用各组均数与总与总均数均数的离均差平方和表示。记作的离均差平方和表示。记作SS组间组间。组间变异存在的原因组间变异存在的原因:.随机误差随机误差(包括个体变异和测量误差包括个体变异和测量误差););.处理因素的不同水平可能对实验结果处理因素的不同水平可能对实验结果有影响。有影响。单因素方差分析XiX21221111211()()()()1/iiinijnkkkjiiijiiijinijkjiiXSSn XXXNnXCnkMSSS组间组间组间组间组间组间自由度组间均方计算公式:计算公式:单因素方差分析3、组内变异、组内变异:在同一处理组内在同一处理组内,虽然各受试对象接受的虽然各受试对象接受的处理相同处理相同,但测量值之间仍不同但测量值之间仍不同,这种变异这种变异称为组内变异称为组内变异(误差误差),其大小可用组内各其大小可用组内各测量值测量值Xij与其组与其组均值均值差值的平方和表示差值的平方和表示,记为记为SS组内组内,反映了随机误差的影响。反映了随机误差的影响。单因素方差分析iX计算公式:计算公式:221111()(1)(1)/inkkijiiiijikiiSSXXnSnNkMSSS组内组内组内组内组内组内自由度组内均方单因素方差分析SSSSSS总组间组内4、三种变异的关系:总组间组内偏差平方和与自由度具有可加性单因素方差分析/FMSMS组间组内5、方差分析的检验统计量F 值:组间组内分子的自由度=分母的自由度=单因素方差分析如果各组样本的总体均值相等,即各处理组的样本来自相同总体,无处理因素的作用,则组间变异同组内变异一样,只反映随机误差作用的大小。F 值在理论上应等于1。若处理因素对研究结果有影响,将出现MS组间明显大于MS组内,F 值也明显大于1。F 值越大,拒绝H0的理由越充分。方差分析的假设检验问题:H H0 0:1 1=2 2=3 3H H1 1:1 1,2 2,3 3不全相等不全相等单因素方差分析根据根据计算出的检验统计量计算出的检验统计量F值值,按按所取检验所取检验水准水准作出统计推断结论作出统计推断结论。检验统计量检验统计量F值服从值服从F分布。分布。F 3.32,按=0.05,拒绝H0,接受H1,可以认为 三组人群的空腹血糖值总体均数不等或不全相等,即不同人群空腹血糖值存在差异。单因素方差分析例2某医院欲研究A、B、C 3种降血脂药物对家兔转化酶(ACE)的影响,将26只家兔随机分为4组,均喂以高脂饮食,其中3个实验组,分别给予不同的降血脂药物,对照组不给药。一定时间后测定家兔血清ACE浓度(u/ml),问4组家兔血清ACE浓度是否相同?单因素方差分析表 对照组及各实验组家兔血清 ACE 浓度(U/ml)对照组 实 验 组 A 降脂药 B 降脂药 C 降脂药 61.24 82.35 26.23 25.46 58.65 56.47 46.87 38.79 46.79 61.57 24.36 13.55 37.43 48.79 38.54 19.45 66.54 62.54 42.16 34.56 59.27 60.87 30.33 10.96 20.68 48.23 ijnjxi1 329.92 372.59 229.17 191.00 1122.68(x)in 6 6 7 7 26(n)ix 54.99 62.10 32.74 27.29 43.18(x)21ijnjxi 18720.97 23758.12 8088.59 6355.43 56923.11(2x)单因素方差分析计算步骤1建立检验假设,确定检验水准 0H:4 组家兔的血清 ACE 浓度总体均数相等,4321 1H:4 组家兔的血清 ACE 浓度总体均数不等总体均数不等 或不全相等或不全相等,各i不等或不全相等 05.0 单因素方差分析2计算统计量F值 3224.4847726/)68.1122(/)(22nxC 7876.84453224.4847711.569232CxSS总 659.372692.329)(22211CnxSSiijnjkij组间 3224.77.484700.191717.22922 3665.5515 4211.29303665.55157876.8445SS-SS组间总组内SS 单因素方差分析251261总n 3141 k组间 22426kn组内 1838.45553/3665.5515/组间组间组间SSMS 2010.33122/4211.2930/组内组内组内SSMS 13.802010.133/4555.1838/组内组间MSMSF 单因素方差分析列出方差分析表例 2 的方差分析表 变异来源 SS MS F 总变异 8445.7876 25 组间变异 5515.3665 3 1838.4555 13.80 组内变异 2930.4211 22 133.2010 单因素方差分析计算步骤3 确定 F 临界值,并做出统计推断 以31v和222v查F界值表,得 0.05(3,22)3.05F,F3.05,按0.05 检验水准拒绝0H,接受1H,可认为 4 个 总体均数不等或不全相等。注意:注意:经方差分析拒绝0H,接受1H时,尚 不能推断 4 个总体均数间均不相等。单因素方差分析基本步骤基本步骤建立检验假设建立检验假设变异分解变异分解计算检验统计量计算检验统计量(列方差分析表列方差分析表)下结论下结论对多个总体的均值或方差是否有显著性差异进行检验的方法。