《统计学-第六章方差分析.ppt》由会员分享,可在线阅读,更多相关《统计学-第六章方差分析.ppt(42页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第六章 方差分析(一)第一节 方差分析的基本概念一、目的:Analysis of variance ANOVA用于检验两个或两个以上样本均数间差别有无统计意义二、样本均数间差别的原因(变异的来源):1、总变异:全部试验数据大小不等。用观察值与总均数的离均差平方和sum of squares of deviations from mean表示,记为SS总,或l总;总的自由度总N1 2、组间变异:各处理组的样本均数大小不一,用各组均数与总均数的离均差平方和表示,记为SS组间或l组间,组间自由度 组间k-1。MS组间l组间/组间组间变异反映的是处理因素的作用,同时也包括随机误差均方:mean squ
2、are,MS3、组内变异:各处理组内部观察值大小不等,用各处理组内部每个观察值与组均数的离均差平方各表示,记为l组内。组内(n1-1)+(nk-1)=N-kMS组内l组内/组内组内变异反映的观察值的随机误差,如个体差异和随机测量误差l l4 4、三种变异的关系、三种变异的关系l ll l总总l l组间组间l l组内组内l l 总总N N1 1(k-1)+(N-k)=(k-1)+(N-k)=组间组间 组内组内三、方差分析的基本思想:总变异可分解为组间变异和组内变异两个部分,相应的总自由度也分解为组间自由度和组内自由度。如果各样本均数来自同一总体,即各组之间无差别,则组间变异和组内变异均只反映随机
3、误差,这时若计算组间均方与组内均方的比值,FMS组间/MS组内,应接近1。反之,若各样本均数不是来自同一总体,组间变异较大,F值将明显大于1。要大到多大程度才有统计学意义?这个程度就是与随机误差而言。即以随机误差进行衡量,若处理组间的变异明显大于组内变异,则不能认为组间的变异仅反映随机误差,也就是说处理因素有作用。R.A.Fisher于20世纪20年代推导出在无效假设成立的情况下,统计量F的分布规律。1934年G.W.Snedecor以Fisher的名字命名了这一分布,称F分布,故ANOVA又称F检验。F(组间,组内)查表基本思想:根据资料变异的不同来源,将全部观察值总的离均差平方和和自由度分
4、解为两个或多个部分,除随机误差外,其余每个部分的变异可由某个因素的作用(或某几个因素的交互作用)加以解释,如各组均数间的变异SS组间,可由处理因素的作用加以解释,通过比较不同变异来源的均方,用F分布作出统计推断,从而了解该因素对观察指标有无影响。注意:1、ANOVA与试验设计类型联系在一起,并非任何变异都有适当的分解。2、数据要求:各次观察独立,即任何两个观察值间均不相关;每一水平下的观察值xij分别服从总体均数为 ij的正态分布;各总体的方差相等,即方差齐性homogeneity of variance.(任何观察值都是独立地来自具有等方差的正态总体)第二节 完全随机设计的单因素ANOVA(
5、one-way ANOVA)按完全随机化的原则将受试对象随机分配到一个研究因素的多个水平中去,然后观察试验效应。目的:比较不同水平下,各组均值间的差别是否具有统计学意义l l基本步骤:基本步骤:P59P59,例例6 61 1为例为例l l1 1、建立检验假设和确定检验水准:、建立检验假设和确定检验水准:l lHoHo:4 4种衣料吸附硼氢量的总体均数相等,即种衣料吸附硼氢量的总体均数相等,即 1 1 2 2 3 3=4 4l lH H1 1:4 4种衣料吸附硼氢量的总体均数不全相等种衣料吸附硼氢量的总体均数不全相等l l 0.050.05l l2 2、计算检验统计量、计算检验统计量F F值:如
6、下表值:如下表l l成组设计方差分析计算表成组设计方差分析计算表以P59表61实例进行计算:先计算基本数据结果,再代入上表的公式计算:C、SS、MS、F等一般将计算结果列为表62的形式,见P613、确定P值和作出统计推断结论按计算所得F值:11.1644,查附表62,表中1指分子均方的自由度,2为分母均方的自由度。F=11.164F0.01(3,16)=5.29,故PF0.01,P0.01,说时放置时间长短对血糖浓度的变化是有影响的。另外,不同受试者间血糖浓度亦有差别。第四节 均数间的相互比较一、几点说明1、ANOVA并不能回答哪几个均数间差别有统计学意义,需进一步做两两间的多重比较multi
7、ple comparison2、两两比较,不可用t检验,因为会增加第一类错误的概率。k个样本均数可做k!/2!(k-2)!次比较,如:5个样本10次,不犯第一类错误的概率为(1-0.05)10=0.5987,正确接受全部10次无效假设的概率,一类错误概率为1-0.5987=0.4013二、常用的多重比较的方法l l1 1、LSD-tLSD-t检验:称最小有意义差别检验:称最小有意义差别(least(least significant difference)tsignificant difference)t检验,检验检验,检验k k组某一对或某组某一对或某几对在专业上有特殊意义的均数几对在专业上
8、有特殊意义的均数d dABAB=X=XA A-X-XB B的总体的总体水平是否为水平是否为0 0。l算得的t值以误差自由来查t值表l与前述t检验的的不同:l l举例说明计算过程举例说明计算过程:t:t0.001(16)0.001(16)=4.015=4.015LSD t 检验对比组对比组A A与与B B两均数两均数之差之差两均数之两均数之差标准误差标准误LSDLSDt t值值t t 临界临界值值P P值值棉与府棉与府棉与的棉与的棉与尼棉与尼府与尼府与尼府与的府与的的与尼的与尼2、Dunnett-t 检验l l用于用于k-1k-1个实验组与一个对照组均数差别的多重比个实验组与一个对照组均数差别的
9、多重比较:较:P66P66,例,例6-56-5Dunnet t 检验对比组对比组A A与与B B两均两均数之数之差差两均两均数之数之差标差标准误准误t t 值值处处理理数数T Tt t 临临界值界值0.050.05t t 临临界值界值0.010.01P P值值棉与府棉与府棉与的棉与的棉与尼棉与尼3、Student-Newman-Keuls法l lSNKSNK法,检验统计量为法,检验统计量为q q,通常称,通常称q q检验检验l l用于多个样本均数间的两两比较用于多个样本均数间的两两比较SNK q 检验对比组对比组A A与与B B两均两均数之数之差差两均两均数之数之差标差标准误准误q q 值值
10、处处理理数数T Tq q 临临界值界值0.050.05q q 临临界值界值0.010.01P P值值棉与府棉与府棉与的棉与的棉与尼棉与尼府与尼府与尼府与的府与的的与尼的与尼比较时应将均数按大小顺序排列,一般先比较相关最大的两个均数q的分布与两比较组间跨度a及自由度有关。组间跨度a(对比组内包含组数a)是指XA与XB之间涵盖的均数个数,包括XA与XB自身在内MS误差为误差均方或组内均方依q值、组间跨度a(处理数Ti)、误差自由度及检验水准查q值表,qq(a,)时,有统计学意义(P553,附表64)两两比较方法选用1、在研究设计阶段未预先考虑或预料到,经假设检验得出多个总体均数不全相等的提示后,才
11、决定的多个均数的两两事后比较(post hoc comparisons/unplanned comparisons),常用于探索性研究exploratory research,两两比较用:SNK法、Bonfferoni t检验、Sidak t检验2、在设计阶段就根据研究目的或专业知识而计划好的某些均数间的两两比较(planned contrasts/comparisons)或称事前beforehand 比较,常用于事先有明确假设的证实性研究confirmatory research,如多个处理组与对照组的比较、某一对或某几对在专业上有特殊意义的均数间的比较,用Dunnett-t检验、LSD-t
12、检验,也可用Bonfferoni t检验(该方法最保守该方法最保守)或Sidak t检验第五节 拉丁方设计资料的方差分析*一、拉丁方设计latin square design:设计因素(标志)两个以上,各因素的水平数相同,可用此设计。拉丁方是以拉丁字母排列的方阵的简称。二、分析步骤:,例6-6,P681、求C2、求l总3、求l受试者4、求l日期5、求l防护服6、求l误差7、自由度:总格子数减1为总变异自由度,防护服间、受试者间、试验日期间均为n-1=5-1=4;误差自由度=总自由度-防护服间-受试者间-试验日期间=24-4-4-4=128、列拉丁方分析表,见P70,表6-169、查表,判断结果
13、优点:可以从较少的实验数据获得较多的信息,比随机区组设计来得优越。(控制受试者间个体的差异,及实验日期间的差异)缺点:各因素间有交互作用时,不适用。实施时,要求各因素的水平数相等,实际中不易办到。拉丁方可由统计书中查到,亦可自己编写。第七节 方差齐性检验l l检验多个样本的方差齐性用检验多个样本的方差齐性用 Bartlett Bartlett法法l l一、各组样本含量相等时:一、各组样本含量相等时:P71P71,例,例6-76-7l l卡方值略大于某一临界值时,应计算校正卡方值,卡方值略大于某一临界值时,应计算校正卡方值,公式见公式见P72P72l l二、各样本含量不等时:二、各样本含量不等时
14、:P72P72,例,例6-86-8l lBartlettBartlett法在各样本含量相等时是不敏感的。所法在各样本含量相等时是不敏感的。所以各组样本含量相差不大,各组以各组样本含量相差不大,各组S S2 2相差不过大,相差不过大,可不必进行可不必进行BartlettBartlett检验。检验。第七节 近似F检验方差不齐时:采用以下两方法1、对原始数据进行转换2、用加权的方法计算加权的方差进行F检验,即近似F检验(F检验或pseudo F test),具体计算方法,参见P7374第八节 变量变换ANOVA的要求:任何观察值都独自地来自具有等方差正态总体。不能满足时,可导致F值偏大,从而有增加第
15、一类错误的危险,尤其违反独立性假设时,影响较为严重。明显偏离可进行变量变换。样本例数较多时,对总体的正态性并不苛求;每组样本例数相等时,对方差齐性亦不苛求,故最好采用例数相等的平衡设计方案。一、变量变换:是将原始数据作某种函数转换,可使各组达到方差齐性,亦可使资料转换成正态分布,以满足方差分析和t检验的要求。通常适当转换,可同时满足以上两个目的。二、常用方法1、对数变换logarithmic transformation X=lgX;X=lg(X+1);X=lg(X+k);X=lg(X-k)用于:1)1)、使服从对数正态分布的数据正态化。、使服从对数正态分布的数据正态化。如环境如环境中某些污染
16、物的分布,人体中某些微量元素的分布中某些污染物的分布,人体中某些微量元素的分布 2)2)、使数据达到方差齐性,特别是各样本的标准差与均、使数据达到方差齐性,特别是各样本的标准差与均数成比例或变异系数接近一个常数时数成比例或变异系数接近一个常数时l l2 2、平方根转换、平方根转换square root transformationsquare root transformationl l常用于:常用于:1)1)、使服从、使服从PoissonPoisson分布的计数资料或轻度偏态的资料分布的计数资料或轻度偏态的资料正态化正态化 2)2)、当各样本的方差与均数呈正相关时,可使资料达到、当各样本的方
17、差与均数呈正相关时,可使资料达到方差齐性方差齐性l l3 3、倒数转换、倒数转换reciprocal transformationreciprocal transformationl lX=1/XX=1/Xl l常用于:数据两端波动较大的资料,可使极端值常用于:数据两端波动较大的资料,可使极端值的影响减小的影响减小l l4 4、平方根反正弦变换、平方根反正弦变换arcsine transformationarcsine transformationl l常用于:服从二项分布的率或百分比的资料。一常用于:服从二项分布的率或百分比的资料。一般认为总体率较小般认为总体率较小(如如30%)70%)70%)时,时,偏离正态较为明显,通过平方根反正弦转换可使偏离正态较为明显,通过平方根反正弦转换可使资料接近正态分布,达到方差齐性要求资料接近正态分布,达到方差齐性要求说明:使用数据转换进行方差分析后,各均数间差别的比较及可信区间的计算,应该用转换后的数据进行计算,而当分析最终结论时,需返回原测量单位加以说明。
限制150内