《方差分析与秩和检验.ppt》由会员分享,可在线阅读,更多相关《方差分析与秩和检验.ppt(75页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、方差分析与秩和检验第五讲两两比较次数同类指标数(数量越多)亚组分析与期中分析方差分析(analysis of variance)ANOVA基本思想根据资料的设计类型,即变异的不同来源,将全部观察值总的离均差平方和以及自由度分解为两个或多个部分,每个部分的变异与自由度组成均方(MS),均方比值(统计量)服从F分布,由此做出统计推断,从而了解各因素对观察指标影响有无统计学意义。第一部分 方差分析AnalysisOfVariance(ANOVA)R Fisher(1890-1962)在20世纪30年代发表以F分布为基础的用于多组计量资料均数比较假设检验-方差分析,有时又被称为变异分析或 F检验等。R
2、AFisher,thefounderofstatisticalinference,workingonamechanicalcalculatorWithin group variance is large compared to variability between means.Unclear separation of means.Within group variance is small compared to variability between means.Clear separation of means.xy-4-3-2-101234F统计量的抽样分布方差分析的理论基础:F分布
3、F分布是方差分析的基础,通过F分布确定P值F分布也是一簇连续性分布,分布类型与第一、二自由度有关。当第一、二自由度固定时,F值越大,其对应的P值越小;反之亦然。方差分析的概述方差分析核心是变异的分解:将所有观察值之间的变异分解成几部分,每一部分均反映了特定的内容(如某因素的作用、交互作用)通过变异间的相互比较,并构建统计量F值,基于F分布,计算P值。方差分析的用途很广,按照设计类型又可细为很多亚型。方差分析的主要设计类型成组设计(完全随机设计):单因素多组配伍设计:研究因素/配伍因素多组交叉设计:多个因素析因设计:两因素及其交互作用拉丁方设计:正交试验设计:多因素,多水平。方差分析主要用途推断
4、两个及以上总体均数有无区别;分析两个或多个因素主效应及其交互作用回归方程的线性假设检验。一、成组设计资料的方差分析(实例分析)例1、某医院对31名石棉矿工中的石棉肺患者、可疑患者、非患者进行了用力肺活量测定,结果见下,问三组石棉矿工的用力肺活量有无差别?表1 三组石棉矿工的用力肺活量 石棉肺患者 可疑患者 非患者 1.8 2.3 2.9 1.4 2.1 3.2 1.5 2.1 2.7 2.1 2.1 2.8 1.9 2.6 2.7 1.7 2.5 3.0 1.8 2.3 3.4 1.9 2.4 3.0 1.8 2.4 3.4 1.8 3.3 2.0 3.5均数 1.79 2.31 3.4 2.
5、51(合)例数 11 9 111、成组设计方差分析的变异分解总变异 =组间变异 +组内变异(1.79-2.51)+(1.8-1.79)(1.8-2.51)=表1 三组石棉矿工的用力肺活量 石棉肺患者 可疑患者 非患者 1.82.32.91.42.13.21.52.12.72.12.12.81.92.62.71.72.53.01.82.33.41.92.43.01.82.43.41.83.32.03.5均数1.792.313.42.51(合)例数11911第一组第一例变异(1.8-1.79)+(1.79-2.51)总变异 31名矿工的用力肺活量的测试值大小不等,这种变异称为总变异。其大小SS总=
6、(Xij-X)2,即每个观察值与总均数X 的离均差平均和。组内变异每个组内的个体测量值也大小不等,这种变异称为组内变异(SS组内),反映了随机误差的大小。SS组内(Xij-Xi)2,因SS组内与样本例数有关,为排除其影响,用组内均方代替:组内SS组内(N-K)组间变异三组间的均数大小不等,称为组间变异(SS组间),反映了干预效应与随机误差SS组间ni(Xi-X)2,为排除组数多少的影响,用组间均方代替:组间SS组间(K)。变异的分解:SS总SS组间SS组内自由度的分解:总组间组内组间变异(MS组间)/组内变异(MS组内)=F组数减1为第一自由度,合并例数减组数为第二自由度.根据F统计量与一、二
7、自由度确定F分布,计算P值.2、方差分析过程 变异原因 变异 统计量干预效应干预效应随机因素随机因素组间变异组间变异组内变异组内变异总变异总变异组间均方组间均方组内均方组内均方F F值值1.792.313.4(三组)推断总体H0三总体均数相等1=2=3三总体均数不等/不全等拒绝H0P值小概率事件不拒绝H012=3,1=23,1=32,1233、假设检验的步骤建立假设:H0:三组矿工用力肺活量的总体均数相等,H1:三组矿工用力肺活量的总体均数不等或不全等12=3,1=23,1=32,123=0.05构筑统计量:F=组间变异/组内变异=组间组内确定P值:假设无效假设成立的情况下,干预无效应,即组间
8、与组内接近,则值接近于,在附近出现的机率多,而出现较大值的机率小,当值大到一定界值时,根据小概率事件原则,就有理由认为无效假设不成立,从而拒绝0,而接受H1。表2方差分析结果变异来源SS总10.830组间9.26624.63384.540.01组内1.534280.0548 按照=0.05的水准,拒绝H0,接受H1,可认为三组矿工的用力肺活量不同。SPSS分析结果4、方差分析及两两比较方差分析只能表明三组工人的用力肺活量的总体均数有差别,还不能说明任何两组间是否有差别,还需做两两比较检验。;两两比较:任两个均数比较以及多个实验组与一个对照组比较两个类型。计算组间比较的均数差值及95%可信区间。
9、5、两两比较与95%可信区间效应量及其95%可信区间5、成组设计的方差分析资料特点本例资料为成组设计的单因素计量资料,进行多组均数间比较。总变异组间变异组内变异6、方差分析的应用条件各样本来自正态总体:中等程度、大样本方差齐性:最好是例数相等,敏感(变量变换、修剪)各样本为相互独立的随机样本(独立性,代表性)基线均衡性与效应可加性二、配伍设计多个样本均数比较1、资料特点分析是配对设计的扩展。具体做法是:先按影响试验结果的非处理因素(如性别、体重、年龄、职业、病情、病程等)将受试对象配成区组(block),再分别将各区组内的受试对象随机分配到各处理或对照组。1、资料特点分析研究因素有两个:A:药
10、物因素-不同药物组的重量是否有差别?B:个体变异因素-不同个体间重量有否差别?方差分析变异的分解:SS总SS组间SS配伍SS组内,总组间配伍组内2、变异的分解总变异组间变异组内变异配伍变异3、方差分析过程建立假设:假设1:药物因素0:三种药物作用后的肉瘤重量总体均数相等,H1:三种药物作用后肉瘤重量总体均数不等或不全等=0.05假设2:个体变异因素0:5个区组重量的总体均数相等H1:5个区组重量的均数不等或不全等=0.05组内变异药物变异配伍变异确定P值和做出结论 以1=2,2=8,查F界值表,得P0.05,按照=0.05的水准,拒绝0,而接受H1,可认为不同药物的肿瘤重量不同。以1=4,2=
11、8,查F界值表,得P0.05阶段241241.140.05个体10081191.364.360.05误差2101021总变异133823从结果来看:只有个体间的差异有统计学意义,不同治疗方案,不同阶段均无统计学意义。六、方差分析的误用 例5 为观察764-3(丹参的有效成分)对低氧性肺动脉高压及右心室肥厚等是否有保护作用进行了如下试验:取180-220G雄性大鼠141只,随机分成三组:即正常组,单纯低氧组,764-3处理低氧组每组再分成2个小组,分别于3天,21天时处死大鼠,测量相关指标的数值。表9 764-3对低氧所致右心室收缩压变化的影响 组别收缩压(xSE)3天21天对照3.060.12
12、3.020.12单纯低氧3.370.12*3.850.12*764-3+低氧3.350.153.330.09*注:原作者采用t检验分析资料,得:与对照组比,p0.05,*P0.01,与单纯低氧组比p0.05。存在的问题?七、方差分析的小结 方差分析的目的是推断多个总体均数间有无差别:不能检验那些有差别、那些无差别;不能说明差别的显著程度;需通过两两比较,计算效应量及其95%可信区间;两两比较不同于多个t检验比较.两两比较的方法优选事先设置比较:检验水准校正法Bonferroni(或Dunns)多重比较过程(次数较少)界值扩大因子(与比较次数及自由度有关)ANOVA后Posthoc两两比较非成对
13、比较(Scheff过程)任意两对均数比较(TukeyHSD,SNK)多组干预与对照组比较(Dunnett)建议不要使用:LSDDuncan方法特点优势不足Tukey HSD扩大因子sqrt(MSE/n)1、Power高2、计算可信区间扩大因子需查表Scheffe扩大因子界值1、最灵活、最保守方法2、可计算可信区间公式复杂SNK(Newman-Keul)扩大因子sqrt(MSE/n)排序、界值不固定,敏感性强不能计算可信区间Dunnett法扩大因子sqrt(2MSE/n)1、计算方便2、界值最小仅用于多个试验组与同一对照组比较根据设计类型选择具体方差分析方法.设计方案决定检验效能的大小成组设计;
14、配伍设计;交叉设计;析因设计;拉丁方设计;正交设计方差分析要求:u基本条件:资料的正态性、方差齐性、独立性其中对方差齐性要求最高,采用Levene检验若方差不齐,变量变换(四种),否则秩和检验u额外条件:均衡性、效应可加性;考察各组均数与方差的关系变量变换的参考依据变量变换的参考依据第二部分 秩和检验 参数统计:总体分布类型已知,对总体参数进行估计或检验。非参数统计:总体分布类型未知或已知分布类型与其应用条件不符,并非是参数间的比较,而是用于分布间的比较。一、“应用条件”优:非参数检验不受总体分布的限定,且对等级资料、不能被准确测量的资料、有不确定值的资料等均可进行。劣:与参数检验相比,检验效
15、能降低。根据不同的资料特点与设计类型选用不同秩和检验方法。二、秩和检验配对设计数值变量资料的秩和检验(Wilcoxon配对法,1945)例6 某研究者对病人治疗前后的生存质量进行了测量,资料见下,问病人生存质量治疗前后有无变化?表8 病人治疗前后的生存质量评分 病人编号治疗前治疗后评分差值秩次17103+92792+637704671+357103+9676-1-37891+38264+11998-1-310693+911462+71266013671+3秩和检验的基本步骤建立假设:0:生存质量差值的总体中位数Md=0H1:Md0=0.05计算差值并编秩:依差值的绝对值从小到大编秩,再根据差值
16、的正负给秩次冠以正负号;差值为0时不编秩;差值相等符号相同仍按顺序编秩;差值相等符号不同取平均秩次。求秩和并确定检验统计量:分别计算正、负秩次之和,任取其一为T。确定P值和做出推断结论:当n50时,超出T界值表范围,采用正态近似法。成组设计两样本比较的秩和检验(Wilcoxon两样本比较法)例7 某实验室观察局部温热治疗小鼠移植性肿瘤的疗效,以生存日数作为观察指标,实验结果见下表,试检验两组小鼠生存日数有无差别?表9 两组小鼠发癌后生存天数 实验组 对照组生存天数 秩次 生存天数 秩次 10 9.5 2 1 12 12.5 3 2 15 15 4 3 15 16 5 4 16 17 6 5 1
17、7 18 7 6 18 19 8 7 20 20 9 8 23 21 10 9.5 90以上 22 11 11 12 12.5 13 14资料特点与基本步骤两组比较成组设计资料,存在截尾值。基本步骤:1:建立假设:0:两组小鼠生存天数总体分布相同H1:两组小鼠生存天数总体分布不同=0.052:编秩及计算秩和:将两组数据由小到大统一编秩。原始数据相同时,若相同数据在同一组按顺序编秩;若相同数据在不同组时,取平均秩次。当两组样本例数不等时,以样本例数较小者的秩和为T;当例数相等时,任取其中一个秩和为T。3:确定P值和做出推断结论:当n111,n2-n111时,查T界值表,T分布同上;当样本量较大超
18、出T界值表范围时,采用正态近似法。多组比较的秩和检验1、多组成组设计的秩和检验及两两比较Kruskal-Wallis检验两两比较采用Wilcoxon两组比较秩和检验+2、配伍设计的秩和检验及两两比较Friedman秩和检验两两比较符号秩和检验+自由度校正 实例分析表11 恶性滋养细胞肿瘤患者灌注治疗前后hcG值(pmol/L)病例号 疗前值(X1)疗后值(X2)lgX1 lgX2 1 1280000 210000 6.1072 5.3222 2 75500 3300 4.8779 3.5185 3 12450 2210 4.0952 3.3444 4 1500000 9.3 6.1761 0.
19、9685 5 10000 2500 4.0000 3.3979 6 9700 1203 3.9868 3.0803 7 15588 4825 4.1928 3.6835 8 4223 914 3.6256 2.9609 原文注:由于本组数据相差较大,故取其对数使之满足正态条件,经t检验得P0.05时,结果解释应慎重,在符合参数检验的条件下,尽可能采用参数检验。对于频数表资料,相同秩次较多,结果需要校正应考虑样本含量的大小,当样本含量较大时(n30),可按正态近似法处理。一般统计分析软件,能直接计算P值,不需要查表.参数统计和非参数统计优缺点参数统计(t,F检验)优点:对资料的分析利用充分统计分析的效率高缺点:对资料的要求高适用范围有限非参数统计(秩和检验)优点:对资料的没有特殊要求不受分布的影响(偏态、分布不明的资料)不受方差齐性的限制不受变量类型的影响不受样本量的影响缺点:检验效率低(易犯型错误)对信息的利用不充分。单因素的方差分析 例4-2双因素的方差分析 配伍设计的方差分析例4-4
限制150内