重复测量数据方差分析.pptx
第九章 方差分析一、完全随机设计资料的方差分析二、随机区组设计资料的方差分析三、析因设计资料的方差分析四、重复测量资料的方差分析五、多个样本均数的两两比较六、方差分析前提条件和数据转换 第1页/共62页 学习要求:1.掌握方差分析的基本思想;2.掌握单因素、双因素方差分析的应用条件、意义及计 算方法;3.熟悉多个均数间两两比较的意义及方法;4.了解方差齐性检验和t检验的意义及方法;5.熟悉变量变换的意义和方法。第2页/共62页第3页/共62页重复测量资料是同一受试对象的同一个观察指标在不同时间点上进行多次测量所得的资料,常用来分析该观察指标在不同时间点上的变化特点。这类资料在临床试验和流行病学研究中较常见。重复测量资料的反应变量(即被重复测量的观察指标)可以为连续型(定量指标)或离散型(定性或分类指标)。连续型的重复测量资料较为常见,可以采用方差分析方法进行处理,离散型重复测量资料比较少见,分析方法更为复杂。此处我们主要讨论连续型重复测量资料的统计学处理问题。第四节 重复测量资料的方差分析重复测量资料重复测量资料:第4页/共62页实例举例实例举例每一根线代表1位病人第5页/共62页重复测量设计的优缺点重复测量设计的优缺点优点:优点:每一个体作为每一个体作为自身的对照,克服了自身的对照,克服了个体间的变异。分析个体间的变异。分析时可更好地集中于处时可更好地集中于处理效应理效应.因重复测量设因重复测量设计的每一个体作为自计的每一个体作为自身的对照,所以研究身的对照,所以研究所需的个体相对较少,所需的个体相对较少,因此更加经济。因此更加经济。缺点:滞留效应(Carry-over effect)前面的处理效应有可能滞留到下一次的处理.潜隐效应(Latent effect)前面的处理效应有可能激活原本以前不活跃的效应.学习效应(Learning effect)由于逐步熟悉实验,研究对象的反应能力有可能逐步得到了提高。第6页/共62页目的目的:推断处理、时间、处理时间作用于试 验对象的试验指标的作用。资料特征资料特征:处理因素 g(1)个水平,每个水平有n个试验对象,共计 gn个试验对象。时间因素 同一试验对象在m(2)个时 点获得m个测量值,共计gnm个测量值。方法方法:方差分析 一、重复测量资料的数据特征第7页/共62页前后测量设计前后测量设计资料是重复测量资料中最为常见的资料类型,即g=1,m=2,如表9-1。和配对设计的数据形式相同,但两者属于完全不同的实验设计类型。区别如下:1.是否随机分配处理(分组);2.差值的独立性问题;3.数据处理方式的差异。第8页/共62页表9-1高血压患者治疗前后的舒张压(mmHg)第9页/共62页表9-2 两种方法对乳酸饮料中脂肪含量的测定结果(%)比较第10页/共62页1.配对设计中同一对子的两个实验单位可以随机分配处理,两个实验单位同期观察试验结果,可以比较处理组间差别。前后测量设计不不能能同同期期观观察察试试验验结结果果,虽然可以在前后测量之间安排处理,但本质上比较的是前后差别,推论处理是否有效是有条件的,即假定测量时间对观察结果没有影响假定测量时间对观察结果没有影响。与配对设计设计的区别第11页/共62页 2.配对 t 检验要求同一对子的两个实验单位的观察结果分别与差值相互独立,差值服从正态分布。前后测量设计前后两次观察结果通常与差值不独立,大多数情况第一次观察结果与差值存在负相关的关系,如表9-1中,治疗前舒张压与差值的相关系数为-0.602。第12页/共62页3.配对设计用平均差值推论处理的作用,而前后测量设计除了分析平均差值外,还可进行相关回归分析。第13页/共62页单组前后测量设计与配对设计的区别区别第14页/共62页二、设立对照的前后测量设计第15页/共62页表9-3高血压患者治疗前后的舒张压(mmHg)第16页/共62页设立对照的前后测量设计前后测量数据间存在显著差别时,并不能说明这种差别是由前后测量之间施加的处理所产生,还是由于存在于前后两次测量之间的时间效应所致。为解决上述问题,可通过设置对照组(如安慰剂对照)来排除时间效应的影响。设置对照后的数据除了存在前后测量的分组因素外,还存在另外一个处理因素对数据进行分组,即对照组和试验组。第17页/共62页表9-3数据的统计学分析问题计算前后测量数据的差值,上述数据即可转化为完全随机设计(两组)的资料形式。一般情况下,针对前后测量数据差值的成组t检验方法是可取的,但应注意其应用条件,即方差齐性的问题。第18页/共62页三、重复测量设计当前后测量设计的重复测量次数超过3时,则称其为重复测量设计。重复测量数据在形式上与随机区组设计资料相似(每一位受试者可以看作一个区组,前者的测量时间对应于后者的处理因素),但两者存在根本的区别。1.区组内部的随机分配问题;2.区组内部实验单位的彼此独立性问题。若重复测量资料满足“球对称(sphericity)”的假设,则可采用随机区组设计资料的方差分析方法进行分析,否则需采用其它方法或对F值进行校正。第19页/共62页实验设计试验数据Xijki=1,2,gj=1,2,mk=1,2,n试验数据共gmn个处理A因素:g个水平 每个水平 n个 试验对象 时间B因素:m个时点第20页/共62页方差分析第21页/共62页重复测量资料的方差分析重复测量资料的方差分析 例例9-4 9-4 为研究减肥新药盐酸西布曲明片和盐酸西布为研究减肥新药盐酸西布曲明片和盐酸西布曲明胶囊的减肥效果是否不同,以及肥胖患者服药曲明胶囊的减肥效果是否不同,以及肥胖患者服药后不同时间的体重随时间的变化情况。采用双盲双后不同时间的体重随时间的变化情况。采用双盲双模拟随机对照试验,将体重指数模拟随机对照试验,将体重指数BMIBMI2727的肥胖患的肥胖患者者4040名随机等分成两组,一组给予盐酸西布曲明片名随机等分成两组,一组给予盐酸西布曲明片+模拟盐酸西布曲明胶囊,另一组给予盐酸西布曲明模拟盐酸西布曲明胶囊,另一组给予盐酸西布曲明胶囊胶囊+模拟盐酸西布曲明片。所有患者每天坚持服药,模拟盐酸西布曲明片。所有患者每天坚持服药,共服药共服药6 6个月个月(24(24周周),受试期间禁用任何影响体重的,受试期间禁用任何影响体重的药物,而且受试对象行为、饮食及运动与服药前的药物,而且受试对象行为、饮食及运动与服药前的平衡期均保持一致。分别于平衡期平衡期均保持一致。分别于平衡期(0(0周周)、服药后的、服药后的8 8周、周、1616周、周、2424周测定肥胖患者的体重周测定肥胖患者的体重(kg)(kg)得表得表9-139-13的的资料。资料。第22页/共62页受试对象j剂型k服药后测定时间i(周)受试对象j剂型k服药后测定时间i(周)0816240816241184.482.282.283.021264.461.461.862.021105.0100.897.496.622291.088.487.489.63163.862.061.660.423276.076.272.871.64186.285.583.081.824271.072.069.868.45175.673.474.073.025269.466.662.860.86161.260.460.860.226289.987.492.695.57167.866.063.463.627266.863.662.661.68177.273.672.672.028263.461.262.662.09173.272.272.274.629270.067.669.869.410165.463.662.660.830286.684.081.478.011180.077.072.469.431290.484.477.471.012174.477.075.277.432274.873.672.876.613182.680.481.279.633267.464.461.058.214168.665.063.263.434284.482.280.275.415179.077.073.872.535279.076.076.578.516169.466.864.460.836287.483.281.277.217172.671.068.270.237268.765.863.066.418172.472.672.872.638283.081.878.478.419175.673.473.472.239266.564.463.465.420180.078.076.474.840264.662.664.262.0第23页/共62页重复测量资料和随机区组设计资料的区别:(1)重复测量资料中同一受试对象(看成区组)的数据高度相关,无论哪位受试对象服用盐酸西布曲明片剂或是胶囊,其服药后8周、16周和24周的体重均和前面时间点(含服药前的0周)的体重相关。表9-14为分不同剂型后使用统计软件包计算得到的各时点简单相关系数r,从中可以看出,不同时点间相关系数介于0.850 0.989之间,其P值全为0.000,均有统计学意义,说明不同时点数据其相关性较强。重复测量资料的方差分析重复测量资料的方差分析第24页/共62页(k=1时)服药后测定时间i服药后测定时间i(周)(k=2时)服药后测定时间i服药后测定时间i(周)816248162400.9890.9710.93900.9890.9440.85080.9860.96680.9610.880160.985160.958第25页/共62页(2)重复测量资料中的处理因素在受试对象(看成区组)间为随机分配,但受试对象(看成区组)内的各时间点往往是固定的,不能随机分配;随机区组设计资料中每个区组内的受试对象彼此独立,处理只在区组内随机分配,同一区组内的受试对象接受的处理各不相同。本节主要介绍两因素重复测量资料的单变量方差分析方法。重复测量资料的方差分析重复测量资料的方差分析第26页/共62页离均差平方和与自由度的分解离均差平方和与自由度的分解 两因素重复测量资料的总变异包括两部分:两因素重复测量资料的总变异包括两部分:横向分组的受试对象间横向分组的受试对象间(between subjects)(between subjects)的变的变异异 纵向分组的受试对象内纵向分组的受试对象内(within subjects)(within subjects)的变的变异。异。其中横向分组受试对象间的变异又分为处理其中横向分组受试对象间的变异又分为处理因素因素 K(K(在此为剂型在此为剂型)的变异和个体间误差的变异两的变异和个体间误差的变异两部部 分;而纵向分组受试对象内的变异则可分为时分;而纵向分组受试对象内的变异则可分为时间间 因素因素I I的变异、处理的变异、处理K K和时间和时间I I的交互作用的交互作用(KI)(KI)以及以及 个体内误差的变异三部分个体内误差的变异三部分重复测量资料的方差分析重复测量资料的方差分析第27页/共62页第28页/共62页重复测量资料方差分析的基本步骤重复测量资料方差分析的基本步骤 重复测量资料的方差分析步骤仍为三步,本例重复测量资料的方差分析步骤仍为三步,本例如下:如下:(1)(1)建立检验假设,确定检验水准建立检验假设,确定检验水准对于处理因素对于处理因素K K H H0 0:不同剂型:不同剂型(片剂和胶囊片剂和胶囊)的减肥效果相同的减肥效果相同 H H1 1:不同剂型:不同剂型(片剂和胶囊片剂和胶囊)的减肥效果不同的减肥效果不同 重复测量资料的方差分析重复测量资料的方差分析第29页/共62页对于时间因素对于时间因素I I H H0 0:服用减肥药前后不同时间体重的总体均数全相等:服用减肥药前后不同时间体重的总体均数全相等 H H1 1:服用减肥药前后不同时间体重的总体均数不全相等:服用减肥药前后不同时间体重的总体均数不全相等对于交互作用对于交互作用KIKI H H0 0:药物剂型:药物剂型K K和时间和时间I I无交互效应无交互效应 H H1 1:药物剂型:药物剂型K K和时间和时间I I有交互效应有交互效应均取均取=0.05=0.05重复测量资料的方差分析重复测量资料的方差分析第30页/共62页(2)(2)计算检验统计量计算检验统计量 使用统计软件包使用统计软件包SASSAS或或SPSSSPSS等进行计算。对本例可得等进行计算。对本例可得到表到表9-159-15的方差分析表的方差分析表 (3)(3)确定确定P P值,作出推断结论值,作出推断结论 以求以求F F值时分子自由度值时分子自由度 1 1、分母自由度、分母自由度 2 2查附表查附表3 3的的F F界界值表得相应值表得相应P P值,或直接由计算机所给值,或直接由计算机所给P P值作出推断结值作出推断结论。本例,按论。本例,按=0.05=0.05水准,减肥药剂型水准,减肥药剂型K(K(片剂和胶囊片剂和胶囊),剂型,剂型K K与时间与时间I I的交互效应的交互效应KIKI均不拒绝均不拒绝H H0 0,无统计学,无统计学意义,还不能认为盐酸西布曲明不同剂型的减肥效果不意义,还不能认为盐酸西布曲明不同剂型的减肥效果不同,也还不能认为剂型同,也还不能认为剂型K K与时间与时间I I间有交互效应。而时间间有交互效应。而时间因素因素I I拒绝拒绝H H0 0,接受,接受H H1 1,有统计学意义,可认为服用减,有统计学意义,可认为服用减肥药盐酸西布曲明前后不同时间肥药盐酸西布曲明前后不同时间(8(8周、周、1616周和周和2424周周)的的平均体重不全同。平均体重不全同。重复测量资料的方差分析重复测量资料的方差分析第31页/共62页变异来源SSdfMSFP(受试对象间)(13163.9810)(39)处理K 5.929015.92900.0170.897个体间误差 13158.052038346.2645(受试对象内)(904.6500)(120)时间I 384.53003128.176728.2130.000交互作用KI 2.194030.73130.1610.922个体内误差 517.92601144.5432总14068.631015988.4820第32页/共62页重复测量资料方差分析的前提条件重复测量资料方差分析的前提条件 进行重复测量资料的方差分析,除需满足一般方差分析的进行重复测量资料的方差分析,除需满足一般方差分析的条件外条件外(详后详后),还需特别满足协方差阵,还需特别满足协方差阵(covariance matrix)(covariance matrix)的球形的球形性性(sphericity/circularity)(sphericity/circularity)或复合对称性或复合对称性(compound symmetry)(compound symmetry)。Box(1954)Box(1954)指出,若球形对称性质不能满足,则方差分析的指出,若球形对称性质不能满足,则方差分析的F F值值是有偏的,因为它增大了第一类错误的概率。球对称性通常采是有偏的,因为它增大了第一类错误的概率。球对称性通常采用用MauchlyMauchly检验检验(Mauchlys test)(Mauchlys test)来判断来判断 重复测量资料的方差分析重复测量资料的方差分析第33页/共62页重复测量设计的操作方法受试对象的重复测量结果,即使不施加干预也可能会随时间的推移而产生变化,因此,重复测量试验必须设立平行对照。实验设计和操作时应遵循如下原则:1.1.不同的受试对象按随机化原则分配到不同的处理组(可设置两个以上的处理分组,最好含一个平行对照);2.2.明确规定重复测量的时间点,如实验前的测量值为基线;3.3.每个受试对象按规定时间点接受观察测量。第34页/共62页重复测量设计资料的统计分析方法对于重复测量数据(临床上常称纵向监测数据),实质上每个受试对象的观察结果是多次重复测量结果的连线,统计分析的目的是比较这些连线变化趋势的特征。重复测量试验数据的方差分析需要考虑两个因素,一是处理分组,二是测量时间。可采用的统计分析方法:1.多元方差分析方法;2.重复测量数据的方差分析(本章内容)。第35页/共62页.0045.0090.00135.00时间(分)4.505.005.506.006.50患者12345678血糖 图1 8名患者血糖浓度随时间变化趋势第36页/共62页二、重复测量方差分析的基本思想变异分解思路;分组小计方法;离均差平方和计算及方差分析方法。第37页/共62页变异分解思路重复测量数据的变异由两大部分组成。一是观察对象间差异,二是重复测量间差异。观察对象间差异包括处理组间差异和观察对象个体间变异两部分;重复测量间差异包括测量时间之间差异、处理与测量时间的交互作用和组内误差三个部分。因此,重复测量数据的总变异可分解为处理组、测量时间、处理组与测量时间的交互作用、观察对象间随机误差以及重复测量误差等五个部分。第38页/共62页第39页/共62页分组小计方法将全部试验数据按处理组和测量时间分为G=gm 个小组,g 为处理组数,m 为重复测量时间点数,每组有n个数据(n为每个处理分组的观察单位个数,总样本量为gn)。以Tij表示第i个小组的小计,i=1、2、g,j=1、2、m;Mk表示第k个观察对象的小计,k=1、2、gn;Ai表示第i个处理组的小计,i=1、2、g;Bj表示第j个时间点的小计,j=1、2、m。第40页/共62页第41页/共62页离均差平方和计算及方差分析方法根据方差分解思路和各分组小计计算方法,分别计算总的离均差平方和以及各分项的离均差平方和。计算结果罗列于重复测量资料的方差分析表中。该方差分析表与其它的方差分析表有所不同,其中包含两个误差均方MS4和MS5,分别表示由观察对象的个体差异和重复测量误差引起的变异,计算F2和F3时用MS5。第42页/共62页第43页/共62页重复测量方差分析注意事项1各组例数相等的要求。例数不相等时,本节介绍的计算方法不适用,但用SPSS或SAS统计软件计算无此限制。2“球对称”检验:单变量方差分析(ANOVA)的“球对称”检验、用“球对称”系数对F 值的自由度进行精确校正,需借助SPSS或SAS统计软件。3无平行对照的单组重复测量数据分析须注意的问题。第44页/共62页重复测量数据统计分析常见的误用情况1重复进行各时间点的t 检验:必然增加假阳性错误。2忽略了个体曲线变化特征:用均数曲线描述各时间点的变化特征,掩盖了个体间变化趋势的差异。3差值比较的信度问题。4协方差分析的条件问题。第45页/共62页 1重复进行各时间点的 t 检验。每个时相做3次t检验比较A、B、C三种诱导方法的差别,5个时相要做15次t检验,必然增大假阳性错误。第46页/共62页 2.忽略个体曲线变化特征。重复测量数据的个体差异是每个观察对象的m次测量结果(即横向差异),不能用纵向均数比较差别。第47页/共62页 信度是指在相同条件下,对同一客观事物重复测量若干次,测量结果的相互符合程度,说明数据的可靠性。3.差值比较缺乏效度因为前后测量转换为差值后,信度降低,且差值一般不符合正态性和方差齐性的条件。效度是指测量指标或观测结果在多大程度上反映了事物的客观真实性,说明数据的准确性。第48页/共62页方方 差差 分分 析析 小 结1.掌握重复测量设计资料的特点。2.掌握重复测量设计与配对设计、配伍组设计的联系与区别。3.掌握两因素重复测量设计方差分析方法。第49页/共62页表9-1 表9-3数据的方差分析 沿用上一章析因设计的概念,将干预因素作为A因素,共两个水平,1水平为对照组,2水平为处理组;前后两次测量时间作为B因素,共两个水平,1水平为治疗前,2水平为治疗后。数据共包含a1b1,a1b2,a2b1,a2b2四个处理组,各组观察值分别用T1,T2,T3,T4表示,A因素两水平小计分别用A1,A2表示,B因素两水平小计分别用B1,B2表示。四、重复测量数据的两因素两水平分析第50页/共62页表12-2 高血压患者治疗前后的舒张压(mmHg)顺序号处理组顺序号对照组治疗前治疗后差值治疗前治疗后差值11301141111812421241101213212231361261313413241281161411496512210215118124611810016128118711698171181168138122181321229126108191201241012410620134128合计12621102合计1248均数126.2110.216.0均数124.812064.2标准差7.089.313.13标准差7.90120.68.02第51页/共62页第52页/共62页第53页/共62页统计分析结论 处理因素的主效应无统计学意义;测量前后的舒张压有差别;测量前后与处理存在交互作用,即处理组和对照组治疗前后的舒张压的变化大小不同(治疗有效)。注意,处理因素的主效应说明的是两组的主效应(治疗前后的合计均数)236.4mmHg与245.4mmHg之间的差别无统计学意义。第54页/共62页重复测量数据的两因素多水平分析第55页/共62页两因素多水平重复测量数据当重复测量因素(测量时间)水平大于2时,属于多水平重复测量设计资料。处理因素可为2 2水平,或者多个水平。大多数医学实验都有重复测量记录,如果统计分析时只分析最后的一次测量结果,会丧失“很多过程”信息。针对此类数据的重复测量方差分析非常必要。第56页/共62页实验操作方法重复测量数据的两因素多水平设计,两因素包括一个干预因素(A因素)和测量时间因素(B因素);多水平指干预(A因素)有g(2)个水平,测量时间(B因素)有m(2)个水平(测量时间点)。随机化分组采用完全随机设计的分组方式,将gn个观察对象随机分配到g 个处理组中。数据收集在m个时间点上进行,每一个观察对象在完全相同的时间点上重复进行m次测量。第57页/共62页例12-3 将手术要求基本相同的15名患者随机分为3组,在手术过程中分别采用A、B、C三种麻醉诱导方法,在T0(诱导前)、T1、T2、T3、T4,五个时相测量患者的收缩压,数据记录见表12-16。第58页/共62页第59页/共62页第60页/共62页结论 不同麻醉诱导方法存在组间差别;患者的收缩压在不同的诱导方法下不同诱导时相变化的趋势不同,其中A组不同诱导时相收缩压较为稳定。第61页/共62页感谢您的观看!第62页/共62页