医学统计学之科研方法 第四讲 调查设计.ppt
第四讲第四讲 调查设计调查设计1调查设计的基本内容调查设计的基本内容l调查的目的与内容调查的目的与内容l调查对象与范围调查对象与范围l调查项目与指标调查项目与指标l调查单位调查单位l调查表格调查的方式调查表格调查的方式l调查的组织与培训调查的组织与培训2一、前瞻性调查一、前瞻性调查(prospectivestudy)l前瞻性调查又称前瞻性调查又称队列研究队列研究(cohort study),是从一个参考人群(队列)出发,其中一是从一个参考人群(队列)出发,其中一些人暴露于某因素,另一些人则无此暴露。些人暴露于某因素,另一些人则无此暴露。两组在研究开始时,均未患所要研究的疾两组在研究开始时,均未患所要研究的疾病,跟踪观察一定时期后,根据所要研究病,跟踪观察一定时期后,根据所要研究的疾病在两组发生概率有何不同,来分析的疾病在两组发生概率有何不同,来分析暴露的因素是否为病因。队列研究是从原暴露的因素是否为病因。队列研究是从原因到结果。因到结果。3前瞻性调查前瞻性调查l设E为暴露于某因素;为未暴露于此因素。D为发生某疾病,为未发生某疾病。l现在(人群中分暴露组与非暴露组)将来(两组均有发病与未发病)4相对危险度相对危险度(relativerisk,RR)l相对危险度是暴露人群的发病率与未暴露人群发病率之比。lRR是在病因学的临床研究中,分析暴露与发病联系强度的最重要的指标。5相对危险度的意义相对危险度的意义lRR=1表表示示暴暴露露人人群群发发病病率率与与未未暴暴露露人人群群相相同同,因因此此暴暴露露与与发发病病没没有有联联系系,此此暴暴露露因因素素不不可可能能是是病因。病因。lRR1表表示示暴暴露露人人群群的的发发病病率率高高于于未未暴暴露露人人群群,因因此此很很有有可可能能此此暴暴露露因因素素是是病病因因,此此暴暴露露因因素素是是危险因素。危险因素。lRR1(或RROR01OR10时时,两两因因素素有有正正交交互互作作用用,如如是是OR11OR01OR10时时,两因素有负交互作用。两因素有负交互作用。25配对的病例对照研究配对的病例对照研究 l配对是指对每一个病例,配上有相似特点的一配对是指对每一个病例,配上有相似特点的一个或多个对照。认为个或多个对照。认为可能影响研究结果的许多可能影响研究结果的许多特点都可作为配对的基础特点都可作为配对的基础,如年龄、性别、种,如年龄、性别、种族、职业等。在病例对照研究中,通常病例有族、职业等。在病例对照研究中,通常病例有限,而对照很多,因此除了每个病例配上一个限,而对照很多,因此除了每个病例配上一个对照外,也可以配上一个以上的对照,例如对照外,也可以配上一个以上的对照,例如l l:2 2,1 1:3 3,1 1:4 4,一般不宜超过一般不宜超过1 1:5 5。26队列研究的优点队列研究的优点 (1)(1)可可以以了了解解暴暴露露因因素素的的作作用用下下,发发生生全全部部的的变变化化过过程程,包包括括疾疾病病发发生生的的阶阶段段、发发展展速度等。速度等。(2)(2)可以估计暴露和不暴露组的发病率可以估计暴露和不暴露组的发病率 (3)(3)获得的资料是直接观察的,比较可靠。获得的资料是直接观察的,比较可靠。27队列研究的缺点队列研究的缺点 (1)(1)对发病率低的疾病,观察数量需很大。对发病率低的疾病,观察数量需很大。(2)(2)跟跟踪踪观观察察时时间间很很长长,因因此此观观察察对对象象暴暴露露情况可能发生变化。同时保持跟踪困难很大。情况可能发生变化。同时保持跟踪困难很大。(3)(3)比较费钱和费时间。比较费钱和费时间。28病例对照研究的优点病例对照研究的优点 (1)(1)观察的对象比较少。观察的对象比较少。(2)(2)比较省钱和省时间。比较省钱和省时间。(3)(3)对对研研究究的的对对象象没没有有任任何何危危险险,因因为为进进行的是回顾性调查。行的是回顾性调查。(4)(4)可以分析许多危险因素。可以分析许多危险因素。29病例对照研究的缺点病例对照研究的缺点(1)(1)有有关关历历史史上上暴暴露露的的情情况况在在很很大大程程度度上上依依靠靠回回忆忆,往往往往难难以以证证实实资资料料的的可可靠靠性性和和正确性。正确性。(2)(2)无法估计暴露及未暴露两组的发病率。无法估计暴露及未暴露两组的发病率。(3)(3)对于各种干扰因素的控制不易做到。对于各种干扰因素的控制不易做到。30非条件非条件Logistic回归模型回归模型 l当研究的因素或混杂因素较多时,采用分层分析当研究的因素或混杂因素较多时,采用分层分析,分分的层数将很多,每一层的样本含量就大大减少,使的层数将很多,每一层的样本含量就大大减少,使抽样误差增大,有时甚至是难于分析。采用分析多抽样误差增大,有时甚至是难于分析。采用分析多因素的因素的logistic模型将是很有效的。模型将是很有效的。l对于非配对资料可采用非条对于非配对资料可采用非条logistic模型;而对于配模型;而对于配对资料则采用是条件对资料则采用是条件logistic模型。下面仅介绍非条模型。下面仅介绍非条件件Logistic模型。模型。31队列研究队列研究 l设设有有m个个因因素素(包包括括研研究究因因素素与与混混杂杂因因素素),第第i个个因因素素取取值值为为xi(xi可可以以是是计计量量的的;也也可可以以是是等等级级变变量量;也也可可以以是是二二分分类类或或多多分分类类变变量量,后后者者要经过数量化处理要经过数量化处理)。m个因素的取值用向量个因素的取值用向量X表示表示 X=(xl,x2,xm)当当m个变量取值为个变量取值为X时的发病概率为时的发病概率为P(D|X)32队列研究队列研究比数=其中x0=l,0为常数项,i称对应于xi的回归系数,均为未知参数。33与多元与多元线性回归的区别线性回归的区别lY为正态分布lY为两分类34队列研究35队列研究36估计方法的区别l多元线性回归方程,用最小二乘法lLogistic回归方程用极大似然法37病例对照研究病例对照研究 l设设从从病病例例及及对对照照人人群群总总体体中中,各各按按抽抽样样比比例例1 1及及2 2分分别别抽抽取取一一部部分分病病例例和和对对照照,组组成一个随机样本。成一个随机样本。l一个具有因素变量为的个体是病例,且一个具有因素变量为的个体是病例,且被抽到样本中的概率为被抽到样本中的概率为 l一个具有因素变量为的个体是对照,且一个具有因素变量为的个体是对照,且被抽到样本中的概率为被抽到样本中的概率为 38病例对照研究病例对照研究l具有因素变量为具有因素变量为X X的个体在随机样本中是病的个体在随机样本中是病例的结果,其概率为例的结果,其概率为 而是对照的结果,其概率为而是对照的结果,其概率为39病例对照研究40OR值的估计l可得出因素变量*对于的OR的估计值41OROR值的估计值的估计l当只有Xi变化,其它不变时l当只有Xi变化,其它不变时,却Xi由0到1(或仅变化一个单位)42回归系数i的意义lexp(i):反映其他变量固定不变时,xi增加一个单位时的OR值li0,exp(i)1,说明该因素是危险因素li0,exp(i)1,说明该因素是保护因素43回归系数的解释l等级变量:一般以最小等级或最大等级作为参考组,并按等级顺序依次取为0,1,2,。此时,exp(i)表示xi增加一个等级时的OR。l连续性变量:exp(i)表示xi增加1(个计量单位)时的OR。44回归系数的解释l多分类变量:指示变量x10,x20,x30 表示表示A型血型血x11,x20,x30 表示表示B型血型血x10,x21,x30 表示表示AB型血型血x10,x20,x31 表示表示O型血型血exp(1)表示表示B与与A比之比之OR;exp(2)表示表示AB与与A比之比之OR;exp(3)表示表示O与与A比之比之OR。45假设检验l似然比检验:用于模型或回归系数的检验lWald检验:用于回归系数的检验lScore检验:用于回归系数的检验 统计量S 样本量较大时近似服从分布46非条件非条件LogisticLogistic回归模型回归模型全参数模型全参数模型l将全部的因素(包括研究因素和混杂因将全部的因素(包括研究因素和混杂因素)都一起引入模型,则为全参数模型,素)都一起引入模型,则为全参数模型,即要同时估计所有的未知参数即要同时估计所有的未知参数i。47非条件非条件LogisticLogistic回归模型回归模型 逐步回归模型逐步回归模型l得到的理想模型是和疾病有联系的因素都在模型得到的理想模型是和疾病有联系的因素都在模型内;而和疾病没有联系的因素都不在模型内。所内;而和疾病没有联系的因素都不在模型内。所以全参数模型并不是最优的。要得到最优的模型,以全参数模型并不是最优的。要得到最优的模型,应该对每一种的因素组合,都用应该对每一种的因素组合,都用logisticlogistic模型进模型进行分析,然后对各种结果进行比较。但是这样做,行分析,然后对各种结果进行比较。但是这样做,工作量非常大为了减少计算量,同时又能得到接工作量非常大为了减少计算量,同时又能得到接近最优的结果,可以采用逐步回归方法。通常有近最优的结果,可以采用逐步回归方法。通常有前进法和后退法前进法和后退法。48病例随访研究病例随访研究 l疗效指标疗效指标 l对于急性病,疗效可在较短时期内确定,可用对于急性病,疗效可在较短时期内确定,可用有效率,治愈率,病死率等指标描述。对于慢有效率,治愈率,病死率等指标描述。对于慢性病如肿瘤等,其疗效不是短期内能够确定的,性病如肿瘤等,其疗效不是短期内能够确定的,需作较长时间的随访观察,以上的疗效指标难需作较长时间的随访观察,以上的疗效指标难于应用。评价这些疾病的疗效,不仅要看疾病于应用。评价这些疾病的疗效,不仅要看疾病死亡所占的比例,还要看发生死亡所经历时间死亡所占的比例,还要看发生死亡所经历时间的长短。的长短。49病例随访研究病例随访研究l因此要以时间作为定量观测指标,即生存时间因此要以时间作为定量观测指标,即生存时间的长短是衡量慢性病疗效的重要依据。随访观的长短是衡量慢性病疗效的重要依据。随访观察所得到的这些时间数据是随机变异的。也是察所得到的这些时间数据是随机变异的。也是随机变量,形成一个生存时间的分布。一般用随机变量,形成一个生存时间的分布。一般用表示生存时间的随机变量。生存时间的分表示生存时间的随机变量。生存时间的分布,通常用生存函数布,通常用生存函数(survival function)S(t)来描述其特征。来描述其特征。50生存时间的定义生存时间的定义 病例随访研究是一种前瞻性调查。从一病例随访研究是一种前瞻性调查。从一明确规定的起点开始,例如自诊断治疗明确规定的起点开始,例如自诊断治疗日起,随访到另一明确规定的终点事件,日起,随访到另一明确规定的终点事件,如死亡或复发等发生为止,其间经历的如死亡或复发等发生为止,其间经历的这段时间称生存时间。这段时间称生存时间。51生存时间生存时间l起点时间起点时间动物试验可将所有受试者在同一动物试验可将所有受试者在同一时间开始试验观察。而对临床试验,对象是所时间开始试验观察。而对临床试验,对象是所研究的某病患者,病人是陆续来医院就诊,诊研究的某病患者,病人是陆续来医院就诊,诊断、治疗不可能同一时间开始观察。因此对病断、治疗不可能同一时间开始观察。因此对病例随访观察时间的起点,在试验设计时要有明例随访观察时间的起点,在试验设计时要有明确的、统一的规定,使先后进入研究观察的时确的、统一的规定,使先后进入研究观察的时间起点,都保持一致。间起点,都保持一致。52生存时间生存时间l终点事件终点事件在临床试验中的终点事件也在临床试验中的终点事件也必须有明确统一的定义,一般指死亡或复必须有明确统一的定义,一般指死亡或复发。但死亡必须是所研究疾病的死亡,由发。但死亡必须是所研究疾病的死亡,由于其它疾病或原因的死亡,不能作为本研于其它疾病或原因的死亡,不能作为本研究的终点事件。究的终点事件。53生存数据的特征生存数据的特征 l生存时间一般都是正偏态分布生存时间一般都是正偏态分布 l含有终检数据(含有终检数据(censored data)或称截尾数据或称截尾数据 能够提供确切生存时间的数据称为能够提供确切生存时间的数据称为完全观察完全观察。未观察到规定的终点事件,因而不能提供确切未观察到规定的终点事件,因而不能提供确切的生存时间,称为的生存时间,称为终检观察终检观察,所观察的时间数,所观察的时间数据并非生存时间,称为据并非生存时间,称为终检值终检值。545556生存函数的非参数方法生存函数的非参数方法 1.生存函数的定义生存函数的定义生生存存函函数数S(t)是是指指一一个个个个体体生生存存时时间间等于或长于等于或长于t的概率,即的概率,即 (7-1)当数据中没有终检值时,生存函数是当数据中没有终检值时,生存函数是由生存时间等于或长于由生存时间等于或长于t的病人数占病人总的病人数占病人总数的比例来估计。数的比例来估计。57 S(t)是时间t的非增函数,有下列特性:当t=0时S(t)=1 即S(0)=1当t=时S(t)=0即S()=0l(7-2)58l2.2.生存函数的积极限估计量生存函数的积极限估计量(product-limit)简称PL估计量,也称Kaplan-Meier估计量。(1)当数据中没有终检值时,可用式(7.2)得到生存函数的估计量。59i(!)ti(2)di(3)ni(4)S(t)(5)123456745681011121113211109874210.90.80.70.40.20.10.06061生存函数的积极限估计量(2)当数据中有终检值时,应采用PL法对S(t)进行估计,下面通过例7-2说明。62例7-2 A疗法的生存函数估计i(!)ti(2)di(3)wi(4)ni(5)Pi(6)S(t)(7)123456767101316222335+31111111120304121171512117610.8570.9410.9330.9170.9090.8570.8330.8570.8070.7530.6900.6270.5380.44863生存函数的积极限估计量 例7-2 两种疗法的生存曲线见图7-3。当最后一个数据为非终检值时,如B疗法t23,生存函数估计量S(23+0)=0,与t轴重合,可定义到t=。当最后一个数为终检值时,如A疗法,t=35+,则,只能定义到t=35,生存曲线只能画到t=35。中数生存时间Md 64l65两生存分布比较的非参数法 l在医学研究中,常需对两个生存分布进行比较,如例7-2,比较A及B疗法的生存时间的长短,以便得出何种疗法较好的结论。l从生存曲线上可看出A疗法比B疗法好。l也可从中数生存时间上比较,A疗法Md=23周;B疗法Md=8周,也是A疗法好。l但这是由两样本得到的结果,可能受抽样误差的影响,所以必须进行两生存分布比较的假设检验。66两生存分布比较的非参数法l三种对两生存分布比较的方法。l前两种用于一般资料两样本的比较,后一种用于两样本分组资料的比较。l检验假设为l H0:两组生存期相等l H1:两种生存期不相等l =0.05 67Gehan比分法 l 此检验此检验是是wilcoxon秩和检验在有终捡值时的推广。下面秩和检验在有终捡值时的推广。下面通过例通过例11-4来说明方法。来说明方法。l基本思想:将生存时间的数据作变量置换,成为比分,基本思想:将生存时间的数据作变量置换,成为比分,生存时间生存时间ti愈长,比分愈长,比分Ui愈大,这是由于生存时间愈大,这是由于生存时间ti愈长,愈长,则能确定比则能确定比ti时点早死亡的总例数时点早死亡的总例数R1i愈大而比愈大而比ti晚死亡的晚死亡的总例数总例数R2i愈小,则愈小,则UiR1iR2i愈大。反之愈大。反之ti愈小则愈小则Ui愈愈小。置换后,用比分代替原始数据,进行两样本均数的小。置换后,用比分代替原始数据,进行两样本均数的比较。作置换后,比分近似正态分布,而任一样本比分比较。作置换后,比分近似正态分布,而任一样本比分和的绝对值和的绝对值V,在样本含量不十分大时,亦近似正态分在样本含量不十分大时,亦近似正态分布。布。68logrank简化法 计算统计量 v=1 其中A1、A2分别为两组的实际死亡人数。且有:A1A2T1T2以资核对69 Mantel-Haenszels检验 l用于两样本为分组资料时作比较 70Cox回归模型 l在疾病影响因素的研究中,病人的生存期是与病在疾病影响因素的研究中,病人的生存期是与病人的某些特点及影响疾病的许多因素有关,因此人的某些特点及影响疾病的许多因素有关,因此在考虑某一因素(例如治疗方法)对病人生存时在考虑某一因素(例如治疗方法)对病人生存时间的影响时,还必须考虑其他的因素。因此,需间的影响时,还必须考虑其他的因素。因此,需要用多因素分析的方法,其方法主要的有全参数要用多因素分析的方法,其方法主要的有全参数回归模型和回归模型和Cox半参数回归模型。后者应用更为半参数回归模型。后者应用更为广泛,下面仅讨论广泛,下面仅讨论Cox半参数回归模型。半参数回归模型。71Cox回归模型 l危险度函数h(t)(hazardfunction)又称危险率函数,是条件死亡率。即已存活到时间t的人每单位时间一个体在t到t+t区间内的死亡概率的极限,即72Cox回归模型l生存函数73比例危险度模型 l设有因素m个,用m维因素向量表示,即=(x1,x2.xm)第j个个体对应的因素向量为jj=(x1j,x2j.xmj)l其对应的危险度函数用h(tj)表示,如果样本中的任意两个个体,其对应的因素分别为1及274比例危险度模型则危险度函数的比值为 h(t1)/h(t2)如果这个比值不是时间的函数,那么,就称为比例危险度模型,这时危险度函数可写成时间t的函数h0(t)和的函数g()的乘积,即 h(t)=h0(t)g()h0(t)及g()两函数中都可包括未知参数。75比例危险度模型l对任意两个个体,其向量分别为j 及2,危险度函数的比值为 l它不是t的函数,所以满足式(11,12)的危险度函数,是比例危险度模型。h0(t)称为基础危险度函数,其含义为当g()=1时的危险度函数 76g()的定义77似然函数78比例危险度模型l条件似然函数和偏似然函数l逐步回归:对于变量的剔除和选入的检验方法同样有三种方法(1)Score检验选入变量时计算量较小。(2)Wald检验剔除变量时计算量较小。(3)似然比检验选入剔除时计算量均大,但稳定性最好,当今最好选用似然比检验。79生存函数的估计80生存函数的估计81生存函数的估计82RR的估计8384比例危险度模型结果的运行与分析85习题l1.某单位在40岁以上人群查体中,记录了485名血压正常人与80名血压升高者的情况,然后追踪6年,得到了冠心病患病情况如下:血压升高者80例,追踪6年后有19例患冠心病;血压正常者485例,然后追踪6年后有20例患冠心病,问这是一种什么设计类型?A病例-对照研究设计 B交叉设计 C队列研究设计 D配对设计862.某医师研究某种急性白血病的患者的生存率时,收集了20例患者的生存时间,并打算分析两个因素(一个为定性,另一个为定量)对生存时间的影响。第一个骨髓AG检验结果(阴阳性)、第2个是白细胞计数(WBC)。问可用什么回归分析方法分析此资料?AG()组WBC(亿/L)237.5 43 266010510017054 70生存周数6515610013416108121 4 39143AG()组WBC(亿/L)44 30 40 15 90 53 100 190 270 280生存周数 56 65 17 7 16 22 3 4 2 3 A多元线性回归 BCOX回归 C直线回归 Dlogistic回归 87l3.某医师为研究服避孕药与染色体异常的关系,分别回顾性调查了子代染色体异常和正常的同年龄组儿童的母亲102名和148名,结果孕前6个月内服用避孕药者分别是34名和20名,问:这叫什么实验设计?A队列研究设计B成组设计C交叉配对设计D病例对照设计88l4.乳腺癌女患者10例均分为两组,生存时间(月)如下,试比较两组病人的生存期之间的差别有无统计学意义。应选用的统计分析方法是()CMF组:16+,18+,20+,23,24 对照组:15,18,19,19,20 A成组设计资料的t检验 B乘积-积限法 C配对设计资料的t检验 D相关分析89