《医学统计学生存分析.pptx》由会员分享,可在线阅读,更多相关《医学统计学生存分析.pptx(36页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、由于生存曲线只是对样本生存过程的统计描述样本生存率或生存曲线不同也可能是抽样误差所致,在生存分析中一个重要的问题是进一步对总体的生存曲线进行假设检验第1页/共36页log-rank检验属于非参数方法该法并不指定生存时间服从某种特定的分布所比较的是整个生存时间的分布,而不是仅仅比较某个特定时间点的生存率第2页/共36页例23-3 就例23-1数据,比较甲乙两疗法组脑瘤患者的生存率有无差别?两种治疗方式的脑瘤患者生存曲线相同两种治疗方式的脑瘤患者生存曲线不同第3页/共36页第4页/共36页第5页/共36页由于假设成立时,两组的生存分布相同,故可把两组的数据合并计算合并的死亡概率,以此计算相应的期望
2、死亡人数,故将两组的完全生存时间混合排序列在表23-5第2列相同生存时间只列1次第6页/共36页k=1,2 表示在每个时点,当两组的死亡率相等且均为该时点的总死亡数除以该时点的总观察数时,按照各组期初例数计算的期望死亡人数第7页/共36页分别将两组各时点期望死亡人数相加列在第5、第9列合计处,而两组实际总死亡数为第4、第8列合计如果两组各时点生存率都相等,那么两组总的期望死亡数和总的实际死亡数相差不大第8页/共36页注意事项(1)以上介绍的是log-rank检验的近似法,计算简便,但其结果较精确法(一般统计软件中输出精确法计算结果)保守。log-rank检验精确法 统计量计算公式为:wi为权重
3、,对log-rank检验,wi=1,即该检验给任意时间点处两组间死亡的差别相同的权重。当比较的两总体生存曲线呈比例时,检验效能最大;wi=ni 则对应Gehan检验(1965)或Wilcoxon检验,该检验给两组间死亡的早期差别更大的权重第9页/共36页(2)对于大样本频数表形式的生存曲线比较,基本方法与上述相同。另外,该法很容易推广到多个组的比较,在此不赘述。需要强调的是,生存曲线的比较也和前面均数、率的比较一样,要求组间具有可比性,最好是按照比较因素进行随机化分配之后再比较。如果是未经随机化分配的观察对比资料,要考虑是否有混杂因素干扰,若存在混杂因素,可进行分层分析或采用多因素分析方法(见
4、本章第四节)。第10页/共36页(3)当假设检验发现组间生存曲线有差别时,可通过中位生存期、相对危险度RR(relative risk)等指标评价其差别。相对危险度是两个对比组相对死亡比的比值,而相对死亡比是实际死亡数与期望死亡数之比,于是,第i组相对于第j组的相对危险度为:第11页/共36页(4)log-rank检验用于整条生存曲线的比较,若比较两组某时间点处的生存率,则按下式计算:如比较多个时间点处生存率,检验水准可取Bonferroni校正,以保证总的I型错误概率不超过 第12页/共36页趋势检验多组生存率比较时,若分组变量是等级变量,如肿瘤分期为期、期、期,或连续变量等级化分组,如年龄
5、(岁)30、30、40、50,在log-rank检验组间生存率差别有统计学意义后,还可作趋势检验(trend test),分析危险率是否有随分组等级变化而变化的趋势。即是否有肿瘤分期越高,预后越差,或年龄越大(或越小),预后越差的情况。第13页/共36页(1)按某种因素影响大小将病人分组 可采用临床上该因素的自然分组,如疾病的分期等,组数一般取奇数,如3组或5组。(2)计算每组的实际死亡数 与期望死亡数。(3)进行趋势检验。第14页/共36页第15页/共36页第16页/共36页 Cox比例风险回归模型log-rank检验属于生存时间比较的单因素分析方法,应该注意的是生存分析中的单因素比较在实验
6、设计方面和均数、率的比较一样,要求对比组之间在非处理因素方面具有可比性。一般而言,经过随机化分配处理的实验设计数据在处理组之间可比性较好在实际工作中多见的观察对比资料其可比性通常不能满足或者研究者关心的影响生存时间的因素不止一个,此时应采用适当的多因素分析方法第17页/共36页由于生存分析问题中反应变量比较特殊,是事件结局以及出现这一结局所经历的时间,普通的线性回归和logistic回归通常并不适用。如果仅考虑生存时间作为反应变量进行线性回归,由于生存时间通常并不是正态分布,不满足线性回归的模型要求;仅考虑某一时点事件结局作为反应变量进行logistic回归,生存时间长短的信息又未能充分利用;
7、生存时间资料中还有删失数据的问题,上述两种模型都不能够利用这种不完全数据提供的信息第18页/共36页模型结构第19页/共36页式中x的 表示研究者认为可能影响生存的诸因素,也称协变量(covariates),这些变量在随访期间的取值不随时间变化而变化,例如根据研究目的可以是随访对象的年龄、性别、接受的不同治疗方式等。t表示生存时间,好h(t,x)称为具有协变量x 的个体在t 时刻的风险函数(hazard function),表示生存时间已达 的个体在 t时刻的瞬时风险率,h0(t)称为基线风险函数(baseline hazard function),表示所有 x都取值为0时的个体在t 时刻的瞬
8、时风险率或死亡率。风险函数定义为具有协变量 x的个体在活过t 时刻以后在 t到 t+t这一段很短时间内死亡概率与 t之比的极限值第20页/共36页参数 为回归系数,其估计值 可以从样本计算得出。由于模型右侧的基线风险函数不要求服从特定分布形式,具有非参数的特点,而指数部分的协变量效应具有参数模型的形式,故Cox回归属于半参数模型(semi-parametric model)。第21页/共36页参数的统计学意义第22页/共36页模型假定第23页/共36页第24页/共36页参数估计与假设检验模型中的回归系数可借助部分似然函数(partial likelihood function)用最大似然估计方
9、法得到。对回归模型的假设检验通常采用得分检验(score test)、wald检验和似然比检验(maximum likelihood ratio test),这些检验统计量均为卡方分布,自由度为模型中待检验的协变量个数。得分检验常用于模型外新变量的入选,wald检验常用于模型中变量的剔除;似然比检验用于不同协变量模型的比较,既可用于变量入选也可用于变量剔除。多因素分析时协变量的筛选策略与其他回归模型类似,通常可采用逐步法。第25页/共36页第26页/共36页第27页/共36页第28页/共36页注意到上面的表23-9中和表23-10上都出现了-2ln(L)的数值,其中的L就是现有模型的部分似然函
10、数值(L取值在0到1之间,其对数ln(L)称为对数似然函数,取值在负无穷大到0之间)。按照Cox模型的最大似然估计原则,当模型中增加自变量时,L将增大而-2ln(L)将减小,在自变量个数即模型的自由度一定时,-2ln(L)取值最小的模型最好,这一点类似于前述多重线性回归中的剩余平方和。可以根据模型的-2ln(L)数值大小来考虑自变量的筛选策略。第29页/共36页第30页/共36页表达式右边指数部分取值越大,则风险函数 越大,预后相对越差,故称为预后指数(prognostic index,PI)。本例预后指数。例如,1号患者age66,dtime33,则预后指数 0.23387660.44460
11、3330.1072。可按适当的预后指数分位数将观察对象分成若干组(25组),如低危组、中危组和高危组,以考察预后指数范围不同,其生存率的差异,对制定更合理的个体化治疗方案,正确指导病人的治疗,提高长期生存率有着重要意义。第31页/共36页Cox回归应用中的注意事项Cox回归分析结论的正确性要以科学的设计、有代表性的抽样为前提。如果样本例数过少(多因素分析中死亡例数一般应在自变量个数的10倍以上),或者抽样不随机而使得某些变量在其各个水平上分布极端,很难得到真正的结果。有时回归分析得到的相对危险度与专业知识相悖,并非是什么专业上的新发现,而是设计上的缺陷造成。通过计算机软件进行模型拟合只能保证计
12、算上的准确,由不合理的设计得到的数据计算出的结果只能是错得更复杂。另外,虽然它可以利用删失数据的信息,但过多的删失数据很可能会带来分析结果的偏倚。第32页/共36页数据的编码可能会严重地影响结论的可解释性。对于某些数值型协变量,根据专业上的考虑转换为等级编码更恰当一些,否则会得到譬如红细胞每减小一个,患者的死亡风险会增加若干倍的夸大解释;对于无序的多分类协变量,应设置哑变量进入模型,例如4种血型可转换为3个0-1型变量拟合模型,并且这3个变量应作为一个因素整体进出模型,人为地将血型编码为1,2,3,4会造成回归系数或相对危险度解释上的困难。第33页/共36页本章介绍的Cox回归必须满足PH假定
13、,如果某个协变量不同水平的Kaplan-Meier曲线有明显交叉,协变量与时间的交互作用项在Cox回归模型中有统计学意义,则不能使用本章介绍的比例风险模型,考虑拟合各种扩展Cox模型,如分层Cox模型或时变协变量的Cox模型等。第34页/共36页自变量的筛选事实上是一个复杂的建模过程,除了考虑以上问题,需要指出的是各种逐步方法只是一个计算手段,并不能保证总是得到最好的模型。变量筛选时首先要进行专业上的充分考虑,很重要的自变量不能遗漏,专业上无关的变量不参与计算。待选变量较多时可以首先进行单因素分析,将具有统计学意义的变量再进行逐步筛选,以避免总的样本例数不够多而使结果不稳定。必要时可以更换筛选变量的方法并调整检验水准,多数情况下总在方程中的变量可能是有意义的,最终备选的模型一定要结合专业知识来判断,有时甚至可提供1、2个模型备选。未选入模型的协变量并非不是影响因素,这一点在应用中要引起注意。第35页/共36页谢谢您的观看!第36页/共36页
限制150内