cox比例风险回归模型和其R程序省公共课一等奖全国赛课获奖课件.pptx
CoxCox回归分析回归分析刘瑞红第1页利用生存率函数S(t,X)与风险函数h(t,X)关系可导出 很好地处理截尾值问题 反应了协变量X与生存函数关系 Cox模型基本形式 第2页全部危险原因为0时基础风险率,它是未知,但假定它与h(t,X)是呈百分比。右侧可分为两部分:h0(t)没有明确定义,分布无明确假定,参数无法预计,为非参数部分;另一部分是参数部分,其参数能够经过样本实际观察值来预计,正因为Cox模型有非参数和参数两部分组成,故又称为半参数模型。第3页 若若 i0,则,则RR1,该原因为危险原因;,该原因为危险原因;若若 i0,则,则RR0,说明该个体死亡风险高于平均水平;l若PIj0,说明该个体死亡风险低于平均水平。第27页3经过预计生存率,对群体定量地进行预后评价。l因为生存率与基础生存率相关,故只要预计出基础生存率,再结合各原因偏回归系数就能够预计出生存率,即 第28页第29页ti 时刻基础生时刻基础生存率公式存率公式 ti 时时 刻刻 基基 础础累累计计风风险险函函数数公公式式在在tk时时刻死亡人数刻死亡人数 ti 时时刻刻生生存存率率计计 算算 公公 式式 2.Breslow法第30页5.Cox模型拟合优度考查l可将研究对象按个体预后指数恰当地分组,用乘主动限法预计各组生存率曲线,并与按Cox模型预后指数分类生存率曲线在同一坐标系内进行比较,若两种曲线含有一致性,说明模型拟合较理想。也能够使用卡方检验方法。第31页百分比风险假定(百分比风险假定(PH假定):假定):lPH假定检验方法大致能够分为图法和正规检验方法图法和正规检验方法。l图法:即经过观察散点图中散点分布或趋势是否满足既定模型基本假设下形状来判断资料是否满足或近似满足模型假定,主要方法有:比较COX-KM生存曲线、基于累计风险函数图示法、Schoenfeld残差图、Score残差图;l正规检验方法:经过结构满足既定模型基本假定下服从某一已知分布统计量,利用P值来检验资料是否满足或近似满足模型假定。主要方法有:时协变量法、线性相关检验、加权残差Score检验、三次样条函数法l.Cox百分比风险回归模型诊疗及预测相关问题研究_余红梅.caj.caj第32页对数线性假定对数线性假定l主要方法:多重法;鞅残差法;改进鞅残差法;结构变量法Cox回归影响点分析鞅残差,剩下残差,得分残差,Schoenfeld残差,加权Schoenfeld残差第33页R程序:程序:l在survival包中函数:lcoxph(formula,data,weights,subset,na.action)l formula:反应变量要有Surv()函数定义lcox.zph(fit,transform=,global=T/F)检验百分比风险假定lbasehaz(fit,centered=T/F)计算基础风险率函数第34页getwd()setwd(C:/Users/Administrator/Desktop)my-read.csv(pharynx.csv,header=T)attach(my)my-myCOND!=9&GRADE!=9,#去掉两个缺失值 CONDCOND=3|COND=4-2CONDCOND=0-1aa-table(COND)aamydata-my,-c(1,11)l library(survival)lfit-coxph(Surv(TIME,as.numeric(STATUS).,data=mydata)l#cox百分比风险模型函数lplot(survfit(fit)l summary(fit)第35页lbasehaz(fit)#基础风险函数laa-cox.zph(fit)#百分比风险假定检验lprint(aa)lplot(aa6)第36页多重分数多项式模型多重分数多项式模型llibrary(mfp)lf-mfp(Surv(TIME,as.numeric(STATUS)fp(AGE,df=4,select=0.05)+INST+SEX+TX+GRADE+COND+SITE+T_STAGE+N_STAGE,select=0.15,family=cox,data=mydata)lprint(f)l(rsq=1-sum(f$residuals)2/sum(mydata$TIME-mean(mydata$TIME)2)#R2第37页SAS程序:程序:lproc phreg data=;lmodel=/选项;lstrata lfreq;lby;lProportionality_test:test;/*百分比风险假定,时协变量法*/lrun;第38页llibname ll F:R语言学习COX;ldata a;lset ll.pharynx;lrun;ldata a;lset a;lif cond=9 or grade=9 then delete;lif cond=3 or cond=4 then cond=2;lif cond=0 then cond=1;lrun;lproc phreg data=a;lmodel time*status(0)=tx cond site t_stage n_stage age grade inst/selection=stepwise risklimits sle=0.15 sls=0.15;lbaseline out=cox survival=suv stderr=stderr /method=ch;lrun;第39页四、Cox模型适用范围及注意事项1.适用范围适用范围lCox模型适合用于生存资料统计分析,属半参数模型,对模型适合用于生存资料统计分析,属半参数模型,对资料没有特殊要求,也能够预计各原因参数,并能做多资料没有特殊要求,也能够预计各原因参数,并能做多原因统计分析。该模型主要优点在于能从众多影响原因原因统计分析。该模型主要优点在于能从众多影响原因中排除混杂原因影响,找出影响生存时间原因,依据各中排除混杂原因影响,找出影响生存时间原因,依据各原因参数预计出个体生存率。原因参数预计出个体生存率。l另外,另外,Cox模型能分析含有截尾数值生存时间。模型能分析含有截尾数值生存时间。lCox模型能够分析各种原因对疾病预后影响,使其更适合模型能够分析各种原因对疾病预后影响,使其更适合于临床随访研究。于临床随访研究。Cox模型使临床观察定性指标又加上定模型使临床观察定性指标又加上定量指标进行分析,提升了分析效率。量指标进行分析,提升了分析效率。第40页2.注意事项注意事项(1)设计阶段应注意问题设计阶段应注意问题 样本代表性要好。样本代表性要好。样本含量为观察协变量5-20倍。全部危险原因要在设计时考虑全方面,防止遗漏主要原因全部危险原因要在设计时考虑全方面,防止遗漏主要原因和加入无关原因。和加入无关原因。生存时间定义要明确。起始事件和终点事件要有明确要求生存时间定义要明确。起始事件和终点事件要有明确要求,时间尽可能准确测量。时间尽可能准确测量。研究协变量在研究对象中分布要适中,不然会给参数预计研究协变量在研究对象中分布要适中,不然会给参数预计带来困难。带来困难。在设计时要注意影响时间效应原因。在设计时要注意影响时间效应原因。如研究吸烟对肺癌患者生存率影响,若原来吸烟人因患肺癌而戒烟,则普通模型不易分析吸烟作用,需考虑吸烟量随时间改变趋势。假如研究原因随时间而发生改变,必要时能够采取伴时协变量Cox模型进行分析。第41页 注意事项(2)模型拟合时应注意问题模型拟合时应注意问题 多重共线性问题:医学研究中许多变量间并不是独立,但通多重共线性问题:医学研究中许多变量间并不是独立,但通常不会影响分析结果,假如变量间存在高度相关,则会影响常不会影响分析结果,假如变量间存在高度相关,则会影响Cox模型参数预计,此时可采取主成份分析法或模型参数预计,此时可采取主成份分析法或R型聚类分型聚类分析法消除多元共线性影响。析法消除多元共线性影响。应注意应注意Cox模型要求病人风险函数与基础风险函数呈百分比,模型要求病人风险函数与基础风险函数呈百分比,假如这一假定不成立,则不能用假如这一假定不成立,则不能用Cox模型进行分析模型进行分析。第42页 注意事项(3)模型应用时应注意问题模型应用时应注意问题 结果解释应结合专业知识。结果解释应结合专业知识。Cox模型与其它回归分析模型与其它回归分析一样,当进入模型中原因有统计学意义时,该原因与一样,当进入模型中原因有统计学意义时,该原因与生存时间不一定有因果关系,其中有一部分原因与生生存时间不一定有因果关系,其中有一部分原因与生存时间关系为伴随关系。存时间关系为伴随关系。Cox回归生存率普通不宜用于不一样资料之间比较,回归生存率普通不宜用于不一样资料之间比较,因为基准危险率函数只在同一份资料内保持相同,不因为基准危险率函数只在同一份资料内保持相同,不一样资料基准危险率往往不一样;而且在多原因分析一样资料基准危险率往往不一样;而且在多原因分析情况下,协变量组合也极难一致,可比性难以确保。情况下,协变量组合也极难一致,可比性难以确保。第43页3.Cox模型不足模型不足 lCox模型预计参数时,首先要假定偏似然函数含有最模型预计参数时,首先要假定偏似然函数含有最大似然性质,这个问题在理论上尚不完善。大似然性质,这个问题在理论上尚不完善。lCox模型对异常值较为敏感,所以在进行模型配合时模型对异常值较为敏感,所以在进行模型配合时要注意要注意Cox模型拟合优度检验。模型拟合优度检验。lCox模型预计参数时,不是利用准确生存时间,而是模型预计参数时,不是利用准确生存时间,而是利用生存时间次序统计量,这损失了一定样本信息。利用生存时间次序统计量,这损失了一定样本信息。当引进协变量随时间改变猛烈时,偏似然函数损失信当引进协变量随时间改变猛烈时,偏似然函数损失信息也增多。息也增多。第44页五、扩展五、扩展Cox回归模型回归模型1.伴时协变量Cox回归模型2.分层Cox回归模型3.分组数据Cox回归模型4.多状态Cox回归模型第45页Thank you!第46页