《生存分析及其R程序资料讲解.ppt》由会员分享,可在线阅读,更多相关《生存分析及其R程序资料讲解.ppt(42页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、生存分析及其R程序 生存分析:既考虑结果又考虑生存时间的一种统计方法,并可充分利用截尾数据所提供的不完全信息,对生存时间的分布特征进行描述,对影响生存时间的主要因素进行分析。生存分析对资料的基本要求1.样本由随机抽样方法获得,要有一定的数量,死亡例数和比例不能太少2.完整数据所占的比例不能太少,即截尾值不宜太多3.截尾值出现的原因无偏性,为防止偏性常常对被截尾的研究对象的年龄、职业、地区、病情轻重等情况进行分析4生存时间尽可能精确5.缺项要尽量补齐生存分析的研究内容1.描述生存过程 研究生存时间的分布特点,估计生存率及其标准误。常用方法有乘积极限法和寿命表法2.比较生存过程 获得生存率及其标准
2、误的估计后,可进行两组或多组生存曲线(生存过程)的比较。常用方法为对数秩检验。3 生存过程的影响因素分析 常用的分析方法为Cox比例风险回归模型。几个基本概念几个基本概念1.死亡事件:又称失效事件或终点事件,指标志某种处理措施失败或失效的特征事件。2.生存时间:广义上指某个起点事件开始到某个终点事件发生所经历的时间,常用符号t表示。分布类型不易确定。一般不服从正态分布,少数情况下近似服从指数分布、分布类型不易确定。一般不服从正态分布,少数情况下近似服从指数分布、WeibullWeibull分布、分布、GompertzGompertz分布等,多数情况下往往是不服从任何规则的分布分布等,多数情况下
3、往往是不服从任何规则的分布类型。类型。影响因素多而复杂且不易控制。影响因素多而复杂且不易控制。根据研究对象的结局,生存时间数据可分为两种类型:根据研究对象的结局,生存时间数据可分为两种类型:完全数据完全数据(complete data)(complete data)截尾数据截尾数据(截尾值、删失数据,截尾值、删失数据,censored data)censored data)几个基本概念几个基本概念(1)完全数据:从观察起点到发生死亡事件所经历的时间(2)截尾数据:生存时间观察过程的截止不是由于死亡事件,而是由其他原因引起的主要原因A.失访:指失去联系B.退出:死于非研究因素或非处理因素而退出研
4、究。C.终止:设计时规定的研究时间已到而终止观察,但研究对象仍然存活。几个基本概念几个基本概念3.死亡概率 记为q,指在某单位时段开始时存活的个体在该时段内死亡的可能性大小。q=某年内死亡数/某年年初观察例数 若年内有截尾,则分母用校正人口数:校正人口数=年初观察例数-1/2截尾例数4.生存概率:记为p,与死亡概率相对立,表示在单位时间段开始时存活的个体到该时段结束时仍存活的可能性大小。p=1-q=某年活满一年的人数/某年年初观察例数几个基本概念几个基本概念5.生存函数 又称累积生存函数,观察对象经历t个时段后仍存活的可能性,记为S(t),0 S(t)1。如资料中无删失数据,直接法计算生存率的
5、公式为:S(t)=P(Tt)-t时刻仍存活的例数/观察总例数 (S(t)为单调下降)。若含有删失数据,须分时段计算生存概率。假定观察对象在各个时段的生存时间独立,应用概率乘法定理将分时段的生存概率相乘得到生存率。S(k)=P(T tk)=p1p2p3pk几个基本概念几个基本概念死亡密度函数:观察对象在某时刻t的瞬时死亡率,又称为死亡概率密度函数。常用f(t)表示:在实际工作中,他在t时刻的取值可用下式估计几个基本概念几个基本概念6.危险率函数(hazard function)定定义义:指指t 时时刻刻尚尚存存活活的的研研究究对对象象死死于于t时时刻刻之之后后一一瞬瞬间间的的概概率率。为为条条件
6、件概概率率,即即活活到到了了t时时刻刻的的条条件件下下在在tt+t这这一一微微小时段内死亡的概率,用小时段内死亡的概率,用h(t)表示。表示。式式中中,T为为观观察察对对象象的的生生存存时时间间,n(t)为为t时时刻刻的的生生存存人人数数,n(t+t)为为t+t时刻的生存人数。时刻的生存人数。危危险险率率函函数数也也称称为为死死亡亡力力(force of mortality)、瞬瞬时时死死亡亡率率(instantaneous failure rate)等等几个基本概念几个基本概念nh1(t)是一种上升的曲线,表示危险率随时间变化而增加,如急性白血病患者治疗无效其危险率随时间呈增加趋势;nh2(
7、t)的曲线为下降趋势,表示危险率逐渐减小,如意外事故造成的外伤经有效治疗后死亡的危险性逐渐减小;nh3(t)为一种稳定的危险率函数,如某些慢性病患者在稳定期,其危险率基本不变。n 几个基本概念几个基本概念接上一张h4(t):U型风险函数,又称为“浴盆”曲线,开始时死亡风险较大,并逐渐减少,随后进入一稳定的较低风险水平,但最后风险逐渐加大。如人类一生所经受的死亡风险就是这样的h5(t):是山峰型风险函数。开始时逐渐增大,到最大风险后逐渐降低。几个基本概念几个基本概念2、危险率函数与生存函数的关系危险率函数是生存分析的基本函数,它反映研究对象在某时点的死亡风险大小。生存函数与危险率函数的关系可表示
8、为:不同人群的危险率模型不同,危险率函数可以表现为递增、递减、恒定或其它波动形式。风险函数,生存函数,死亡密度函数的关系几个基本概念几个基本概念7.半数生存时间:又称为中位生存时间,指生存率为0.5时 对应的生存时间,表示有50%的观察对象可以活这么长时间。一般采用内插法进行估计。8.风险比:指同一时点两组的风险函数之比,这个比即为相对危险度。风险比=第一组个体的h1(t)/第二组个体的h2(t)如果风险比与时间无关,及任何时刻,两组的风险比值是相等的,则称为比例风险(PH),否则称为非比例风险。生存分析的基本方法生存分析的基本方法1 描述法描述法:不对所分析的数据作出任何统计推断,用上述公式
9、计算出生存函数、死亡函数、风险函数、半数生存时间等,并采用列表或绘图的形式来显示生存时间的分布规律。2 非参数法:非参数法:是指估计生存函数时对生存时间的分布没有要求,并且检验危险因素对生存时间的影响时采用的是非参数检验方法。作用:估计生存函数比较两组或多组生存函数分析危险因素对生存时间的影响常用的方法有:乘积极限法,寿命表法3参数法参数法 根据样本观察值来估计假定的分布模型中的参数,获得生 存时间的概率分布模型。作用:估计生存函数比较两组或多组生存时间分布函数分析危险因素对生存时间的影响建立生存时间与危险因素之间依存关系模型生存时间经常服从的分布有指数分布,Weibull分布,对数正态分布,
10、对数Logistic分布和Gamma分布。4 半参数法半参数法不需要对生存时间的分布作出假定,但却可以通过一个模型来分析生存时间的分布规律,以及危险因素对生存时间的影响。代表是Cox比例风险回归模型。非参数生存分析法 乘积极限法Kaplan-Meier 法又称乘积极限法(Product-Limit method),适用于小样本资料。基本思想是:将生存时间由小到大依次排列,在每个死亡点上,计算其期初人数、死亡人数、死亡概率、生存概率和生存率。其思想与寿命表法相同,只不过寿命表法中时间段的划分是人为的、等距的,而乘积极限法划分时间段的分割点是实际死亡发生时间。Kaplan-Meier法用于:1、估
11、计某研究因素不同水平的中位生存时间。2、比较该研究因素不同水平的生存时间有无差异。3、控制一分层因素后对研究因素不同水平的生存时间比较(此时将按分层因素的不同水平对研究因素对生存时间的影响分别进行分析)。非参数生存分析法非参数生存分析法 寿命寿命表发表发寿命表法适用于区间数据,它用于建立时间区间t,t+t上的生存函数。序号序号确诊后确诊后月数月数期内截期内截尾人数尾人数期内死亡期内死亡人数人数期初观期初观察人数察人数校正校正人数人数死亡死亡概率概率生存生存概率概率生存率生存率标准误标准误非参数生存分析法非参数生存分析法生生存曲线比较存曲线比较生存率比较的假设检验方法有参数法、半参数法和非参数法
12、,非参数法是将生存率曲线作为整体进行曲线与曲线之间的比较,其零假设为各总体生存率曲线相同。常用的非参数检验方法有:log-rank 检验(时序检验)检验(时序检验)生存时间分布近似呈weibull分布或者属于比例风险模型时效率较高;似然比检验(似然比检验(likelihood ratio test)生存时间分布近似呈指数分布时效率较高;wilcoxon检验检验(又称又称Breslow检验检验)生存时间分布近似呈对数正态分布时效率较高;对数秩检验(对数秩检验(log-rank test)检验统计量计算过程:(1)将两组患者按生存时间统一从小到大排序,并标明组别和死亡数,生存时间相同者在同一行,如
13、某时间点既有完全数据又有截尾数据,截尾数据排在后面。(2)列出各时点的期初病例数(各组的以及合计的期初病例数)(3)分别计算出各组各时点的理论死亡数(4)计算 2值。对数秩检验注意事项对数秩检验注意事项亦适用于分组以及多组间的比较。用于生存曲线的比较,若要比较两条生存曲线某时点的生存率有无差异可使用Z检验。(公式)或同时比较多个时点生存率有无差异,检验水准可做Bonferroni校正。各处理措施的优劣除可根据各组生存曲线高低直观判断外,还可以根据中位生存时间和死亡比(SMR)大小来判断。各样本生存曲线不能交叉。若生存率曲线交叉提示存在某种混杂因素,此时应采用分层的办法或多因素的办法来校正混杂因
14、素。另外,当假设检验推断各组总体生存率曲线不同时,可以通过生存率曲线的高低、半数生存期的长短及相对危险度等指标来评价其效果。wilcoxon检验检验(又称又称Breslow检验检验)序号序号生存生存时间时间(t)期初期初人数人数(n)死亡数死亡数(d)甲组甲组 乙组乙组期初人数(n1)死亡数(d1)理论死亡数(E1)期初人数(n2)死亡数(d2)理论死亡数(E2)=d1-E1=w(d1-E1)(w=n)非参数生存分析法非参数生存分析法例1:口咽癌数据:.pharynx.xls变量名变量名描述描述CASE编号INST机构代码TX实验代码(1:标准,2:处理)GRADE和正常细胞的区别度COND身
15、体状况SITE病变位置T.STAGE癌症T分期N.STAGE癌症N分期ENTRY.DT进入实验日期STATUS删失(0:右删失,1:死亡)TIME如未删失则是存活时间否则是最后记录时间非参数生存分析法非参数生存分析法R程序:(survival包)getwd()setwd(C:/Users/Administrator/Desktop)my-read.csv(pharynx.csv,header=T)attach(my)my-myCOND!=9&GRADE!=9,#去掉两个缺失值 CONDCOND=3|COND=4-2CONDCOND=0-1aa-table(COND)aamydata-my,-c
16、(1,11)library(survival)sd-survfit(Surv(TIME,as.numeric(STATUS)1,data=mydata)plot(sd,lty=1,col=“red”,ylab=“s(t)”,xlab=“t”,main=“survival”)#生存曲线fit0,决定了生存时间分布的形状,m越小,分布越偏,当m=3.57时,分布近似为正态分布。m1为老化现象Weibull 分布模型的参数估计分布模型的参数估计Weibull分布有两个参数,即危险率和形状参数m。Weibull分布参数的估计需要用极大似然估计。lnS(t)=-(t)m 再取其负对数得:ln-lnS(t
17、)=mln+mlnt以ln-lnS(t)为纵轴,以lnt为横轴作图成直线趋势可以初步判断资料服从Weibull分布。Weibull回归模型回归模型ln=+1x1+2x2+3x3+pxp在Weibull回归模型中,除要估计外,还要估计形状参数m,相应的生存率为S(t)=exp-t*exp(+1x1+2x2+3x3+pxp)m 风险函数为:h(t)=mtm-1exp(+1x1+2x2+3x3+pxp)基准风险为:h0(t)=mtm-1exp参数估计用极大似然法。模型检验用似然比检验。参数分析的程序参数分析的程序在R中:使用函数survreg()#在survival包中 survreg(formula,data,weights,dist=)formula由Surv()返回的值X1+X2+X3 dist=“weibull”,”logistic”,”lognormal”在SAS中:proc lifereg data=;model t*status()=x1 x2 x3;此此课课件下件下载载可自行可自行编辑编辑修改,修改,仅仅供参考!供参考!感感谢谢您的支持,我您的支持,我们们努力做得更好!努力做得更好!谢谢谢谢
限制150内