多元统计分析方法讲稿.ppt
多元统计分析方法第一页,讲稿共四十九页哦生存分析生存分析Survival Analysis第十章第十章第二页,讲稿共四十九页哦主要内容主要内容 什么是生存分析?什么是生存分析?生存分析的基本概念生存分析的基本概念 生存分析的基本方法生存分析的基本方法 非参数分析方法非参数分析方法 Cox Cox比例风险回归分析方法比例风险回归分析方法 生存分析的注意事项生存分析的注意事项第三页,讲稿共四十九页哦数据的收集方式:数据的收集方式:横断面数据横断面数据(cross-sectional data)在同一个时间点上收集的数据;在同一个时间点上收集的数据;纵断面数据纵断面数据(longitudinal data)在连续的若干个时间点上收集的数据。在连续的若干个时间点上收集的数据。-随防数据:随防数据:50个人的术后存活时间个人的术后存活时间 -时间序列数据:近时间序列数据:近20年每年的肺癌死亡率年每年的肺癌死亡率第四页,讲稿共四十九页哦 在医学研究中,常常用追踪在医学研究中,常常用追踪(follow up)的的 方式来研究方式来研究事物发展的规律。例如:事物发展的规律。例如:了解某药物的疗效了解某药物的疗效 了解手术后的存活时间了解手术后的存活时间 了解某医疗仪器设备的使用寿命了解某医疗仪器设备的使用寿命 这种研究的特点是追踪研究的现象都要经过一段这种研究的特点是追踪研究的现象都要经过一段时间,统计学上将这段时间称为生存时间。时间,统计学上将这段时间称为生存时间。第五页,讲稿共四十九页哦 生存分析就是用来研究生存时间的分布规律以及生生存分析就是用来研究生存时间的分布规律以及生存时间和相关因素之间关系的一种统计分析方法。存时间和相关因素之间关系的一种统计分析方法。一、什么是生存分析?一、什么是生存分析?第六页,讲稿共四十九页哦二、生存分析的基本概念二、生存分析的基本概念A)生存时间生存时间B)生存时间数据的类型生存时间数据的类型C)生存时间数据的特点生存时间数据的特点D)生存分析资料的收集方法生存分析资料的收集方法E)描述生存时间分布规律的函数描述生存时间分布规律的函数F)生存分析的主要研究内容生存分析的主要研究内容第七页,讲稿共四十九页哦A)生存时间生存时间(survival time):从某起始事件起到某终止事件止所经历的时间跨度称从某起始事件起到某终止事件止所经历的时间跨度称为生存时间。例如,为生存时间。例如,o在临床研究中,急性白血病患者从骨髓移植治疗开始到在临床研究中,急性白血病患者从骨髓移植治疗开始到复发为止之间的时间间隔。复发为止之间的时间间隔。o冠心病患者在两次发作之间的时间间隔。冠心病患者在两次发作之间的时间间隔。o在流行病学研究中,从开始接触某危险因素到发病所经历的在流行病学研究中,从开始接触某危险因素到发病所经历的时间。时间。o在动物实验研究中,从开始给药到发生死亡所经历的时在动物实验研究中,从开始给药到发生死亡所经历的时间。间。第八页,讲稿共四十九页哦B)生存时间数据的类型生存时间数据的类型1)完全数据完全数据(complete data):它准确地度量:它准确地度量了观察对象实际生存的时间。了观察对象实际生存的时间。2)截尾数据截尾数据(censored data):它没有准确地度:它没有准确地度量观察对象实际生存的时间。例如,量观察对象实际生存的时间。例如,o在随访过程中某些观察对象失访;在随访过程中某些观察对象失访;o或死于其它原因;或死于其它原因;o或在规定的研究过程结束时观察对象的终止事或在规定的研究过程结束时观察对象的终止事件还未发生。件还未发生。第九页,讲稿共四十九页哦C)生存时间数据的特点:生存时间数据的特点:1)所有观察值取值非负)所有观察值取值非负 2)存在截尾数据)存在截尾数据D)生存分析资料的收集方法:生存分析资料的收集方法:1)确定随访内容(指标变量)确定随访内容(指标变量)2)确定随访人数(样本数)确定随访人数(样本数)3)确定随访的起始和终止时间)确定随访的起始和终止时间o同时开始,同时结束同时开始,同时结束o不同时间开始,同时结束不同时间开始,同时结束o不同时间开始,不同时间结束不同时间开始,不同时间结束第十页,讲稿共四十九页哦E)描述生存时间分布规律的函数:描述生存时间分布规律的函数:1、生存函数、生存函数 2、死亡函数死亡函数 3、死亡密度函数死亡密度函数 4、风险函数风险函数第十一页,讲稿共四十九页哦1.生存函数生存函数S(t):观察对象的生存时间:观察对象的生存时间T大于某时刻大于某时刻 t 的的概率称为生存函数概率称为生存函数(survival function)。S(t)满足条件:满足条件:S(0)=1,S()=0,且,且0S(t)1。2.死亡函数死亡函数F(t):观察对象的生存时间:观察对象的生存时间T不大于某时刻不大于某时刻 t 的概率称为死亡函数的概率称为死亡函数(failure function)。F(t)满足满足条件:条件:F(0)=0,F()=1,且,且0F(t)1。第十二页,讲稿共四十九页哦3.死亡密度函数死亡密度函数f(t):观察对象在某时刻:观察对象在某时刻t 的瞬时死亡的瞬时死亡率称为死亡密度函数率称为死亡密度函数(failure density function)。4.风险函数风险函数h(t):生存到时刻:生存到时刻 t 的观察对象在时刻的观察对象在时刻t 的瞬时的瞬时死亡率称为风险函数死亡率称为风险函数(hazard function)。第十三页,讲稿共四十九页哦F)生存分析的主要研究内容:生存分析的主要研究内容:1、描述生存过程、描述生存过程2、比较生存过程、比较生存过程3、分析危险因素、分析危险因素4、建立数学模型、建立数学模型第十四页,讲稿共四十九页哦1、描述法、描述法2、非参数分析法、非参数分析法3、参数分析法、参数分析法4、半参数分析法、半参数分析法三、生存分析的基本方法三、生存分析的基本方法第十五页,讲稿共四十九页哦1、描述法、描述法:根据样本观察值提供的信息,直接用公式计算出:根据样本观察值提供的信息,直接用公式计算出每一时间点或每一个时间区间上的生存函数、死亡函数、每一时间点或每一个时间区间上的生存函数、死亡函数、风险函数等,并采用列表或绘图的形式来显示生存时间的风险函数等,并采用列表或绘图的形式来显示生存时间的分布规律。分布规律。o优点:方法简单,且对数据的分布无要求。优点:方法简单,且对数据的分布无要求。o缺点:缺点:1)不能比较两组或多组生存时间分布函数的区别;不能比较两组或多组生存时间分布函数的区别;2)不能分析危险因素对生存时间的影响;不能分析危险因素对生存时间的影响;3)不能建立生存时间与危险因素之间的关系模型。不能建立生存时间与危险因素之间的关系模型。第十六页,讲稿共四十九页哦例例1、某研究者收集了两组急性淋巴细胞性白血病患者治疗后的随、某研究者收集了两组急性淋巴细胞性白血病患者治疗后的随访资料,其中,有淋巴结浸润组访资料,其中,有淋巴结浸润组(LA)18人,无淋巴结浸润组人,无淋巴结浸润组(NLA)25人。生存时间人。生存时间T(月月)的数据如下。的数据如下。协变量为淋巴结状态协变量为淋巴结状态(SLN),负数代表截尾数据。,负数代表截尾数据。LA组:组:1,2,3,4,5,7,8,9,10,11,13,14,15,18,-19,-20,-21,23NLA组:组:1,2,3,4,5,7,8,9,10,11,13,14,15,18,19,-20,21,23,26,28,31,37,66,73,-124第十七页,讲稿共四十九页哦 Standard Number Number Standard Number Number T Survival Failure Error Failed Left T Survival Failure Error Failed Left 0.000 1.0000 0 0 0 18 0.000 1.0000 0 0 0 18 1.000 0.9444 0.0556 0.0540 1 17 1.000 0.9444 0.0556 0.0540 1 17 2.000 0.8889 0.1111 0.0741 2 16 2.000 0.8889 0.1111 0.0741 2 16 3.000 0.8333 0.1667 0.0878 3 15 3.000 0.8333 0.1667 0.0878 3 15 4.000 0.7778 0.2222 0.0980 4 14 4.000 0.7778 0.2222 0.0980 4 14 5.000 0.7222 0.2778 0.1056 5 13 5.000 0.7222 0.2778 0.1056 5 13 7.000 0.6667 0.3333 0.1111 6 12 7.000 0.6667 0.3333 0.1111 6 12 8.000 0.6111 0.3889 0.1149 7 11 8.000 0.6111 0.3889 0.1149 7 11 9.000 0.5556 0.4444 0.1171 8 10 9.000 0.5556 0.4444 0.1171 8 10 10.000 0.5000 0.5000 0.1179 9 9 10.000 0.5000 0.5000 0.1179 9 9 11.000 0.4444 0.5556 0.1171 10 8 11.000 0.4444 0.5556 0.1171 10 8 13.000 0.3889 0.6111 0.1149 11 7 13.000 0.3889 0.6111 0.1149 11 7 14.000 0.3333 0.6667 0.1111 12 6 14.000 0.3333 0.6667 0.1111 12 6 15.000 0.2778 0.7222 0.1056 13 5 15.000 0.2778 0.7222 0.1056 13 5 18.000 0.2222 0.7778 0.0980 14 4 18.000 0.2222 0.7778 0.0980 14 4 19.000*.14 3 19.000*.14 3 20.000*.14 2 20.000*.14 2 21.000*.14 1 21.000*.14 1 23.000 0 1.0000 0 15 0 23.000 0 1.0000 0 15 0LA组生存时间分布规律组生存时间分布规律第十八页,讲稿共四十九页哦 Standard Number Number Standard Number Number T Survival Failure Error Failed Left T Survival Failure Error Failed Left 0.000 1.0000 0 0 0 25 0.000 1.0000 0 0 0 25 1.000 0.9600 0.0400 0.0392 1 24 1.000 0.9600 0.0400 0.0392 1 24 2.000 0.9200 0.0800 0.0543 2 23 2.000 0.9200 0.0800 0.0543 2 23 3.000 0.8800 0.1200 0.0650 3 22 3.000 0.8800 0.1200 0.0650 3 22 4.000 0.8400 0.1600 0.0733 4 21 4.000 0.8400 0.1600 0.0733 4 21 5.000 0.8000 0.2000 0.0800 5 20 5.000 0.8000 0.2000 0.0800 5 20 7.000 0.7600 0.2400 0.0854 6 19 7.000 0.7600 0.2400 0.0854 6 19 8.000 0.7200 0.2800 0.0898 7 18 8.000 0.7200 0.2800 0.0898 7 18 9.000 0.6800 0.3200 0.0933 8 17 9.000 0.6800 0.3200 0.0933 8 17 10.000 0.6400 0.3600 0.0960 9 16 10.000 0.6400 0.3600 0.0960 9 16 11.000 0.6000 0.4000 0.0980 10 15 11.000 0.6000 0.4000 0.0980 10 15 13.000 0.5600 0.4400 0.0993 11 14 13.000 0.5600 0.4400 0.0993 11 14NLA组生存时间分布规律组生存时间分布规律第十九页,讲稿共四十九页哦 Standard Number Number Standard Number Number T Survival Failure Error Failed Left T Survival Failure Error Failed Left 14.000 0.5200 0.4800 0.0999 12 13 14.000 0.5200 0.4800 0.0999 12 13 15.000 0.4800 0.5200 0.0999 13 12 15.000 0.4800 0.5200 0.0999 13 12 18.000 0.4400 0.5600 0.0993 14 11 18.000 0.4400 0.5600 0.0993 14 11 19.000 0.4000 0.6000 0.0980 15 10 19.000 0.4000 0.6000 0.0980 15 10 20.000*.15 9 20.000*.15 9 21.000 0.3556 0.6444 0.0966 16 8 21.000 0.3556 0.6444 0.0966 16 8 23.000 0.3111 0.6889 0.0942 17 7 23.000 0.3111 0.6889 0.0942 17 7 26.000 0.2667 0.7333 0.0906 18 6 26.000 0.2667 0.7333 0.0906 18 6 28.000 0.2222 0.7778 0.0857 19 5 28.000 0.2222 0.7778 0.0857 19 5 31.000 0.1778 0.8222 0.0793 20 4 31.000 0.1778 0.8222 0.0793 20 4 37.000 0.1333 0.8667 0.0708 21 3 37.000 0.1333 0.8667 0.0708 21 3 66.000 0.0889 0.9111 0.0596 22 2 66.000 0.0889 0.9111 0.0596 22 2 73.000 0.0444 0.9556 0.0433 23 1 73.000 0.0444 0.9556 0.0433 23 1 124.000*.23 0 124.000*.23 0NLA组生存时间分布规律(续)组生存时间分布规律(续)第二十页,讲稿共四十九页哦Survival Function EstimatesSurvival Function Estimates 1.0+*1.0+*|*|*SDF|*N SDF|*N|L*N|L*N|L*NN|L*NN 0.5+LLNNN 0.5+LLNNN|LL NNNN|LL NNNN|LLL NNN|LLL NNN|L-L N-N-N|L-L N-N-N|N-N-N|N-N-N 0.0+L N 0.0+L N -+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 100 Time Time无淋巴结浸润患者无淋巴结浸润患者(N)比比有淋巴结浸润患者有淋巴结浸润患者(L)的的平均生存时间长。平均生存时间长。两组急性淋巴细胞性白血病患者治疗后的生存时间比较两组急性淋巴细胞性白血病患者治疗后的生存时间比较第二十一页,讲稿共四十九页哦2、非参数法、非参数法:估计生存函数时对生存时间的分布没有:估计生存函数时对生存时间的分布没有要求,并且检验危险因素对生存时间的影响时采用要求,并且检验危险因素对生存时间的影响时采用的是非参数检验方法。例如,乘积极限法和寿命表的是非参数检验方法。例如,乘积极限法和寿命表法。法。o优点:优点:1)可以估计生存函数;可以估计生存函数;2)可以比较两组或多组生存布函数;可以比较两组或多组生存布函数;3)可以分析危险因素对生存时间的影响;可以分析危险因素对生存时间的影响;4)对生存时间的分布没有要求。对生存时间的分布没有要求。o缺点:不能建立生存时间与危险因素之间缺点:不能建立生存时间与危险因素之间依存关系的数学模型。依存关系的数学模型。第二十二页,讲稿共四十九页哦两种非参数生存分析方法两种非参数生存分析方法乘积极限法(乘积极限法(PL法)法):适用于离散数据,它用于建立时刻:适用于离散数据,它用于建立时刻 t 上的生存上的生存函数。函数。PL法是根据法是根据 t 时刻及其之前各时间点上的条件生存率的乘积来时刻及其之前各时间点上的条件生存率的乘积来估计时刻估计时刻 t 的生存函数的生存函数S(t)和它的标准误和它的标准误SE(S(t)。累积生存率:累积生存率:标准误:标准误:例如:例如:P260,表表18.1第二十三页,讲稿共四十九页哦寿命表法(寿命表法(LT)法)法:LT法适用于区间数据,它用于建立时间区间法适用于区间数据,它用于建立时间区间 t,t+t)上的生存函数。上的生存函数。LT法是根据时间区间法是根据时间区间t,t+t)左端点的左端点的生存率及其之前各区间左端点生存率之积来估计区间生存率及其之前各区间左端点生存率之积来估计区间t,t+t)的的生存函数生存函数S(t)和它的标准误和它的标准误SE(S(t)。累积生存率:累积生存率:标准误:标准误:例如:例如:P263,表表18.3第二十四页,讲稿共四十九页哦例例1、某研究者收集了两组急性淋巴细胞性白血病患者治疗后的随、某研究者收集了两组急性淋巴细胞性白血病患者治疗后的随访资料,其中,有淋巴结浸润组访资料,其中,有淋巴结浸润组(LA)18人,无淋巴结浸润组人,无淋巴结浸润组(NLA)25人,数据如下。设因变量人,数据如下。设因变量T为生存时间为生存时间(月月),协变量为淋巴,协变量为淋巴结状态结状态(SLN),截尾指标用,截尾指标用censor表示,负数代表截尾数据。试用非表示,负数代表截尾数据。试用非参数的参数的PL法进行生存分析,检验患者有无淋巴结浸润对其生存时间法进行生存分析,检验患者有无淋巴结浸润对其生存时间长短的影响。长短的影响。LA组:组:1,2,3,4,5,7,8,9,10,11,13,14,15,18,-19,-20,-21,23NLA组:组:1,2,3,4,5,7,8,9,10,11,13,14,15,18,19,-20,21,23,26,28,31,37,66,73,-124第二十五页,讲稿共四十九页哦【SAS程序】程序】data d1;input sln$n;do i=1 to n;input t ;if tPr Test Chi-Square DF Chi-SquareTest Chi-Square DF Chi-SquareLog-Rank 2.2036 1 0.1377Log-Rank 2.2036 1 0.1377Wilcoxon 1.5598 1 0.2117Wilcoxon 1.5598 1 0.2117-2Log(LR)3.4627 1 0.0628-2Log(LR)3.4627 1 0.0628生存曲线的比较生存曲线的比较:H0:k个组的生存函数曲线一致个组的生存函数曲线一致H1:至少两组生存函数曲线不一致。:至少两组生存函数曲线不一致。结论:两组患者的生存时间没有显著性差异。结论:两组患者的生存时间没有显著性差异。第二十九页,讲稿共四十九页哦例例2、医学研究人员用烷烃化剂对、医学研究人员用烷烃化剂对65名多骨髓瘤患者进行治疗,名多骨髓瘤患者进行治疗,48名患名患者在研究过程中死亡,者在研究过程中死亡,17名仍存活。在数据集名仍存活。在数据集eg10_2中,变量中,变量T表示从表示从诊断开始所生存的月数;诊断开始所生存的月数;status由由0和和1两个值组成,分别表示患者在研两个值组成,分别表示患者在研究结束时的存活情况,若究结束时的存活情况,若status=0,则表示相应的,则表示相应的T是截尾数据。与生是截尾数据。与生存有关的变量有:存有关的变量有:x1(诊断时的诊断时的log(bun)值值)、x2(诊断时的血红蛋白含量诊断时的血红蛋白含量)、x3(诊断时的血小板含量:诊断时的血小板含量:0=不正常,不正常,1=正常正常)、x4(诊断时的年龄,诊断时的年龄,年年)、x5(诊断时的诊断时的log(WBC)值值)、x6(诊断时是否骨折,诊断时是否骨折,0=否,否,1=是是)、x7(log(骨髓中原生质细胞的含量骨髓中原生质细胞的含量)、x8(诊断时的尿蛋白含量诊断时的尿蛋白含量)、x9(诊诊断时的血清钙含量断时的血清钙含量)。试用非参数的。试用非参数的LT法进行生存分析,并从这法进行生存分析,并从这9个说个说明变量中找出重要的危险因素变量。因为数据多此处数据表省略。明变量中找出重要的危险因素变量。因为数据多此处数据表省略。第三十页,讲稿共四十九页哦【SAS程序】程序】data eg10_2;input t status x1-x9;cards;1.25 1 2.2175 9.4 1 67 3.6628 1 1.9542 12 1077.00 0 1.0792 14.0 1 60 3.6812 0 0.9542 0 12run;proc lifetest plots(s,ls,lls)method=lt width=12;time t*status(0);test x1-x9;run;第三十一页,讲稿共四十九页哦The LIFETEST ProcedureThe LIFETEST ProcedureLife Table Survival EstimatesLife Table Survival Estimates Conditional Conditional Effective Conditional Probability Effective Conditional Probability Interval Number Number Sample Probability Standard Interval Number Number Sample Probability Standard Lower,Upper)Failed Censored Size of Failure Error Lower,Upper)Failed Censored Size of Failure Error 0 12 21 6 62.0 0.3387 0.0601 0 12 21 6 62.0 0.3387 0.0601 12 24 10 6 35.0 0.2857 0.0764 12 24 10 6 35.0 0.2857 0.0764 24 36 5 1 21.5 0.2326 0.0911 24 36 5 1 21.5 0.2326 0.0911 36 48 3 1 15.5 0.1935 0.1004 36 48 3 1 15.5 0.1935 0.1004 48 60 4 2 11.0 0.3636 0.1450 48 60 4 2 11.0 0.3636 0.1450 60 72 2 0 6.0 0.3333 0.1925 60 72 2 0 6.0 0.3333 0.1925 72 84 0 1 3.5 0 0 72 84 0 1 3.5 0 0 84 .3 0 3.0 1.0000 0 84 .3 0 3.0 1.0000 0第三十二页,讲稿共四十九页哦Forward Stepwise Sequence of Chi-Squares for the LOG RANK Test Pr Chi-Square Pr Variable DF Chi-Square Chi-Square Increment IncrementX1 1 8.5164 0.0035 8.5164 0.0035X2 2 12.7252 0.0017 4.2089 0.0402X9 3 15.3053 0.0016 2.5801 0.1082X4 4 16.9873 0.0019 1.6820 0.1947X6 5 17.6291 0.0034 0.6417 0.4231X7 6 17.9120 0.0065 0.2830 0.5948X3 7 18.1517 0.0113 0.2397 0.6244X5 8 18.3925 0.0185 0.2408 0.6236X8 9 18.4550 0.0302 0.0625 0.8025危危险险因因素素第三十三页,讲稿共四十九页哦3.参数法参数法:根据样本观察值来估计假定的分布模型中的:根据样本观察值来估计假定的分布模型中的参数,获得生存时间的概率分布模型。参数,获得生存时间的概率分布模型。生存时间经常生存时间经常服从的基线分布有指数分布、服从的基线分布有指数分布、Weibull分布、对数正态分分布、对数正态分布、对数布、对数Logistic分布和分布和Gamma分布。分布。o优点:优点:1)可以估计生存函数;可以估计生存函数;2)可以比较两组或多组生存布函数;可以比较两组或多组生存布函数;3)可以分析危险因素对生存时间的影响;可以分析危险因素对生存时间的影响;4)可以建立生存时间与危险因素之间依存关系的模可以建立生存时间与危险因素之间依存关系的模型。型。o缺点:需要事先知道生存时间的分布。缺点:需要事先知道生存时间的分布。第三十四页,讲稿共四十九页哦(1)指数分布:)指数分布:S(t)=exp(-t)(2)Weibull分布:分布:S(t)=exp(-t)(3)对数正态分布:)对数正态分布:第三十五页,讲稿共四十九页哦4.半参数法半参数法:不需要对生存时间的分布作出假定,但却可以:不需要对生存时间的分布作出假定,但却可以通过一个模型来分析生存时间的分布规律,以及危险因素对通过一个模型来分析生存时间的分布规律,以及危险因素对生存时间的影响。生存时间的影响。例如:例如:Cox比例风险回归模型。比例风险回归模型。o优点:优点:1)可以估计生存函数;可以估计生存函数;2)可以比较两组或多组生存布函数;可以比较两组或多组生存布函数;3)可以分析危险因素对生存时间的影响;可以分析危险因素对生存时间的影响;4)可以建立生存时间与危险因素之间依存关系模型。可以建立生存时间与危险因素之间依存关系模型。5)不需要事先知道生存时间的分布。不需要事先知道生存时间的分布。第三十六页,讲稿共四十九页哦Cox比例风险回归模型比例风险回归模型 (1)数学模型数学模型:设:设x=(x1,x2,xk)是影响生存时间是影响生存时间t 的的k个危险因素。设个危险因素。设h(t,x)表示受危险因素表示受危险因素x的影响下,在的影响下,在时刻时刻t 的风险率,又设的风险率,又设 h0(t)表示在不受危险因素表示在不受危险因素 x 的的影响下,在时刻影响下,在时刻 t 的风险率。显然的风险率。显然 h0(t)=h(t,0),并称,并称 h0(t)为基准风险率或基准函数。为基准风险率或基准函数。Cox比例风险回归模型是:比例风险回归模型是:其中,其中,1,2,k 是待估未知参数,是待估未知参数,h0(t)是未知表达式。是未知表达式。第三十七页,讲稿共四十九页哦因为对于任意一时刻因为对于任意一时刻 t,都有:,都有:所以,个体在任何时刻的风险率都正比于基准风险率,所以,个体在任何时刻的风险率都正比于基准风险率,比例因子为:比例因子为:可见,可见,RH(x)不随生存时间不随生存时间t 的变化而变化。所以这个模的变化而变化。所以这个模型又称为比例风险模型。而且,型又称为比例风险模型。而且,RH(x)表示个体在因素表示个体在因素x影响下的风险率相对于基准风险率之比。影响下的风险率相对于基准风险率之比。第三十八页,讲稿共四十九页哦参数的估计方法参数的估计方法-最大似然法最大似然法参数的显著性检验方法:似然比检验法,参数的显著性检验方法:似然比检验法,Wald 检检验法和比分检验法等。验法和比分检验法等。H0:j=0 vs H1:j03.模型的显著性检验:似然比卡方检验法模型的显著性检验:似然比卡方检验法H0:1=k=0 vs H1:j0(2)Cox比例风险模型参数和模型的检验比例风险模型参数和模型的检验第三十九页,讲稿共四十九页哦(3)Cox比例风险模型参数的解释比例风险模型参数的解释对于一元对于一元Cox模型,如果因素模型,如果因素 x 的取值为的取值为1和和0,分,分别表示暴露与非暴露于危险因素之下,那么别表示暴露与非暴露于危险因素之下,那么e表示受表示受x影响与不受影响与不受x影响的相对风险。影响的相对风险。对于一元对于一元Cox模型,如果因素模型,如果因素 x 为连续变量,为连续变量,e表示表示相邻两个水平的风险率之比相邻两个水平的风险率之比(相对风险率相对风险率)。对于多元对于多元Cox模型,模型,ej 表示在其它因素不变的情况下,表示在其它因素不变的情况下,因素因素 x j的相邻两个水平的风险率之比。的相邻两个水平的风险率之比。第四十页,讲稿共四十九页哦例例3 3:为研究某种药物是否会改进急性白血病人的预后,:为研究某种药物是否会改进急性白血病人的预后,延长其缓解时间。将确诊病人随机给予不同的治疗。延长其缓解时间。将确诊病人随机给予不同的治疗。一组为用药组一组为用药组(传统治疗加某药传统治疗加某药),另一组为对照组,另一组为对照组(传传统治疗统治疗)。治疗前检测病人白细胞计数。治疗前检测病人白细胞计数(wbc)(wbc),经一定时,经一定时间随访,白血病病人的缓解时间列在下表中,其中带间随访,白血病病人的缓解时间列在下表中,其中带-号的是截尾数据。试作号的是截尾数据。试作CoxCox模型回归分析。模型回归分析。本例以缓解时间长短来衡量治疗效果。缓解时间越长,本例以缓解时间长短来衡量治疗效果。缓解时间越长,效果越好。这里的缓解时间是生存分析中的生存时间效果越好。这里的缓解时间是生存分析中的生存时间t,其起点是接受某治疗开始,其终点是缓解结束。,其起点是接受某治疗开始,其终点是缓解结束。第四十一页,讲稿共四十九页哦第四十二页,讲稿共四十九页哦令令treat=1表示治疗组,表示治疗组,treat=0表示对照组;表示对照组;wbc表示白细表示白细胞计数,是连续变量。为了减少内部变异的影响,将白细胞胞计数,是连续变量。为了减少内部变异的影响,将白细胞计数取自然对数。计数取自然对数。data d1;do i=1 to 20;do treat=1,0;input time wbc ;if time Risk Parameter Standard Wald Pr RiskVariable DF Estimate Error Chi-Square Chi-Square Ratio Lower UpperVariable DF Estimate Error Chi-Square Chi-Square Ratio Lower UpperTREAT 1 -1.347940 0.42883 9.88034 0.0017 0.260 0.112 0.602TREAT 1 -1.347940 0.42883 9.88034 0.0017 0.260 0.112 0.602LGWBC 1 0.669281 0.13963 22.97495 0.0001 1.953 1.485 2.568LGWBC 1 0.669281 0.13963 22.97495 0.0001 1.953 1.485 2.568SAS输出结果输出结果第四十四页,讲稿共四十九页哦不同疗法不同疗法(treat)和白细胞数和白细胞数(lgwbc)均对病人的缓解时均对病人的缓解时间产生影响。间产生影响。从从RR(treat)=0.260得知,采用新疗法的危险度仅是传得知,采用新疗法的危险度仅是传统疗法的统疗法的0.260倍倍(减少减少74%)。从从RR(lgwbc)=2.568得知,白细胞数增加,相对危险得知,白细胞数增加,相对危险度上升,白血病人的生存时间缩短。度上升,白血病人的生存时间缩短。专业结论专业结论第四十五页,讲稿共四十九页哦o因素变量不能随时间变化而变化;因素变量不能随时间变化而变化;o样本死亡相对数不能过小;样本死亡相对数不能过小;o样本含量要足够大;样本含量要足够大;o因素各水平组的例数要适当;因素各水平组的例数要适当;o模型拟合要注意因素之间的交互作用;模型拟合要注意因素之间的交互作用;o分类型因素变量要建立哑变量;分类型因素变量要建立哑变量;o生存曲线不能随意延长,也不能轻易用来作生存曲线不能随意延长,也不能轻易用来作预报。预报。四、应用四、应用Cox 模型的注意事项模型的注意事项第四十六页,讲稿共四十九页哦 线性回归线性回归 Logistic回归回归 Cox回归回归因变量:连续型变量因变量:连续型变量y 分类型变量分类型变量y 生存时间生存时间t 服从正态分布服从正态分布 无分布要求无分布要求 无分布要求无分布要求模型:模型:y与与x的的 y取某个值的概率取某个值的概率 t 的风险函数的风险函数 线性关系线性关系 p与与x的关系的关系 h与与x的关系的关系系数:系数:b表示表示x增加一增加一 exp(b)=OR,近似表示近似表示 exp(b)=RH,表示表示 个单位,个单位,y的的 在在x=x*+1时的发病率时的发病率 在在x=x*+1时的时的 改变量改变量 与与x=x*时的发病率之时的发病率之 风险度与风险度与x=x*比比RR 时的风险度之比时的风险度之比 (在发病率较低时)(在发病率较低时)线性回归、线性回归、logistic回归和回归和Cox 回归分析的区别回归分析的区别第四十七页,讲稿共四十九页哦总总 结结什么是生存时间?什么是生存时间?什么是完全数据和截尾数据?什么是完全数据和截尾数据?什么是生存分析?什么是生存分析?什么是生存函数、死亡函数和风险函数?什么是生存函数、死亡函数和风险函数?Cox比例风险回归分析的优点是什么?比例风险回归分析的优点是什么?Cox回归模型与回归模型与Logistic回归模型系数的解释意义回归模型系数的解释意义有何不同?有何不同?Cox回归、回归、Logistic回归以及线性回归分析的主要区别回归以及线性回归分析的主要区别是什么?是什么?第四十八页,讲稿共四十九页哦结 束第四十九页,讲稿共四十九页哦