《整理logistic回归分析.ppt》由会员分享,可在线阅读,更多相关《整理logistic回归分析.ppt(86页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1大城小事问题提出:问题提出:医医学学研研究究中中常常研研究究某某因因素素存存在在条条件件下下某某结结果果是是否否发生?以及之间的关系如何?发生?以及之间的关系如何?因素(因素(X)疾病结果(疾病结果(Y)x1,x2,x3XK发生发生Y=1不发生不发生Y=0例:暴露因素例:暴露因素冠心病结果冠心病结果高血压史高血压史(x1):有有或无或无有有或或无无高血脂史高血脂史(x2):有有或或无无吸烟吸烟(x3):有或无有或无2大城小事研究问题可否用多元线性回归方法?研究问题可否用多元线性回归方法?1.多元线性回归方法要求多元线性回归方法要求Y的取值为计量的取值为计量的连续性随机变量。的连续性随机变量。
2、2.多元线性回归方程要求多元线性回归方程要求Y与与X间关系为线间关系为线性关系。性关系。3.多元线性回归结果多元线性回归结果不能回答不能回答“发生与发生与否否”logistic回归方法补充多元线性回归的不足回归方法补充多元线性回归的不足3大城小事Logistic回归方法该法研究是该法研究是当当y取某值(如取某值(如y=1)发生的概率(发生的概率(p)与与某暴露因素(某暴露因素(x)的关系。的关系。P(概率)的取值波动概率)的取值波动01范围。范围。基本原理基本原理:用一组观察数据拟合:用一组观察数据拟合Logistic模型,模型,揭示若干个揭示若干个x与一个因变量取值的关系,反映与一个因变量取
3、值的关系,反映y对对x的依存关系。的依存关系。4大城小事第一节logistic回归一、基本概念一、基本概念1.变量的取值变量的取值logistic回归要求应变量(回归要求应变量(Y)取值为分类变量取值为分类变量(两分类或多个分类)(两分类或多个分类)自变量(自变量(Xi)称为危险因素或暴露因素称为危险因素或暴露因素,可为连续变可为连续变量、等级变量、分类变量。量、等级变量、分类变量。可有可有m个自变量个自变量X1,X2,Xm5大城小事2.两值因变量的两值因变量的logistic回归模型方程回归模型方程w一个自变量与一个自变量与Y关系的回归模型关系的回归模型如:如:y:发生发生=1,未发生未发生
4、=0 x:有有=1,无无=0,记为记为p(y=1/x)表示某暴露因素状态下,表示某暴露因素状态下,结果结果y=1的概率(的概率(P)模型。模型。或或模型描述了应变量模型描述了应变量p与与x的关系的关系6大城小事P概率概率10.5Z值值0123-1-2-3图图16-1 Logistic回归函数的几何图形回归函数的几何图形为正值,为正值,x越越大,结果大,结果y=1发发生的可能性生的可能性(p)越大。越大。7大城小事几个几个logistic回归模型方程回归模型方程8大城小事logistic回归模型方程的线性表达回归模型方程的线性表达对对logistic回归模型的概率(回归模型的概率(p)做做log
5、it变变换,换,截距(常数)截距(常数)回归系数回归系数Y(-至至+)线形线形关系关系方程如下:方程如下:9大城小事在有多个危险因素(在有多个危险因素(Xi)时时w多个变量多个变量的logistic回归模型方程的线性表达:回归模型方程的线性表达:或或公式公式16-210大城小事2.模型中参数的意义模型中参数的意义0(常数项)常数项):暴露因素:暴露因素Xi=0时,个体发病时,个体发病概率与不发病概率之比的自然对数比值。概率与不发病概率之比的自然对数比值。11大城小事的含义:的含义:某危险因素,暴露水平变化时,即某危险因素,暴露水平变化时,即Xi=1与与Xi=0相比,发生某结果(如发病)优势相比
6、,发生某结果(如发病)优势比的对数值。比的对数值。P1(y=1/x=1)的概率的概率P0(y=1/x=0)的概率的概率12大城小事危险因素危险因素Yx=1x=0发病发病=130(a)10(b)不发病不发病=070(c)90(d)a+cb+d危险因素危险因素Yx=1x=0发病发病=1p1p0不发病不发病=01-p11-p0有暴露因素人群中发病的比例有暴露因素人群中发病的比例13大城小事反映了在其他变量固定后,反映了在其他变量固定后,X=1与与x=0相相比发生比发生Y事件的对数优势比。事件的对数优势比。回归系数回归系数与与ORX与与Y的关联的关联w=0,OR=1,无关无关1,OR1,有关,危险因素
7、有关,危险因素1,OR1,有关,保护因子有关,保护因子事件发生率很小,事件发生率很小,ORRR。多元回归模型的的概念14大城小事二、logistic回归模型的参数估计1.模型中的参数(模型中的参数(i)估计估计通常用最大似然函数通常用最大似然函数(maximumlikelihoodestimate,MLE)估计估计,由统计软件包完成。由统计软件包完成。(讲义讲义259页)页),15大城小事2.优势比优势比(OR)及可信区间的估及可信区间的估计计w如如X=1,0两分类,则两分类,则OR的的1-可信区间估可信区间估计公式计公式为回归系数为回归系数的标准误的标准误(公式(公式16-10)16大城小事
8、例:讲义表例:讲义表16-1资料资料一一个个研研究究吸吸烟烟、饮饮酒酒与与食食道道癌癌关关系系的的病病例例对对照资料(照资料(886例),试作例),试作logistic回归分析。回归分析。w变量的赋值变量的赋值17大城小事w经logistic回归计算后得wb0=-0.9099,b1=0.8856,b2=0.5261,方程表达方程表达:控制饮酒因素后,控制饮酒因素后,吸烟与不吸烟相比吸烟与不吸烟相比患食管癌的优势比患食管癌的优势比为为2.4倍倍 18大城小事OR的可信区间估计吸烟与不吸烟患食管癌吸烟与不吸烟患食管癌OR的的95%可信区间:可信区间:饮酒与不饮酒饮酒与不饮酒OR的的95%可信区间:
9、可信区间:19大城小事三、三、Logistic回归模型的假设检验回归模型的假设检验1.检验一:对建立的整个模型做检验。检验一:对建立的整个模型做检验。说明自变量对说明自变量对Y的作用是否有统计意义。的作用是否有统计意义。检验方法(检验方法(讲义讲义260-261页)页)1)似然比检验似然比检验(likelihoodratiotest)2)Wald检验检验3)计分检验计分检验(scoretest)20大城小事例表例表16-1吸烟、饮酒与食管癌资料吸烟、饮酒与食管癌资料(SAS软件计算)软件计算)1.对建立的整个模型做检验。对建立的整个模型做检验。Testing Global Null Hypot
10、hesis:BETA=0Test Chi-Square DF Pr似然比似然比 68.5457 2 .0001计分检验计分检验 67.0712 2 .0001Wald检验检验 64.2784 2 .000121大城小事2.检验二:检验二:检验模型中某检验模型中某是否对是否对Y有作用。有作用。检验假设:检验假设:检验统计量:主要为检验统计量:主要为Wald检验(检验(SAS软件)软件)w例;例;w在大样本时,三方法结果一致。在大样本时,三方法结果一致。公式公式16-13=1的的222大城小事例表例表16-1资料,对各资料,对各x的的做检验(做检验(wald检验)检验)参数参数 估计值估计值 标准
11、误标准误 Chi-Squa Pr常数常数-0.9099 0.1358 44.8699 .0001吸烟吸烟 0.8856 0.1500 34.8625 .0001饮酒饮酒 0.5261 0.1572 11.2069 .0008 Odds Ratio Estimates Point 95%WaldEffect Estimate Confidence Limits 吸烟吸烟x1 2.424 1.807 3.253 饮酒饮酒x2 1.692 1.244 2.30323大城小事似然比检验(讲义)w对某个对某个做检验,检验统计量(做检验,检验统计量(G)包括包括p个自变量的对个自变量的对数似然函数数似然函
12、数包括包括 l 个自变量的个自变量的对数似然函数对数似然函数G服从自由度(服从自由度(d)=p-l的的2分布分布24大城小事似然比检验对似然比检验对做检验做检验例:例:X1为吸烟,为吸烟,X2为饮酒,检验饮酒与食为饮酒,检验饮酒与食管癌关系,管癌关系,H0:2=0,H1:20G 3.84,p0.05,说明调整吸烟因素后,说明调整吸烟因素后,饮酒与食管癌有关系。饮酒与食管癌有关系。25大城小事四、变量筛选四、变量筛选目的;将回归系数有显著意义的自变量选入目的;将回归系数有显著意义的自变量选入模型中,作用不显著的自变量则排除在外。模型中,作用不显著的自变量则排除在外。w变量筛选算法有:前进法、后退
13、法和变量筛选算法有:前进法、后退法和逐步法(逐步法(stepwise)。)。例:讲义例例:讲义例16-2,用逐步法,用逐步法选入变量的显著水准为选入变量的显著水准为0.10,变量保留在方,变量保留在方程的水准为程的水准为0.15例:例:16-2讲义讲义261-263页页26大城小事表表16-4进入方程的自变量及参数估计进入方程的自变量及参数估计变量变量SbWald2P标准标准OR常数常数-4.7051.549.300.0023年龄年龄0.9240.4773.760.05250.4012.52X51.4960.7444.040.04430.4064.46X63.1361.2496.300.012
14、10.70323.06X81.9470.8475.290.02150.5237.01标准回归系数(标准回归系数(b)比较各自变量对比较各自变量对Y的相对贡献的相对贡献27大城小事第二节条件Logistic回归概念:概念:用配对设计获得病例对照研究资料,计算的用配对设计获得病例对照研究资料,计算的Logistic回归模型为回归模型为条件条件Logistic回归回归。成组(未配对)设计的病例对照研究资料,计算的成组(未配对)设计的病例对照研究资料,计算的Logistic回归模型为回归模型为非条件非条件Logistic回归。回归。例:见例:见265页页区别:区别:条件条件Logistic回归的参数估
15、计无常数项(回归的参数估计无常数项(0),),主主要用于危险因素的分析。要用于危险因素的分析。28大城小事 一、一、logisticlogistic回归的应用回归的应用1.1.疾病(某结果)的危险因素分析和筛选疾病(某结果)的危险因素分析和筛选 用回归模型中的回归系数(用回归模型中的回归系数(i i)和和OROR说明危说明危险因素与疾病的关系。例:讲义例险因素与疾病的关系。例:讲义例16-116-1,16-216-2,16-316-3适用的资料:适用的资料:前前 瞻瞻 性性 研研 究究 设设 计计、病病 例例 对对 照照 研研 究究 设设 计计、横断面研究设计的资料。横断面研究设计的资料。三类
16、研究计算的三类研究计算的logistic logistic 回归模型的回归模型的 意义是一致。仅常意义是一致。仅常数项不同。(证明略)数项不同。(证明略)29大城小事Logistic回归的应用回归的应用2.校正混杂因素,对疗效做评价校正混杂因素,对疗效做评价在临床研究和疗效的评价,组间某些因素构在临床研究和疗效的评价,组间某些因素构成不一致干扰疗效分析,通过该法可控制成不一致干扰疗效分析,通过该法可控制非处理因素,正确评价疗效。非处理因素,正确评价疗效。3.预测与判别预测与判别预测个体在某因素存在条件下,发生某事件预测个体在某因素存在条件下,发生某事件(发病)的概率,为进一步治疗提供依据。(发
17、病)的概率,为进一步治疗提供依据。30大城小事表表5-4甲乙两疗法某病治愈率甲乙两疗法某病治愈率%比较比较病型病型甲疗法甲疗法乙疗法乙疗法病人病人治愈治愈治愈治愈病人病人治愈治愈治治愈愈数数数数率率数数数数率率普通型普通型30018060.01006565.0重型重型1003535.030012541.7合计合计40021553.840019047.5例:例:例例131大城小事表表5-5直接法计算标准化治愈率直接法计算标准化治愈率病型病型标准标准甲疗法甲疗法乙疗法乙疗法治疗治疗原治原治预期预期原治原治预期预期人数人数愈率愈率治愈数治愈数愈率愈率治愈数治愈数普通型普通型40060.024065.
18、0260重型重型40035.014041.7167合计合计800380427调整率(标准化率):调整率(标准化率):32大城小事X1疗法(甲疗法(甲=0,乙,乙=1)X2病情(轻病情(轻=1,重,重=0)Y疗效(疗效(Y=1有效,有效,Y=0无效)无效)w LOGISTIC回归计算回归计算 Standard Wald Parameter Estimate Error Chi-Squa Pr Intercept -0.6453 0.1653 15.24 .0001 疗法疗法 0.2482 0.1699 2.13 0.1442 病情病情 0.9900 0.1699 33.93 .0001 Odds
19、 Ratio Estimate Point 95%Wald Effect Estimate Confidence Limits 疗法疗法 1.282 0.919 1.788 病情病情 2.691 1.929 3.75533大城小事例例2性别、两种药物对某病疗效的研究性别、两种药物对某病疗效的研究不考虑性别的影响,疗效与药物的logistic回归2=10.23,p=0.0014,OR=4.46性别治疗方法疗效有效(y=1)无效(y=0)合计女X1=1新药(x2=1)21627对照(x2=0)131932男X1=0新药(x2=1)7714对照(x2=0)1101134大城小事考虑性别、药物对疗效的
20、作用考虑性别、药物对疗效的作用w Standard WaldParame Estimate Error Chi-Square Pr 常数常数 -1.9037 0.5982 10.127 0.0015性别性别 1.4685 0.575 6.508 0.0107药物药物 1.7816 0.518 11.794 0.0006 Odds Ratio Estimates Point 95%Wald Effect Estimate Confidence Limits x1 性别性别 4.343 1.405 13.421 x2 药物药物 5.939 2.149 16.41735大城小事结论:性别和药物的回归
21、系数都均有统计意义。说结论:性别和药物的回归系数都均有统计意义。说明女性或用新药的疗效较优。明女性或用新药的疗效较优。用用Logistic模型方程对个体的疗效做预测模型方程对个体的疗效做预测:设如女性病人,设如女性病人,x1=1,用新药用新药x2=1,有效的概率有效的概率p=0.79如男性病人如男性病人x1=0,用新药用新药x2=1,有效的概率有效的概率p=0.469536大城小事二、Logistic回归应用的注意事项回归应用的注意事项1.模型中自变量的取值模型中自变量的取值自变量(自变量(X)可为计量数据、分类数据和可为计量数据、分类数据和等级数据。等级数据。计量数据常重新划为有序组段,计量
22、数据常重新划为有序组段,OR的实际的实际意义较大。意义较大。例:年龄(岁,例:年龄(岁,x1)37大城小事数据的几种赋值形式数据的几种赋值形式1)两分类变量,赋值为:有)两分类变量,赋值为:有=1,无,无=02)有序变量,赋值;无)有序变量,赋值;无=0,少,少=1,中,中=2,多,多=3例;年龄例;年龄45=145-54=255-64=365=43.)多分类无序变量:)多分类无序变量:赋值为:哑变量(赋值为:哑变量(dummyvariable)形式形式见例:见例:注:变量取值不同,方程的系数和符号将发生变化。注:变量取值不同,方程的系数和符号将发生变化。38大城小事表表16-2冠心病冠心病8
23、个可能的危险因素与赋值个可能的危险因素与赋值(讲义(讲义262页)页)因素因素变量名变量名赋值说明赋值说明年龄年龄(岁岁)X145=1,45 54=2,55 64=3,65=4高血压史高血压史X2无无=0,有有=1高血压家族史高血压家族史X3无无=0,有有=1吸烟吸烟X4不吸不吸=0,吸吸=139大城小事表表16-9年龄(年龄(X)化为哑变量的赋值化为哑变量的赋值年龄(岁年龄(岁)有序变量有序变量哑变量(方法一)哑变量(方法一)X水平水平D1D2D3 ChiSq Deviance 1 3.4202 0.0644 Pearson 1 3.4218 0.064346大城小事4.多分类的Logist
24、ic回归Logistic回归可处理:回归可处理:1)应变量(应变量(Y)为有序的多分类资料为有序的多分类资料如结果为:治愈、显效、好转、无效如结果为:治愈、显效、好转、无效2)应变量(应变量(Y)为无序的多分类资料为无序的多分类资料例:例:研究阑尾炎类型与危险因素关系研究阑尾炎类型与危险因素关系阑尾炎类型有:卡他型、坏疽型、腹膜炎型阑尾炎类型有:卡他型、坏疽型、腹膜炎型多分类多分类Logistic回归方法(略)回归方法(略)47大城小事结果的表达一般一般logistic回归分析报告内容:回归分析报告内容:1.危险因素的回归系数及标准误、危险因素的回归系数及标准误、p值值2.标准化的回归系数。标
25、准化的回归系数。3.危险因素对应的危险因素对应的OR和可信区间和可信区间4.Logistic回归方程讲义264页48大城小事本节重点掌握内容和作业一、问答题一、问答题1.Logistic回归与线性回归有什么不同?回归与线性回归有什么不同?2.Logistic回归可解决哪些问题?回归可解决哪些问题?3.自变量可以有哪些类型,应用时应如何自变量可以有哪些类型,应用时应如何赋值?赋值?4.Logistic回归中回归中的含义和方程的表达。的含义和方程的表达。二、计算分析题的第二、计算分析题的第2题的第(题的第(1)题)题。49大城小事50大城小事LogisticregressionLogistic回归
26、回归51大城小事第一节第一节.非条件非条件logisticlogistic回归回归第二节第二节.条件条件logisticlogistic回归回归第三节第三节.应用及其注意事项应用及其注意事项52大城小事 医学研究中常碰到应变量应变量的可能取值仅有两个(即二分类变量二分类变量),如发病与未发病、阳性与阴性、死亡与生存、治愈与未治愈、暴露与未暴露等,显然这类资料不满足多重回归的条件 什么情况下采用什么情况下采用LogisticLogistic回归回归53大城小事 Brown(1980)在术前检查了53例前列腺癌患者,拟用年龄(AGE)、酸性磷酸酯酶(ACID)两个连续型的变量,X射线(X_RAY)
27、、术前探针活检病理分级(GRADE)、直肠指检肿瘤的大小与位置(STAGE)三个分类变量与手术探查结果变量NODES(1、0分别表示癌症的淋巴结转移与未转移)建立淋巴结转移的预报模型。实例54大城小事53例接受手术的前列腺癌患者情况55大城小事26例冠心病病人和28例对照者进行病例对照研究56大城小事26例冠心病病人和28例对照者进行病例对照研究57大城小事一、logistic回归模型58大城小事概率预报模型概率预报模型59大城小事二、模型的参数估计参数估计Logistic回归参数的估计通常采用最大似然法最大似然法(maximumlikelihood,ML)。最大似然法的基本思想是先建立似然函
28、数与对数似然函数,再通过使对数似然函数最大求解相应的参数值,所得到的估计值称为参数的最大似然估计值。60大城小事参数估计的公式参数估计的公式61大城小事三、回归三、回归参数的假设检验参数的假设检验62大城小事优势比及其可信区间优势比及其可信区间63大城小事标准化回归标准化回归参数参数64大城小事P262表表16-3资料计算的资料计算的SAS程序程序65大城小事TheLOGISTICProcedureAnalysisofMaximumLikelihoodEstimates66大城小事预报模型预报模型67大城小事四、回归四、回归参数的意义参数的意义当只有一个自变量时,以相应的预报概率为纵轴,自变量
29、 为横轴,可绘制出一条S形曲线。回归参数的正负符号与绝对值大小,分别决定了S形曲线的形状与方向 68大城小事69大城小事70大城小事五、整个回归模型五、整个回归模型的假设检验的假设检验71大城小事似然比检验(似然比检验(likelihoodratiotest)72大城小事六、六、logistic逐步回归(变量筛选)逐步回归(变量筛选)MODEL语句加入选项“SELECTION=STEPWISE SLE=0.100.10 SLS=0.100.10;”常采用似然比检验:决定自变量是否引入或剔除。73大城小事模型中有模型中有X5、X6、X8,看是否引入看是否引入X1模型含X5、X6、X8的模型的负二
30、倍对数似然为:50.402模型含X1、X5、X6、X8的模型的负二倍对数似然为:46.22474大城小事第二节第二节.条件条件logistic回归回归75大城小事条件似然函数条件似然函数76大城小事1:3配对的例子配对的例子77大城小事1:2配对的例子配对的例子78大城小事表表16-7条件条件logistic回归的回归的SAS程程序序79大城小事结果结果80大城小事第三节第三节 应用及其注意事项应用及其注意事项应变量为(二项)分类的资料应变量为(二项)分类的资料(预测、判别、危险因素分析等等)(预测、判别、危险因素分析等等)81大城小事注意事项注意事项1.分类自变量的哑变量编码 2.为了便于解
31、释,对二项分类变量一般按0、1编码,一般以0表示阴性或较轻情况,而1表示阳性或较严重情况。如果对二项分类变量按+1与-1编码,那么所得的 ,容易造成错误的解释。82大城小事西、中西、中三种疗法哑变量化原资料原资料姓名姓名性性别别年年龄龄 疗疗法法张张山山150中西中西李四李四120西西王五王五018中中刘六刘六070中中赵赵七七135中西中西孙孙八八029西西哑变量化哑变量化姓名姓名性性别别年年龄龄X1X2张张山山15001李四李四12010王五王五01800刘六刘六07000赵赵七七13501孙孙八八0291083大城小事注意事项注意事项2.自变量的筛选 不同的筛选方法有时会产生不同的模型。实际工作中可同时采用这些方法,然后根据专业的可解释性、模型的节约性和资料采集的方便性等,决定采用何种方法的计算结果。84大城小事注意事项注意事项3.交互作用 交互作用的分析十分复杂,应根据临床意义与实际情况酌情使用。85大城小事注意事项注意事项4.多分类logistic回归 心理疾病分为精神分裂症、抑郁症、神经官能症等(名义变量名义变量nominal variables);疗效评价分为无效、好转、显效、痊愈(有序变量有序变量ordinal variables)。参见“余松林主编。医学统计学(七年制全国规划教材,第17章,2002年3月)”86大城小事
限制150内