多元Logistic回归分析.ppt
《多元Logistic回归分析.ppt》由会员分享,可在线阅读,更多相关《多元Logistic回归分析.ppt(68页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、多元统计分析方法多元统计分析方法 The Methods of Multivariate Statistical Analysis1第一页,编辑于星期五:五点 十七分。多元多元Logistic 回归分析回归分析Multiple Logistic Regression Analysis第七章第七章2第二页,编辑于星期五:五点 十七分。主要内容主要内容 Logistic 回归分析的基本概念 Logistic 回归分析的数学模型 Logistic 回归模型的建立和检验 Logistic 回归系数的解释 配对病例-对照数据的logistic回归分析3第三页,编辑于星期五:五点 十七分。回归分析的分类回
2、归分析的分类连续型因变量连续型因变量(y)-线性回归分析线性回归分析多个因变量多个因变量(y1,y2yk)分类型因变量分类型因变量(y)-Logistic 回归分析回归分析时间序列因变量时间序列因变量(t)-时间序列分析时间序列分析生存时间因变量生存时间因变量(t)-生存风险回归分析生存风险回归分析路径分析路径分析结构方程模型分析结构方程模型分析一个一个因变因变量量 y回忆:回忆:4第四页,编辑于星期五:五点 十七分。医学研究中经常遇到分类型变量医学研究中经常遇到分类型变量二分类变量:生存与死亡有病与无病有效与无效感染与未感染多分类有序变量:疾病程度(轻度、中度、重度)治愈效果(治愈、显效、好
3、转、无效)多分类无序变量:o手术方法(A、B、C)o就诊医院(甲、乙、丙、丁)5第五页,编辑于星期五:五点 十七分。医学研究者经常关心的问题医学研究者经常关心的问题哪些因素导致了人群中有的人患胃癌而有的人不患胃癌?哪些因素导致了手术后有的人感染,而有的人不感染?哪些因素导致了某种治疗方法出现治愈、显效、好转、无效等不同的效果?是回归分析问题是回归分析问题:Y=f(x)Y=f(x)6第六页,编辑于星期五:五点 十七分。如何解决这样的问题?如何解决这样的问题?y=f(x)y=1,0 x任意任意存在,且不唯一存在,且不唯一不能直接分析不能直接分析变量变量y与与x的关系的关系p=p(y=1|x)=f(
4、x)0p1,x任意任意Logistic回归模型回归模型y取某个值的概取某个值的概率变量率变量p与与x 的的关系关系不存在不存在7第七页,编辑于星期五:五点 十七分。1、什么是、什么是Logistic 回归分析?回归分析?研究因变量研究因变量y取某个值的概率变量取某个值的概率变量p与自与自变量变量x的依存关系。的依存关系。p=p(y=1|x)=f(x)第一节第一节 Logistic 回归分析的概念回归分析的概念8第八页,编辑于星期五:五点 十七分。2、Logistic回归分析的分类回归分析的分类按数据的类型:按数据的类型:非条件非条件logistic回归分析(成组数据)回归分析(成组数据)条件条
5、件logistic回归分析(配对病例回归分析(配对病例-对照数据)对照数据)按因变量取值个数:按因变量取值个数:二值二值logistic回归分析回归分析多值多值logistic回归分析回归分析按自变量个数:按自变量个数:o一元一元logistic回归分析回归分析o多元多元logistic回归分析回归分析Logistic回归分析回归分析9第九页,编辑于星期五:五点 十七分。第二节第二节 Logistic 回归分析的数学模型回归分析的数学模型 令令y是是1,0变量,变量,x是任意是任意变量,变量,p=p(y=1|x),那么,二值变量,那么,二值变量y关于关于变量变量x的一元的一元logistic
6、回归回归模型是:模型是:其中,其中,和和是未知参数或待估计的回归系数。该模型描述了是未知参数或待估计的回归系数。该模型描述了y取某个值(这里取某个值(这里y=1)的概率的概率p与自变量与自变量x之间的关系。之间的关系。(1)二值一元二值一元logistic回归模型回归模型:10第十页,编辑于星期五:五点 十七分。令令y是是1,0变量,变量,x1,x2,xk是任意是任意k个变量;个变量;p=p(y=1|x1,x2,xk),那么,变量,那么,变量y关于变量关于变量x1,x2,xk 的的k元元logistic回归模型是:回归模型是:(2)二值多元二值多元logistic回归模型回归模型:注意:对于二
7、值Logistic回归模型,Y=0的模型是:p=p(y=0|x1,xk)=1-p(y=1|x1,xk)11第十一页,编辑于星期五:五点 十七分。Logistic 回归模型的另外一种形式回归模型的另外一种形式它给出变量它给出变量z=logit(p)关于关于x 的线性函数。的线性函数。12第十二页,编辑于星期五:五点 十七分。(3)多值多值logistic回归模型回归模型:例如,当y取值1,2,3时,logistic回归模型是:P1=P2=P3=p(y3|x)=1-P2P1=p(y=1)=P1P2=p(y=2)=P2-P1P3=p(y=3)=1-P2累积概率模型累积概率模型独立概率模型独立概率模型
8、13第十三页,编辑于星期五:五点 十七分。1、估计参数、估计参数-最大似然法最大似然法2、检验参数的显著性、检验参数的显著性 H0:j=0 vs H1:j0 3、检验模型的显著性、检验模型的显著性 H0:1=k=0 vs H1:j04、解释参数的实际意义、解释参数的实际意义第三节第三节 Logistic回归分析方法步骤回归分析方法步骤14第十四页,编辑于星期五:五点 十七分。例例1、自变量是二值分类型变量、自变量是二值分类型变量某医院为了研究导致手术切口感染的原因,收集了某医院为了研究导致手术切口感染的原因,收集了295例手术者情况,例手术者情况,其中,手术时间小于或等于其中,手术时间小于或等
9、于5小时的有小时的有242例,感染者例,感染者13例;手术时间例;手术时间大于大于5小时的有小时的有53例,感染者例,感染者7例。试建立手术切口感染例。试建立手术切口感染(y)关于手术时关于手术时间间(x)的的logistic回归模型。回归模型。46530(7 13 46 229 53 24215第十五页,编辑于星期五:五点 十七分。data eg7_1a;data eg7_1a;input y x wt;input y x wt;cards;cards;1 1 71 1 71 0 131 0 130 1 460 1 460 0 2290 0 229;run;run;proc logistic
10、 descending;proc logistic descending;model y=x;model y=x;weight wt;weight wt;run;run;SAS程序程序16第十六页,编辑于星期五:五点 十七分。The LOGISTIC ProcedureThe LOGISTIC ProcedureData Set:WORK.EG7_1AData Set:WORK.EG7_1AResponse Variable:YResponse Variable:YResponse Levels:2Response Levels:2Number of Observations:4Number
11、of Observations:4Weight Variable:WTWeight Variable:WTSum of Weights:295Sum of Weights:295Link Function:LogitLink Function:Logit Response Profile Response ProfileOrdered TotalOrdered Total Value Y Count Weight Value Y Count Weight 1 1 1 1 2 20.00000 2 20.00000 2 2 0 0 2 275.00000 2 275.0000017第十七页,编辑
12、于星期五:五点 十七分。Model Fitting Information and Testing Global Null Hypothesis BETA=0 Model Fitting Information and Testing Global Null Hypothesis BETA=0 Intercept Intercept Intercept and Intercept andCriterion Only Covariates Chi-Square for CovariatesCriterion Only Covariates Chi-Square for CovariatesAIC
13、 148.262 146.686 .AIC 148.262 146.686 .SC 147.648 145.458 .SC 147.648 145.458 .-2 LOG L 146.262 142.686 -2 LOG L 146.262 142.686 3.576 with 1 DF(p=0.0586)3.576 with 1 DF(p=0.0586)Score .4.224 with 1 DF(p=0.0399)Score .4.224 with 1 DF(p=0.0399)Analysis of Maximum Likelihood Estimates Analysis of Maxi
14、mum Likelihood Estimates Parameter Standard Wald Pr Standardized Odds Parameter Standard Wald Pr Standardized OddsVariable DF Estimate Error Chi-Square Chi-Square Estimate RatioVariable DF Estimate Error Chi-Square Chi-Square Estimate RatioINTERCPT 1 INTERCPT 1 -2.8688-2.8688 0.2851 101.2408 0.2851
15、101.2408 0.00010.0001 .X 1 X 1 0.98600.9860 0.4959 3.9542 0.4959 3.9542 0.04680.0468 2.069569 2.069569 2.6812.68118第十八页,编辑于星期五:五点 十七分。回归模型:回归模型:参数估计:参数估计:a=-2.869(p=0.0001),b=0.986(p=0.0468).模型检验:模型检验:2=3.576,df=1,p=0.0586结果:结果:如何解释系数的实际意义?如何解释系数的实际意义?19第十九页,编辑于星期五:五点 十七分。第四节第四节 Logistic回归模型系数的解释回归模
16、型系数的解释 回忆流行病学研究中两个重要概念:回忆流行病学研究中两个重要概念:在在logistic回归模型回归模型令令x=0和和x=1,得到,得到20第二十页,编辑于星期五:五点 十七分。a)一元一元logistic回归模型系数回归模型系数的意义解释:的意义解释:b)(1)x=1,0 变量变量如果如果x=1,0,则,则 e b=OR 近似表示在近似表示在x=1条件下的发病率与在条件下的发病率与在x=0 条件下发病率之比条件下发病率之比(相对危险度相对危险度),或者说,或者说,x=1条件下的发病条件下的发病可能性比可能性比x=1条件下多或少条件下多或少(OR-1)*100%。21第二十一页,编辑
17、于星期五:五点 十七分。Logistic 回归模型:回归模型:从从b=0.986,得到得到 RR OR=eb=2.681。所以,手术时间大于所以,手术时间大于5小时的感染率是手术时间小于或等于小时的感染率是手术时间小于或等于5小时的感染率的小时的感染率的2.681倍,即感染的可能性增加了倍,即感染的可能性增加了186.1%。0(7 13 46 229 53 242例如,手术感染问题例如,手术感染问题22第二十二页,编辑于星期五:五点 十七分。a)一元一元logistic回归模型系数回归模型系数的意义解释:的意义解释:b)(2)如果如果x是连续变量是连续变量c)对于任意对于任意x1 和和x2,x
18、1 x2 如果如果x 是连续变量,则是连续变量,则OR=eb 近似表示在近似表示在x 的相邻两个单位上的相邻两个单位上的相对危险度。即的相对危险度。即x 每增加一个单位,相对危险增加每增加一个单位,相对危险增加 或减少或减少(OR-1)*100%。23第二十三页,编辑于星期五:五点 十七分。例例2 2、自变量是连续型数值变量、自变量是连续型数值变量为了分析新生儿出生时体重为了分析新生儿出生时体重(birthwt)(birthwt)与支气管肺的发育与支气管肺的发育不良病不良病(BPD)(BPD)的关系,调查了的关系,调查了223223名新生儿。调查的数据名新生儿。调查的数据列在下表中。列在下表中
19、。24第二十四页,编辑于星期五:五点 十七分。data eg7_2;do birthwt=750,1150,1550;do bpd=1,0;input wt ;output;end;end;cards;49 19 18 62 9 66run;proc logistic data=eg2 descending;model bpd=birthwt;weight wt;run;SAS程序程序25第二十五页,编辑于星期五:五点 十七分。Response Profile Response ProfileOrderedOrdered Value BPD Count Value BPD Count 1 1
20、76 1 1 76 2 0 147 2 0 147 Model Fitting Information and Testing Global Null Hypothesis BETA=0 Model Fitting Information and Testing Global Null Hypothesis BETA=0 Intercept Intercept Intercept and Intercept andCriterion Only Covariates Chi-Square for CovariatesCriterion Only Covariates Chi-Square for
21、 CovariatesAIC 288.140 229.166 .AIC 288.140 229.166 .SC 291.547 235.980 .SC 291.547 235.980 .-2 LOG L 286.140 225.166 -2 LOG L 286.140 225.166 60.974 with 1 DF(p=0.0001)60.974 with 1 DF(p=0.0001)Score .56.008 with 1 DF(p=0.0001)Score .56.008 with 1 DF(p=0.0001)Analysis of Maximum Likelihood Estimate
22、s Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr Standardized Odds Parameter Standard Wald Pr Standardized OddsVariable DF Estimate Error Chi-Square Chi-Square Estimate RatioVariable DF Estimate Error Chi-Square Chi-Square Estimate RatioINTERCPT 1 3.7180 0.6387 33.8853 0.0001 .I
23、NTERCPT 1 3.7180 0.6387 33.8853 0.0001 .BIRTHWT 1 -0.00397 0.000588 45.6092 0.0001 -0.702480 BIRTHWT 1 -0.00397 0.000588 45.6092 0.0001 -0.702480 0.9960.996SAS输出结果输出结果26第二十六页,编辑于星期五:五点 十七分。1、因变量、因变量bpd对自变量对自变量birthwt 的的logistic回归模型是:回归模型是:2、自变量、自变量birthwt 的回归系数在统计意义上不等于的回归系数在统计意义上不等于0 (p=0.0001),因此,
24、因此,OR=0.996在统计意义上不等于在统计意义上不等于1。OR=0.996 说明新生儿出生体重每增加一个单位说明新生儿出生体重每增加一个单位(g),患,患 BPD病的机会就会减少大约病的机会就会减少大约0.4%。即患。即患bpd病的概率病的概率 随新生儿出生体重的增加而下降。随新生儿出生体重的增加而下降。3、根据上述回归模型可以预测新生儿出生时可能患、根据上述回归模型可以预测新生儿出生时可能患BPD病病 的的 概率。概率。27第二十七页,编辑于星期五:五点 十七分。a)一元一元logistic回归模型系数回归模型系数的意义解释:的意义解释:b)(3)如果如果x 是分类变量是分类变量c)如果
25、如果x 是分类型变量,特别是名义型变量,则需要将是分类型变量,特别是名义型变量,则需要将x 转转化为哑变量,再进行化为哑变量,再进行Logistic回归分析。回归分析。如果如果x是是g个分类的分类型变量,则要将个分类的分类型变量,则要将x 的的g-1个哑变量放个哑变量放入模型,每一个哑变量的入模型,每一个哑变量的OR 值表示该组与参照组的相对危值表示该组与参照组的相对危险度。险度。28第二十八页,编辑于星期五:五点 十七分。什么是哑变量?什么是哑变量?一个含有一个含有g个类的分类型变量可以构造个类的分类型变量可以构造g个哑变量。个哑变量。29第二十九页,编辑于星期五:五点 十七分。如何用如何用
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 Logistic 回归 分析
限制150内