logistic回归分析.ppt
《logistic回归分析.ppt》由会员分享,可在线阅读,更多相关《logistic回归分析.ppt(49页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第十六章 logistic回归分析,logistic回归为概率型非线性回归模型,是研究分类观察结果(y)与一些影响因素(x)之间关系的一种多变量分析方法,问题提出: 医学研究中常研究某因素存在条件下某结果是否发生?以及之间的关系如何? 因素(X) 疾病结果(Y) x1,x2,x3XK 发生 Y=1 不发生 Y=0 例:暴露因素 冠心病结果 高血压史(x1):有 或无 有 或 无 高血脂史(x2): 有 或 无 吸烟(x3): 有或无,研究问题可否用多元线性回归方法?,1.多元线性回归方法要求 Y 的取值为计量的连续性随机变量。 2.多元线性回归方程要求Y与X间关系为线性关系。 3.多元线性回归
2、结果 不能回答“发生与否” logistic回归方法补充多元线性回归的不足,Logistic回归方法,该法研究是 当 y 取某值(如y=1)发生的概率(p)与某暴露因素(x)的关系。 P(概率)的取值波动01范围。 基本原理:用一组观察数据拟合Logistic模型,揭示若干个x与一个因变量取值的关系,反映y 对x的依存关系。,第一节 logistic回归一、基本概念,1.变量的取值 logistic回归要求应变量(Y)取值为分类变量(两分类或多个分类) 自变量(Xi)称为危险因素或暴露因素,可为连续变量、等级变量、分类变量。 可有m个自变量X1, X2, Xm,2.两值因变量的logistic
3、回归模型方程,一个自变量与Y关系的回归模型 如:y:发生=1,未发生=0 x : 有=1,无=0, 记为p(y=1/x)表示某暴露因素状态下,结果y=1的概率(P)模型。,或,模型描述了应变量p与x的关系,P概率,1,0.5,Z值,0,1,2,3,-1,-2,-3,图16-1 Logistic回归函数的几何图形,为正值,x越大,结果y=1发生的可能性(p)越大。,几个logistic回归模型方程,logistic回归模型方程的线性表达,对logistic回归模型的概率(p)做logit变换,,截距(常数),回归系数,Y(-至+),线形关系,方程如下:,在有多个危险因素(Xi)时,多个变量的lo
4、gistic回归模型方程的线性表达:,或,公式16-2,2.模型中参数的意义,0(常数项):暴露因素Xi=0时,个体发病概率与不发病概率之比的自然对数比值。,的含义:某危险因素,暴露水平变化时,即Xi=1与Xi=0相比,发生某结果(如发病)优势比的对数值。,P1(y=1/x=1)的概率,P0(y=1/x=0)的概率,危险因素 Y x= 1 x= 0 发病=1 30(a) 10( b) 不发病=0 70(c) 90(d) a+c b+d 危险因素 Y x= 1 x= 0 发病=1 p1 p0 不发病=0 1-p1 1-p0,有暴露因素人群中发病的比例,反映了在其他变量固定后,X=1与x=0相比发
5、生Y事件的对数优势比。 回归系数与OR X与Y的关联 =0,OR=1, 无关 1,OR1 , 有关,危险因素 1,OR1, 有关,保护因子 事件发生率很小,ORRR。,多元回归模型的的 概念,二、logistic回归模型的参数估计,1. 模型中的参数(i)估计 通常用最大似然函数 (maximum likelihood estimate, MLE)估计, 由统计软件包完成。(讲义259页),,,,,2. 优势比(OR)及可信区间的估计,如X=1,0两分类,则OR的1-可信区间估计公式,为回归系数的标准误,(公式16-10),例:讲义表16-1资料,一个研究吸烟、饮酒与食道癌关系的病例对照资料(
6、886例),试作logistic回归分析。 变量的赋值,经logistic回归计算后得 b0 =-0.9099, b1 =0.8856, b2 =0.5261,,方程表达:,控制饮酒因素后,吸烟与不吸烟相比患食管癌的优势比为2.4倍,OR的可信区间估计,吸烟与不吸烟患食管癌OR的95%可信区间:,饮酒与不饮酒OR的95%可信区间:,三、Logistic 回归模型的假设检验,1.检验一:对建立的整个模型做检验。 说明自变量对Y的作用是否有统计意义。 检验方法(讲义260-261页) 1)似然比检验 (likelihood ratio test) 2)Wald检验 3)计分检验(score tes
7、t),例表16-1吸烟、饮酒与食管癌资料(SAS软件计算),1.对建立的整个模型做检验。 Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr 似然比 68.5457 2 .0001 计分检验 67.0712 2 .0001 Wald检验 64.2784 2 .0001,2.检验二:,检验模型中某是否对Y有作用。 检验假设: 检验统计量:主要为Wald检验(SAS软件) 例; 在大样本时,三方法结果一致。,公式16-13,=1的2,例表16-1资料,对各x的做检验(wald检验),参数 估计值 标准误 Chi-Squa Pr
8、常数-0.9099 0.1358 44.8699 .0001 吸烟 0.8856 0.1500 34.8625 .0001 饮酒 0.5261 0.1572 11.2069 .0008,Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits 吸烟x1 2.424 1.807 3.253 饮酒x2 1.692 1.244 2.303,似然比检验(讲义),对某个做检验,检验统计量(G),包括p个自变量的对数似然函数,包括 l 个自变量的对数似然函数,G服从自由度(d)=p-l的2分布,似然比检验对做检验,例:X1为
9、吸烟,X2为饮酒,检验饮酒与食管癌关系,H0:2=0,H1:20,G 3.84,p0.05,说明调整吸烟因素后,饮酒与食管癌有关系。,四、变量筛选,目的;将回归系数有显著意义的自变量选入模型中,作用不显著的自变量则排除在外。 变量筛选算法有:前进法、后退法和 逐步法(stepwise)。 例:讲义例16-2,用逐步法 选入变量的显著水准为0.10,变量保留在方程的水准为0.15 例:16-2讲义261-263页,表16-4 进入方程的自变量及参数估计,变量 Sb Wald2 P 标准 OR 常数 -4.705 1.54 9.30 0.0023 年龄 0.924 0.477 3.76 0.052
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- logistic 回归 分析
限制150内