最新十三logistic回归模型PPT课件.ppt
《最新十三logistic回归模型PPT课件.ppt》由会员分享,可在线阅读,更多相关《最新十三logistic回归模型PPT课件.ppt(57页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、十三十三logistic回归模型回归模型浙江大学医学院流行病与卫生统计学教研室 沈毅v 内容提要内容提要 非条件非条件logistic回归回归模型简介模型简介简单分析实例简单分析实例哑变量设置哑变量设置自变量的筛选方法与逐步回归自变量的筛选方法与逐步回归模型拟合效果与拟合优度检验模型拟合效果与拟合优度检验模型的诊断与修正模型的诊断与修正 条件条件logistic回归回归浙江大学医学院流行病与卫生统计学教研室 沈毅浙江大学医学院流行病与卫生统计学教研室 沈毅浙江大学医学院流行病与卫生统计学教研室 沈毅浙江大学医学院流行病与卫生统计学教研室 沈毅浙江大学医学院流行病与卫生统计学教研室 沈毅浙江大学
2、医学院流行病与卫生统计学教研室 沈毅浙江大学医学院流行病与卫生统计学教研室 沈毅选入应变量选入应变量选入自选入自变量变量简单分析实例简单分析实例浙江大学医学院流行病与卫生统计学教研室 沈毅Dependent Variable Encoding01Original Value未患病患病Internal Value简单分析实例简单分析实例结果分析结果分析v 此表为应变量取值水平编码,此表为应变量取值水平编码,SPSSSPSS默认取值水平默认取值水平高的为阳性结果。高的为阳性结果。浙江大学医学院流行病与卫生统计学教研室 沈毅简单分析实例简单分析实例结果分析结果分析v 本表输出当前模型的本表输出当前模
3、型的-2log-2log(似然值)和两个伪决(似然值)和两个伪决定系数,但对于定系数,但对于logisticlogistic回归而言,通常看见的伪决回归而言,通常看见的伪决定系数不像线性回归模型中的决定系数那么大。定系数不像线性回归模型中的决定系数那么大。Model Summary86.811a.237.316Step1-2 Log likelihoodCox & Snell R SquareNagelkerke R SquareEstimation terminated at iteration number 5 because parameter estimateschanged by l
4、ess than .001.a. 浙江大学医学院流行病与卫生统计学教研室 沈毅Variables in the Equation1.356.5466.1621.0133.882.873.3845.1621.0232.395.093.0357.0001.0081.097-5.6421.8069.7571.002.004sexecgageConstantStep1aBS.E.WalddfSig.Exp(B)Variable(s) entered on step 1: sex, ecg, age.a. 简单分析实例简单分析实例结果分析结果分析v 此表输出模型中的各自变量的偏回归系数及其标准此表输出模
5、型中的各自变量的偏回归系数及其标准误、误、Wald Wald 2 2、自由度、自由度、P P 值、值、OROR值(即值(即expexp(B B)。)。浙江大学医学院流行病与卫生统计学教研室 沈毅哑变量设置哑变量设置在回归模型中,回归系数在回归模型中,回归系数b b表示其他自变量不变,表示其他自变量不变,x x每改变一个单位时,所预测的每改变一个单位时,所预测的y y的平均变化量,当的平均变化量,当x x为连续性变量时,这样解释没有问题,二分类变量为连续性变量时,这样解释没有问题,二分类变量由于只存在两个类别间的比较,也可以对系数得到由于只存在两个类别间的比较,也可以对系数得到很好的解释。但是当
6、很好的解释。但是当x x为多分类变量时,仅拟合一为多分类变量时,仅拟合一个回归系数就不太合适了,此时需要使用个回归系数就不太合适了,此时需要使用哑变量哑变量(dummy variabledummy variable)方式对模型进行定义。)方式对模型进行定义。浙江大学医学院流行病与卫生统计学教研室 沈毅例例2 Hosmer 和和Lemeshow于于1989年研究了低出生体年研究了低出生体重婴儿的影响因素,结果变量为是否娩出低出生体重婴儿的影响因素,结果变量为是否娩出低出生体重儿(变量名为重儿(变量名为LOW,1表示低出生体重儿,表示低出生体重儿,0表示表示非低出生体重儿),考虑的自变量有产妇妊娠
7、前体非低出生体重儿),考虑的自变量有产妇妊娠前体重、产妇年龄、种族、是否吸烟、早产次数、是否重、产妇年龄、种族、是否吸烟、早产次数、是否患高血压等。(数据文件见:患高血压等。(数据文件见:logistic_step.sav。)。)哑变量设置哑变量设置浙江大学医学院流行病与卫生统计学教研室 沈毅哑变量设置哑变量设置浙江大学医学院流行病与卫生统计学教研室 沈毅哑变量设置哑变量设置浙江大学医学院流行病与卫生统计学教研室 沈毅选入无序多选入无序多分类变量分类变量设置参照水设置参照水平平哑变量设置哑变量设置浙江大学医学院流行病与卫生统计学教研室 沈毅Categorical Variables Codin
8、gs961.000.00026.0001.00067.000.000白人黑人其他种族种族Frequency(1)(2)Parameter coding哑变量设置哑变量设置结果分析结果分析v 哑变量(种族)的设置情况哑变量(种族)的设置情况浙江大学医学院流行病与卫生统计学教研室 沈毅Variables in the Equation-.025.037.4831.487.975-.014.0074.0901.043.9867.1462.028-.908.4374.3261.038.403.329.534.3801.5371.390.927.3995.4141.0202.528.552.3452.5
9、621.1091.7361.763.6896.5411.0115.831.649.4681.9251.1651.913.032.171.0351.8511.0331.1431.0871.1041.2933.135agelwtracerace(1)race(2)smokeptlhtuiftvConstantStep1aBS.E.WalddfSig.Exp(B)Variable(s) entered on step 1: age, lwt, race, smoke, ptl, ht, ui, ftv.a. 哑变量设置哑变量设置v 白人低出生体重的风险较低,而黑人风险较高。白人低出生体重的风险较低,
10、而黑人风险较高。结果分析结果分析浙江大学医学院流行病与卫生统计学教研室 沈毅 参照水平最好要有实际意义,不推荐使用其他作为参照;参照水平最好要有实际意义,不推荐使用其他作为参照; 参照水平组要有一定的频数作保证,应不少于参照水平组要有一定的频数作保证,应不少于30或或50例;例; 对有序自变量的分析:对有序自变量的分析: 从专业出发确定;从专业出发确定; 分别以哑变量和连续性变量的方式引入模型进行比较后分别以哑变量和连续性变量的方式引入模型进行比较后确定。确定。哑变量设置哑变量设置v 哑变量设置应该注意的问题哑变量设置应该注意的问题浙江大学医学院流行病与卫生统计学教研室 沈毅 Forward:
11、Conditional (最可靠)(最可靠) Forward:LR Forward:Wald (应当慎用)(应当慎用) Backward: Conditional (最可靠)(最可靠) Backward:LR Backward:Wald(应当慎用)(应当慎用)v 6 6 种筛选自变量的方法种筛选自变量的方法逐步回归逐步回归浙江大学医学院流行病与卫生统计学教研室 沈毅例例3 仍以例仍以例2的数据的数据为例,演示如何在为例,演示如何在SPSS中实现逐步中实现逐步logistic回归分析。回归分析。逐步回归逐步回归浙江大学医学院流行病与卫生统计学教研室 沈毅选择其中一选择其中一种逐步法种逐步法逐步回
12、归逐步回归浙江大学医学院流行病与卫生统计学教研室 沈毅Model Summary227.893a.035.050223.583b.057.080217.220b.088.124Step123-2 Log likelihoodCox & Snell R SquareNagelkerke R SquareEstimation terminated at iteration number 3 because parameter estimateschanged by less than .001.a. Estimation terminated at iteration number 4 becau
13、se parameter estimateschanged by less than .001.b. 逐步回归逐步回归v 给出了模型拟合过程中每一步的给出了模型拟合过程中每一步的-2log-2log(L L)及)及两个伪决定系数。两个伪决定系数。结果分析结果分析浙江大学医学院流行病与卫生统计学教研室 沈毅Variables in the Equation.802.3176.3911.0112.230-.964.17530.3701.000.381.823.3186.6831.0102.2771.272.6164.2701.0393.569-1.062.18433.2241.000.346-.0
14、15.0075.5841.018.985.728.3274.9611.0262.0711.789.6946.6391.0105.986.893.8291.1581.2822.441ptlConstantStep1aptlhtConstantStep2blwtptlhtConstantStep3cBS.E.WalddfSig.Exp(B)Variable(s) entered on step 1: ptl.a. Variable(s) entered on step 2: ht.b. Variable(s) entered on step 3: lwt.c. 逐步回归逐步回归结果分析结果分析浙江
15、大学医学院流行病与卫生统计学教研室 沈毅Variables not in the Equation3.1491.0763.3401.0685.3592.0695.0281.0252.0561.1523.1641.0754.7221.0302.1621.141.7531.38522.8588.004agelwtracerace(1)race(2)smokehtuiftvVariablesOverall StatisticsStep1ScoredfSig.逐步回归逐步回归结果分析结果分析v 输出了尚不在模型中的自变量是否能被引入的输出了尚不在模型中的自变量是否能被引入的ScoreScore检验结果
16、,这里只给出第一步的结果。检验结果,这里只给出第一步的结果。浙江大学医学院流行病与卫生统计学教研室 沈毅对数似然值与伪决定系数对数似然值与伪决定系数模型预测正确率模型预测正确率ROCROC曲线曲线模型拟合效果检验模型拟合效果检验v 拟合效果判断指标:拟合效果判断指标:浙江大学医学院流行病与卫生统计学教研室 沈毅-2 倍对数似然值表示模型的拟合效果,其值越小,越接近于倍对数似然值表示模型的拟合效果,其值越小,越接近于0,说明模型拟合效果越好。,说明模型拟合效果越好。但是,当自变量中存在缺失值时,因为一般统计软件在进行但是,当自变量中存在缺失值时,因为一般统计软件在进行计算时会把含有缺失值的记录予
17、以剔除,不参与统计分析,计算时会把含有缺失值的记录予以剔除,不参与统计分析,此时不能用此时不能用-2log likelihood 对不同模型的拟合效果进行比对不同模型的拟合效果进行比较。较。模型拟合效果检验模型拟合效果检验浙江大学医学院流行病与卫生统计学教研室 沈毅Classification Tablea123794.6471220.371.4Observed正常低出生体重低出生体重儿Overall PercentageStep 3正常低出生体重低出生体重儿PercentageCorrectPredictedThe cut value is .500a. 例例3进行逐步回归的第三步(进行逐步
18、回归的第三步(step3)输出以上结果,预测)输出以上结果,预测正确的记录占正确的记录占71.4。模型拟合效果检验模型拟合效果检验浙江大学医学院流行病与卫生统计学教研室 沈毅Save子对话框子对话框模型拟合效果检验模型拟合效果检验v先保存研究对先保存研究对象的预测概率。象的预测概率。浙江大学医学院流行病与卫生统计学教研室 沈毅模型拟合效果检验模型拟合效果检验浙江大学医学院流行病与卫生统计学教研室 沈毅模型拟合效果检验模型拟合效果检验浙江大学医学院流行病与卫生统计学教研室 沈毅模型拟合效果检验模型拟合效果检验v 这就是这就是ROCROC曲线,曲线,预测效果最佳时,曲预测效果最佳时,曲线应该从左下
19、角垂直线应该从左下角垂直上升至顶,然后水平上升至顶,然后水平向右延伸到右上角。向右延伸到右上角。结果分析结果分析浙江大学医学院流行病与卫生统计学教研室 沈毅Area Under the CurveTest Result Variable(s): Predicted probability.708.043.000.624.792AreaStd. ErroraAsymptotic Sig.bLower BoundUpper BoundAsymptotic 95% Confidence IntervalThe test result variable(s): Predicted probabilit
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 十三 logistic 回归 模型 PPT 课件
限制150内