《logistic回归分析》PPT课件.ppt
logistic回归分析回归分析卫生统计学教研室卫生统计学教研室陆健陆健 副教授副教授10/25/2022表表1 吸烟、饮酒与食管癌关系的病例对照调查资料吸烟、饮酒与食管癌关系的病例对照调查资料分层分层吸烟吸烟 饮酒饮酒阳性例数阳性例数阴性例数阴性例数观察例数观察例数1否否否否 63 136 1992否否是是 63 107 1703是是否否 44 57 1014是是是是 265 151 416表表1 吸烟、饮酒与食管癌关系的病例对照调查资料吸烟、饮酒与食管癌关系的病例对照调查资料(收集资料的形式)(收集资料的形式)调查对象序号调查对象序号吸烟吸烟饮酒饮酒食管癌食管癌11012000875111876010分类资料的影响因素分析方法分类资料的影响因素分析方法n如果采用线性回归分析,应变量不满足条件,如果采用线性回归分析,应变量不满足条件,预测值会超出预测值会超出0和和1的范围。的范围。n如果采用单变量的如果采用单变量的 2检验,则必然忽略其他检验,则必然忽略其他自变量对应变量的影响。自变量对应变量的影响。n如果采用如果采用Mantel-Haenszel分层分析,需要分层分析,需要较大的样本量,而且自变量不能太多。较大的样本量,而且自变量不能太多。nlogistic回归能较好地解决上述问题。回归能较好地解决上述问题。logistic回归模型回归模型n应变量应变量Y是一个二值变量,取值为是一个二值变量,取值为n自变量自变量X1,X2,Xm。nP表示在表示在m个自变量作用下事件发生的概率。个自变量作用下事件发生的概率。logistic回归模型回归模型logistic回归模型回归模型PZlogit变换变换n事件发生概率与未发生概率之比的自然事件发生概率与未发生概率之比的自然对数,称为对数,称为P的的logit变换,记作变换,记作logit(P)。n概率概率P的取值范围在的取值范围在01之间,而之间,而logit(P)取值是没有界限的。取值是没有界限的。logit变换变换回归模型中参数的意义回归模型中参数的意义n 0(常数项):所有影响因素均为(常数项):所有影响因素均为 0 时时(记作(记作X=0),个体发生事件概率与不发),个体发生事件概率与不发生事件的概率之比的自然对数值。生事件的概率之比的自然对数值。n j 的含义:某因素因素的含义:某因素因素 Xj 改变一个单位改变一个单位时,个体发生事件概率与不发生事件的时,个体发生事件概率与不发生事件的概率之比的自然对数变化值。概率之比的自然对数变化值。优势比(优势比(odds ratio,OR)n优势(优势(odds)是指某影响因素控制在某)是指某影响因素控制在某种水平时,事件发生率与事件不发生率种水平时,事件发生率与事件不发生率的比值,即的比值,即P/(1-P)。n某影响因素的两个不同水平的优势的比某影响因素的两个不同水平的优势的比值称为优势比,如某影响因素的一个水值称为优势比,如某影响因素的一个水平为平为c1,另一个水平为,另一个水平为c0,则这两个水,则这两个水平的优势比为:平的优势比为:优势比(优势比(odds ratio,OR)nOR表示影响因素对事件发生的影响方表示影响因素对事件发生的影响方向和影响能力大小。向和影响能力大小。nOR1表示该因素取值越大,事件发生表示该因素取值越大,事件发生的概率越大,又称危险因素。的概率越大,又称危险因素。nOR 0,OR 1,影响因素的取值越大,影响因素的取值越大,事件的发生的概率越大。事件的发生的概率越大。n 0,OR 1,影响因素的取值越大,影响因素的取值越大,事件的发生的概率越小。事件的发生的概率越小。logistic回归模型的参数估计回归模型的参数估计n通常采用最大似然估计(通常采用最大似然估计(maximum likeli-hood estimate,MLE)估计回归系数)估计回归系数,同同时得到回归系数的标准误时得到回归系数的标准误Sb。n根据最大似然原理,在一次抽样中获得现根据最大似然原理,在一次抽样中获得现有样本的概率应该最大。即似然函数取值有样本的概率应该最大。即似然函数取值最大。最大。n计算可以通过统计软件来完成。计算可以通过统计软件来完成。logistic回归模型的参数估计回归模型的参数估计n根据计算所得的根据计算所得的bj计算计算OR值。值。nOR值的可信区间:可以利用值的可信区间:可以利用bj的抽样的抽样分布来估计,在样本含量较大的情况分布来估计,在样本含量较大的情况下,近似服从正态分布。当自变量只下,近似服从正态分布。当自变量只有两个水平时,可采用下列公式计算。有两个水平时,可采用下列公式计算。logistic回归模型的参数估计回归模型的参数估计n以表以表16-1的数据,计算吸烟和饮酒与食管癌关的数据,计算吸烟和饮酒与食管癌关系研究的系研究的logistic回归分析中各项参数估计值。回归分析中各项参数估计值。影响因素影响因素bSbOROR的的95%CI常数项常数项-0.90990.1358吸烟吸烟0.88560.15002.421.813.25饮酒饮酒0.52610.15721.691.242.30logistic回归模型的假设检验回归模型的假设检验n根据样本得到的根据样本得到的logistic回归模型还需经过检回归模型还需经过检验才能说明影响因素对事件发生的影响是否验才能说明影响因素对事件发生的影响是否具有统计学意义。具有统计学意义。n假设检验的假设有两种:假设检验的假设有两种:nH0:1=2=m(将多个影响因素作为一(将多个影响因素作为一个整体考虑)个整体考虑)nH0:j=0(单独检验某个影响因素)(单独检验某个影响因素)logistic回归模型的假设检验回归模型的假设检验方法方法n似然比检验似然比检验(likelihood ratio test):既适:既适合单个影响因素的假设检验,又适合多个合单个影响因素的假设检验,又适合多个影响因素的同时检验;影响因素的同时检验;nWald检验检验(Wald test):适合单个影响因素:适合单个影响因素的检验;的检验;n计分检验(计分检验(score test):与传统):与传统Mantel-Haenszel检验结果相同,小样本时比似然检验结果相同,小样本时比似然比检验跟接近比检验跟接近 2分布,犯分布,犯I型错误的可能型错误的可能性更小。性更小。似然比检验的基本思想似然比检验的基本思想n比较包含需检验影响因素的模型和不包含比较包含需检验影响因素的模型和不包含该影响因素的模型,如果检验结果为拒绝该影响因素的模型,如果检验结果为拒绝H0,则表示该影响因素对回归模型有统计,则表示该影响因素对回归模型有统计学意义,即对事件发生有影响。反之,则学意义,即对事件发生有影响。反之,则没有统计学意义,对事件发生没有影响。没有统计学意义,对事件发生没有影响。似然比检验(例似然比检验(例161)nG=2(lnL1-lnL0),自由度,自由度d=p-lnG1=2lnL(X1,X2)-lnL(X2nG2=2lnL(X1,X2)-lnL(X1n 20.05,1=3.84,G1 20.05,1,G2 20.05,1n结论:扣除饮酒因素后,吸烟对食管癌的结论:扣除饮酒因素后,吸烟对食管癌的发生有影响;扣除吸烟因素后,饮酒对食发生有影响;扣除吸烟因素后,饮酒对食管癌有影响。管癌有影响。Wald检验(例检验(例161)n结论:食管癌与吸烟、饮酒有关。结论:食管癌与吸烟、饮酒有关。变量筛选变量筛选n当影响因素较多时,需挑选出与事件发生当影响因素较多时,需挑选出与事件发生确实有关或关系更密切的影响因素,建立确实有关或关系更密切的影响因素,建立更加稳定的回归模型。更加稳定的回归模型。n筛选方法:前进法、后退法、逐步法。筛选方法:前进法、后退法、逐步法。n检验方法:似然比检验、检验方法:似然比检验、Wald检验和计分检验和计分检验。检验。n入选和剔除标准:和。(常规)入选和剔除标准:和。(常规)表表2 冠心病危险因素的病例对照调查资料冠心病危险因素的病例对照调查资料序号X1X2X3X4X5X6X7X8Y131010011022011001005321010011154311010311表表3 冠心病危险因素的赋值冠心病危险因素的赋值因素因素变量名变量名赋值说明赋值说明年龄(岁)年龄(岁)X145=1,45=2,55=3,65=4高血压史高血压史X2无无=0,有,有=1高血压家族史高血压家族史X3无无=0,有,有=1吸烟吸烟X4不吸烟不吸烟=0,吸烟,吸烟=1高血脂史高血脂史X5无无=0,有,有=1动物脂肪摄入动物脂肪摄入X6低低=0,高,高=1体重指数体重指数X724=1,24=2,26=3A型性格型性格X8否否=0,是,是=1冠心病冠心病Y对照对照=0,病例,病例=1变量筛选后的模型变量筛选后的模型影响因影响因素素bSbWald 2PbOR常数项常数项-4.7051.5439.300.0023X10.9240.4773.760.05250.4012.52X51.4960.7444.040.04330.4064.46X63.1361.2496.300.01210.70323.00X81.9470.8475.290.02150.5237.01结论结论n年龄越大,有高血脂史,高动物脂肪摄入量年龄越大,有高血脂史,高动物脂肪摄入量以及以及A型性格的人,比较容易患冠心病。型性格的人,比较容易患冠心病。n根据根据OR值或标准化回归系数可以判断出,值或标准化回归系数可以判断出,动物脂肪摄入量高对冠心病的影响最大,动物脂肪摄入量高对冠心病的影响最大,其次为其次为A型性格和有高血脂史,最后为年龄型性格和有高血脂史,最后为年龄因素。因素。n标准化回归系数:标准化回归系数:条件条件logistic回归回归n根据病例的具体情况,安排某些条件相根据病例的具体情况,安排某些条件相同的个体作为对照。同的个体作为对照。n可以是可以是1:1对照,也可以对照,也可以1个病例选择多个病例选择多个对照,称为个对照,称为1:M对照(对照(M 3)。)。n分析过程与非条件分析过程与非条件logistic回归相同。回归相同。n条件条件logistic回归与非条件回归与非条件logistic回归的回归的区别是没有常数项。区别是没有常数项。logistic回归的应用回归的应用n流行病学危险因素分析流行病学危险因素分析n病例对照研究中探索疾病的发病原因;病例对照研究中探索疾病的发病原因;n队列研究中验证危险因素的作用大小。队列研究中验证危险因素的作用大小。n临床试验数据分析临床试验数据分析n当评价指标为分类数据,而且有其他影响评价指当评价指标为分类数据,而且有其他影响评价指标的影响因素(年龄、病情、病种等)存在时。标的影响因素(年龄、病情、病种等)存在时。logistic回归的应用回归的应用n分析药物和毒物的剂量反应分析药物和毒物的剂量反应n计算半数效量(如计算半数效量(如ED50););n考察不同药物的交互作用。考察不同药物的交互作用。n预测和判别预测和判别n根据个体的特征,判断个体发生某事件的概率;根据个体的特征,判断个体发生某事件的概率;n判断个体属于的类型。判断个体属于的类型。logistic回归应用的注意事项回归应用的注意事项n变量取值形式变量取值形式n事件变量的取值:一般发生为事件变量的取值:一般发生为1,未发生为,未发生为0,如果发生为,如果发生为0,未发生为,未发生为1,则模型中回归,则模型中回归系数绝对值不变,但符号相反。系数绝对值不变,但符号相反。n自变量可以是二分类变量、有序变量、多分自变量可以是二分类变量、有序变量、多分类变量、连续变量。类变量、连续变量。logistic回归应用的注意事项回归应用的注意事项n连续变量一般需转换为等级变量,否则实际连续变量一般需转换为等级变量,否则实际意义不大。意义不大。n如年龄每增加如年龄每增加1岁的优势比。岁的优势比。n等级变量取值等级变量取值n认为变化每个等级的优势比相近,则取秩认为变化每个等级的优势比相近,则取秩n认为变化每个等级的优势比不同,则应转换为认为变化每个等级的优势比不同,则应转换为哑变量分析。哑变量分析。logistic回归应用的注意事项回归应用的注意事项n多分类变量只能转换为哑变量处理。多分类变量只能转换为哑变量处理。n哑变量的设置和结果解释哑变量的设置和结果解释n哑变量的个数为哑变量的个数为n1(n为取值个数);为取值个数);n哑变量的优势比表示自变量的某个取值与对照哑变量的优势比表示自变量的某个取值与对照取值的优势比;取值的优势比;n等级变量转换为哑变量后,还可以分析多个等等级变量转换为哑变量后,还可以分析多个等级之间的优势比,公式为级之间的优势比,公式为exp(bi-bj)。logistic回归应用的注意事项回归应用的注意事项n样本含量样本含量n样本例数与影响因素的个数相关;样本例数与影响因素的个数相关;n一般要求样本含量为影响因素个数的一般要求样本含量为影响因素个数的10以上;以上;n配对资料样本的匹配组数应为影响因素个数的配对资料样本的匹配组数应为影响因素个数的20倍以上。倍以上。logistic回归应用的注意事项回归应用的注意事项n模型评价模型评价n对模型中的每个自变量进行检验对模型中的每个自变量进行检验(验证验证);n对所建立的回归方程做拟合优度检验对所建立的回归方程做拟合优度检验(探索探索)。n拟合优度检验的统计量拟合优度检验的统计量n偏差(偏差(deviance,D)和)和Pearson 2nP,认为拟合效果好;认为拟合效果好;P,则效果不好。,则效果不好。