统计学-logistic回归分析.ppt
《统计学-logistic回归分析.ppt》由会员分享,可在线阅读,更多相关《统计学-logistic回归分析.ppt(59页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第十六章 logistic回归分析,logistic回归为概率型非线性回归模型,是研究分类观察结果(y)与一些影响因素(x)之间关系的一种多变量分析方法,问题提出:,医学研究中常研究某因素存在条件下某结果是否发生?以及之间的关系如何? 因素(X) 疾病结果(Y) x1,x2,x3XK 发生 Y=1 不发生 Y=0 例:暴露因素 冠心病结果 高血压史(x1):有 或无 有 或 无 高血脂史(x2): 有 或 无 吸烟(x3): 有或无,研究问题可否用多元线性回归方法?,1.多元线性回归方法要求 Y 的取值为计量的连续性随机变量。 2.多元线性回归方程要求Y与X间关系为线性关系。 3.多元线性回归
2、结果 不能回答“发生与否” logistic回归方法补充多元线性回归的不足,Logistic回归方法,该法研究是 当 y 取某值(如y=1)发生的概率(p)与某暴露因素(x)的关系。 P(概率)的取值波动01范围。 基本原理:用一组观察数据拟合Logistic模型,揭示若干个x与一个因变量取值的关系,反映y 对x的依存关系。,一、基本概念,1.变量的取值 logistic回归要求应变量(Y)取值为分类变量(两分类或多个分类) 自变量(Xi)称为危险因素或暴露因素,可为连续变量、等级变量、分类变量。 可有m个自变量X1, X2, Xm,2.两值因变量的logistic回归模型方程,一个自变量与Y
3、关系的回归模型 如:y:发生=1,未发生=0 x 有=1无=0, 记为p(y=1/x)表示某暴露因素状态下,结果y=1的概率(P)模型。,或,模型描述了应变量p与x的关系,P概率,1,0.5,Z值,0,1,2,3,-1,-2,-3,图16-1 Logistic回归函数的几何图形,为正值,x越大,结果y=1发生的可能性(p)越大。,几个logistic回归模型方程,logistic回归模型方程的线性表达,对logistic回归模型的概率(p)做logit变换,,截距(常数),回归系数,Y(-至+),线性关系,方程如下:,在有多个危险因素(Xi)时,多个变量的logistic回归模型方程的线性表达
4、:,或,2.模型中参数的意义,0(常数项):暴露因素Xi=0时,个体发病概率与不发病概率之比的自然对数比值。,的含义:某危险因素,暴露水平变化时,即Xi=1与Xi=0相比,发生某结果(如发病)优势比的对数值。,P1(y=1/x=1)的概率,P0(y=1/x=0)的概率,危险因素 Y x= 1 x= 0 发病=1 30(a) 10( b) 不发病=0 70(c) 90(d) a+c b+d 危险因素 Y x= 1 x= 0 发病=1 p1 p0 不发病=0 1-p1 1-p0,有暴露因素人群中发病的比例,反映了在其他变量固定后,X=1与x=0相比发生Y事件的对数优势比。 回归系数与OR X与Y的
5、关联 =0,OR=1, 无关 0,OR1 , 有关,危险因素 0,OR1, 有关,保护因子 事件发生率很小,ORRR。,多元回归模型的的 概念,二、 Logistic回归模型,Logistic回归的分类 二分类 多分类 条件Logistic回归 非条件Logistic回归,Logit变换 也称对数单位转换 logit P=,流行病学概念: 设P表示暴露因素X时个体发病的概率,则发病的概率P与未发病的概率1-P 之比为优势(odds), logit P就是odds的对数值。,Logistic回归模型 Logistic回归的logit模型 Logistic回归模型,三、参数估计,最大似然估计法 (
6、Maximum likehood estimate) 似然函数:L=Pi 对数似然函数: lnL=(ln P)=ln P1+ln P2+ln Pn 非线性迭代方法 Newton-Raphson法,四、参数检验,似然比检验(likehood ratio test) 通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为G (又称Deviance)。 G=-2(ln Lp-ln Lk) 样本量较大时, G近似服从自由度为待检验因素个数的分布。,比分检验(score test) 以未包含某个或几个变量的模型为基础,保留模型中参数的估计值,并假设新增加的参数为零,
7、计算似然函数的一价偏导数(又称有效比分)及信息距阵,两者相乘便得比分检验的统计量S 。样本量较大时, S近似服从自由度为待检验因素个数的分布。,Wald检验( wald test) 即广义的t检验,统计量为u u服从正态分布,即为标准正态离差。 Logistic回归系数的区间估计,上述三种方法中,似然比检验最可靠,比分检验一般与它相一致,但两者均要求较大的计算量;而Wald检验未考虑各因素间的综合作用,在因素间有共线性时结果不如其它两者可靠。,五、回归系数的意义,单纯从数学上讲,与多元线性回归分析中回归系数的解释并无不同,亦即bi表示xi改变一个单位时, logit P的平均变化量。,流行病学
8、中的一些基本概念: 相对危险度(relative risk): RR=P1/P2 比数Odds=P/(1-P) 比数比OR=P/(1-P)/P/(1-P) 在患病率较小情况下,ORRR,Logistic回归中的常数项(b0)表示,在不接触任何潜在危险保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。 Logistic回归中的回归系数( bi )表示,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即OR的对数值。,Logistic回归系数的意义,分析因素xi为二分类变量时,存在(暴露)xi ,不存在(未暴露)xi ,则Logistic回归中xi的系数bi就是暴
9、露与非暴露优势比的对数值即OR=exp(bi)=e (bi),分析因素xi为多分类变量时,为方便起见,常用1,2,k分别表示k个不同的类别。进行Logistic回归分析前需将该变量转换成k-1个指示变量或哑变量(design/dummy variable),这样指示变量都是一个二分变量,每一个指示变量均有一个估计系数,即回归系数,其解释同前。,分析因素xi为等级变量时,如果每个等级的作用相同,可按计量资料处理:如以最小或最大等级作参考组,并按等级顺序依次取为0,1,2,。此时, e(bi) 表示xi增加一个等级时的优势比, e(k* bi)表示xi增加k个等级时的优势比。如果每个等级的作用不相
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 logistic 回归 分析
限制150内