Logistic回归(1).ppt
《Logistic回归(1).ppt》由会员分享,可在线阅读,更多相关《Logistic回归(1).ppt(36页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Logistic回归(1) Four short words sum up what has lifted most successful Four short words sum up what has lifted most successful individuals above the crowd: a little bit more. individuals above the crowd: a little bit more. -author -author -date-date讲述内容讲述内容: :第一节第一节 logisticlogistic回归回归第二节第二节 条件条件log
2、isticlogistic回归回归第三节第三节 logisticlogistic回归的应用回归的应用 及其注意事项及其注意事项目的:目的:作出以多个自变量(危险因素)估计作出以多个自变量(危险因素)估计应变量(应变量(结果因素)结果因素)的的logistic回归方程。回归方程。属于概率型非线性回归。属于概率型非线性回归。资料:资料:1. 应变量为反映某现象发生与不发生的应变量为反映某现象发生与不发生的二值变量;二值变量;2. 自变量宜全部或大部分为分类自变量宜全部或大部分为分类变量,可有少数数值变量。分类变量要数量变量,可有少数数值变量。分类变量要数量化。化。用途:用途:研究某种疾病或现象发生
3、和多个危研究某种疾病或现象发生和多个危 险因素(或保护因子)的数量关系。险因素(或保护因子)的数量关系。 用用 检验(或检验(或u检验)的检验)的局限性局限性: 1.只能研究只能研究1个危险因素;个危险因素; 2.只能得出定性结论。只能得出定性结论。2 种类种类: 1. 成组(非条件)成组(非条件)logistic回归方程。回归方程。 2. 配对(条件)配对(条件)logistic回归方程。回归方程。第一节第一节 logistic回归回归 (非条件(非条件logistic回归回归 )(一)基本概念和原理(一)基本概念和原理 1.1.应用背景应用背景 LogisticLogistic回归模型是一
4、种概率模型,适合于病例对照研究、随访研究和横断面研究,且结果发生的变量取值必须是二分的或多项分类。可用影响结果变量发生的因素为自变量与因变量,建立回归方程。 设资料中有一个因变量y、p个自变量x1, x2,xp,对每个实验对象共有n次观测结果,可将原始资料列成表2形式。2、LogisticLogistic回归模型的数据结构 表2 LogisticLogistic回归模型的数据结构实验对象 y X1 X2 X3 . XP 1 y1 a11 a12 a13 a1p 2 y2 a21 a22 a23 a2p 3 y3 a31 a32 a33 a3p n yn an1 an2 an3 anp 其中:y
5、取值是二值或多项分类 表3 肺癌与危险因素的调查分析 例号 是否患病 性别 吸烟 年龄 地区 1 1 1 0 30 0 2 1 0 1 46 1 3 0 0 0 35 1 30 0 0 0 26 1 注:是否患病中,0代表否,1代表是。性别中1代表男,0代表女,吸烟中1代表吸烟,0代表不吸烟。地区中,1代表农村,0代表城市。 LogisticLogistic回归回归- Logistic- Logistic回归与回归与多重多重线性回归联系与区别线性回归联系与区别联系联系: : 用于分析多个自变量与一个因变量的关用于分析多个自变量与一个因变量的关系,目的是矫正混杂因素、筛选自变量和更系,目的是矫正
6、混杂因素、筛选自变量和更精确地对因变量作预测等。精确地对因变量作预测等。区别区别: : 线性模型中因变量为连续性随机变量,线性模型中因变量为连续性随机变量,且要求呈正态分布且要求呈正态分布. Logistic. Logistic回归因变量的回归因变量的取值仅有两个,不满足正态分布。取值仅有两个,不满足正态分布。3 3、 Logistic回归模型l 令令: y=1 发病(阳性、死亡、治愈等)发病(阳性、死亡、治愈等)l y=0 未发病(阴性、生存、未治愈等)未发病(阴性、生存、未治愈等)l 将发病的概率记为将发病的概率记为P,它与自变量,它与自变量x x1 1, , x x2 2, ,x,xp
7、p之间的之间的Logistic回归模型为:回归模型为:l可知,不发病的概率为:可知,不发病的概率为:l )exp(1)exp(110110ppppXXXXp )exp(111110ppXXp 经数学变换得:定义:为Logistic变换,即: ppXXpp 110)1/(ln)1/(ln)(logpppitppXXpLogit 110)( 4、回归系数i的意义 流行病学的常用指标优势比(odds ratio,OR)或称比数比,定义为:暴露人群发病优势与非暴露人群发病优势之比。 即Xi的优势比为:)1/()1/(0011PPPPORiiiPitPitORLn)0() 1()0(log)1 (log
8、)(00 故对于样本资料OR=exp( ) 95%置信区间为: 可见 是影响因素Xi增加一个单位所引起的对数优势的增量,反映了其对Y作用大小。 如果要比较不同因素对Y作用大小,需要消除变量量纲的影响,为此计算标准化回归系数ibi的标准差。为的标准差,为其中ySXSSSbbyiiyiii,/*影响越大。其因素对的估计值,此值越大,为Ybii)(96. 1exp(iibSEb 二 、Logistic回归的参数估计及意义 Logistic回归的参数估计及意义 P表示某个体发生某病的概率,自变量表示m个危险因素,式中的常数项表示在无各危险因素时的发病概率对不发病概率之比的自然对数,而logistic回
9、归系数表示当危险因素每变化1个单位时(其它危险因素取值的变化量。 通常用最大似然估计法求解模型中参数的估计值 似然函数 niYiYiiiPPL11)1(5.假设检验 (1)回归方程的假设检验 H0:所有 H1: 某个 计算统计量为:G=-2lnL,服从自由度等于n-p的 分布 (2)回归系数的假设检验 H0: H1:pii, 2 , 1 , 0, 0 0i20i0i计算统计量为:Wald2,自由度等于1。 具体方法是:先拟合不包含待检验因素的logistic模型,求对数似然函数值;再拟合包含待检验因素的logistic模型,求另一个对数似然函数值;比较两个对数似然函数值差别的大小2d2lndG
10、DD 不包含此变量的模型 包含此变量的模型不含此变量的似然函数含此变量的似然函数2, 1jjjjbbbbuSS2 或 2值均大于 3.84,说明食道癌与吸烟、饮酒有关系,结论同前。 2. 3 score 检验检验 以未包含某个或几个变量的模型计算以未包含某个或几个变量的模型计算保留模型中参数的估计值,并假设新增保留模型中参数的估计值,并假设新增参数为零,计算似然函数的一价偏导数参数为零,计算似然函数的一价偏导数及信息距阵,两者相乘便得比分检验的及信息距阵,两者相乘便得比分检验的统计量统计量S S 。n n 较大时,较大时, S S近似服从自由近似服从自由度为待检因素个数的度为待检因素个数的 分
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Logistic 回归
限制150内