第十五章 logistic回归分析.ppt
第十五章第十五章 logistic回归分析回归分析 Logistic Regression Analysis 山东大学公共卫生学院回归分析的分类回归分析的分类多个因变量多个因变量(y1,y2,yk)路径分析路径分析结构方程模型分析结构方程模型分析一个一个因变因变量量 y连续型因变量连续型因变量(y)-线性回归分析线性回归分析分类型因变量分类型因变量(y)-Logistic 回归分析回归分析时间序列因变量时间序列因变量(t)-时间序列分析时间序列分析生存时间因变量生存时间因变量(t)-生存风险回归分生存风险回归分析析logistic回归(logistic regression)是研究因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的一种多变量分析方法,属概率型非线性回归。在流行病学研究中,常需要分析疾病与各种危险因素间的定量关系,同时为了能真实反映暴露因素与观察结果间的关系,需要控制混杂因素的影响。(1)Mantel-Haenszel分层分析:适用于样本量大、分析因素较少的情况。当分层较多时,由于要求各格子中例数不能太少,所需样本较大,往往难以做到;当混杂因素较多时,分层数也呈几何倍数增长,这将导致部分层中某个格子的频数为零,无法利用其信息。(2)线性回归分析:由于因变量是分类变量,不能满足其正态性要求;有些自变量对因变量的影响并非线性。logistic回归:不仅适用于病因学分析,也可用于其他方面的研究,研究某个二分类(或无序及有序多分类)目标变量与有关因素的关系。logistic回归的分类:(1)二分类资料logistic回归:因变量为两分类变量的资料,可用非条件logistic回归和条件logistic回归进行分析。非条件logistic回归多用于非配比病例-对照研究或队列研究资料,条件logistic回归多用于配对或配比资料。(2)多分类资料logistic回归:因变量为多项分类的资料,可用多项分类logistic回归模型或有序分类logistic回归模型进行分析。队列研究(cohort study):也称前瞻性研究、随访研究等。是一种由因及果的研究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人群和非暴露人群,在一定时期内,随访观察和比较两组人群的发病率或死亡率。如果两组人群发病率或死亡率差别有统计学意义,则认为暴露和疾病间存在联系。队列研究验证的暴露因素在研究开始前已存在,研究者知道每个研究对象的暴露情况。研究人群研究人群+-+-调查方向:追踪收集资料调查方向:追踪收集资料比较比较疾病疾病人数人数暴露暴露abcda/(a+b)c/(c+d)队列研究原理示意图队列研究原理示意图RR(相对危险度(相对危险度relative risk):):表示暴露组与非暴露组发病率(或死亡率)的比值。也称为危险比(risk ratio)。反映了暴露与疾病发生的关联强度。RR表明暴露组发病或死亡的危险是非暴露组的多少倍。病例对照研究(case-control studies):一种由果及因的回顾性研究,先按疾病状态确定调查对象,分为病例(case)和对照(control)两组,然后利用已有的记录、或采用询问、填写调查表等方式,了解其发病前的暴露情况,并进行比较,推测疾病与暴露间的关系。+-病例病例+-对照对照调查方向:收集回顾性资料调查方向:收集回顾性资料abcda/(a+b)c/(c+d)比较比较人数人数暴露暴露疾病疾病病例对照原理示意图病例对照原理示意图相对危险度相对危险度RR的本质是暴露组与非暴露组发病率之比或发病概率之的本质是暴露组与非暴露组发病率之比或发病概率之比。但病例对照研究不能计算发病率,只能计算比值比比。但病例对照研究不能计算发病率,只能计算比值比OR值。值。OR与与RR的含义是相同的,也是指暴露组的疾病危险性为非暴露组的多的含义是相同的,也是指暴露组的疾病危险性为非暴露组的多少倍。当疾病发病率小于少倍。当疾病发病率小于5%时,时,OR是是RR的极好近似值。的极好近似值。OR1,说明说明 该因素是疾病的危险性增加,为危险因素;该因素是疾病的危险性增加,为危险因素;OR1,说明说明 该因素是疾病的危险性减小,为保护因素;该因素是疾病的危险性减小,为保护因素;病例对照研究的类型病例对照研究的类型(一)病例与对照不匹配-非条件非条件logisticlogistic回归回归在设计所规定的病例和对照人群中,分别抽取一定量的研究对象,一般对照应等于或多于病例数,此外无其他任何限制。(二)病例与对照匹配-条件logistic回归匹配或称配比(matching),即要求对照在某些因素或特征上与病例保持一致,目的是对两组比较时排除混杂因素的干扰。匹配分为成组匹配和个体匹配。(二)病例与对照匹配-条件logistic回归1、成组匹配(category matching):匹配的因素所占的比例,在对照组和在病例组一致。如病例组中男女各半,65岁以上者占1/3,则对照组也是如此。2、个体匹配(individual matching):以病例和对照的个体为单位进行匹配叫个体匹配。1:1匹配又叫配对(pair matching),1:2,1:m匹配时称为匹配。匹配的特征必须是已知的混杂因子,或者有充分的理由怀疑其为混杂因子,否则不应匹配。(三)巢式病例对照研究也称为队列内的病例对照研究,是将队列研究和病例对照研究相结合的方法。第一节第一节 logistic回归回归 二、二、logistic回归模型的参数估计回归模型的参数估计 例例15-1 在logistic过程步中加“descending”选项的目的是使SAS过程按阳性率(y=1)拟合模型,得到阳性病例对应于阴性病例的优势比。观观察察例例数数OR值OR的95%CI对偏回归系数的假设检验三、三、logistic回归模型的假设检验回归模型的假设检验 概率概率p值均小值均小于于0.05,说明,说明方程有意义。方程有意义。对所拟合模型的假设检验:对所拟合模型的假设检验:四、变量筛选四、变量筛选 例例 某工作者在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一批行根治性肾切除术患者的肾癌标本资料,现从中抽取26例。试用logistic回归分析筛选出于癌细胞转移有关的危险因素(变量选入和剔除水平均为0.10)。用逐步回用逐步回归法拟合归法拟合模型模型,变量变量选入和剔选入和剔除水平均除水平均为为0.10 指定选项“des”是为了按照y=1(有转移)的概率拟合模型。如果不加此选择项,则软件会按照y=0(无转移)的概率拟合模型,此时,应变量的排序水平发生颠倒,且所有参数估计的符号相反,OR值为原来的倒数。logistic逐步回归分析筛选出两个有统计学意义的变量为x2和x4,回归系数分别为2.4134和2.0963,比数比分别为11.172和8.136。结果中还给出了标准化偏回归系数,肾癌细胞核组织学分级(x4)在引起癌细胞转移中的危险性大于肾细胞癌血管内皮生长因子(x2)。第二节第二节 条件条件logistic回归回归 例例 研究肥胖(x1,肥胖为1,不肥胖为0)、口服避孕药雌激素(x2,用药为1,不用药为0)与子宫内膜癌(y,病例为0,对照为1)的关系,采用1:2配对做病例-对照研究,共调查20个配比组。试分析肥胖、口服避孕药雌激素与子宫内膜癌的关系。第三节第三节 logistic回归的应用及其注意事项回归的应用及其注意事项 如果药物或毒物不止一种,也可以用logistic模型分析其联合作用。4预测与判别预测与判别 logistic回归模型是一个概率型模型,对非条件Logistic回归,在给定的条件下可通过logistic回归模型计算某事件发生的概率。因此可以利用它预测某事件发生的概率。在临床上也可以根据疾病与临床检查指标资料,建立logistic回归模型,对新的对象可根据其临床检查指标,计算其患某种疾病的概率的大小,进行判别分析。