《多元回归和回归原理精选PPT.ppt》由会员分享,可在线阅读,更多相关《多元回归和回归原理精选PPT.ppt(82页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于多元回归和回归关于多元回归和回归原理原理第1页,讲稿共82张,创作于星期日多元统计方法多元统计方法zz线性回归zzLogistic 回归zz注注:完完全全可可以以用用于于单单因因素素分分析析,从从这这一一点点也也可可以以看看出出统统计计学学的的方方法法是是相相通通的的。zzS SP PS SS S无无法法进进行行条条条条件件件件L Lo og gi is st ti ic c回回回回归归归归 ,就就像像s sa as s没没有有专专门门针针对对配配对对资资料料的的语语句句一一样样,任任何何统统计计软软件件均均有有局局限限性性。建立方程的计算量很大,一般需软件完成。前人手工计算这两种回归(借
2、助科学计算器),精神可嘉80 年代,一个Logistic回归即使用计算机,计算的时间也以天计。第2页,讲稿共82张,创作于星期日调整或控制调整或控制zz多变量的控制或调整法就是同时记录可能有影响的因素,把他们与可能的危险因素一起作分析zz单因素分析有统计学意义,多因素分析没有意义的解释,举例第3页,讲稿共82张,创作于星期日zzIn univariate analysis,the family histories of SAH and ICH were positively associated with each of the subtypes of stroke.whereas after
3、 adjustment for potential risk factors,family history of ICH no longer showed a significant association with haematoma.单因素分析有意义,多因素没有意义的解释单因素分析有意义,多因素没有意义的解释第4页,讲稿共82张,创作于星期日zzFamily history of intracerebral haematoma was not an independent risk factor for haematoma,but it might be a good predictor,
4、which indirectly influences the pathogenesis of intracerebral haematoma via certain hereditary components such as hypertension,and even lifestyle factors such as alcohol consumption.第5页,讲稿共82张,创作于星期日zzIs family history an independent risk factor for stroke?zzJ Neurol Neurosurg Psychiatry.1997 Jan;62
5、(1):66-70.第6页,讲稿共82张,创作于星期日多元线性回归(简单步骤)指标多,难以理解。在计算自动化时代,这是回归的难点,我们不懂如何判断我们的模型的好坏第7页,讲稿共82张,创作于星期日回归的实际应用回归的实际应用zz在影响因素分析中在影响因素分析中 一种是探索模式一种是探索模式,在回归模型中探索所有可能,在回归模型中探索所有可能的自变量与应变量的关系的自变量与应变量的关系 一种是控制模式一种是控制模式,即控制混杂因素的影响,即控制混杂因素的影响zz后者对回归模型的要求要小的多,不出现异常情况,后者对回归模型的要求要小的多,不出现异常情况,可仅对模型拟合稍作考虑。可仅对模型拟合稍作考
6、虑。第8页,讲稿共82张,创作于星期日SPSS菜单菜单zzanalyze-regression-linear第9页,讲稿共82张,创作于星期日变量的数量化(1)自变量为连续型变量:必要时作变换(2)自变量为有序变量:依次赋值,如疗效好中差,可分别赋值3、2、1(3)自变量为二分类:如令男1,女0(4)自变量为名义分类:需要采用哑变量(dummy variables)进行编码 第10页,讲稿共82张,创作于星期日名义分类变量的哑变量化 假如职业分类为工、农、商、学、兵5类,则可定义比分类数少1个,即4个哑变量。编码方法如下:第11页,讲稿共82张,创作于星期日数据格式数据格式第12页,讲稿共82
7、张,创作于星期日回归的一些定义回归的一些定义应变量(应变量(应变量(应变量(dependent variable)dependent variable)自变量(自变量(自变量(自变量(independent variableindependent variable)偏回归系数偏回归系数偏回归系数偏回归系数 pertial regression coefficientpertial regression coefficient常数项常数项常数项常数项b b0 0决定系数决定系数决定系数决定系数 determination coefficientdetermination coefficient,
8、R squareR square共线性共线性共线性共线性 collinearity:自变量间存在着线性关系自变量间存在着线性关系yi=b0+b1x1i+b2x2i+bnxni第13页,讲稿共82张,创作于星期日回归方程的建立回归方程的建立zz就是求解b0和bi的过程zz矩阵的各种计算(求解线性方程)zzSPSS的实现:analyze-regression-linear将回归方程中的所有自变量作为一个整体来检验他们于应变量之间是否具有线性关系,P0.05,说明所拟合的方程具有统计学意义,但并不说明模型拟合的好坏各自变量的假设检验与评价,检验各自变量和应变量是否有线性关系,P(可放宽)说明有线性关
9、系,同样t值不说明线性关系的强弱,这样,一个回归方程就建立了,回归方程的建立就是如此easy。第14页,讲稿共82张,创作于星期日线性与拟合优度线性与拟合优度zz有线性关系拟合优度不一定很好有线性关系拟合优度不一定很好zz上述上述F F和和t t检验有统计学意义,只是说明检验有统计学意义,只是说明 自变量与自变量与y y有线性关系,但未能表示有线性关系,但未能表示“关系有多大关系有多大”zz举例:上述方程的举例:上述方程的R R2 2很小,但因为样本量大,很小,但因为样本量大,F F值很值很大大zzR R2 2的意义:可以由的意义:可以由BMIBMI,ageage和膳食口味解释和膳食口味解释S
10、BPSBP的的4.34.3变化变化zz我认为,因素分析可以只考虑线性关系的有无。我认为,因素分析可以只考虑线性关系的有无。特别是在控制模式中。特别是在控制模式中。第15页,讲稿共82张,创作于星期日自变量的选择zz全全局局择择优优法法:求求求求出出出出所所所所有有有有可可可可能能能能的的的的回回回回归归归归模模模模型型型型(共共共共有有有有2 2mm1 1个个个个)对对对对应应应应的的的的准准准准则则则则值值值值;按按按按R R2 2,C Cp p准准准准则则则则,A AI IC C准准准准则则则则等等等等统统统统计计计计量量量量选选选选择择择择最最最最优优优优模模模模型型型型。求求出出所所有
11、有可可能能的的回回归归模模型型(共共有有2m1个个)对对应应的的准准则则值值;按按上上述述准准则则选选择择最最优优模模型型缺缺点点:zz如如果果自自变变量量个个数数为为4 4,则则所所有有的的回回归归有有2 24 41 1 1 15 5个个;当当自自变变量量数数个个数数为为1 10 0时时,所所有有可可能能的的回回归归为为 2 21 10 01 1 1 10 02 23 3个个;当当自自变变量量数数个个数数为为5 50 0时时,所所有有可可能能的的回回归归为为2 25 50 01 11 10 01 15 5个个。第16页,讲稿共82张,创作于星期日全局择优法zz决定系数(R2)和校正决定系数校
12、正决定系数(R2c),可以用来评价回归方程的优劣。【R R2 2随着自变量个数的增随着自变量个数的增随着自变量个数的增随着自变量个数的增加而增加,所以需要校正加而增加,所以需要校正加而增加,所以需要校正加而增加,所以需要校正】校正决定系数校正决定系数(R2c)越大,方程越优。zzCp选择法:选择Cp最接近p或p1的方程(不同学者解释不同)。Cp无法用Spss直接计算,可能需要手工。其中p为方程中自变量的个数,m为自变量总个数第17页,讲稿共82张,创作于星期日Cp准则的计算公式准则的计算公式第18页,讲稿共82张,创作于星期日AIC准则的计算公式第19页,讲稿共82张,创作于星期日自变量的选择
13、逐步选择法zz逐步选择法:逐步选择法:逐步选择法:逐步选择法:(一)前进法(一)前进法(一)前进法(一)前进法(forwardforward)(二)后退法(二)后退法(二)后退法(二)后退法(backwardbackward)(三)(三)(三)(三)逐步回归法(逐步回归法(逐步回归法(逐步回归法(stepwisestepwise)小样本检验水准小样本检验水准 定为定为0.100.10或或0.150.15,大样本把值定为,大样本把值定为0.050.05。值越小表示选取自变量的标准越严。值越小表示选取自变量的标准越严。注意,引入变量的检验水准要小于或等于剔除变量注意,引入变量的检验水准要小于或等于
14、剔除变量的检验水准。的检验水准。第20页,讲稿共82张,创作于星期日自变量到底如何选择自变量到底如何选择zz两种方法结合手工选择,逐步选择法选择后两种方法结合手工选择,逐步选择法选择后手工增减变量看校正决定系数手工增减变量看校正决定系数(R2c)等方程拟合优劣指标的好坏zz放宽或限制进入方程的标准,特别是在逐步回归的时候zz硬性进入方程最感兴趣的研究变量第21页,讲稿共82张,创作于星期日统计“最优”与专业的“最优”不同准则、方法得出的“最优”方程不同;不同的引入、剔除标准获得的“最优”方程不同;方程还受数据的正确性、共线性影响第22页,讲稿共82张,创作于星期日强影响点,记录的选择强影响点,
15、记录的选择变量记录第23页,讲稿共82张,创作于星期日强影响点,记录的选择强影响点,记录的选择zz从理论上讲,每一个样本点对回归模型的影响应该是同等的,实际并非如此。有些样本点(记录)对回归模型影响很大。对由过失或错误造成的点应删去zz没有错误的强影响点可能和自变量与应变量的相关有关,不可轻易删除。第24页,讲稿共82张,创作于星期日判断强影响点的指标判断强影响点的指标zzSPSS软件中的指标zzanalyze-regression-linear-savezzSave中的选项均进入数据库,而不出现在output中zz各种残差越大,单一记录对方程的影响越大第25页,讲稿共82张,创作于星期日判断
16、强影响点的指标(判断强影响点的指标(2)距1越远,越是强影响点其余指标绝对值越大越是强影响点第26页,讲稿共82张,创作于星期日多重共线性 自变量间存在着线性关系,使一个或几个自变量可以由另外的自变量线性表示时,称为该变量与另外的自变量间存在有共线性(collinearity)。容易出现:回归系数的符号与由专业知识不符变量的重要性与专业不符整个方程决定系数R2高,但各自变量对应的回归系数均不显著。第27页,讲稿共82张,创作于星期日多重共线性的诊断多重共线性的诊断zzSPSS中的指标zz容许度:越近似于0,共线性越强zz特征根:越近似于0,共线性越强zz条件指数:越大,共线性越强第28页,讲稿
17、共82张,创作于星期日Spss的实现与结果的实现与结果zzanalyze-regression-linear-statistics第29页,讲稿共82张,创作于星期日实例实例zz以BMI为应变量,SBP,DBP和年龄为自变量进行回归。结果如图zz极端例子:以SBP为应变量,BMI和复制BMI为自变量,结果为其中之一无法进入方程从第四个特征根看,特征根小,条件指数大,从变量的方差比例来看,SBP和DBP在其中贡献最大,可以说两者有近似共线性不过两者的共线性对方程的影响并不大第30页,讲稿共82张,创作于星期日容许度越近于0共线性越大,等于0,完全共线复制的BMI根本无法进入方程后面讨论交互作用的
18、时候我们还要提到共线性第31页,讲稿共82张,创作于星期日一、应用影响因素分析,控制混杂因素预测:由自变量值推出应变量Y的值控制:指定应变量Y的值查看自变量的改变量影响因素分析,控制混杂因素影响因素分析,控制混杂因素在医学研究中最为长用,个人认为在医学研究中最为长用,个人认为对模型拟合要求较低,特别在对模型拟合要求较低,特别在控制混杂的控制模式中控制混杂的控制模式中后两种用途对模型要求严格第32页,讲稿共82张,创作于星期日二、应用条件第33页,讲稿共82张,创作于星期日回归系数符号反常与主要变量选不进方程的回归系数符号反常与主要变量选不进方程的原因分析原因分析zz有重要影响的因素未包括在内z
19、z某些变量个体间的差异很大zz样本内突出点上数据误差大zz变量的变化范围较小zz样本数太少上述各项在用最小二乘法求解方程过程中对残差等重要中间指标的影响大,造成最小二乘法的失效。第34页,讲稿共82张,创作于星期日线性回归的注意事项线性回归的注意事项应应变变量量为为连连续续变变量量,自自变变量量可可以以为为连连续续变变量量、分分类类变变量量或或有有序序变变量量样样本本含含量量:一一般般要要求求样样本本量量n n至至少少是是方方程程中中自自变变量量个个数数mm的的5 5-1 10 0倍倍逐逐步步回回归归不不是是万万能能的的,一一个个g go oo od d o of f f fi it t好好的
20、的模模型型建建立立需需要要多多方方面面考考证证。多多重重共共线线性性:自自变变量量存存在在较较强强的的线线性性关关系系检检验验两两变变量量间间有有无无交交互互作作用用,普普遍遍的的做做法法是是在在方方程程中中加加入入它它们们的的乘乘积积项项再再做做检检验验。但但共共线线性性的的问问题题会会因因此此而而突突出出,举举例例共线性很大SPSS菜单在处理回归中选项较少,菜单在处理回归中选项较少,但完全可以满足一般模型的拟合。但完全可以满足一般模型的拟合。其其syntax模式应该有更多选项,但鉴模式应该有更多选项,但鉴于介绍这方面内容的书籍文献较少。于介绍这方面内容的书籍文献较少。如确实需要严格的模型拟
21、合,如确实需要严格的模型拟合,SAS可能是更好的选择可能是更好的选择第35页,讲稿共82张,创作于星期日回归的发展回归的发展zz加权回归zz有重复测量的回归分析:对每一个回归变量x的y有多次重复的测量值。zz岭回归分析:改进的最小二乘方,用于自变量相关性大,或某些变量变化范围太小。可用sas实现。第36页,讲稿共82张,创作于星期日Logistic回归回归zz实际上属于判别分析,因拥有很差的判别效率而不常用。zz适用于流行病学资料的因素分析zz实验室中药物的剂量-反应关系zz临床试验评价zz疾病的预后因素分析第37页,讲稿共82张,创作于星期日二、Logistic回归模型zzLogistic回
22、归的分类回归的分类 二分类二分类二分类二分类 多分类多分类多分类多分类 其中二分较为常用其中二分较为常用其中二分较为常用其中二分较为常用 条件条件条件条件LogisticLogistic回归回归回归回归 非条件非条件非条件非条件LogisticLogistic回归回归回归回归 两者针对的资料类型不一样,后者者两者针对的资料类型不一样,后者者两者针对的资料类型不一样,后者者两者针对的资料类型不一样,后者者针对针对针对针对 成组研究,前者针对配对或配伍研究。成组研究,前者针对配对或配伍研究。成组研究,前者针对配对或配伍研究。成组研究,前者针对配对或配伍研究。第38页,讲稿共82张,创作于星期日26
23、例冠心病病人和例冠心病病人和28例对照者进行病例对照者进行病例例 对照研究(变量赋值表)对照研究(变量赋值表)自变量为连续变自变量为连续变自变量为连续变自变量为连续变量,最好变为等量,最好变为等量,最好变为等量,最好变为等级或计数资料级或计数资料级或计数资料级或计数资料有统计学家持反对意见认为损失信息第39页,讲稿共82张,创作于星期日26例冠心病病人和例冠心病病人和28例对照者进行病例对照者进行病例例 对照研究(数据格式)对照研究(数据格式)第40页,讲稿共82张,创作于星期日Logistic回归方程的建立回归方程的建立建立方程就是求解b0,b1bp第41页,讲稿共82张,创作于星期日zzL
24、ogisticLogistic回归中的常数项(回归中的常数项(b b0)表示,在不接触任何表示,在不接触任何表示,在不接触任何表示,在不接触任何潜在危险保护因素条件下,效应指标发生与不发生潜在危险保护因素条件下,效应指标发生与不发生潜在危险保护因素条件下,效应指标发生与不发生潜在危险保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。事件的概率之比的对数值。事件的概率之比的对数值。事件的概率之比的对数值。zzLogisticLogistic回归中的回归系数(回归中的回归系数(回归中的回归系数(回归中的回归系数(bi i )表示,某一因素改表示,某一因素改表示,某一因素改表示,某一因素改
25、变一个单位时,效应指标发生与不发生事件的概率之变一个单位时,效应指标发生与不发生事件的概率之变一个单位时,效应指标发生与不发生事件的概率之变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即比的对数变化值,即比的对数变化值,即比的对数变化值,即OROR或或RR的对数值。的对数值。参数意义参数意义第42页,讲稿共82张,创作于星期日回归系数的意义单单纯纯从从数数学学上上讲讲,与与多多元元线线性性回回归归分分析析中中回回归归系系数数的的解解释释并并无无不不同同,亦亦即即bi表表示示xi改改变变一一个个单单位位时时,logit P的的平平均均变变化化量量。第43页,讲稿共82张,创作于星
26、期日多因素多因素Logistic回归分析时,对回归系数的解回归分析时,对回归系数的解释都是指在释都是指在其它所有自变量固定其它所有自变量固定的情况下的情况下的优势比。的优势比。存在因素间交互作用时,存在因素间交互作用时,Logistic回归系数的回归系数的解释变得更为复杂,应特别小心。解释变得更为复杂,应特别小心。z z调整与控制第44页,讲稿共82张,创作于星期日流行病学中的一些基本概念:流行病学中的一些基本概念:相对危险度相对危险度(relative risk):RR=P1/P2比数比数Odds=P/(1-P)比数比比数比OR=P/(1-P)/P/(1-P)在患病率较小情况下,在患病率较小
27、情况下,ORRR第45页,讲稿共82张,创作于星期日根据根据Wald检验可知,检验可知,Logistic回归系数回归系数bi服从服从u u分布。因此其可信区间为分布。因此其可信区间为进而,优势比进而,优势比e(bi)的可信区间为的可信区间为第46页,讲稿共82张,创作于星期日参数估计参数估计似然函数计算方法最大似然法迭代法1.初始值2.迭代次数3.人为精度4.可能不收敛总体来说,解比较稳定。第47页,讲稿共82张,创作于星期日SPSS的实现的实现zzanalyze-regression-binary logistic第48页,讲稿共82张,创作于星期日analyze-regression-bi
28、nary logistic-option模型拟合优度指标,2值越小,P值越大表明模型越好迭代过程,可以监察方程计算的过程参数估计的相关矩阵,每步各协变量的零级相关系数(简单相关系数)均小(,说明 Logistic方程总体有意义,借用线性的 解释来说将回归方程中的所有自变量作为一个整体来检验他们于应变量之间是否具有线性线性线性线性关系,P0.05,说明所拟合的方程具有统计学意义,但并不说明模型拟合的好坏:真正的模型拟合一般要把其提高到0.20或0.10而非0.05。第51页,讲稿共82张,创作于星期日结果结果3模型拟合优度指标,模型拟合优度指标,模型拟合优度指标,模型拟合优度指标,2 2 2 2
29、值越小,值越小,值越小,值越小,P P P P值越大表明模型越好值越大表明模型越好值越大表明模型越好值越大表明模型越好两种两种两种两种R2R2R2R2的解释与线性的解释与线性的解释与线性的解释与线性方程同,方程同,方程同,方程同,14.914.914.914.9在流行病学在流行病学在流行病学在流行病学研究中算一个比较好的了研究中算一个比较好的了研究中算一个比较好的了研究中算一个比较好的了判别分析用表判别分析用表判别分析用表判别分析用表第52页,讲稿共82张,创作于星期日结果结果4Wald检验检验(wald test)即广义的即广义的t检验,统计量为检验,统计量为u,u,下面详细讨论之下面详细讨论之参数估计的相关矩阵,每步各协变量的零级相关系数(简单相关系数)均小(,!第78页,讲稿共82张,创作于星期日参考书目参考书目zz孙振球,医学统计学(供研究生用).人民卫生出版社,2002,第一版。zz孙尚拱,医学多变量统计与统计软件.北京医科大学出版社.2000,第一版.zz刘润幸,医学统计学方法与应用(上、下册).2001.第一版.zz倪宗瓒,卫生统计学.2001.第四版第79页,讲稿共82张,创作于星期日精品课件精品课件!第80页,讲稿共82张,创作于星期日精品课件精品课件!第81页,讲稿共82张,创作于星期日感感谢谢大大家家观观看看第82页,讲稿共82张,创作于星期日
限制150内