多元回归和回归原理讲稿.ppt
《多元回归和回归原理讲稿.ppt》由会员分享,可在线阅读,更多相关《多元回归和回归原理讲稿.ppt(82页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于多元回归和回归关于多元回归和回归原理原理第一页,讲稿共八十二页哦多元统计方法多元统计方法zz线性回归zzLogistic 回归zz注注:完完全全可可以以用用于于单单因因素素分分析析,从从这这一一点点也也可可以以看看出出统统计计学学的的方方法法是是相相通通的的。zzS SP PS SS S无无法法进进行行条条条条件件件件L Lo og gi is st ti ic c回回回回归归归归 ,就就像像s sa as s没没有有专专门门针针对对配配对对资资料料的的语语句句一一样样,任任何何统统计计软软件件均均有有局局限限性性。建立方程的计算量很大,一般需软件完成。前人手工计算这两种回归(借助科学计算
2、器),精神可嘉80 年代,一个Logistic回归即使用计算机,计算的时间也以天计。第二页,讲稿共八十二页哦调整或控制调整或控制zz多变量的控制或调整法就是同时记录可能有影响的因素,把他们与可能的危险因素一起作分析zz单因素分析有统计学意义,多因素分析没有意义的解释,举例第三页,讲稿共八十二页哦zzIn univariate analysis,the family histories of SAH and ICH were positively associated with each of the subtypes of stroke.whereas after adjustment for
3、 potential risk factors,family history of ICH no longer showed a significant association with haematoma.单因素分析有意义,多因素没有意义的解释单因素分析有意义,多因素没有意义的解释第四页,讲稿共八十二页哦zzFamily history of intracerebral haematoma was not an independent risk factor for haematoma,but it might be a good predictor,which indirectly inf
4、luences the pathogenesis of intracerebral haematoma via certain hereditary components such as hypertension,and even lifestyle factors such as alcohol consumption.第五页,讲稿共八十二页哦zzIs family history an independent risk factor for stroke?zzJ Neurol Neurosurg Psychiatry.1997 Jan;62(1):66-70.第六页,讲稿共八十二页哦多元线
5、性回归(简单步骤)指标多,难以理解。在计算自动化时代,这是回归的难点,我们不懂如何判断我们的模型的好坏第七页,讲稿共八十二页哦回归的实际应用回归的实际应用zz在影响因素分析中在影响因素分析中 一种是探索模式,在回归模型中探索所有可能的自变量与应变量的关系 一种是控制模式一种是控制模式,即控制混杂因素的影响,即控制混杂因素的影响zz后者对回归模型的要求要小的多,不出现异常情况,后者对回归模型的要求要小的多,不出现异常情况,可仅对模型拟合稍作考虑。可仅对模型拟合稍作考虑。第八页,讲稿共八十二页哦SPSS菜单菜单zzanalyze-regression-linear第九页,讲稿共八十二页哦变量的数量
6、化(1)自变量为连续型变量:必要时作变换(2)自变量为有序变量:依次赋值,如疗效好中差,可分别赋值3、2、1(3)自变量为二分类:如令男1,女0(4)自变量为名义分类:需要采用哑变量(dummy variables)进行编码 第十页,讲稿共八十二页哦名义分类变量的哑变量化 假如职业分类为工、农、商、学、兵5类,则可定义比分类数少1个,即4个哑变量。编码方法如下:第十一页,讲稿共八十二页哦数据格式数据格式第十二页,讲稿共八十二页哦回归的一些定义回归的一些定义应变量(应变量(应变量(应变量(dependent variable)dependent variable)自变量(自变量(自变量(自变量(
7、independent variableindependent variable)偏回归系数偏回归系数偏回归系数偏回归系数 pertial regression coefficientpertial regression coefficient常数项常数项常数项常数项b b0 0决定系数决定系数决定系数决定系数 determination coefficientdetermination coefficient,R squareR square共线性共线性共线性共线性 collinearity:自变量间存在着线性关系自变量间存在着线性关系yi=b0+b1x1i+b2x2i+bnxni第十三页,
8、讲稿共八十二页哦回归方程的建立回归方程的建立zz就是求解b0和bi的过程zz矩阵的各种计算(求解线性方程)zzSPSS的实现:analyze-regression-linear将回归方程中的所有自变量作为一个整体来检验他们于应变量之间是否具有线性关系,P0.05,说明所拟合的方程具有统计学意义,但并不说明模型拟合的好坏各自变量的假设检验与评价,检验各自变量和应变量是否有线性关系,P(可放宽)说明有线性关系,同样t值不说明线性关系的强弱,这样,一个回归方程就建立了,回归方程的建立就是如此easy。第十四页,讲稿共八十二页哦线性与拟合优度线性与拟合优度zz有线性关系拟合优度不一定很好有线性关系拟合
9、优度不一定很好zz上述上述F F和和t t检验有统计学意义,只是说明 自变量与y有线性关系,但未能表示“关系有多大”zz举例:上述方程的举例:上述方程的R R2 2很小,但因为样本量大,很小,但因为样本量大,F F值很值很大大zzR R2的意义:可以由BMI,age和膳食口味解释和膳食口味解释SBPSBP的4.3变化zz我认为,因素分析可以只考虑线性关系的有无。特别我认为,因素分析可以只考虑线性关系的有无。特别是在控制模式中。是在控制模式中。第十五页,讲稿共八十二页哦自变量的选择zz全全局局择择优优法法:求求求求出出出出所所所所有有有有可可可可能能能能的的的的回回回回归归归归模模模模型型型型(
10、共共共共有有有有2 2mm1 1个个个个)对对对对应应应应的的的的准准准准则则则则值值值值;按按按按R R2 2,C Cp p准准准准则则则则,A AI IC C准准准准则则则则等等等等统统统统计计计计量量量量选选选选择择择择最最最最优优优优模模模模型型型型。求求出出所所有有可可能能的的回回归归模模型型(共共有有2m1个个)对对应应的的准准则则值值;按按上上述述准准则则选选择择最最优优模模型型缺缺点点:zz如如果果自自变变量量个个数数为为4 4,则则所所有有的的回回归归有有2 24 41 1 1 15 5个个;当当自自变变量量数数个个数数为为1 10 0时时,所所有有可可能能的的回回归归为为
11、2 21 10 01 1 1 10 02 23 3个个;当当自自变变量量数数个个数数为为5 50 0时时,所所有有可可能能的的回回归归为为2 25 50 01 11 10 01 15 5个个。第十六页,讲稿共八十二页哦全局择优法zz决定系数(R2)和校正决定系数校正决定系数(R2c),可以用来评价回归方程的优劣。【R R2 2随着自变量个数的增加随着自变量个数的增加随着自变量个数的增加随着自变量个数的增加而增加,所以需要校正而增加,所以需要校正而增加,所以需要校正而增加,所以需要校正】校正决定系数校正决定系数(R2c)越大,方程越优。zzCp选择法:选择Cp最接近p或p1的方程(不同学者解释不
12、同)。Cp无法用Spss直接计算,可能需要手工。其中p为方程中自变量的个数,m为自变量总个数第十七页,讲稿共八十二页哦Cp准则的计算公式准则的计算公式第十八页,讲稿共八十二页哦AIC准则的计算公式第十九页,讲稿共八十二页哦自变量的选择逐步选择法zz逐步选择法:逐步选择法:(一)前进法(一)前进法(一)前进法(一)前进法(forwardforward)(二)后退法(二)后退法(二)后退法(二)后退法(backwardbackward)(三)(三)(三)(三)逐步回归法(逐步回归法(逐步回归法(逐步回归法(stepwisestepwise)小样本检验水准小样本检验水准定为0.10或0.15,大样本
13、把值定为0.05。值越小表示选取自变量的标准越严。注意,引入变量的检验水准要小于或等于剔除变量的注意,引入变量的检验水准要小于或等于剔除变量的检验水准。检验水准。第二十页,讲稿共八十二页哦自变量到底如何选择自变量到底如何选择zz两种方法结合手工选择,逐步选择法选择后手两种方法结合手工选择,逐步选择法选择后手工增减变量看校正决定系数工增减变量看校正决定系数(R2c)等方程拟合优劣指标的好坏zz放宽或限制进入方程的标准,特别是在逐步回归的时候zz硬性进入方程最感兴趣的研究变量第二十一页,讲稿共八十二页哦统计“最优”与专业的“最优”不同准则、方法得出的“最优”方程不同;不同的引入、剔除标准获得的“最
14、优”方程不同;方程还受数据的正确性、共线性影响第二十二页,讲稿共八十二页哦强影响点,记录的选择强影响点,记录的选择变量记录第二十三页,讲稿共八十二页哦强影响点,记录的选择强影响点,记录的选择zz从理论上讲,每一个样本点对回归模型的影响应该是同等的,实际并非如此。有些样本点(记录)对回归模型影响很大。对由过失或错误造成的点应删去zz没有错误的强影响点可能和自变量与应变量的相关有关,不可轻易删除。第二十四页,讲稿共八十二页哦判断强影响点的指标判断强影响点的指标zzSPSS软件中的指标zzanalyze-regression-linear-savezzSave中的选项均进入数据库,而不出现在outp
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 回归 原理 讲稿
限制150内