高级统计多元回归精选PPT.ppt
高级统计多元回归高级统计多元回归第1页,此课件共26页哦1.1.回归模型的拟合度回归模型的拟合度第2页,此课件共26页哦简单回归从散点图开始有助我们对变量间的关系有从散点图开始有助我们对变量间的关系有一个形象化的了解。一个形象化的了解。如何对变量间的关系进行更准确的描述?如何对变量间的关系进行更准确的描述?线性回归线性回归画出回归线画出回归线哪条直线是最优拟合?哪条直线是最优拟合?第3页,此课件共26页哦回归线回归线拟合的程度怎样?第4页,此课件共26页哦残差残差从点到线的离差可代表拟合的程度(残差)(残差)Residuals第5页,此课件共26页哦作回归线作回归线使离差的平方和为最小 离差=y 观测值-y 预测值叫做 Least-squares regression回归方程y=a+bxIGRAPH/VIEWNAME=Scatterplot/X1=VAR(salbegin)TYPE=SCALE/Y=VAR(salary)TYPE=SCALE/COORDINATE=VERTICAL /FITLINE METHOD=REGRESSION LINEAR LINE=TOTAL第6页,此课件共26页哦好的模型残差很小R2=0.89第7页,此课件共26页哦一般的模型R2=0.35残差较大第8页,此课件共26页哦差的模型R2=0.002这里的直线基本不能描述数据第9页,此课件共26页哦2.2.2.2.多元回归的方法(多元回归的方法(多元回归的方法(多元回归的方法(methodmethodmethodmethod)第10页,此课件共26页哦多元回归的方法(多元回归的方法(methodmethod)方法间的区别在于如何处理相关的自变量重叠部方法间的区别在于如何处理相关的自变量重叠部分的方差,即用何原则确定变量进入方程的次序分的方差,即用何原则确定变量进入方程的次序标准回归或同时回归:标准回归或同时回归:Enter逐步回归:逐步回归:Stepwise层次回归:层次回归:hierarchical 第11页,此课件共26页哦标准回归标准回归亦称同时回归(亦称同时回归(simultaneous)重叠部分对重叠部分对R2有贡献,但不分配到任何有贡献,但不分配到任何一个自变量中一个自变量中与其他自变量重叠区域大的自变量的相与其他自变量重叠区域大的自变量的相对重要性可能被忽视对重要性可能被忽视第12页,此课件共26页哦逐步回归:逐步回归:StepwiseStepwise在分析的每一阶段,与因变量有最大偏相关的自在分析的每一阶段,与因变量有最大偏相关的自变量被加在模型上。变量被加在模型上。变式变式ForwardBackwardremove拟合度最优,用于探索性回归拟合度最优,用于探索性回归最好最好 n 20 IV慎推广,须交互验证慎推广,须交互验证 第13页,此课件共26页哦层次回归:层次回归:hierarchical hierarchical 研究者根据理论假设确定次序,定义研究者根据理论假设确定次序,定义block因果顺序在前的,先进入方程因果顺序在前的,先进入方程欲考察的重要变量或者放在前,或放欲考察的重要变量或者放在前,或放在最后在最后应选择应选择 statistics R square change第14页,此课件共26页哦3.3.3.3.多元回归的数据要求多元回归的数据要求多元回归的数据要求多元回归的数据要求第15页,此课件共26页哦多元回归的数据要求多元回归的数据要求 (1 1)因变量应为等距因变量应为等距/等比型变量。等比型变量。在实际操作中,如果有足够的水在实际操作中,如果有足够的水平,顺序型变量也可。如果因变量平,顺序型变量也可。如果因变量 是命名型,则须用判别分析是命名型,则须用判别分析或或 logistic regression。自变量应为等距自变量应为等距/等比型变量。在实际操作中,顺序型变量也可。等比型变量。在实际操作中,顺序型变量也可。命名型若为命名型若为 2水平水平(dichotomies)可直接用。可直接用。命名型若为多水平,命名型若为多水平,可可先转换为先转换为 dummy variables。因变量与自变量的关系应为线性。如果变量间关系是曲线的因变量与自变量的关系应为线性。如果变量间关系是曲线的,但具单调性但具单调性 (递增或递减递增或递减),可通过转换达成线性。可通过转换达成线性。如果是如果是 U 型型线线,需特殊转换处理。需特殊转换处理。尽管自变量间彼此可以有相关尽管自变量间彼此可以有相关,其相关不可接近完全线性。否其相关不可接近完全线性。否则称为则称为 multicollinearity。第16页,此课件共26页哦多元回归的数据要求多元回归的数据要求 (2 2)被试数目与自变量数目的比率为被试数目与自变量数目的比率为10:1 (根据不同情况在根据不同情况在20:1至至5:1 的范围中的范围中);被试被试数目数目 100没有没有 非常值非常值(Outliers)没有没有 Multicollinearity第17页,此课件共26页哦多元回归的统计前提多元回归的统计前提3个前提:个前提:1.因变量残差正态分布因变量残差正态分布2.残差与残差与 预测值呈线性关系预测值呈线性关系3.在因变量预测值的所有水平上,残差的方在因变量预测值的所有水平上,残差的方差相等差相等散点图:纵轴为因变量的预测值散点图:纵轴为因变量的预测值(ZPRED),横轴为残差(),横轴为残差(ZRESID)第18页,此课件共26页哦残差图残差图告诉我们回归线在不同变量水平的拟合程度第19页,此课件共26页哦残差图提供的重要信息残差的系统分布提示有未被解释的系统性方差自变量增大时,残差增大。变量间的关系不是线性的第20页,此课件共26页哦Multicollinearity Statistics.Collinearity diagnostics任何两个自变量间的相关在任何两个自变量间的相关在.70以上,以上,Collinearity 就会出现。就会出现。Tolerance 75%很好很好;50-75%不错不错;25-50%一般一般;25%不够不够 2.所有自变量总共与因变量有无显著关联所有自变量总共与因变量有无显著关联?-F 虚无假设是虚无假设是 所有自变量与因变量均无关联。所有自变量与因变量均无关联。.3.当其他自变量保持恒定时,每一自变量与因变量有当其他自变量保持恒定时,每一自变量与因变量有什么样的关系什么样的关系?-B 回归系数回归系数。4.哪个自变量对因变量的影响最大?哪个自变量对因变量的影响最大?-beta 标准化回归系数(标准化回归系数(beta weights)回归分析前,将因变量和自回归分析前,将因变量和自变量都转换成变量都转换成Z分数。分数。5.将所有自变量考虑在内后,每一自变量与因变量关系是将所有自变量考虑在内后,每一自变量与因变量关系是否显著否显著?-t 值第26页,此课件共26页哦