《回归分析自学整理电子版本.doc》由会员分享,可在线阅读,更多相关《回归分析自学整理电子版本.doc(41页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Good is good, but better carries it.精益求精,善益求善。回归分析自学整理-回归分析自学整理一、回归分析的数学模型与假设1二、回归分析的步骤4三、回归分析的SPSS操作与数据解释14一、回归分析的数学模型与假设总体回归模型(理论模型)0为常数项,也叫截距。1,2,j为总体偏回归系数。j(j=1,2,m)表示当方程中其它自变量保持常量时,自变量Xj每增加(或减少)一个计量单位时,反应变量Y平均变化j个单位。表示去除m个自变量对Y影响后的随机误差,也称作残差。多元总体线性回归函数一般形式条件均值形式样本回归模型(估计模型)就是回归方程。多元线性样本回归函数一般形式
2、条件均值形式总体回归与样本回归的区别假设古典线性回归模型总是假设1.误差项是一个服从均值为零(零均值)、方差是常数(同方差)正态分布的随机变量,即N(0,),E()=0,且相互独立(残差无自相关);2.解释变量x1,x2,xk是可以精确观察的普通变量(非随机变量)。3.解释变量X与随机误差项是各自独立对解释变量Y产生影响(残差与自变量无相关)。多元回归增加的假定:各自变量之间不存在线性关系。在此条件下,自变量观测值矩阵X列满秩回归与相关的区别相关分析回归分析作用主要描述两个变量之间相关的方向和密切程度。确定因变量y和自变量x之间数量变动关系的数学表达式,并对因变量进行预测。变量的地位变量x、变
3、量y处于平等地位。变量y和变量x不是对等关系。变量的性质变量x和y都是随机变量Y是因变量,是随机变量;x是自变量,是确定变量。可以建立y依x或x依y两个回归方程。系数的取值可以计算一个相关系数。相关系数取值范围在0到正负1之间。可以计算两个回归系数。回归系数取值可为正负数、且取值范围不限。二、回归分析的步骤(一)画散点图。选择合适的回归方法。初步判定自变量与因变量的关系。(二)建立回归方程。求出b0和bj。(三)回归方程检验。方程精度检验(R2)、回归系数检验(F检验和T检验)(四)预测。求出总体回归系数0和j.并求出预测区间。(一)画散点图散点图的重要作用回归分析时,有时R比较明显,达到0.
4、8以上,但是并不表示Y与X之间的关系是线性的,因此进行回归分析时,不能进行简单判断。图示分析方法是最基本、最直观的方法,有助于对数据的内在性质进行准确判断。例如:下面四图中的数据,计算相关系数差不多都为0.8,但实际却差别巨大。第一图虽然数据比较散,但线性趋势比较模型。第二图模型是曲线趋势。第三图有一个异常点,该点导致直线的斜率发生较大改变。第四图本来没什么趋势,也只是一个异常点的影响使其线性相关系数较大。后面三图直接进行回归分析都会得出错误的回归模型,不能反映事实。(二)建立回归方程建立多元线性回归方程同样要根据最佳拟合原则,采用最小二乘法,使所求直线在y轴上与实际观测值y间的误差平方和Q最
5、小。根据微积分求极值的原理,只需分别对a、求偏导数,令它们等于零,整理后可得标准(正规)方程组。达到最小,其充分必要条件得到正规方程组利用最小乘法建立多元回归方程的过程直观地说,所谓最小二乘法,就是如果散点图中每一点沿y轴方向到直线的距离最小,简单讲就是使误差平方和最小,则在所有直线中这条直线的代表性就是最好的,它的表达式就是所求的回归方程.由于x与y的关系是分布在一个区域,两个变量的成对数据画成散点图后,两点确定一条直线,因此可以画出不止一条直线,在这些直线中有的离散点远,用它来表示两变量的关系,准确性就较差.只有Q最小的直线准确性最好.由于建立多元线性回归方程所应用的数据也是样本数据,所以
6、建立的方程也是样本回归方程,记作:在高等数学中,要使Q最小,就是求Q的极值。求Q的极值,就是要求Q的一阶偏导并令其为0组成偏导方程组,然后解偏导方程组求出参数估计值。多元线性回归方程的建立从原理上说,与一元线性回归方程的建立相同,但由于涉及到多个因变量,所以数学处理更复杂。这里,我们试图通过二元线性回归方程的建立,来寻找多元线性回归方程的求建规律和方法。设二元线性回归方程为:根据最小二乘法,有:最小将回归方程代入,则有:先求Q对常数项b0的一阶偏导并令其为0,有:整理后,得到:两边同时除以n,得:将b0代人上式,得:求Q对b1的一阶偏导并令其为0,有:整理后得:按同样的方法求Q对b2的一阶偏导
7、并令其为0,得:这样,我们可以把这两个方程写为:解这个方程组,可求出b1和b2,代入可求出b0,于是,二元线性回归方程就建立了。以此类推,假设多元(K元)线性回归方程为:(j=1,2,k)则有:在回归分析中,这个方程组称为正规方程。利用正规方程,求出b1,b2,b3bk。然后利用求出b0。于是回归方程就建立了。一元回归方程的建立(三)回归方程有效性检验1.模型整体拟合效果检验(自变量联合效应方差分析)(检验模型整体是否显著,即各回归系数是否全为0。)回归模型整体拟合效果的显著性检验。检验多个自变量联合对因变量是否有显著影响。它是建立在总离差平方和分解的基础上(SST=SSR+SSE)。回归平方
8、和SSR越大,变量之间线性相关性越大,设统计量F分别服从自由度为1、n-2的卡方分布,并计算F值。多元线性回归方程建立后,也要通过统计检验判断其有无实用价值,检验方法还是方差分析法。经过证明,多元线性回归的总离差平方和也是分解为回归平方和U与剩余平方和Q两部分,有:其中,总离差平方和的自由度为n-1,回归平方和U的自由度为自变量个数k,剩余平方和Q的自由度为n-k-1。总变差平方和(SST、Lyy)反映因变量Y的n个观察值与其均值的总离差。回归变差平方和(SSR、U)反映自变量x的变化对因变量y取值变化影响。(可用X来解释的变化。)剩余变差平方和(SSE、Q)反映除x以外的其他因素对y取值的影
9、响。(一些不规则偶然因素所致的变化。)假设整个检验过程可列表如下:F=(U/k)/(Q/N-k-1)=回归均方/残差均方=MSR/MSE。其意义为所有自变量产生的回归变异是否显著。2.决定系数(R2)分析(自变量联合效应比例)(所有自变量决定的因变量离差的比例)经过有效性检验我们判定了所求多元线性回归方程是有效的、有价值的,但是,价值有多大,或者说有效性有多高,还必须进一步判断。多元线性回归方程的有效性高低仍然采用决定系数R2表示,其值是:=回归平方和/总平方和可见,决定系数是回归平方和在总离差平方和中所占的比例。显然,U值越大,即由自变量所决定的离差平方和在总离差平方和中所占的比例也就越大,
10、回归方程有效性就越高。当U=lyy时,则因变量就完全由自变量决定,两着就成了函数关系(确定性关系),当然,这种情况在相关分析中是不太可能的,但我们可以通过U值的大小来判断回归方程有效性的高低。现在我们来看看R2究竟是什么?根据前面的分析,我们知道:,即决定系数等于积差相关系数的平方。在这里,我们也可以用决定系数的算术平方根表示因变量y与k个自变量()间的相关程度,称为复相关系数。定义为y与x1,x2,.,xk的多元相关系数或复相关系数由于,故用F和用R检验是等效的为什么要修正?可决系数是自变量个数的不减函数,比较因变量相同而自变量个数不同的两个模型的拟合程度时,不能简单地对比多重可决系数。需要
11、用自由度去修正多重可决系数中的残差平方和与回归平方和3.回归系数检验(t检验)建立了多元线性回归方程后,还需要对自变量进行检验和筛选,剔除那些经检验未达到显著水平,对因变量没有影响或影响甚小的自变量,达到简化变量间关系结构的目的。F检验法自变量的显著性检验是通过对它的回归系数的检验进行的,检验的虚无假设和备择假设是:检验统计量为:其中,Cjj是正规方程系数矩阵Lkk逆矩阵Ckk对角线上第j个元素。经验的临界值是分子自由度为1,分母自由度为n-k-1的F。T检验法根据样本回归估计的结果对总体回归函数回归系数的有关假设进行检验,以检验总体回归系数是否等于某个特定的数值。首先提出零(原)假设H0:B
12、=0(两变量之间不存在线性关系);备择假设H1:B0(两变量之间存在线性系)。设定统计量t服从自由度为(n-k-1)的t分布,并计算统计量的值。是未知的,而且不一定能获得大样本,这时可用的无偏估计代替去估计参数的标准误差。用估计的参数标准误差对估计的参数作标准化变换,所得的t统计量将不再服从正态分布,而是服从t分布:t=回归系数/回归系数的标准误t(n-k-1)确定显著性水平,并进行决策.。4.残差分析方差齐性检验残差统计量或残差散点图残差的方差是否是一个常数,用残差统计量或残差散点图。除了看R2、模型显著性外,可以根据残差散点图进行判断。如果残差图中,各点随机分布,且绝大多数点落在正负2倍标
13、准差范围内,则拟合效果良好。残差正态性检验残差直方图或正态概率图考查误差项分布的正态性假设是否满足。残差无自相关检验DW检验DW检验用来判断残差是否具有自相关性,如果有,则违反了模型的经典假设。对于时间序列数据,该检验非常必要。在回归分析时,单击Statistic按钮,在Residuals(残差)框中选中Durbin-Watson复选框即可。DW检验的判断标准:0DW4,DW2,无自相关;DW2,负自相关。5.多重共线性分析多重共线性指自变量间存在的近似线性关系,即某个自变量能近似地表示为其他自变量的线性函数。当共线性很严重时,会对模型的拟合带来严重影响。1.出现模型整体显著,但是所有回归系数
14、都不显著的情况。2.回归系数的大小明显与常识不符,甚至符号都相反。3.在专业知识上肯定有影响的变量,不能进入回归方程。多重共线性的检验容忍度(Tolerance):其中R2是此自变量与其它自变量间的多元相关系数的平方,其值最大,代表模型中其它自变量可以有效解释这个变量。容忍度在01之间,越接近于0(一般常规的界限是0.1),表示多重共线性越强,越接近于1,表示多重共线性越弱。方差膨胀因子(varianceinflationfactor,VIF):是容忍度的倒数,越大说明共线性可能越严重,如果VIF大于10,则可能共线性问题严重。条件指数(ConditionIndex,CI):CI最大,愈有共线
15、性问题。如果在15以上,则表示可能有共线性问题,如果大于30,则表示有严重性的共线性问题。另外,也可以对所有自变量进行相关分析,如果某些自变量的相关系数在0.9以上,则就会有比较严重的共线性出现。在SPSS中进行回归分析,可以输出共线性诊断结果。单击Statistic按钮,选中CollinearityDiagnostics(案例诊断)复选框即可。例:对于某国进口明显(某国19881998经济数据.sav),将所有自变量纳入模型,分析其变量间的共线性情况。本例中国内GDP和国内消费存在严重的共线性,应解决。共线性的解决:1.增大样本量。2.采用各种自变量筛选办法,建立最优回归方程。3.从专业角度
16、出发,去掉次要变量。4.用因子分析法,将相关的自变量综合成一个因子进行分析。5.用岭回归分析法。6.去掉与y相关程度较低,而与其他自变量高度相关的变量。7.采用新的样本数据。在数据中重新抽取一个样本,有可能会减弱其中变量的多重共线性。多元线性回归的最佳模型判断标准多元回归模型分析中,并不是所有自变量全部引入就行了,自变量的取舍很难决定,最佳回归模型的基本条件:a.满足所有的显著性检验和回归分析的假设。b.具有较少的自变量。c.自变量个数差不多时,R2值最大。d.增加自变量后,不会增加R2值。e.每一个自变量的回归系数都很显著。f.各自变量的系数大小及其影响方向符合基本情况。结论:体重指数和瘦素
17、每减少一个单位,脂联素的平均水平改变1.08和0.75单位,从标准化回归系数可看出瘦素对脂联素的影响较大。(四)预测预测已知X0,预测总体回归线对应的0(主值)已知X0,预测新的观测值Y0控制已知Y的范围,控制X的范围从X0预测总体回归线对应的0(1)点预测求出回归方程,对于给定自变量的值,用来预测.称为的点预测.(2)区间预测y的的预测(置信)区间为,其中C=L-1=(cij),L=XX三、回归分析的SPSS操作与数据解释(一)基本操作例1:某地一年级12名女大学生的体重与肺活量数据如下,已知体重与肺活量之间有直接联系,试求解其回归模型。见体重与肺活量.sav首先作散点图:由散点图知,线性趋
18、势比较明显(不足是比较散),R2在0.6以上,使用一元线性回归模型比较合适。AnalyzeRegressionLinear因变量:肺活量;自变量:体重;直接确定得到回归输出结果。1.模型拟合情况相关系数0.8,判定系数0.64,可以接受。2.方差分析表检验模型整体是否显著,对于一元线性回归模型,可以不考虑,因为此时它与t检验等价。此处F统计量较大,P=0.002,拒绝H0,回归系数不全为0,即模型整体是显著的。3.回归系数及回归系数的显著性检验。截距a=-0.347斜率b=0.0656斜率b对应的t统计量为4.212,P=0.0020.05,故斜率b是显著的(明显不等于0),即自变量体重对因变
19、量的影响显著。此处斜率b较小,与因变量的单位有关。例二根据数据集data11-13中的资料,试建立以初始工资(salbegin)、工作经验(prevexp)、工作时间(jobtime)、工作种类(jobcat)和受教育年限(educ)为自变量,以当前工资(salary)为因变量的多元回归模型,以分析职工工资水平受各因素影响的程度。例三使用SPSS的“AnalyzeRegressionlinear”模块分析数据文件:例11.6.sav回归方法Method选择Stepwise,即“逐步回归”方法(二)选择“最优”的回归方程有以下几种方法:对于多元回归分析,选择哪些自变量进入回归模型非常重要。若某一
20、自变量被引入模型后使SS残缩小很多,说明该变量对Y的作用大,可被引入;反之,说明其对Y的作用很小,不应被引入。另一方面,当某一自变量从模型中剔除后使SS残增加很多,说明该自变量对Y的作用大,不应剔除。但因SS残的大小总是随模型所含自变量个数的增加而减少。前面主要是由我们根据经验和显著性情况进行变量的选择,而一旦选入自变量后,则要求SPSS对所有自变量进行回归分析,这种方法叫强制引入法或全回归法,除此之外,SPSS还可以自动筛选自变量。1.全回归法/强制引入法:从所有可能的因子(变量)组合的回归方程中选择最优者。将选择的自变量全部进入回归模型进行计算,可能有些进入模型的变量不显著,需要用户进行删
21、除。2.向前引入法:Forwardselection原理:从一个变量开始,把变量逐个引入方程。比较所有自变量与样本量的偏相关系数,选最大的进入模型进行显著性检验,决定其是否保留。然后选次大的进入模型,再进行显著性检验,决定其是否应保留,如果该变量进入模型后不显著,则后面偏相关系数更小的变量不再考虑。局限性:只进不出,自变量中存在严重多重共线性时,后续变量的引入可能会使先进入方程的自变量变得不重要。不一定能保证“最优”。3.向后剔除法:Backward原理:首先建立一个含所有P个自变量的全回归模型,给定剔除标准2,然后每次剔除一个偏回归平方和最小且无统计学意义的自变量,直到不能剔除时为止。直到方
22、程中所有自变量都有统计学意义为止。局限性:只出不进,前面删除的变量可能本身的显著的,但由于其他自变量的影响而不显著,但剔除后不会再进入。自变量高度相关时,可能得不出正确的结果。4.逐步回归法“有进有出”的逐步回归分析。从一个自变量开始,视自变量Y对作用的显著程度,从大到小地依次逐个引入回归方程.当引入的自变量由于后面变量的引入而变得不显著时,要将其剔除掉.引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一步。对于每一步都要进行Y值检验,以确保每次引入新的显著性变量前回归方程中只包含对Y作用显著的变量。这个过程反复进行,直至既无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程时为
23、止。Stepwiseselection原理:选进入方程1和保留在方程中的2其本质是取第2、3方法的优点,在向前引入每一个新变量之后,都要重新检验前面已选入的自变量有无需要剔除的。反复进行引入、剔除过程,直到既没有变量被引入,也没有变量被剔除为止。双向筛选:引入有意义的变量(前进法),剔除无意义变量(后退法)。小样本检验水准定为0.10或0.15,大样本把值定为0.05。值越小表示选取自变量的标准越严。注意:引入变量的检验水准要小于或等于剔除变量的检验水准。(三)判断异常值异常值也叫野点,其危害较大。在SPSS中,默认为数值超出正负3倍标准差的数据为异常值。在回归分析时,单击Statistic按
24、钮,在Residuals(残差)框中选中CaseDiagnostics(案例诊断)复选框即可。SPSS会输出残差统计量,如果有异常值,会列表输出。例:对于职工信息数据,分析当前工资与初始工资、学历、工作时间的回归模型,并判断异常值情况。在回归对话框中,输入因变量和自变量;单击Statistic按钮,在Residuals(残差)框中选中CaseDiagnostics(案例诊断)。在本例中,有9个异常值,数据残差太大,应该考虑剔除。2.残差统计量辅助判断,用处不太大3.对异常值的处理a.剔除:如果异常值较少,可以直接剔除,然后在报告中单独说明。b.变量变换:如倒数、对数变换等,弱化异常值的影响c.
25、非参数分析:对存在强影响点的变量求秩次,用秩次代替原变量进行回归分析,在样本量很大时比较有效。d.加权最小二乘法,对强影响点赋予一个比较小的权数,弱化影响。(四)部分相关系数和偏相关系数在回归分析时,单击Statistic按钮,选中PartandPartialCorrelations(部分相关和偏相关系数)复选框即可。部分相关系数也叫偏决定系数,即控制其他变量后,引入该自变量后决定系数的增量。引入初始工资,R2增大0.601;引入学历,R2增大0.126,引入工作时间,R2增大0.091,即可以解释10%左右的因变量变化。(五)标准化回归系数标准回归系数(standardizedregress
26、ioncoefficient或standardregressioncoefficient)消除了因变量y和自变量x1,x2,Xn所取单位的影响之后的回归系数,其绝对值的大小直接反映了xi对y的影响程度。计算方法对数据标准化,即将原始数据减去相应变量的均数后再除以该变量的标准差,计算得到的回归方程称为标准化回归方程,相应得回归系数为标准化回归系数。公式若假定回归方程的形式如下:其中,回归参数b0,b1,bj通过最小二乘法求得。则标准化回归系数理解方法标准化回归系数(Beta值)在多元回归中被用来比较变量间的重要性。但是由于重要性这一词意义的含糊性,这一统计常被误用。有时人们说重要性,是指同样的条
27、件下,哪一个东西更有效。在提高教学质量上,是硬件条重要还是师资更重要?如果是师资更重要,那么同样的物力投在师资上就可以更快地提高教学质量。但是这里要比较的两者必须有同样的测量单位,如成本(元)。如果变量的单位不同,我们不能绝对地说那个变量更重要。不同单位的两个东西是不能绝对地比出高低轻重来。要想进行绝对地比较,就需要两个东西有着共同的测度单位,否则无法比较。而标准化回归系数说的重要性则与上面的意义不同,这是一种相对的重要性,与某一特定的情况下,自变量间的离散程度有关。比如说,虽然我们不能绝对地说出教育和年资在决定收入上那一个一定是重要的,但如果现在大家的教育程度比较相似,那么在收入的决定上,工
28、作年数就是决定因素;反之,如果工作年数没有太大区别,那么教育就成为了重要原因。这里的重要性是相对的,是根据不同情况而改变的。再举一个通俗的例子,研究者研究的是遗传因素和后天因素对于人成长的影响。那么在一个社会境遇悬殊巨大的环境中,有人在贫民窟成长,有人在贵族学校上学,那么我们会发现人格的大部分差异会从后天环境因素得到解释,而遗传的作用就相对较小;相反,如果儿童都是在一个相差不大的环境中长大的,你会发现,遗传会解释大部分的人格差异。这种意义上的重要性,不仅与这一自变量的回归系数有关系,而且还与这个自变量的波动程度有关系:如果其波动程度较大,那么就会显得较为重要;否则,就显得不太重要。标准化回归系
29、数正是测量这种重要性的。从标准化回归系数的公式中也可看出,Beta值是与自变量的标准差与成正比的,自变量波动程度的增加,会使它在这一具体情况下的重要性增加。但是如果将两种重要性混同,就会得到误导性结论。如环境因素的Beta值比遗传因素的Beta值大,就认为在个体的人格发展上应更注意环境因素,而轻视遗传因素,在目前对于Beta值的错误观念非常流行,甚至是一些高手中。标准化回归系数的比较结果只是适用于某一特定环境的,而不是绝对正确的,它可能因时因地而变化。举例来说,从某一次数据中得出,在影响人格形成的因素中,环境因素的Beta值比遗传因素的Beta值大,这只能说明数据采集当时当地的情况,而不能加以
30、任何不恰当的推论,不能绝对地不加任何限定地说,环境因素的影响就是比遗传因素大。事实上,如果未来环境因素的波动程度变小,很可能遗传因素就显得更为重要。数据的情况千差万别,变量的相对重要性也可能完全不同但都符合当时的实际情况。标准化回归系数如果一组自变量的衡量单位扩大为10倍,则期偏回归系数变成1/10,但系数大小之变化其实没有意义,故若事先将变量标准化之后,无论其单位如何变化,其系数均不变,而且将除去回归线之截距项。预测变量为y,解释变量为x1,x2,考察多重回归模式-逐步回归分析结果写作与解释示例将6个变量作为自变量,反应时作为因变量,进行逐步回归分析。6个变量中,词频、获得年龄和义符熟悉性进
31、入了回归方程。词频解释23.5%的变异,加入获得年龄之后,解释量增加了5.6%,而加入义符熟悉性则使三者解释的变异增加到了31.3%,F(3,140)=21.28,p0.001。虽然情境获得性未进入回归模型,但当其单独进入回归模型时,解释变异为18.80.6,F(1,142)=32.83,p0.001。当笔画数单独进入回归模型时,解释变异为3.5%,也达到显著水平,F(1,142)=5.11,p0.05。由于变量间存在相关,故变量的进入顺序对变异解释量有明显影响。但总的来看,各变量对词汇判断均有显著的作用。6个变量中,词频、笔画数与义符熟悉性属于正字法变量,具体性、情境获得性属于语义变量。由于
32、获得年龄变量属于正字法变量还是语义变量仍然存在争论,因此分别将获得年龄放入正字法变量与语义变量中进行分析。结果显示,当获得年龄单独进入回归方程时,可解释的变异为18.1%,F(1,142)=31.48,p0.001。当将其作为正字法变量进行分析,词频与获得年龄先后进入回归方程,在词频基础上,解释的变异量增加了5.4%。当将其作为语义变量与具体性、情境获得性一起进行逐步回归时,获得年龄在情境获得性之后进入回归方程,解释变异增加4.9%,此时具体性也进入,三者共同解释变异26.936,F(3,140)=17.19,p0.001。这一结果说明,获得年龄的产生机制可能既与语音完整性有关,又与语义可理解
33、程度有关。对动、名词分别进行逐步回归,动、名词各因素的相关矩阵见表3和表4。词频、获得年龄、情境获得性与动、名词的识别反应时均相关显著。笔画数在动词中与反应时相关边缘显著。义符熟悉性与名词反应时相关显著,与动词反应时相关不显著。名词中,获得年龄、义符频率和词频依次进入回归方程,三者共同解释36.6%的变异,F(3,68)=13.10,p0.001。其中,获得年龄解释变异24.9%,义符频率和词频的进入分别使解释变异增加了6.4%和5.4%。虽然此时情境获得性未进入,但其单独进入解释了18.8%的变异,F(1,70)=16.20,p0.001。将获得年龄作为语义变量与情境获得性、具体性进行逐步回归时,获得年龄与情境获得性进入了回归方程,其中情境获得性使解释变异增加4.8%,F(2,69)=14.59,p0.001。动词中,情境获得性与词频进入回归方程,二者共同解释33.2%的变异,F(2,69)=17.14,p0.001。其中,情境获得性解释变异26.1,词频进入使解释变异增加7.1%。虽然获得年龄未进入回归方程,但当其单独进入时,解释的变异为13.6%,F(1,70)=11.03,p0.001。当将获得年龄作为语义变量与情境获得性、具体性进行逐步回归时,只有情境获得性进入了回归方程。
限制150内