用SAS作回归分析.pdf
用 SAS 作回归分析前面我们介绍了相关分析,并且知道变量之间线性相关的程度可以通过相关系数来衡量。但在实际工作中,仅仅知道变量之间存在相关关系往往是不够的,还需要进一步明确它们之间有怎样的关系。换句话说,实际工作者常常想知道某些变量发生变化后,另一个相关变量的变化程度。例如,第六章中已经证明消费和收入之间有很强的相关关系,而且也知道,消费随着收入的变化而变化,问题是当收入变化某一幅度后,消费会有多大的变化?再比如,在股票市场上,股票收益会随着股票风险的变化而变化。一般来说,收益和风险是正相关的,也就是说,风险越大收益就越高,风险越小收益也越小,著名的资本资产定价模型(CAPM)正说明了这种关系。现在的问题是当某个投资者知道了某只股票的风险后,他能够预测出这只股票的平均收益吗?类似这类通过某些变量的已知值来预测另一个变量的平均值的问题正是回归分析所要解决的。第一节第一节 线性回归分析方法简介线性回归分析方法简介一、回归分析的含义及其所要解决的问题一、回归分析的含义及其所要解决的问题“回归”(Regression)这一名词最初是由 19 世纪英国生物学家兼统计学家 F.Galton(F.高尔顿)在一篇著名的遗传学论文中引入的。高尔顿发现,虽然有一个趋势:父母高,儿女也高;父母矮,儿女也矮,但给定父母的身高,儿女辈的平均身高却趋向于或者“回归”到全体人口的平均身高的趋势。这一回归定律后来被统计学家 K.Pearson 通过上千个家庭成员身高的实际调查数据进一步得到证实,从而产生了“回归”这一名称。当然,现代意义上的“回归”比其原始含义要广得多。一般来说,现代意义上的回归分析是研究一个变量(也称为因变量 Dependent Variable 或被解释变量 Explained Variable)对另一个或多个变量(也称为自变量 Independent Variable 或 Explanatory Variable)的依赖关系,其目的在于通过自变量的给定值来预测因变量的平均值或某个特定值。具体而言,回归分析需要解决以下问题:1构建因变量与自变量之间的回归模型,并依据样本观测值对回归模型中的参数进行估计,给出回归方程。2对回归方程中的参数和方程本身进行显著性检验。3评价自变量对因变量的贡献;4利用所求得的回归方程对因变量进行预测,对自变量进行控制。二、经典线性回归模型及其假设条件二、经典线性回归模型及其假设条件在回归分析中,因变量 Y 和自变量 X 之间的关系通常可用以下带有条件期望的方程表示:Y E(Y|X)(9.1)其中E(Y|X)为变量 Y 关于变量 X(可以是一个变量,也可以是由多个变量构成的向量)的条件均值,为随机误差,称方程9.1 为 Y 关于 X 的总体回归模型。由于条件均值E(Y|X)是变量 X 的函数,所以可记为:E(Y|X)f(X)(9.2)其中f(X)为 X 的某个函数,方程(9.2)被称为总体回归方程,它表明了Y的条件均值与 X 之间的关系。在回归分析中,关于函数f(X)的形式至关重要。若函数f(X)只含有一个自变量,则称为一元回归;若 含 有 两 个 或 两 个 以 上 的 自 变 量 则 称 为 多 元 回 归。若f(X)是X的 线 性 函 数,即:f(x)01x12x2kxk(9.3)其中0、1为未知参数,称为回归系数,则称方程(9.3)为线性回归方程,而方程:Y E(Y|X)01X(9.4)则称为线性回归模型。特别地,当模型中只有一个自变量时称为一元线性回归模型,其一般形式可表示为:Y 0+1X(9.5)当模型中有 P 个自变量X1,X2,Xp时称为 P 元线性回归模型,或多元线性回归模型,其一般形式可表示为:Y 01X12X2pXp(9.6)需要注意的是,回归分析中的“线性”一词一般是针对参数而不是针对自变量而言的。例如:方程f(X)=0+1X2关于自变量X不是线性的,但关于参数0、1却是线性的,此时我们仍称为线性回归,而方程f(X)=0+1X虽然关于自变量X是线性的,但关于1却是非线性的,则不能称其为是线性回归。类似地,方程f(X)=0+1X也不是线性的。对于 P 元线性回归,如果获得了自变量X1,X2,Xp和因变量Y的一个容量为n的样本(xi1,22xi2,xip,yi)|i 1,2,n,则每一组观测值(xi1,xi2,xip,yi)都应满足方程(9.6),从而有:yi=0+1xi12xi2pxip+i(i 1,2,n)(9.7)特别地,当 P=1 时一元线性回归模型有:yi=0+1xi+i(i 1,2,n)(9.8)1x11 y1y1x21如果记Y 2,X y1xn1n示为以下矩阵形式:x12x22xn2x1p01x2p12,则方程(9.7)可表pxnpnY X(9.9)在经典的线性回归分析中,一般有以下假定:(1)随机误差项均值为 0,即 E()=0;(2)对每个i,随机误差项i的方差均为,且各误差项之间相互独立,即:COV(i,j)=0,i阶单位阵;(3)自变量是非随机的确定性变量;(4)自变量和误差项互不相关,即 COV(X,)=0;(5)自变量之间不存在多重共线性,即矩阵互不相关的。(6)为进行假设检验,通常还进一步假定误差项服从均值为0,协差阵为222j(i,j 1,2,n),用矩阵表示为:E(),其中 I 为nX的秩R(X)P 1 n,也即矩阵X的列向量是的多元正态分布,即 N(0,2)1参数估计。三、经典线性回归模型的参数估计三、经典线性回归模型的参数估计对于满足以上(1)到(6)条假定的回归模型(9.9)式,其参数的最小二乘估计量(OLS)为:X X 1X Y(9.10),则:2 Y X记特别地,对于一元线性回归,其参数的估计量为:n p 1(9.11)nxi xyi ySxyi11nSxx2x xii10 y 1x(9.12)n1n1n其中:x xi,y yini1ni1xiy01i2参数估计量性质,Sxy(xi x)(yi y),Sxx(xi x)2i1i1n,则:1ni)2(9.13),从而有:(yi yn 2i12X在误差项服从正态分布的假定下,估计量X(BLUE)。且有:1X Y是线性无偏最小估计量 N(,X X2)1,即估计量服从均值为,协方差阵为X X 12的多元正态分布。特别地对于一元线性回归有:N(,112xi xi1n N(,(1),00n2x22x xii1n,均服)2),即估计量01从正态分布,且是线性无偏最小估计量。四、回归模型诊断四、回归模型诊断在线性回归分析中,当对n组独立观测运用最小二乘法估计出总体回归方程中的参数后,总体回归方程的估计样本回归方程就可以用参数的估计值表示出来,即:x x x(9.14)y01 122pp特别地,当p=1 时,一元线性回归方程的估计式可表示为:x(9.15)y01 1在估计出了回归方程后,一个很自然的问题是,这个方程拟合得好吗?对于线性回归模型,因变量与自变量之间的关系是线性的吗?方程中的每个自变量都对因变量有显著影响吗?换句话说回归方程中的参数都与 0 有显著差异吗?随机误差项满足 0 均值、不相关、同方差和正态性假定吗?自变量之间是否存在多重共线等等这些问题正是回归诊断需要解决的。以上这些问题在回归分析中一般可通过以下一些指标或假设检验得到部分解决。1 1方程拟合好坏通常用拟合优度指标方程拟合好坏通常用拟合优度指标R来反映来反映。它被定义为:2R2其中SST SSRSSE(9.16)1SSTSST(yi y)2称为总离差平方和,SSR(yi y)2称为回归平方和,它表示来自自变量对总离差的贡献,SSE(yii)2称为残差平方和,它表示来自误差项对总离差的贡献。与一元方差 y分析类似有:SST SSRSSE。拟合优度R表示,因变量的总离差平方和有多少部分能够通过自变量予以解释。换句话说,不能由自变量来解释的部分为:1-R。显然R越大,越接近于 1 表明拟合就越好。由于R随着自变量个数的2增加而增加,所以在多元回归的情况下,通常要对R进行调整。调整后的R用Radj表示,定义为:2222222Radj1SSE/(n P 1)ni1(1 R2),其中当模型中不包含常数项时i 0,当模型中包含SST/(n1)n p 1常数项时i 1。2 2自变量与因变量之间线性关系的自变量与因变量之间线性关系的 F F 检验检验在线性回归分析中,我们一般假定回归方程有以下形式:E(Y|X)01X12X2pXp,即E(Y)与 P 个自变量之间线性相关,但实际情况怎样呢,这需要通过检验来回答。为此,记MSR 差均方和,定义:SSRMSE,称为回归均方和,MSR,称为误pn p 1在给定的显著性水平MSR F(p,n p1)(9.17)MSE下,若由样本观测值计算的 F 值大于F(p,n p 1),则自变量与因变量之F 间具有显著的线性关系,否则,变量之间不具有显著的线性关系。在 SAS 系统中,一般通过 F 值对应的 P值来判断变量之间线性关系的显著性。若 F 值对应的 P 值小于给定的显著性水平,则因变量与 P 个自变量存在显著的线性关系,否则线性关系不显著,需用自变量的其它曲线形式来拟合。3 3回归参数的回归参数的 t t 检验检验在线性回归方程中,回归参数j表示自变量Xj每变动一个单位,因变量Y的平均变动幅度,即Xj的单位变动对因变量的影响程度。因此,检验回归参数如下假设:j是否有显著差异至关重要,实际应用中通常作H0:j 0,H1:j 0由于 N(,(XX)12),记:(XX)1a00a10ap0a01a11ap1a0pa1papp则有:E(j)a2,N(,a2),j 0,1,2,p,从而统计j,Var(jjjjjjj量:t j)s(jjajj t(n p 1),j 0,1,2,p(n p 1),则参数j与 0当给定显著性水平为下,若由样本观测值计算的t值的绝对值大于t2有显著性差异,否则,参数j与 0 没有显著差异。在 SAS 系统中,一般通过t值所对应的 P 值来判断回归参数与 0 是否有显著性差异。若t值所对应的 P 值小于给定的显著性水平,则回归参数j与 0 有显著性差异。特别地,当 P=1 时,一元线性回归系数1的检验统计量为:S1xx1t t(n 2)s(1)类似可以给出判断是否与 0 有显著性差异的判别准则,请读者自行完成。五、回归模型诊断五、回归模型诊断1 1残差分析残差分析残差分析是诊断回归模型拟合状况的又一种易行而有效的方法。我们知道,关于回归模型中的误差项的假定是:零均值、同方差、不相关和正态性,即i本数据的拟合是良好的话,那么误差项 N(0,2)。如果我们采用的回归模型对样i的估计量i就应该反映i这种分布特性。记应近似i yi y iri服从,称为残差,则ri应近似服从N(0,2),从而标准化残差ri/N(0,1)。考虑到的估计量为MSE,所以标准化残差的估计量也应近似服从标准正态分布,即:ei若以riMSEiy N(0,1)1,2,n),则得到的图形称为iy为横坐标,以ei为纵坐标作(,ei)的散点图(i标准化残差图。一般来说,如果回归直线拟合的较好,则残差图中应有 95%的点在ei=-2 和ei=+2 的两条直线之间随机分布,见图 9-1(a),表明残差ei是服从均值为 0,方差为 2的正态分布,符合原来对随机误差项i的假定。如果残差图中的点不是在ei=0 的直线上下随机分布的,而是呈现出渐增、渐减的趋势,见图9-1(b),则表示同方差性假定不成立。此时,或采取加权最小二乘法,或采取对因变量进行数据变换使得变换后的数据同方差性近似得到满足。如果残差图呈现某种曲线形式,如图 9-1(c),则误差项与预测值之间存在某种线性关系。特别地,若横轴代表时间,由时间和残差et作成的散点图有如图 9-1(c)时,在一元回归分析中,常用自变量作为横轴。表明误差项之间存在某种形式的自相关,此时需要对观测值进行自相关性处理。(a)(b)(c)2 2方差齐性的统计检验及其处理方差齐性的统计检验及其处理除了上面利用残差图可以直观地判断误差项是否存在异方差性外,更正式的方法就是通过统计检验来判断。(1 1)格莱泽格莱泽(GlejserGlejser)检验检验。其检验的一般步骤是:首先进行 OLS 估计,并得到误差项的估计值ri。其次用ri的绝对值对被认为与i密切相关的自变量Xj进行线性回归,若自变量的回归参数经检验与 0有显著差异,则误差项存在异方差性,否则可以接受同方差性假定。(2 2)斯皮尔曼)斯皮尔曼(Spearman)(Spearman)等级相关检验等级相关检验。其检验的一般步骤是:首先进行OLS 估计,并得到误差项的估计值ri。其次对ri的绝对值和自变量Xj的观测值进行排序,并计算斯皮尔曼等级相关系数rs。最2后利用检验统统计量t rsn 21 rs t(n 2)来检验残差与自变量是否相关。若计算的t值的绝对值不超过临界值,则可以认为同方差性得到满足,反之,则认为存在异方差性。除了以上两种检验方差是否齐性的统计检验外,还有许多其它方法,这里不再一一予以介绍,有兴趣的读者可以参考有关文献。(3 3)在误差项存在异方差性的情况下,通常的处理方法有两种)在误差项存在异方差性的情况下,通常的处理方法有两种:一是在误差项的方差况下,以1/22i8已知的情2i作为权重进行加权最小二乘法加权最小二乘法,此时得到的估计量仍是BLUE 估计量。但实际工作中,i往往未知,此时可以通过格莱泽(Glejser)法对模型:r2ikxi2ui或rikxiui进行估计,然后令权重wi kxi2或wikxi进行加权最小二乘估计。二是二是对数据进行变换对数据进行变换。当误差项的方差i与自变量之间存在ikxi或ikxi关系时,可以在回归方程两边同时除以xi或2222xi,变换后的回归模型中的误差项就具有同方差性。当实践中研究人员根据经验判断因变量具有异方差性时,如消费随着收入的增加其变异性性会更大,常直接对因变量进行数据变换。通常的变换方法有:(1)Z Y,(Y 0),(2)Z Ln(Y),(Y 0),(3)Z 1 Y(Y 0)。通过这样数据变换,往往可以消除异方差性的存在。六、回归预测六、回归预测在回归模型通过以上各种检验后,就可以用来解决实际问题了。实践中,回归分析的一个重要目的就是根据自变量的给定值对因变量进行预测。所谓回归预测是指根据已知的X0预测因变量的平均值E(Y0|X0)或个别值Y0。1平均值E(Y0|X0)预测当用最小二乘法估计出回归方程Y据以下两式给出:后,若给定X X0,则平均值E(Y0|X0)预测值可以根 X(1)平均值E(Y0|X0)的点估计值为:Y0;X0(2)平均值E(Y0|X0)的 100(1-)%置信区间估计为:t(n p1)s(Y)Yt(n p1)s(Y))(9.18)(Y020020)是Y的方差2X (X X)1X的估计的平方根,即s(Y)X0(XX)1X0。其中s(Y00000 x,100(1-)%置信区间估计为:0特别地,当 P=1 时,平均值E(y0|x0)的点估计值为:y01021(x0 x)0t2(n2)s(y 0)y 0t2(n2)s(y 0))0)MSE(y,其中s(y。nSxx(2)个别值Y0的预测(1)个别值Y0的点估计值仍为:Y0;X0(2)个别值Y0的 100(1-)%置信区间估计为:t(n p1)s(Y*)Yt(n p1)s(Y*))(9.18)(Y020020的方差1+X (X*)是Y-Y其中s(YX)1X0的估计的平方根,即:00002*)1 X0(XX)1X0s(Y0 x,100(1-)%置信区间估计为:0特别地,当P=1 时,个别值y0的点估计值为:y010*0t2(n2)s(y 00y)y*00,其中s(yt2(n2)s(y)))21(x0 x)MSE1。nSxx(第二节、第二节、REGREG 过程(回归分析过程)简介过程(回归分析过程)简介一、一、REGREG 过程的主要功能过程的主要功能作为线性回归分析的通用过程,REG 过程主要有以下一些常见的功能。1根据用户需要,REG 过程中的 MODEL 语句可以对任意多个自变量建立线性回归模型,还可以对参数进行线性约束,建立具有线性约束的线性回归方程。2提供了通过 MODEL 语句后的选项来实现九种变量选元的方法。3可以对变量之间进行各种形式的假设检验,包括常见 T 检验、F 检验和 D.W 检验等。4通过绘图过程中的 PLOT 语句,可以对输入数据或由回归分析产生的统计量绘图,包括散点图、参考线以及置信线等,并且这些图形还可以绘制在一张图上。5根据需要,可以输出参数的估计值及贝塔系数、因变量的预测值、置信上限和下限、残差和标准残差等各种常用统计量。6提供了回归模型诊断的一些常见方法,如共线诊断、强影响点诊断、误差项自相关性诊断。7当自变量间存在多重共线时,REG 过程还提供了岭回归方法。二二 REGREG 过程的一般格式过程的一般格式(一)(一)REGREG 过程的一般格式过程的一般格式REG 过程的一般格式如下:PROC REGPROC REG;拟合模型MODELMODEL dependent=independents;必需的语句BYBY variables;FREQFREQ variable;WEIGHTWEIGHT variable;可以选择,但必须出现在第一个RUN之前IDID variable;VARVAR variables;ADDADDvariables;DELETEDELETE variables;出现在MODEL语句OUTPUT OUTOUTPUT OUT=sas-data-set keyword=names;之后,且可以交互PLOTPLOT;使用TESTTEST eqution;(二)(二)REGREG 过程中常用语句说明过程中常用语句说明1 1PROC REGPROC REG 语句语句该语句一般格式为:PROC REG;PROC REG;该语句表示调用 REG 过程,执行线性回归分析,它是回归分析中必需的语句。该语句后面的选项常用的主要有以下两类:(1 1)关于数据集选项)关于数据集选项COVOUT:将参数估计的协方差阵输出到由 OUTEST=DATA-SET 规定的数据集中,显然该选项只有在同时规定了 OUTEST=DATA-SET 才有效。DATA=DATA-SET:规定执行 REG 过程的输入数据集,缺省时系统使用最新创建的 SAS 数据集作为输入数据集。OUTEST=DATA-SET:要求把参数估计量和一些常用的统计量输出到指定的 SAS 数据集中。(2 2)关于输出选项)关于输出选项ALL:要求打印 MODEL 语句和 VAR 语句中规定变量的简单统计量和相关矩阵。CORR:要求打印 MODEL 语句和 VAR 语句中规定变量的相关矩阵。NOPRINT:不打印输出。2 2MODELMODEL 语句语句该语句的一般格式为:MODEL dependents=independents;MODEL dependents=independents;该语句规定线性回归模型的形式,其中等式左边为因变量,可以多于一个,右边为自变量。等式两边的变量如果多于一个,则各变量间用空格隔开。注意在该语句中使用的变量必须在输入数据集已被定义,没有定义的则不能使用。比如你想在模型中拟合 X 的平方项,则必须在输入数据集中用赋值语句进行定义。可以出现在 MODEL 语句中的选项较多,常用的主要有以下三类:(1 1)模型选择选项)模型选择选项SELECTION=name:规定自变量的选元方法,其中name 为选元方法名。常用的选元方法有:逐步回归法(STEPWISE)、向前选择法(FORWARD 或 F)、向后排除法(BACKWARD 或 B)、最大 R 增量法(MAXR)、最小R 增量法(MINR)、R 选择法(RSQUARE)、Mallows 的 CP选择法(CP)以及全回归模型法(NONE)。当省略SELECTION=选项时,系统以 NONE 代替,即建立所有自变量的回归模型。NOINT:取消回归模型中的常数项,即拟合一个过原点的回归模型。222SLENTRY=value|SLE=value:对 FORWARD 和 STEPWISE 选元方法规定变量被选入模型的显著性水平。其中对 FORWARD 方法缺省时系统规定为 0.5,而对 STEPWISE 方法缺省时系统规定为 0.15。ALSTAY=value|SLS=value:对 BACKWARD 和 STEPWISE 选元方法规定变量保留在模型里的显著性水平。其中对 BACKWARD 方法缺省时系统规定为 0.1,而对 STEPWISE 方法缺省时系统规定为 0.15。(2 2)关于估计细节的选项)关于估计细节的选项COLLIN:给出自变量间多重共线性的诊断统计量,包括特征值(Eigenvalue)、条件指数(ConditionNumber)以及相对于特征值的这些估计的方差分解(Var Prop)。当方程中不包括截据项时,使用 COLLINOINT。COVB:输出参数估计量的协方差阵的估计量,即(X X)1s2。STB:输出标准回归系数。TOL:输出自变量的容许值,它被定义为 1-R。其中 R 是由该自变量对模型中的其它自变量进行回归所得到的拟合优度。一般来说,R 越大,表明某一自变量可以被其它自变量线性表示的可能性就越大,从而自变量之间多重共线性的可能性就越大。由于 R 越大,TOL 就越小,所以小的 TOL 表明自变量之间存在多重共线性的可能就越大。VIF:输出方差膨胀因子。它被定义为容许值的倒数,即 VIF=1/TOL。一般来说,当 VIF 大于 10 时就可以认为自变量间存在严重的多重共线性。(3)(3)关于预测值与残差值的选项关于预测值与残差值的选项CLI:输出每个个别值的 95%的置信上限和下限。CLM:对每个观测输出因变量均值的 95%的置信上限和置信下限。DW:计算 Durbin-Watson 统计量,该统计量仅对时间序列资料有效。INFLUENCE:输出每个观测对预测值影响的详细资料。这是诊断强影响点非常有用的一个选项。P:由输入数据和估计模型计算出的因变量预测值。输出包括观测序号、ID 变量、实际值、预测值和残差。当规定了 CLI 或 CLM 或 R,P 可以省略。R:进行残差分析。输出包括选项 P 要求的所有内容以及预测值的标准误差、学生化残差和 COOK 的D 统计量。3 3BYBY 语句、语句、FREQFREQ 语句、语句、WEIGHTWEIGHT 语句、语句、IDID 语句以及语句以及 VARVAR 语句语句这些语句作为 PROC 过程步中的通用语句,其用法也与在其它 SAS 过程的用法基本一致,请读者自行参考前面有关章节。4 4ADDADD 语句语句该语句的一般格式为:ADD variables;ADD variables;它的作用是增加一些新变量到模型中,并重新拟合模型。注意增加的新变量必须事先用 VAR 语句予以说明。该语句必须与 PRINT 语句连用方能输出结果,输出的内容与没有增加变量前的模型输出一致。5 5DELETEDELETE 语句语句该语句的一般格式为:DELETE variables;DELETE variables;它的作用是从已有的模型中删除一些变量,并重新拟合模型。由于删除的变量已经在 MODEL 语句中出现,所以不必再用 VAR 语句予以说明。该语句也必须与 PRINT 语句连用,输出的内容与没有删除变量前的模型输出一致。6 6OUTPUTOUTPUT 语句语句该语句的一般格式为:OUTPUT OUT=sas-data-set keyword=names;OUTPUT OUT=sas-data-set keyword=names;该语句创建一个包括所有输入变量、由 keyword=names 命名的统计量在内的新的 SAS 数据集,数据集名由“OUT=”后的 SAS 数据集名给出。如果“OUT=”缺省,则系统自动以 DATAn n 命名。允许出现在该语句中的统计量常见的有:COOKD=name:COOK 的 D 影响统计量。COVRATIO=name:观测在贝塔的协方差上的标准影响。DFFITS=name:观测在预测值上的标准化影响。2222H=name:杠杆率,第i个观测的杠杆率定义为xi(XX)1xi。P=name:预测值;L95(U95)=name:因变量单个值的 95%预测下限(上限)L95M(U95M)=name:因变量平均值的 95%的置信下限(上限)。R=name:残差;STDI=name:单个预测值的标准差;STDP=name:均值预测值的标准差;STDR=name:残差的标准差;STUDENT=name:标准化残差。7 7PLOTPLOT 语句语句该语句的一般格式为:PLOT;PLOT;该语句要求对给定变量绘图,包括散点图、连线图等,其中 yvar 作为纵坐标变量,xvar 作为横坐标变量。该语句的用法与 GPLOT 过程中的 PLOT 语句的用法基本相同。8 8TESTTEST 语句语句该语句的一般格式为:TEST eqution;TEST eqution;该语句用于对 MODEL 语句出现的参数进行假设检验。第三节、第三节、REGREG 过程在一元线性回归分析中的应用过程在一元线性回归分析中的应用一、一元线性回归分析所要解决的问题一、一元线性回归分析所要解决的问题我们知道,当经过一次抽样获得了自变量 X 和因变量 Y 的一个容量为 n 的样本后,一元线性回归模型一般可表示为以下形式:yi=0+1xi+i(i 1,2,n)对该模型,通常作以下假定:(1)随机误差项均值为 0,即 E(i)=0,(i2;1,2,n)(2)对每个i,随机误差项i N(0,),且 COV(i,j)=0,i(3)自变量是非随机的确定性变量;(4)自变量和误差项互不相关。对以上一元线性回归模型,实际中通常要解决以下问题:(1)利用样本数据拟合回归方程,即通过最小二乘法进行参数估计。(2)对拟合的回归方程进行诊断。j;(3)当诊断结果发现方程拟合不充分或误差项不能满足经典假定时,需对观测进行或模型进行适当的处理,然后再利用处理后的数据对处理后的方程进行拟合,直到模型诊断符合要求为止。(4)利用诊断后的模型进行预测或控制,这是回归分析的主要目的之一。作为作为 REGREG 过程的一个应用,我们先来处理一个简单的一元线性回归问题。过程的一个应用,我们先来处理一个简单的一元线性回归问题。例 9.1某保险公司打算对收入在 25000 元及其以下的家庭考察其收入与户主生命保险额之间的关系。为此该公司随机抽取了 12 个家庭进行了调查,结果如下:家庭收入(千元)1 2 3 4 5 6 7 8 9 10 11 1214 19 23 12 9 15 22 25 15 10 12 16保险额(千元)32 40 50 20 22 35 55 45 28 22 24 30问题:(1)以收入为自变量,保险额为因变量,用最小二乘法确定线性回归方程,并就表上给出的各收入水平计算的含义是什么?(4)在收。(2)对方程的拟合情况进行诊断。(3)本题中,回归系数y1入为 20000 元的家庭中,平均每个户主的保险额和某一个户主的生命保险额的估计值各是多少?显著性水平取 0.05解:若用 INCOME 代表收入,INSURE 代表保险额,根据本例中的问题 SAS 程序编辑如下:data insuranc;input insurce income;cards;32 14 40 19 50 23 20 12 22 9 35 15 55 2245 25 28 15 22 10 24 12 30 16.20;proc gplot;plot insurce*income;run;proc reg graphics;model insurce=income;model insurce=income/noint r clm cli;plot student.*p.;run;程序解释:上述程序可以分为四个部分。第一部分利用DATA 步创建 SAS 数据集 insuran。在这部分中需要注意的是最后一个观测给出了 INCOME 的观测值却没有给出 INSURCE 的值,这是为了解决题目中的第四个预测问题而有意缺省的。一般来说,如果需要预测,只需给定自变量的值,而因变量的值用缺省来表示。经过回归后,系统会根据给定的自变量值计算出因变量的预测值。程序第二部分利用 GPLOT 绘图过程画收入和保险额的散点图,通过散点图来了解两变量之间是线性的还是非线性的。本例中的散点图如下:图 9.1(A)家庭收入与户主之间的散点图由收入与保险额的散点图可以看出,两变量间具有明显的线性关系,因此可以构建以下线性回归模型:INSURCE=01INCOME+。根据以上模型给出了程序的第三个部分,即程序中的第一个 MODEL 语句。其中 PROC REG 语句表示调用线性回归过程,该语句中的 GRAPHICS 选项要求用高分辨率绘制散点图。MODEL 语句的左边为因变量,而右边为自变量,正是上面所设定的模型。程序运行结果如下:输出 9.1(A)收入水平对保险额的线性回归(含截据项)Model:MODEL1Dependent Variable:INSURCE Analysis of Variance Sum of Mean Source DF Squares Square F Value ProbF Model 1 1273.34228 1273.34228 57.991 0.0001 Error 10 219.57438 21.95744 C Total 11 1492.91667 Root MSE 4.68588 R-square 0.8529 Dep Mean 33.58333 Adj R-sq 0.8382 C.V.13.95298 Parameter Estimates Parameter Standard T for H0:Variable DF Estimate Error Parameter=0 Prob|T|INTERCEP 1 0.509508 4.54890673 0.112 0.9130 INCOME 1 2.067114 0.27144554 7.615 0.0001输出 9.1(A)的最上部分是收入对保险额回归结果的方差分析表。输出中用于检验两变量间是否存在线性关系的 F 检验值为 57.991,其对应的临界值为 0.0001,远小于显著性水平 0.05,说明用两变量线性关系显著,即用以上设定的线性回归模型来拟合是合适的。输出 9.1(A)的中间部分给出的模型拟合精度 Root MSE 为 4.68588,拟合优度R 和调整的 R 值分别为 0.8529 和 0.8382,表明保险额的变差有 83.82%可以由收入来解释,由此可以得出,方程拟合是比较充分的。输出9.1(A)的最下面部分给出了参数估计以及参数与 0 是否有显著性差异的 T 检验。截据项 INTERCEP 即参数0的估计值为 0.509508,其对应的概率为 0.9130,大于显著性水平 0.05,说明0与 0 无显著性差异,而变量 INCOME 前的系数1的估计值为2.067114,其对应的概率为 0.0001 小于显著性水平 0.05,说明1与 0 有显著性差异。由于0的 T 检验不显著,所以需要拟合不带截据项的线性回归模型。程序中第二个 MODEL 语句中的选项 NOINT 正是要求系统拟合一个不带截据项的线性回归模型,此外按题目第一、二两个问题的要求还增加了选项 r 以及 clm 和cli。其中选项 r 要求输出每个观测的预测值、残差、标准化残差、COOK 统计量,选项 clm 要求输出平均保险额的预测值的 95%的置信上限和下限,而 cli 则要求输出个别户主保险额的 95%的置信上限和下限,这里的 95%是系统设定的。PLOT 语句要求绘制标准化误差与预测值的残差图,其中 student.(小数点可省略)代表 studentized residual,P.代表 predicted value。这段程序输出如下:输出 9.1(B)收入水平对保险额的线性回归(不含截据项)Model:MODEL2NOTE:No intercept in model.R-square is redefined.Dependent Variable:INSURCE Analysis of Variance Sum of Mean Source DF Squares Square F Value ProbF Model 1 14807.15015 14807.15015 740.863 0.0001 Error 11 219.84985 19.98635 U Total 12 15027.00000 Root MSE 4.47061 R-square 0.9854 Dep Mean 33.58333 Adj R-sq 0.9840C.V.13.31199 Parameter Estimates Parameter Standard T for H0:Variable DF Estimate Error Parameter=0 Prob|T|INCOME 1 2.096142 0.07701083 27.219 0.0001 Dep Var Predict Std Err Lower95%Upper95%Lower95%Upper95%Obs INSURCE Value Predict Mean Mean Predict Predict Residual 1 32.0000 29.3460 1.078 26.9730 31.7190 19.2242 39.4678 2.6540 2 40.0000 39.8267 1.463 36.6062 43.0472 29.4733 50.1801 0.1733 3 50.0000 48.2113 1.771 44.3128 52.1098 37.6274 58.7952 1.7887 4 20.0000 25.1537 0.924 23.1197 27.1877 15.1059 35.2015 -5.1537 5 22.0000 18.8653 0.693 17.3398 20.3908 8.9080 28.8226 3.1347 6 35.0000 31.4421 1.155 28.8996 33.9846 21.2792 41.6051 3.557922 7 55.0000 46.1151 1.694 42.3861 49.8441 35.5925 56.6378 8.8849 8 45.0000 52.4036 1.925 48.1661 56.6411 41.6902 63.1170 -7.4036 9 28.0000 31.4421 1.155 28.8996 33.9846 21.2792 41.6051 -3.4421 10 22.0000 20.9614 0.770 19.2664 22.6564 10.9768 30.9461 1.038611 24.0000 25.1537 0.924 23.1197 27.1877 15.1059 35.2015 -1.153712 30.0000 33.5383 1.232 30.8263 36.2503 23.3316 43.7449 -3.5383 13 .41.9228 1.540 38.5329 45.3128 31.5155 52.3302 .Std Err Student Cooks Obs Residual Residual -2-1-0 1 2 D 1 4.339 0.612|*|0.023 2 4.224 0.041|0.000 3 4.105 0.436|0.035 4 4.374 -1.178|*|0.062 5 4.417